解説
どのWhisperモデルを 使えばいい?
Whisperには「これが唯一の正解」というモデルはありません。最適な一つは、あなたが速度・精度・言語・ディスク容量のどれを最も重視するかで変わります。このガイドでは、同梱されている各モデルを用途ごとに整理し、約1分で選べるようにします。さらに、Whisperではなくむしろ Parakeet を選ぶべき場面もお伝えします。
最終更新: 2026年6月

最適なWhisperモデルは目的次第です。日常的な英語のディクテーションなら小さめの英語専用モデル、ほかの言語なら多言語モデル、最高精度を求めるなら大型モデル、大型に近い品質を保ちつつ速度がほしいなら Turbo を選びましょう。主に英語で速度重視なら、Whisperより Parakeet が勝ります。アプリはこれらすべてを提示し、ユーザー自身に選ばせます。
この質問は、ほかのどんな質問よりも多く寄せられます。たいていは「アプリをダウンロードしたけど、どのモデルを選べばいいの?」という形です。もっともな疑問ですが、正直に言える最初の答えは「すべてに勝つモデルは存在しない」ということ。あなたのマシン、あなたの言語、そして0.5秒待たされることをどれだけ気にするか――それによって勝つモデルは変わります。だからこそアプリは、あなたの代わりに選びません。選択肢を見せて、あとは黙って引き下がります。
差を見るまでは、これは言い逃れに聞こえるかもしれません。最も小さい英語専用モデルは約140 MBで、2016年のノートパソコンでも動きます。最も優れた多言語モデルは約3 GBで、16 GBのRAMを欲しがります。その両極の間に、ほかに6つの選択肢があり、さらに Parakeet という別エンジンも控えています。選び方を間違えれば、待たされすぎるか、間違った言語で文字起こしされるかのどちらかです。正しく選べば、モデルの存在を忘れます――それが目指すところです。
リスト全体がすっと腑に落ちる見取り図がこれです。どのモデルも、4つの要素のトレードオフでできています。速度、精度、対応言語数、そしてディスクとRAMの消費量。この4つをすべて最大化することはできません。3 GBのモデルは精度が高く対応言語も多いですが、その分遅く、8 GBのマシンには収まりません。140 MBのモデルは一瞬で動きますが、英語しかできず、その英語もそこそこの精度どまりです。
つまり本当の問いは「どのモデルが一番か」ではありません。「どのトレードオフがほしいか」です。あなたが、そこそこのノートパソコンで英語だけを話す人なのか、9言語をまたいで仕事をする翻訳者なのか、ただ存在する中で最速のローカル選択肢がほしい人なのか――それさえ分かれば、答えはおのずと決まります。これから、英語専用モデル、多言語モデル、Parakeetがそのすべてに勝つ場面、そして残りを読みたくない人向けの一行の推奨を順に見ていきます。
まず一つの問いから: 何を最も重視しますか?

どのモデル名よりも先に、一つの問いに答えてください。今のあなたにとって最も大事なのは、速度・精度・言語対応・ディスク容量のどれですか? 優先できるのは一つだけです。モデルどうしが互いにトレードオフの関係にあるからです。これで悩み込む人の多くは、自分が何を最適化したいのかをまだ決めていません。だからリストが身動きの取れないものに見えるのです。そんなことはありません。実体は、8つの名前をまとった4つの短い答えにすぎません。
速度がほしくて英語を話すなら、行き着く先は小さめの英語専用モデルか、もっと言えば Parakeet です。英語以外の言語が必要なら、好むと好まざるとにかかわらず多言語ファミリーの仲間入りです。ローカルで得られる最も正確な文字起こしがほしくて、それに見合うRAMがあるなら、大型モデルです。そしてディスク容量が厳しいなら、最小モデルが味方になり、3 GBのものは選択肢から外れます。これが意思決定ツリーのすべてで、このガイドの残りは、ただその名前を埋めていくだけです。
アプリが意図的にやっていることが一つあります。それは、初期値を押しつけないことです。ベンチマークで自分たちがよく見えるモデルへ誘導する「おすすめ」バッジはありません。Cloud が見え、Parakeet が見え、8つのWhisperモデルが英語専用と多言語に分かれて見え、そしてあなたが選びます。すでに Windowsで音声入力 あるいは Macで を設定したことがあるなら、これは同じ画面が別の問いに向けられているだけです。
英語専用モデル、小型ノートPC向けから最高精度まで
もし英語でしかディクテーションしないなら、英語専用モデルが効率のよい選択です。多言語の仕組みを取り払い、その予算をまるごと英語に振り向けているからです。全部で4つあり、「古いノートPC向け」から「ローカルで動かせる最高の英語」まできれいに並びます。ホットキーを押し、話し、離せば、どれを選んでも文字起こしがカーソル位置に貼り付けられます。違いは速度と、難しい単語をどれだけ高い確率で当てるかだけです。話している間は小さなカプセルが表示され、聞き取り中だと分かります。
最も小さいのは Base で、約140 MBです。2016年のノートPCや、RAMを気にせずただ動くディクテーションがほしい8 GBのマシンで選ぶべき一つです。その上に約480 MBの Small があり、バランスの取れた英語向けの選択肢です。Parakeetより遅いものの、英語への翻訳とホットワードによるバイアスに対応しており、これは Parakeet にはできません。次に約1.5 GBの Medium。16 GBのRAMを欲しがりますが、このファミリーで最も高い純粋な英語の精度を出します。(公開ベンチマークでは、Medium の英語モデルはクリーンな音声で単語誤り率およそ3%、Small は5%前後です。ただし実際の数値は、どれを選ぶかよりマイクの差にはるかに左右されます。)
4つ目で混乱する人が多いので、はっきり言っておきます。Turbo、つまり distil-large-v3 モデルも約1.5 GBで、大型モデルの6倍速・精度99%とされています。タダ飯のように聞こえますし、英語に関してはほぼその通りです――フルの大型モデルの速度ペナルティなしに、最高に近い英語精度がほしいときの選択肢です。落とし穴は「英語専用」というラベルにあります。この4つは英語を、英語だけを知っています。第二言語が必要になった瞬間、あなたはこのファミリーを完全に離れることになります。それが次のセクションです。
多言語モデル、残り98言語のために
音声が英語でなくなった瞬間、欲しくなるのは多言語モデルです。Whisperの多言語ビルドは自動検出つきで99言語をカバーし、文字起こししながら音声を英語へ翻訳できる唯一のローカル手段です。英語専用モデルにはそれができませんし、Parakeet にもできません。ですからウクライナ語で口述し、日本語でメモを起こし、スペイン語の録音を英語のテキストにしたい――そんなときは、このファミリーが答えです。それ以外にありません。
ここにも4つあり、英語専用モデルのサイズ構成をそのまま映しています。約480 MBの Small は速い多言語のベースライン――アプリが同梱する全体の初期モデルです。あなたの言語がまだ分からないとき、最初の推測として最も無難だからです。約1.5 GBの Medium は、速度と引き換えに目に見えて高い品質をもたらします。約3 GBの Large v3 は、ローカルで得られる最高精度で、16 GBのRAMを与えられるならプロの多言語作業にうってつけです。そして約1.62 GBの Large v3 Turbo は、速い多言語ティア――大型モデルの品質をほぼ保ちつつ、待ち時間はごくわずかです。
言語数について一言。マーケティング上の安全な数字と実際の数字は、何を指すかによって変わるからです。多言語モデルは正真正銘99言語をカバーし、英語専用モデルはきっかり1言語です。もしあなたが主に英語を話し、ときどき第二のヨーロッパ言語に触れる程度なら、これらのどれよりも速い選択肢があります。それが Parakeet です――次に理解すべきものです。なぜなら、これは人が最も誤って選び、あるいは誤って見送ってしまうモデルだからです。
Parakeetが Whisper に勝つとき、勝たないとき

Parakeet はそもそもWhisperモデルではありません――NVIDIAのTDTエンジンで、約600 MB、アプリが同梱する中で最速のローカル選択肢です。CPUでWhisperの5〜10倍速とされています。空きGPUのない古めの、あるいはノートPCクラスのCPUなら、その速度差は、一瞬に感じるディクテーションと、待たされるディクテーションの分かれ目になります。日常の英語作業では、私がまず手を伸ばすのは Parakeet です。
英語に加えて24のヨーロッパ言語――合計25言語をカバーするので、多くのヨーロッパのユーザーにとっては十分です。あえてやらないのは、Whisper固有の機能です。英語への翻訳も、ホットワードによるバイアスも、カスタム語彙のプロンプトもありません。あなたの作業が英語(または24のヨーロッパ言語のいずれか)だけで、とにかく速さがほしいなら、Parakeet の勝ちで、議論は終わりです。全体像を知りたければ Parakeetモデルの詳細解説 をどうぞ。
その枠の外に一歩踏み出した瞬間、Whisper が勝ちます。中国語、日本語、韓国語が必要? Parakeet は話せないので、多言語の Whisper です。録音を英語に翻訳したい? それができる唯一のローカル手段、Whisper多言語です。製品名や専門用語のリストにモデルを寄せて、誤変換を止めたい? ホットワード経由で Whisper です。経験則はこうです。速度の英語なら Parakeet、言語・翻訳・制御なら Whisper。どちらも万人にとっての正解ではないからこそ、アプリは両方を同梱しています。
サイズ、速度、精度: トレードオフは実際どう働くか
この3つの力を並べて見ると分かりやすくなります。どのモデルも、同じ三角形の上の異なる一点にすぎないからです。ファイルが大きいほど精度が高く遅くなり、小さいほど速くRAMにやさしくなります。そして特別なエンジンたちは、その曲線を曲げます。アプリがあなたに選ばせる以上、コストを知ったうえで選んでほしいので、ここで各要素の正直なところをお伝えします。
何があなたを締めつけているかに応じて、ラインナップの読み方は3通りあります。
- 速度が問題なら — まず Parakeet に手を伸ばしましょう――約600 MBで、CPUでWhisperの5〜10倍速。GPUのないマシンでは、日常の英語においてローカルで太刀打ちできるものはありません。代償は、英語への翻訳とホットワードがないことです。
- 精度や言語が問題なら — Whisperファミリーで大きくいきましょう。約3 GBの Large v3 はローカル最高精度で99言語をカバーしますが、16 GBのRAMを欲しがります。Turboの各種は、待ち時間を大幅に減らしつつその品質の大半を手にできます。Small と Medium は手堅い中間です。
- ディスク容量やRAMが問題なら — 小さく留める(約140 MBの Base)か、ローカルを完全にやめて Cloud モードを使いましょう。自分のキーで OpenAI へネットワーク経由で呼び出すだけなので、どんなハードでも動きます。Cloud は Whisper Pro の一部で、インターネットが必要です。
退屈な真実ですが、最近のマシンを使うたいていの人にとって、中型モデルどうしの差は、マイクが生む差より小さいのです。$20のUSBマイクは、Small から Large へ飛び移るよりも精度に効きます――公開のWhisperベンチマークもこれを裏づけていますし、私自身の机の上でも何度も目にしてきました。だから初日から Medium と Large で悩み込まないでください。RAMに収まるものを選び、まず口述を始め、ある単語がいつも間違って出るなら後でモデルを上げればいい。あなたが実際に使い続けるモデルは、十分に速くて存在を忘れられる一つです。
まず一つ試し、合わなければ2クリックで切り替える
決断のプレッシャーをまるごと取り除くのがこの部分です。最初に選んだモデルと添い遂げる必要はありません。切り替えは設定の2クリック、唯一の実コストは移る先のモデルのダウンロードだけです。だから正しい戦略は、1時間調べることではありません――そこそこの第一推測をして、1日それで口述し、いやになったら切り替える。これだけです。ローカルパイプライン全体は、サインインしたアカウントなら誰でも無料で、サインアップ時に支払い方法を求められることもありません。だからいくつかモデルを試しても、かかるのはディスク容量だけです。
ステップ1 — 設定を開き、Transcriptionパネルを見つける。
そこにモデル一覧があり、英語専用と多言語に分かれ、Parakeet と Cloud も並んでいます。「これが最高」と事前選択されているものはありません。
各名前の横にサイズが付いたモデル一覧が見えたら、正しい場所に来ています。
ステップ2 — 上のセクションから第一推測をする。
英語で速度重視なら Parakeet。英語で精度重視なら Small か Medium の英語モデル。ほかの言語なら多言語モデル。RAMが厳しいなら Base。
モデルのダウンロードが終わり、準備完了と表示されたら成功です。
ステップ3 — それで1日口述してみる。
テスト用の一文ではなく、実際の作業で使ってください。どんなベンチマークの表よりも、実際のメモを取る一午後から学べることのほうが多いのです。
そのモデルを意識しなくなり、ただ話すようになったら、それが正解のモデルです。
ステップ4 — 合わなければ切り替える。
遅すぎるなら、もっと小さいものか Parakeet を。言語が足りない・単語を崩すなら、多言語かより大きいものへ。2クリック、ダウンロード1回、完了です。
新しいモデルが読み込まれ、次の録音でそれが使われたら成功です。
人はこれを一方通行の扉のように扱いますが、そうではありません。私が最初に動かしたモデルは、結局使い続けたものではありませんでした。習慣で多言語モデルから始め、一日中英語で口述していると気づき、速度を求めて Parakeet に移ったのです。2クリックと、コーヒー1杯ぶんのダウンロードで済みました。最初の選択は下書きだと思ってください。
結論だけ知りたい人へ、手早い推奨
ほかは何も読まないなら、これだけどうぞ。英語で、速くて、そこそこのマシン: Parakeet。英語で、ローカル最高精度がほしい: Medium の英語モデル、あるいは待ち時間なしでその精度がほしいなら Turbo。別の言語、または翻訳が必要: 多言語モデル――まずは Small、精度が重要で16 GBのRAMがあるなら Large v3。ディスクやRAMが厳しい: Base。ウェブアクセス込みの最上位精度がほしくて、自分の OpenAI キーを使うのに抵抗がない: Cloud。これが地図のすべてです。
どれを選んでも、生の文字起こしはひと続きのべた書きで出てきます。これはうちだけでなく、あらゆる音声エンジンに当てはまります。「えーと会議モデルをMediumにして後でLargeをテストするのを忘れないように」と言えば、句読点のないそのままの壁が返ってきます。Whisper はAIによるクリーンアップを一度かけて、テキストが着地する前に句読点を直し、つなぎ言葉を取り除けます――起動フレーズ「Hey whisper」と言えば、先に整えてくれます。ローカルモデルでは Ollama を通して動き、クラウドモードでは既定で gpt-5-mini です。
えーと会議モデルをmediumにして後でlargeをテストするのを忘れないようにあーたぶん手早いやつにはparakeetで
えーと、会議モデルを Medium にして、後で Large をテストするのを忘れないように――手早いやつにはたぶん Parakeet で。
「どのモデル」ガイドの締めにふさわしい、正直な注意点が一つあります。やることが30語のメモをテキスト欄に放り込むだけなら、そもそもモデルを選ぶ必要すらないかもしれません。Windowsでは、組み込みの音声入力バーが Windowsキー + H でカーソルのある場所に開きます――自分で句読点を打ち、無料です。ただしMicrosoftのサーバーを経由し、インターネットが要ります。Macでは、システム設定の Dictation が同じことをし、Apple Silicon では一般的なテキストを端末上で処理できます。精度と長さが効いてくる閾値より下なら、すでにマシンにあるものを使ってください。私たちがダウンロードに値し始めるのは、実際にまとまった量をこなすとき、オフラインのプライバシーがほしいとき、あるいは組み込み機能が提供しない言語や制御が必要なときです。買い物リストを口述するためにアプリを入れろ、なんて言うつもりはありません。
「最高の」Whisperモデルとは、考えなくなる一つです。気にするトレードオフを選び、第一推測をして、いやになったら2クリックで切り替える。私は、2コミット目でアーキテクチャ図が間違っていたようなシステムを世に出してきたので、「とにかく試して調整する」ことには健全な敬意を持っています。モデル選びはそれより低リスクで、やり直しもずっと簡単です。まずはどこかから始めましょう。遅いのはダウンロードであって、決めることではありません。
モデルを選んで、話し始めよう
第一推測をして、1日口述し、合わなければ2クリックで切り替える。アプリはすべての選択肢を見せて、あなたに選ばせます。
サインインしたアカウントなら誰でもローカルモードは無料。始めるのにカードは不要です。



