解説
Whisperの精度は 実際どれくらい?
Whisperはクリアな英語音声に対して非常に高精度で、主要言語にも幅広く対応しています。ただし、完璧ではありません。精度を左右する最大の要因はマイクと静かな環境であり、使うモデルではありません。文字起こし後にAIが句読点やフィラーを整えてくれます。
最終更新:2026年6月

Whisperは日常的なディクテーションや仕事のメモに十分な精度を持っています。medium モデルでクリアな英語を読み上げた場合、単語誤り率(WER)は約3%です。アクセント、バックグラウンドノイズ、専門用語、複数話者が重なる場合は精度が下がります。ほとんどの人が精度を大きく改善できる方法は、より良いマイクと静かな環境を用意することであり、より大きなモデルに変えることではありません。
「Whisperの精度はどれくらい?」という質問には、正直な答えとマーケティング的な答えの2種類があります。マーケティング的な答えは「驚くほど高精度、最先端」。正直な答えは「クリアな録音なら非常に良いが、粗悪な録音ではかなり落ちる。その差を生んでいるのはほとんどマイクだ」。同じモデルを使っても、20ドルのUSBマイクなら完璧に文字起こしできた文章が、騒がしいキッチンに置いたノートパソコンのマイクではぐちゃぐちゃになる場面を、私自身何度も目にしてきました。
だから、これはベンチマーク比較の記事ではありません。「音声入力を仕事で本当に使えるか?」と聞かれた友人に答えるとしたら、という視点で書きました。短い答え:はい、ただしコントロールできる条件があります。長い答えは以下に。実際に重要な数字と、モデルの性能に関係なく精度を静かに台無しにしてしまう3つのことも説明します。
「Whisperの精度」を扱う記事の多くが見落としていることがあります。精度は一つの数字ではありません。モデルのサイズ、話している言語、そして何より入力音声の品質によって変わる数字です。クリアな録音での小さなモデルは、こもった音声での大きなモデルに勝ります。これは毎回そうです。
研究者がこれを測る方法が単語誤り率(WER)です。システムが間違えた単語の割合です。クリアな英語に対するWhisperの公表WERは低い。でも、食洗機を回しながら過ごす火曜の午後のWERは別の話になります。この数字が何を意味するか、Whisperの実際のスコア、精度を下げる要因、そしてどんなモデルアップグレードよりも効果的な地味で安上がりな改善方法を説明します。
「精度」が実際に意味すること:単語誤り率(WER)

文字起こしシステムが「95%の精度」と言われるとき、ほぼ必ず単語誤り率(WER)を指しています。最もシンプルで正直な指標です。既知のテキストをシステムに文字起こしさせ、間違えた単語を数えるだけ。WER 5%は、100語のうち5語が間違い——置換、削除、または言っていない単語の挿入——を意味します。低いほど良く、ゼロが完璧。しかし現実にゼロは存在しません。
最後の点は重要なので、はっきり言います。完璧な音声エンジンは存在せず、そう主張するプロダクトはスライドの数字を丸めているだけです。人間の文字起こしも完璧ではありません——プロの文字起こし士でもクリアな音声で約4% WERに落ち着き、難しい録音ではもっと下がります。つまり「Whisperは3% WER」という数字は、その種の音声においてほぼ人間レベルということ。魔法ではありません。常に正しく、時々間違える、すべてのツールと同じ道具です。
もう一つ、30秒で理解できる大事なことがあります。WERはすべての単語を同等に扱いますが、それはエラーの感じ方とは一致しません。Whisperが「their」を「there」と誤認識しても、ほとんど気になりません。クライアントの名前や薬の投与量を間違えたら、1単語のエラーが文章全体を台無しにします。見出しの数字は全体像を教えてくれますが、重要な一語が正しく取れたかどうかは教えてくれません。WERがどれだけ低くても、最後に読み返すことが廃れない理由はそこにあります。
実際のところ、Whisperの精度はどうなのか
クリアに読み上げられた英語に対して、Whisperは本当に強いです。公開されているベンチマークでは、medium モデルが標準的なクリーンスピーチテストセットで約3% WER、より小さなモデルで約5%となっています。わかりやすく言うと、はっきり話した音声のまともな録音なら、数文に1〜2語の誤りが出る程度——たいてい同音異義語か余分なカンマで、意味が崩れるわけではありません。メール、メモ、下書きのディクテーションには、十分に時間を節約できるレベルです。
アプリの動作は精度に関係なく同じです。ホットキーを押して話し、離すと、フォーカスがあるアプリのカーソル位置にテキストが貼り付けられます。話している間は小さなカプセルが表示されるので、録音中だとわかります。そのカプセルに表示されているのはライブ録音——精度が決まるのは話し終えてから半秒後、モデルが音声をテキストに変換する瞬間です。
良い数字の隣には正直な注意書きがあります。ベンチマークの数値はラボでのクリーンな読み上げ音声です。あなたのキッチン、あなたのアクセント、文の途中で声が尻すぼみになる癖——それらはテストセットに入っていません。ベンチマークはあなたの天井を示します。このガイドの残りは、その天井にどれだけ近づけるか、そしてそれを決める要因についてです。ネタバレ:最大の要因はモデルではありません。
精度を上下させるものは何か
モデルの種類よりも現実の精度を大きく左右するものが3つあります。音声品質、言語、そして話す内容です。音声品質が圧倒的に一番です。室内の反響、換気扇の音、子どもの「なんで月が見えないの?」という声を拾うノートパソコン内蔵マイクは、静かな部屋のポッドキャスト用マイクよりはるかに難しい問題をモデルに突きつけます。同じモデル、同じ文でも、録音環境だけで結果がほぼ完璧からはっきりした誤りに変わります。これがほぼ誰も調整しないのに、最も効果的なレバーです。
2番目のレバーは言語です。Whisperの多言語ビルドは99言語に対応していますが、そのカバレッジは均一ではありません。英語が最も手厚くサポートされており、主要な欧州・アジア言語も強い。一方、インターネット上のトレーニングデータが少ない低リソース言語は精度が低く、エラーが多くなりがちです。英語への翻訳は多言語Whisperのみの機能で、英語専用ビルドにはなく、Parakeetの25言語にもありません。「99言語対応」は事実ですが、99言語すべてが同じ精度というわけではありません。重要な用途に使う前に、ご自身の音声でテストしてください。
3番目のレバーは話す内容です。アクセントは数字に影響します——Whisperは「トレーニング」なしに幅広いアクセントに対応していますが、強いアクセントに専門用語が重なるのはどんなエンジンにとっても最悪のケースです。専門分野の語彙もつまずきの原因になります。珍しい製品名、医療・法律用語、初めて見る苗字など。そして複数の話者が重なる場面は本当の難関——Whisperは1人の声を想定して作られているため、2人が同時に話すと結果はひどくなります。ローカルWhisperでは、カスタム語彙とホットワードバイアスを使って対抗できます。よく使う名前や用語をそちらに向けるよう誘導できます。Parakeetにはホットワード機能がないため、固有名詞の多い業務ならWhisperを選ぶ理由は十分あります。
モデルが大きいほど精度は上がり、速度は下がる
精度と速度の間には本物のトレードオフがあり、アプリはそれを隠さずに見せてくれます。目安として、Whisperのモデルが大きいほど精度は高く、動作は遅くなります。英語専用の Small モデルは約480MBで速い。Medium は約1.5GBでより高精度。多言語対応の Large v3 は約3GBで最高精度ですが、快適に動かすには16GBのRAMと比較的新しいマシンが必要です。存在する最大のモデルではなく、手持ちのハードウェアで快適に動く最大のモデルを選びましょう。
興味深い例外がTurboです。WhisperのTurboビルド(distil-large-v3)は、Large v3の約99%の精度を保ちながら約6倍速いことが文書化されています。多くの人が落ち着くスイートスポットです。約1.5GBのサイズで、最大モデルに近い品質をほぼ待ち時間なしで得られます。精度を重視しつつ読み込みを待ちたくない場合、Turboは現実的な中間の選択肢です。
このトレードオフ全体を見直す重要な点があります。小さなモデルと最大モデルの精度差は本物ですが、想像よりも小さい——クリーンな音声でWERの数ポイント差です。一方、同じモデルでも、ノートパソコンのマイクとまともなUSBマイクの精度差の方が大きい。3GBをダウンロードして最後の1ポイントを追いかける前に、より良いマイクをつなげて静かな場所で録音しましょう。「モデルが間違えた」という不満のほとんどは、実は「部屋が間違えた」という退屈な真実があります。
ローカルとクラウド:最高精度はどちらにあるか
アプリはパスを決めません。速度、言語カバレッジ、最高精度——目的に応じて3つの選択肢を提示します。精度という観点では、どちらかに録音を委ねる前に、差を理解する価値があります。
精度の実力順に並べた3つのパス:
- ローカル Parakeet — NVIDIAのTDTエンジン、約600MB、CPUでWhisperより5〜10倍速い最速のローカルオプション。精度は良好——Large v3 ほどではありませんが、日常的な英語ディクテーションには十分すぎるほどです。英語と24のヨーロッパ言語、計25言語に対応。英語への翻訳機能とホットワードはなし。速度を重視し、主に英語を使う場合に選んでください。
- ローカル Whisper — 同じマシンではParakeetより遅いですが、多言語ビルドは99言語に対応し、英語への翻訳もでき、カスタム語彙やホットワードによるバイアスも可能——固有名詞や専門用語に重要な精度コントロールです。最大ビルド(Large v3)が最も高精度なローカルオプションです。多言語作業、翻訳、またはきめ細かい制御が必要な場合に選んでください。
- クラウド(OpenAI、BYOK) — 自分のOpenAIキーを使ってOpenAIに直接課金する、最高クラスの精度とウェブアクセス機能。デフォルトではgpt-4o-mini-transcribeで文字起こしが行われます。インターネット接続が必要なため、音声がマシンの外に出る唯一のパスです。クラウド機能はWhisper Proの一部です。
純粋な精度での正直なランキングは:クラウドがトップ、ローカルLarge v3が僅差で2位、英語についてはParakeetが実力十分な3位。ただし「最高精度」が勝るのは音声がそれに値するほどクリアな場合のみです。部屋の向こうからこもった録音をクラウドに送っても、クリーンな録音のローカルWhisperには勝てません。ほとんどのディクテーションでは、両方のローカルエンジンがサーバーに何も送らずマシン上で完全動作し、それで十分です。本当に難しい録音や、文の途中でウェブから情報を引き出す必要があるときにクラウドを使いましょう。
精度を上げる4つの方法
Whisperの天井はモデルが決めます。あなたの床はその周りのすべてが決め、ほとんどの人が精度を失うのはその床の部分です。良いニュースは、改善策が安く数分でできることです。効果の高い順に、重要な4つを紹介します。
ステップ1——まずマイクを直す。
2,000円台のUSBマイクは、どんなモデルアップグレードよりも精度に貢献します。口に近づけ、ポップノイズが出ないよう口の正面を少しずらし、ノートパソコンの換気扇から離して置く。これが最もコストパフォーマンスの高い改善策です。
ノートパソコンのマイクでグチャグチャだった文が、きれいに文字起こしされるようになれば成功です。
ステップ2——部屋を静かにする。
ドアを閉め、音楽を止め、食洗機のサイクルが終わるまで待つ。「モデルが間違えた」と思う瞬間のほとんどは、バックグラウンドノイズとエコーが原因です。静かな部屋はタダです。
フィラーワードや半端に拾われたフレーズがトランスクリプトに出なくなれば成功です。
ステップ3——用途に合ったモデルを選ぶ。
マシンが快適に動かせる最大のモデルを選ぶか、速度を重視しながら最高クラスの精度が欲しいならTurboを選ぶ。ローカルWhisperで固有名詞や専門用語を扱う場合は、カスタム語彙とホットワードを追加して、よく使う言葉に向けて誘導しましょう。
モデルのダウンロードが完了して「準備完了」と表示され、固有名詞が正確に取れるようになれば成功です。
ステップ4——AIに仕上げを任せる。
生の口述は、フィラーだらけの一続きの文になりがちです。WhisperはAIクリーンアップパスを実行して句読点を修正し、「えー」「あの」を取り除き、貼り付け前に文を整えることができます。起動フレーズ「Hey whisper」と言うとトリガーされます。
貼り付けられたテキストが、文字起こしではなく編集済みの文章のように読めれば成功です。
最後のステップは実際に見る価値があります。「精度」があなたのアウトプットにとって何を意味するかが変わります。文字起こしは一語一語正しくても、人が話すのはそういうものだから、読み返すと一続きの文になりがち。クリーンアップパスはWERでは測れない読みやすさを修正します。ローカルモデルではOllama経由で動作し、クラウドモードではデフォルトでgpt-5-miniが使われます。同じ文を処理前後で比較してみます:
um so the accuracy mostly comes down to the mic not the model and like a quiet room helps more than people think
The accuracy mostly comes down to the mic, not the model — and a quiet room helps more than people think.
クリーンアップは一語の意味も変えていません。生のトランスクリプトに乗っていた句読点を加え、フィラーを削除しただけです。これが人々が「精度」と混同している部分ですが、混同すべきではありません。モデルの仕事はあなたの言葉を正確に聞き取ること。AIパスの仕事は正しい言葉を読みやすくすること。マイクと部屋を整えれば、どちらの仕事も楽になります。どんなアプリでもこの「話してクリーン」の流れを使いたい場合、同じホットキーで どんなアプリにもきれいな文章をディクテーションできます。
Whisperの精度についての正直な評価

では、率直な答えを。Whisperは、クリーンな音声と十分にサポートされた言語であれば、メール、メモ、下書き、会議の要約など実際の業務で信頼できる精度を持っています。完璧ではなく、そう主張もしていません。アクセント、バックグラウンドノイズ、専門用語、複数話者の重なりがすべて数字を下げます。どんなモデルも粗悪な録音を完全には救えません。「100%の精度」を期待してここに来たなら、正直な答えはこうです——そんなものは存在せず、存在すると主張するのはスライドを売っているだけです。
Whisperレベルの精度を追いかける必要がない場合はいつでしょうか?たまに30語のテキストを口述するだけなら、OSが無料でこれをやってくれます。Windowsなら、カーソルがある場所でWindows+Hを押して音声入力を開けます——自動で句読点が入りますが、Microsoftのサーバーを経由するためインターネットが必要でオフラインでは使えません。Macではシステム設定の「ディクテーション」がどのフィールドにも入力でき、Apple Siliconなら一般的なテキストはデバイス上で処理できます。短い用途ならこれらで十分で、1行のリマインダーのためにアプリをインストールするよう勧めるつもりはありません。専用ツールが威力を発揮するのは、長いメモ、多言語作業、オフラインのプライバシー保護、そして組み込みツールが提供しないホットワード・モデル選択・クリーンアップパスといった精度コントロールが必要な場面です。
ローカルエンジン同士を比較しているなら、精度対速度の判断がすべての決め手で、それは どのWhisperモデルを使うべきか および Parakeetモデルの詳細解説 でわかりやすく説明されています。ほとんどの人にとって答えは地味なものです:中くらいのモデル、まともなマイク、静かな部屋、クリーンアップパス。この組み合わせで、実際に録音する音声でベンチマークに肉薄した結果が得られます。
クラウドを完全に避けたいという理由で精度が気になるなら、 オフライン音声テキスト変換 にローカルモデルがネットワークなしでどれだけ通用するかのトレードオフが書かれています。
最初の頃、1週間「モデルをアップグレードすればトランスクリプトが改善される」と思い込んで3GBをダウンロードしたら、WERが1ポイント改善するかどうかでした。その後、2,000円のUSBマイクを買ってキッチンのテーブルから離れたら、その日の午後にトランスクリプトが目に見えてきれいになりました。問題はモデルじゃなかった。部屋だったのです。Whisperは非常に高精度です。それが体感できるかどうかは、何を入力するかによります。
自分の声で体験してみてください
Whisperをダウンロードして、まともなマイクをつないで、一段落ほど口述してみてください。精度は他人のベンチマークより、自分の音声で判断するほうがずっとわかりやすいです。
ログイン済みのアカウントであればローカルモードは無料。開始にカードは不要。



