トラブルシューティング
音声入力がこんなに 不正確なのはなぜ?
音声入力が不正確になるのは、たいていソフトウェアが壊れているからではなく、セットアップが原因です。マイクが悪い、部屋がうるさい、言語が違う、モデルが合っていない——だいたいこの4つです。
最終更新: 2026年6月

音声入力が不正確になるのは、たいていソフトウェアの不具合ではなくセットアップが原因です。最大の犯人は、悪いマイク、うるさい部屋、間違った言語設定、そしてマシンに合っていないモデルの4つ。静かな部屋でクリーンな音声を、正しい言語で入力すれば、ほとんどの人は約95%の精度に届きます——20語に1語の間違い、ということです。
昔、親戚がヘッドセットを部屋の向こうへ投げつけるのを見たことがあります。1990年代の終わり、コンピューターはRAM 64MBのWindows 98デスクトップ、ソフトはDragon NaturallySpeakingでした。トレーニングに45分——単語のリストを声に出して読み上げ、「キャリブレーション」するのです。それでどうにか動くには動きました。精度はせいぜい70%、1文ごとに4秒の遅延つき。年賀状の一段落を入力するのに15分。ヘッドセットは無事でした。音声入力の実験のほうは、生き残りませんでした。
この話を持ち出したのは、あなたの抱いている苛立ちは古くからあるものですが、その原因は変わったからです。今の音声入力に45分のキャリブレーション儀式は要りません。言葉を取り違えるとき、それがモデルの頭が悪いからであることはほとんどありません。原因は、モデルに届く音声があなたが思っているより悪いこと——そして驚くほど多くが、1分もかからず直せることなのです。Whisper自身のローカルモードの精度は、クリーンな英語音声で95%から99%の間に収まります——ただしその数字は、実はそうでないことが多いいくつかの前提に立っています。
これは診断であって、対処法の箇条書きリストではありません。あなたの文字起こしを壊している5つの要因のうちどれが原因かを、それぞれが真犯人である頻度の高い順に突き止めていきます。マイクとカスタム単語の詳しい手順が知りたいなら、音声入力が間違った単語を打つときの直し方ガイド がその領域を担当しています。この記事は、まず原因を見つける手助けをするためのもの——正しいところを直せるように。
実際に現実的な精度とは

どのメーカーもマーケティングのページには載せない数字をお見せしましょう。音声認識は 単語誤り率(word error rate、WER) で測ります——置換・削除・挿入を、あなたが実際に話した内容と照らし合わせて数えた、システムが取り違える単語の割合です。低いほど良い。WERがゼロなら完璧な文字起こし。単語精度は単に1からWERを引いたものです。
クリーンなLibriSpeechの英語ベンチマークでは、Whisperのmedium英語モデルはおよそ3%のWER——つまり約97%の精度を記録します。small英語モデルは5.1%前後のWER、約95%です。これらはクリーンな音声での数字——静かな部屋、良いマイク、丁寧な読み手が前提です。現実にはノイズ、訛り、人の声の重なり、専門用語が加わり、そのどれもが正当にWERを押し上げます。
では、普通とはどのくらいでしょうか。まともな英語音声でだいたい95%——20語に1語の間違いです。これは欠陥ではありません。道具が設計どおりに働いている、その状態です。うるさいキッチンで内蔵ラップトップマイクを使い85%にとどまっているなら、ソフトが壊れているのではありません——条件がモデルの必要とする水準を下回っているのです。直すべきは条件であって、もっと大きなモデルではありません。基準を「一段落につき小さな修正が一つ」あたりに置けば、この体験から怒りのほとんどが抜けていきます。
5人の容疑者、起こりやすい順に

音声入力がうまくいかないとき、原因はほぼ必ずこの5つのどれかです。この順に上から確認していってください。最初の2つでほとんどの場合がカタがつきます。
- 言語設定。 あなたはある言語を話しているのに、ツールは別の言語を聞き取ろうとしているか、当て推量しています。
- マイク。 1メートル先にある内蔵ラップトップマイクは、あなたの口よりも部屋の音を聞いています。
- 部屋。 背景の物音、テレビ、反響するキッチン——モデルはそのすべてを文字起こしします。
- モデル。 ハードウェアに対して重すぎるものを選んだので、遅いか、処理しきれていません。
- 期待値。 音声もツールも問題ない。あなたが100%を基準に測っているだけ——どんなツールもそこには届きません。
60秒のセルフテスト——同じ2文を3回入力してみてください。一度は静かな部屋でマイクの近くから、一度は部屋の反対側から、一度は音楽を流しながら。この3回で精度が大きく揺れるなら、問題は音声(容疑者2と3)であり、どんなソフトの変更も、マイクを近づけてドアを閉めることには勝てません。静かな至近距離のテイクでもひどいなら、言語設定とモデルを見てください。このテスト一つで、ほとんどの人は1分で見分けがつきます。
原因1: 間違った言語設定

これは誰も最初に確認しない、10秒で済む対処です。自分が話している言語が分かっているなら、ツールを自動検出のままにせず、設定で明示的にその言語を選んでください。特定の言語を設定すると、ツールはどの言語が聞こえているかを当てようとするのをやめ、すべての力を単語を正しく取ることに注ぎます——目に見えて速く、信頼できるようになります。
言語の食い違いという罠は本物です。Whisperの多言語モデルは自動検出で99言語をカバーしますが、英語専用モデルは英語に固定されています——別の言語を入れれば、出てくるのは意味不明な文字列です。ローカルのParakeetは英語と24のヨーロッパ言語を扱い、その範囲の外は一切扱いません。ですから、どんなにマイクがクリーンでも、これに日本語を入力しても決して動きません。そして本当に文の途中で言語を切り替える(コードスイッチングする)なら、英語専用ではなく、自動検出つきの多言語Whisperモデルが必要です。設定を、自分の口から出てくる言葉に合わせるだけで、何かに触れる前に「不正確さ」のかなりの部分が消えます。
原因2: 訛りより、マイクのほうが被害を与えている

みんな自分の訛りのせいにします。でも、ほぼ必ずマイクが原因です。私自身も何年も自分の訛りのせいにしていました——蓋を開けてみれば声は問題なく、0円のラップトップマイクが犯人でした。これは私が断固として主張する意見です——「AI」は悪い音声を直しません。20ドルのUSBマイクは、どんなモデルのアップグレードよりも精度に効きます——マイクと静かな部屋こそが、どのモデルを選ぶかよりも先に来る、精度の二大テコです。大きなダウンロードにお金を使う前に、ハードウェアにお金を使ってください。
その仕組みは地味で、物理的です。内蔵ラップトップマイクは口から30センチ以上離れたところにあり、机もファンも部屋も拾います。ヘッドセットのブームマイクや15センチ先のUSBマイクは、あなたの声を聞き、それ以外はほとんど聞きません。ツールは届いたものしか文字起こしできず、ぼやけて遠く、ノイズの乗った信号は手がかりを減らします——だからツールは推測し、推測こそが間違った単語の出どころです。マイクと語彙の手引き全体をここで教え直すことはしません。私たちの掘り下げ記事 音声入力が間違った単語を打つとき が、マイクの配置、入力ゲイン、カスタム語彙を詳しく扱っています。この記事での要点はもっと狭い——3テイクのテストで距離をとると精度が崩れたなら、容疑者はあなたの声ではなくマイクです。
原因3: 言葉ではなく、部屋

マイクは、聞いてしまった部屋の音をなかったことにはできません。テレビがついている、食洗機が回っている、後ろにオープンスペースのオフィスが広がっている、2メートル先で子どもたちがボードゲームのルールを言い争っている——モデルはそのエネルギーをあなたの声と一緒に文字起こしします。どの音があなたの意図したものかは、分からないのです。
対処は気が抜けるほどローテクです——ドアを閉める、音楽を止める、ファンから離れる。柔らかい面が助けになります——ラグとカーテンのある部屋は、声が跳ね返って二度届いてしまう、壁がむき出しのタイル張りキッチンよりも、マイクに優しいのです。吸音フォームは要りません。必要なのは、食洗機がサイクルを終えることです。私は弁当を詰めながら学校宛てのメールを入力したことがありますが、モデルはちゃんとついてきました——でもそれはキッチンが静かだったからで、ソフトが魔法だからではありません。ミキサーが回り始めた瞬間、精度は落ちます。そしてそれは、バグとして報告するものではありません。
原因4: モデルがハードウェアに合っていない
これは競合がブラックボックスとして扱う部分ですが、重要です。大きければ良いとは限りません。マシンに対して重すぎるモデルを選ぶと、動作が遅くなり、処理が追いつかなくなって、紙の上の精度は問題なくても体験は壊れているように感じられます。
Whisper by Remskillは、あなたの代わりにモデルを選びません。3つの道筋を提示して、選ばせてくれます——自分のOpenAIキーを使うクラウドモード、ローカルのParakeet、ローカルのWhisper。クラウドモードはネットワーク呼び出しにすぎないので、どんなハードウェアでも動きます。ローカルでは、要点はだいたいRAMの計算です。8 GBのマシンなら、Parakeet(約600 MB)、Baseモデル、Smallモデルは余裕で動き、Mediumモデルは苦しくなります。最大級のWhisperモデル——約3 GBのLarge v3やTurbo——は16 GB以上を欲しがり、ディスクリートGPUがあれば最も恩恵を受けます。最高精度の多言語オプションはLarge v3で、99言語に対応しますが、その16 GBの余裕が要ります。
プッシュ・トゥ・トークの流れは、どの道筋を選んでも同じです——ホットキーを押し続け、話し、離す。するとテキストがカーソル位置に貼り付けられます。デフォルトのホットキーはWindowsでCtrl+Space、macOSではCommand+Optionの同時押しで、どちらも設定で変更できます。自分のラップトップにどのモデルが合うか分からない? 私たちの 正しいWhisperモデルの選び方ガイド が、それぞれを必要なハードウェアに対応づけています。経験則——合っていて速く動くモデルは、つっかえる大きなモデルに勝ります。
本当にツールが問題のとき、そしてただの物理のとき
すべて正しくやったのに——近いマイク、静かな部屋、正しい言語、妥当なモデル——それでも15語に1語、間違うことがあります。それが本当の天井ということもあります。モデルがあまり学習していない強い訛り、密度の高い専門用語、二人が重なって話す状況、向こう側の電話のスピーカー——これらは正当にWERを押し上げ、どんな設定でも完全には直せません。固有名詞や分野の専門用語については、ローカルWhisperとクラウドモードでカスタム単語リストを追加でき、認識を正しい綴りに寄せられます。Parakeetはそのヒントを受け付けません。それから、「使うほど私の声を覚えてくれる」というのはDragon時代の神話です——現代の音声テキスト変換は、時間をかけてあなた個人の声に適応することはなく、いくら繰り返してもそれを訓練することはできません。テコは音声と設定であって、忍耐ではありません。
これにWhisperを使わなくていいとき
やることが20語のメッセージや手早いメモを送るだけなら、何もダウンロードしないでください。OSがもう音声入力を備えています。Macなら Apple Dictation が標準搭載で無料です——マイクキーかキーボードショートカットを押せば、対応した環境ではデバイス上で処理されます。30秒の沈黙で自動的に止まるので、長文の執筆より短いひと吹きに向いています。Wordなら MicrosoftのDictate が、マイクとインターネット接続があれば同じことをします。
丸ごと段落を入力するようになったとき、オフラインで動いてほしいとき、標準ツールが取りこぼす固有名詞や専門用語の精度が必要なとき——そのときこそ専用ツールの出番です。私たちの Apple Dictationの代替まとめ が選択肢を扱っています。一行の返信なら、無料の標準ツールが正解です。
たいていの場合、「音声入力がこんなに不正確なのはなぜ」の答えは、あなたの声についての告白ではありません。それは、マイクまでの30センチの距離と、回っているのを忘れていた食洗機です。音声を整え、正しい言語を設定し、ラップトップが運べるモデルを選び、それから100%ではなく95%を基準に評価してください。Dragonのヘッドセットを持っていた親戚は、1999年と戦っていました。あなたは違います。あなたが戦っている相手は、たいてい自分のキッチンです。
1分で確かめてみませんか?
Whisperをダウンロードして、3テイクのテストを実行してください——ツールのせいか、部屋のせいか、それともただの物理か、1分以内に分かります。



