Denys Medvediev

トラブルシューティング

音声入力が違う言葉を打ち込んでいる? 5つの解決策

音声入力が違う言葉を打つのは、モデルが一つの音を聞き間違えて推測するから。原因は5つ、そのうち4つは10分で解決できます。

最終更新:2026年6月

暗い表面に置かれた黒いキーボードのぼかし写真。音声入力の出力がページに記録されるイメージ

音声入力が違う言葉を打つのは、音声モデルが一つの音を聞き間違え、その推測に合わせて文章全体を書き直すから。主な原因は、マイクの性能不足、背景ノイズ、モデルが区別できない同音異義語、言語設定の誤り、または一度も学習していない固有名詞です。まず音声品質を改善してから、ツールに語彙を教えましょう。

「ステージングにデプロイ」と言ったのに、画面には「スタジアムを破壊」と表示される。修正する。次の文でも同じことが起きる。3回目の修正をする頃には、話すより打った方が速くなっていて、音声入力の意味がなくなってくる。私はこのループに苦しむライター、営業担当者、そして自分の母親を見てきた。母は一度だけ音声入力を試して、腹を立てて二本指打ちに戻った。でも朗報がある。ほぼすべての誤りは5つの原因のどれかに当てはまり、そのうち4つは次の10分で直せる。

誰も教えてくれないことがある。音声入力ツールは、こういうことをするとき「壊れている」わけじゃない。悪条件のなか、リアルタイムで推測しているだけ。同僚の名前も、「Kubernetes」という単語も知らない状態で。Whisperのローカルモードには、この最後の問題をズバリ解決する設定がある——「カスタム単語」フィールドに、聞き取ってほしい名前や専門用語を入力しておくと、韻だけ合うデタラメな語ではなく、正しく綴れるようになる。無料で、オフラインでも動く。そこまで説明する前に、正直なところを言うと、ソフトウェアよりもマイクの方が重要なので、まずそこから始める。

音声入力は壊れていない。推測しているだけ。

環境光に照らされたノートパソコンのキーボード。音声入力の誤りが文字として残る場所を表すイメージ

音声テキスト変換は文字を聞いているわけではない。音を聞いて、その音が作り出す最も可能性の高い言葉に賭ける——そして、さらに音が届くにつれてその賭けを調整する。これが、音声入力が既に話した内容を書き直すことがある理由だ。文の後半で一単語を聞き間違え、文法的に辻褄が合うように前の単語も変えてしまい、こっそり修正してしまう。

「橋」と「箸」。「聞く」と「効く」。これらは同音異義語——同じ音を持つ言葉——で、どれだけはっきり話しても解決しない。なぜなら、明瞭さは最初から問題ではないから。モデルは文脈から推測しなければならず、時に推測が外れる。

それから、モデルが本当に一度も出会ったことのない言葉もある。上司の苗字。製品コード。「Remskill」。モデルは知らない言葉を綴れないから、知っている中で最も近い言葉に置き換える。これはバグじゃない。語彙のギャップであり、後で紹介する具体的な解決策がある。

まずマイクを疑う

コンデンサーマイク、ノートパソコン、ヘッドフォンが置かれたデスク。音声入力の入力元を表すイメージ

ソフトウェアを責める前に、何を入力として与えているか確認しよう。ノートパソコンの内蔵マイクはファンの隣に位置し、天井に向いていて、あなたの声と同じくらい部屋の音を拾う。粗悪な入力からは、間違った出力しか生まれない。

この記事で私が確信を持って言えること、それは「AI」が粗悪な音声を補ってくれるわけではないということだ。2,000円のUSBマイクの方が、どんなモデルのアップグレードよりも精度向上に効く。私自身も、誤りを修正しようとして1週間かけて大きく遅いモデルをロードし続けた後、やっとノートパソコンのマイクがファンの方を向いていることに気づいた。問題はずっとマイクだった。私はこのソフトウェアを作って生計を立てている。ハードウェアにお金をかけるのが先だ。モデルは安い部品なのだから。

確認テスト:内蔵マイクで同じ3文を読み上げ、次にヘッドセットかUSBマイクで読み上げてみる。誤りの数が減れば、マイクが原因だったということで解決完了。多くの人はここで読むのをやめる。それで問題ない。

背景ノイズと部屋の音響

ノートパソコン、ノート、花が置かれた静かで穏やかなデスク。低ノイズの作業環境を表すイメージ

2つ隣の部屋の食洗機。同僚の電話の声。10メートル先でポテトチップスを食べる音が聞こえるようなオープンオフィス。モデルはあなたの声とノイズを区別できない——一番大きな音を文字起こしするので、時にポテトチップスが勝ってしまう。

Googleのこの問題に対するAI概要でも、背景ノイズはアクセントや同音異義語と並んで主要な原因として挙げられている。対策は地味だが効果的:扉を閉める、ファンを止める、開いた窓から離れる。静かな部屋は、どんなスマートなアルゴリズムよりも効果がある。

確認方法:いつもの場所と静かな場所で同じ音声入力を試してみる。静かな場所でエラーが減れば、ノイズが原因だった。静かな部屋を確保できない場合は、正面の音だけを拾う指向性マイクやノイズキャンセリングマイクが次善の手段になる——やはりハードウェアの話に戻ってくる。お金をかける価値がある場所だ。

言語設定の間違いとアクセントの不一致

明るいテーブルに散らばった木製の文字タイル。言語の選択を連想させるイメージ

音声入力が自動検出に設定されていて言語を切り替える場合、モデルは単語を認識する前に言語を識別することに処理を費やす——言語の推測が外れると、その後の文字起こしが全部狂ってしまう。できる限り言語は明示的に設定しよう。

Whisperでは、設定→文字起こし→言語から設定できる。話す言語を直接選ぶと検出ステップが省略され、単語をより正確に拾えるようになる。セッション中に本当に言語を切り替える場合のみ、自動検出のままにしておこう。Whisperの多言語モデルは自動検出で99言語に対応しており、英語専用ビルドは英語のみに固定される——英語しか話さないならそれで十分だ。

アクセントの不一致もこれと似た問題だ。主に米国人話者で訓練された英語モデルは、強い地域アクセントに戸惑うことがある。ツールが提供する最も近い地域バリアントを設定し、クリーンな音声を与えることで、ギャップを縮められる。

Windows、Mac、iPhoneでの修正方法

各プラットフォームの内蔵音声入力にはそれぞれのクセと限界がある。Windowsでは、Windowsキー+Hで音声入力が起動するが、カーソルがテキストボックスにある状態でインターネット接続も必要——内蔵ツールは音声をクラウドに送って文字起こしするからだ。おかしな文字が入力されるなら、まず接続を確認しよう。Appleのサポートフォーラムでも同じ問題の対処法として「インターネット接続を確認する」が最上位に挙げられている。(詳しい手順については、Windowsで音声テキスト変換が機能しない場合のガイドを参照。)

Macでは、ファンクションキー列のマイクキー、音声入力ショートカット、または「編集」→「音声入力を開始」で音声入力をオンにできる。一つ誤解を解いておくと:現在のmacOSの音声入力は制限時間なしで好きな長さのテキストを読み上げられる——約30秒の無音後に停止するだけで、これが時間制限と誤解されがちだ。それでも誤りが続く場合は、Macの音声テキスト変換トラブルシューティングガイドでステップごとに解説している。iPhoneでは、Appleフォーラムで予測変換を無効にすることも勧められている。音声入力で正しく認識した内容を予測変換が上書きしてしまうことがあるからだ。

もっと根本的な限界もある。Windowsの音声入力(Win+H)では、カスタム単語の追加も辞書のトレーニングもできない。Wordの別の音声入力画面では小規模な辞書を作れるが、多くの人が使うWin+Hは語彙を覚えさせることができない。これが、名前や専門用語の誤りに本当に効く唯一の解決策に繋がる。

ツールに単語を教える:カスタム語彙

Whisper
実際のWhisperアプリ——設定→文字起こしを開き、「カスタム単語」フィールドに名前や専門用語を入力。実際に動かして試してみよう。

これが内蔵ツールにはできない解決策だ。WhisperのローカルモードでWhisperモデルを使うと、「カスタム単語」フィールドが使える——聞き取ってほしい名前、製品名、専門用語をカンマ区切りで入力するリストだ。「Kubernetes、PostgreSQL、Remskill、田中太郎」と入力しておけば、それらが発話に登場したとき正しく綴るように文字起こしが誘導される。設定→文字起こしに無料のローカル機能として存在する——カードも不要、クラウドも不要。

知っておくべき注意点がある:カスタム単語はWhisperモデルの機能だ。より速いローカルオプションのParakeetはカスタム単語やプロンプトヒントを受け付けない——その説明にはっきり書いてある。語彙を教えることが重要なら、ParakeetではなくWhisperモデルを選ぼう。

この機能がどれほど重要かを、下の娘から学んだ。音声入力を一度見せた——押して、話して、離す。彼女はすぐに、なくした歯と歯の妖精のレートについて90語のメールを祖母に書いた。質問なしで。しばらくして、むっとした顔で戻ってきた。親友の名前を何度間違えても直らないと言って。彼女は「語彙のギャップ」という概念を知らない。ただ名前が間違っていると分かっていた。カスタム単語にその名前を追加したら、不満は出なくなった。普通の人は音声入力が名前を間違える理由を理解したいわけじゃない。名前を打ち込む欄が欲しいだけだ。そのフィールドこそが、このセクションの要点だ。

もう一つのオプション:Whisperには「プロファイル」設定がある——「速い」「バランス」「正確」の3つで、モデルがどれだけ丁寧に聞くかを制御する。「正確」は遅くなるが精度が上がる。さらに、Whisperが搭載する8種類のモデルから大きいものを選ぶ——Baseの約140MBからLarge v3の約3GBまで——と速度と引き換えに精度が向上する。どれが「正解」というわけではなく、誤りの種類に応じて調整するためのつまみだ。どのモデルを使うべか迷ったときは、Whisperモデルの選び方ガイドでトレードオフを解説している。

残りを直すクリーンアップパス

Thinking...
Whisperのオプション機能:AI クリーンアップパスが生の文字起こしを処理し、テキストがカーソルに挿入される前に文法、句読点、大文字小文字を修正する。

音声品質が整って語彙も登録した後でも、残りのエラーが少し出ることがある。Whisperは生の文字起こしに対してオプションのAIクリーンアップパスを実行できる——テキストがカーソルに届く前に、文法、句読点、大文字小文字を修正し、「えー」「あの」などのフィラーワードも除去する。デバイス上で無料で動くか、OpenAIのCloudモードで自分のAPIキーを使って実行できる。

これは最初の手段ではなく、最後の安全網だ。マイクを直し、部屋を静かにし、言語を設定し、語彙を教える——その後、クリーンアップパスで残りを仕上げる。ファンの音を拾い続ける内蔵マイクをAIテキスト補正でカバーしようとするのは、高価なツールで間違った問題を解こうとしているようなものだ。私自身それをやった——クリーンアップパスを先に実装して言語選択を後回しにし、まったく逆の順番で進め、自分のアプリを使いながら1ヶ月間不思議に思い続けた。細かい制御を求める人向けに、Whisperプロンプティングガイドで出力の調整方法をより詳しく説明している。

録音のホットキーは、WindowsがCtrl+Space、MacがCommand+Optionで、どちらも設定から変更できる。既存のショートカットと競合する場合はカスタマイズしよう。

内蔵ツールでは解決できない場合

答えが「修正」ではなく「別のツール」や「ツールなし」のこともある。30語程度のテキストを時々送るだけなら、Apple DictationやWindowsの音声入力は無料で使えて組み込まれているから、完璧な精度を追い求めるのはやり過ぎだ。すでにあるものを使おう。

でも、本当の限界がある。Windowsの音声入力はインターネットが必要で、語彙を覚えさせることができない。名前や製品名、技術的な専門用語を毎回間違えて、どこにも登録できないという問題に直面しているなら、内蔵ツールではその用途に対して本当に対応できない。そこが、語彙を学習できるオフラインツールの出番だ。それに、自分で書くものを音声入力するのではなく、複数の話者がいる会議の文字起こしが主な目的なら、それは全く別のカテゴリのツールになる——音声入力じゃなく会議文字起こし。音声入力アプリを向いていない用途に無理やり使わないことだ。

音声入力の精度はどれくらい期待すべきか?

期待値は正直に設定しよう。クリーンな音声、既知の言語、登録済みの語彙があれば、修正が例外となり当たり前ではなくなる地点に達せる。公開されているWhisperのベンチマークでは、中程度の英語モデルでクリーンな読み上げ音声に対して単語エラー率約3%を記録している。実際の生活では——あなたのアクセント、部屋の環境、専門用語——もっと高くなる。それは普通のことだ。

目標はエラーゼロではない。同じ時間にキーボードで打ったよりエラーが少なければいい。そのハードルは皆が思うより低い。1〜2語を修正しても、毎分145語の音声入力は毎分40語のタイピングに勝る。一語おきに修正しているなら、上のリストにある何かがまだ直っていない。10語に一度の修正で済んでいるなら、もう十分に勝っている。

音声入力が違う言葉を打ち続けるなら、音声品質を直し、言語を設定し、名前を教える——あとはツールに打ち込みを任せて、あなたは別のことをすればいい。下の娘はまだそれを「おしゃべりパソコン」と呼んでいる。カスタム単語フィールドも言語選択も、押して→話して→離すの裏にある8つのモデルも、何も知らない。それが、実際にうまく機能している状態だ——誤りが消えて、ツールの存在すら気にならなくなるとき。

名前を正しく認識させたいですか?

Whisperをダウンロードして、最初のカスタム単語を追加してみてください。最初の一文で誤りが消えるはずです。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私で、たぶん返信も音声入力で書いています。

参考リンク