Denys Medvediev

ガイド

音声テキスト変換 英語学習者向け

英語が母国語でなくても、話すだけで英文を書けます。ホットキーを押して話すと、どのアプリでもカーソル位置にきれいな英文が貼り付けられます。AIがフィラーワードや文法を整えます。発音の指導ツールではなく、ライティング支援ツールです。

最終更新: 2026年6月

日当たりの良い窓際の机に置かれたノートパソコンとノート。語学学習と執筆を想起させる風景

ESL学習者向けの音声テキスト変換を使えば、英語が母国語でない方もタイピングの代わりに話して英文を書けます。Whisperのようなツールが任意のアプリのカーソル位置に英語の発話を書き起こし、AIが文法とフィラーワードを修正します。アクセント認識の精度は高いものの完璧ではなく、あくまでライティング支援ツールです。発音の指導はしません。

英語は私の第三言語です。ウクライナ語とロシア語の次に習得しましたが、主にドキュメントやバグレポートから学んだので、聞こえるほど味気ない話です。長年、英語で書くときに遅かったのは考えること自体ではありませんでした。遅かったのはタイピングでした。適切な単語を探し、スペルに自信が持てず、頭の中にあった文章がキーボードと画面の間でどこかに消えてしまうのです。

話すことはどんな言語でもタイピングより速い。学んでいる途中の言語でも同じです。音声テキスト変換はそのギャップを埋めます。口に出して言えるレベルの英文を言えば、ツールが書き留めてくれます。誰も教えてくれないことがひとつあります。ツールはあなたの成績ではなく、あなたのアクセントを聞くということです。今は本当にアクセントに強い。でもこれは先生ではない。その両方について正直にお伝えします。

簡単にまとめます。現代の音声テキスト変換はWhisperファミリーのモデルで動いており、多様なアクセントを含む大量の実音声データで学習されています。つまり英語が母国語でない方が話しても、ほとんどの場合、使える英文テキストが得られます。完璧ではないですが、あとで修正できる十分な下書きになります。

ESL学習者が考えるべき問いは「理解してもらえるか」ではありません。たいていは理解されます。本当の問いは、どのモデルがアクセントや多言語に最も強いか、ローカルとクラウドのどちらで動かすか、そしてAIクリーンアップ機能を使って話し言葉の下書きをきれいな書き言葉の英文にする方法です。すべて順番に説明し、2分でセットアップし、ディクテーションツールが向かない場面も正直に伝えます。

母国語でない英語をなぜ声で書くと楽になるのか

木製の机の上に置かれた開いた語学テキストとノート、そしてノートパソコン

第二言語で書くとき、難しいのはアイデアであることはほとんどありません。難しいのは、アイデアとページの間の摩擦です。言いたいことはわかっている。口では言える。でもタイピングするとなると、スペルや語順、キーボードレイアウトと格闘しているうちに、思い描いていた文章が静かに消えていきます。話すと、その格闘のほとんどを省けます。

ディクテーションのスループットは1分あたり約145語で、タイピングの約40語と比べてかなり速い。母国語の話者にとっては快適な速度アップです。第二言語や第三言語で文章を書いている人にとっては、その差はさらに大きい。非母国語でのタイピングはそもそも遅く、ミスも多いからです。節約したエネルギーを、本当に大切なこと——正しく言うこと——に使えます。メカニカルな作業ではなく。

もうひとつ、静かな恩恵があります。文章を話して書き起こされたものを見ると、それが本当に意味をなしているかすぐにわかります。ぎこちない表現は、頭の中では必ずしもそう聞こえなくても、画面ではぎこちなく見えます。そのフィードバックループは学習者にとって有益です。ちょうど講義をノートにまとめる学生に役立つのと同じように。文法を自動で直してくれるわけではありません——それは2セクション先のAIパスの仕事です——ですが、自分の言葉をページで見ることは、それ自体が小さなレッスンになります。

ホットキーを押して英語で話すと、カーソル位置にテキストが現れる

仕組みはシンプルです。それがこのツールの魅力です。ホットキーを押して話し、離すと、フォーカスのあるテキストフィールドのカーソル位置に書き起こしが貼り付けられます。Whisperはキーを離した後も少し余韻を持つので、最後の単語が途切れません——英文の終わりをまだ探しているときに便利です。OSのカーソル位置に貼り付けるので、メール、Googleドキュメント、チャット、課題のどこでも同じように動きます。

アプリごとに設定する必要はありません。ブラウザ拡張機能も、プラグインも、トークンの貼り付けも不要です。カーソルをテキストボックスに置いて話せば、言葉が現れます。話している間は小さなカプセルが表示されるので、録音中であることがわかります。

Cancel
録音オーバーレイ: 話している間に表示される小さなカプセル。Whisperがリスニング中であることを示します。

ホットキーは一度設定したら忘れていいものです。WindowsではCtrl+Space、MacではCommand+Optionを話している間ずっと押し続けるプッシュトゥトーク方式です。すでに使っているショートカットと競合する場合は設定から変更できます。Google Docsの音声入力を設定したことがある方は同じ発想です。ただし一つのアプリに閉じ込められていない点が違います——同じキーが画面上のすべてのテキストボックスに使えます。

2分でセットアップ(Windows・Mac対応)

必要なのは、Apple SiliconのMacまたはWindows 10以降のPC、使えるマイク、そして文章を書きたいアプリだけです。ローカルパイプライン全体は、サインインしているアカウントであれば無料で使えます。サインアップ時に支払い方法の登録は不要です。手順は以下のとおりです。

ステップ1 — Whisperをインストールしてサインイン。

ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。クレジットカード不要。すぐにローカル書き起こしパイプライン全体が使えるようになります。

アプリのトレイアイコンが現れ、セットアップウィザードでモデルを選ぶよう促されれば成功です。

ステップ2 — 書き起こしの方法を選ぶ。

アプリが自動で選ぶことはありません。選択肢は3つあります。Cloud(OpenAI、自分のキーを使用)、Local Parakeet、Local Whisperです。アクセントへの対応力と翻訳機能を重視するなら、多言語対応のWhisperモデルが最も重要です——詳細は次のセクションで。

モデルのダウンロードが完了し「準備完了」と表示されれば成功です。

ステップ3 — ホットキーを確認する。

WindowsのデフォルトはCtrl+Space、MacのデフォルトはプッシュトゥトークとしてCommand+Optionを押し続けます。Macではプロンプトが出たときにアクセシビリティ権限を付与してください。これがないと、他のアプリへのカーソル位置への貼り付けができません。

テスト録音が任意のテキストフィールドに貼り付けられれば成功です。

ステップ4 — テキストボックスにカーソルを置いて話す。

メール、ドキュメント、チャットを開き、テキストボックスをクリックして、ホットキーを押し続けながら英語で一文を話して、離します。カーソルがある位置に書き起こしが現れます。

話した英文がテキストとしてボックスに入っていれば成功です。

Whisper
設定画面を開いたWhisperデスクトップアプリの実際の画面。書き起こしとAIパネルが開いています。

時間がかかるのはモデルのダウンロードであって、セットアップ自体ではありません。あとは上記の4ステップだけです。起動したら、英語のメールを書くことがタイピング作業ではなく、会話作業になります——英語がまだ練習中のパートなら、それはまさに残しておきたいパートです。

Windowsでの音声テキスト変換 · Macでの使い方

アクセントへの対応力と99言語トリック

アクセントについて正直に言います。ここが誠実な答えが重要な場面です。Whisperのモデルは、ノンネイティブの英語を大量に含む多様な実音声データで学習されています。実際には、強いノンネイティブアクセントでもほぼ正確に書き起こされます。「ほぼ」ですが。強いアクセント、早口、バックグラウンドノイズ、または同じ文に固有名詞と技術用語が混在する場合は、ときに失敗することがあります。精度は高い。でも魔法ではない。すべてのアクセントを完璧に認識すると言う人は、デモを売っているのであって、日常の現実を売っているのではありません。

精度を上げる実用的な手段がふたつあります。モデルを変えるよりも効果的です。ひとつ目はマイク——$20のUSBマイクは、どんなモデルアップグレードよりも精度向上に貢献します。明瞭に、少しゆっくり話すことも助けになりますが、英語を練習しているなら特に苦にならないでしょう。ふたつ目はモデルのファミリー。多言語対応のWhisperビルドは99言語をカバーし、英語のみのビルドよりアクセント付き英語への対応が優れています。世界中のより多くの音声を学習しているからです。Local Parakeetは英語と24の欧州言語(合計25言語)をカバーし、最速のローカルオプションですが翻訳はできません。英語専用の.enビルドはまさにそのとおり——英語のみで翻訳なしです。

最後の点が、学習者にとって本当に便利なトリックを生みます。多言語対応のWhisperモデルは書き起こしと同時に英語に翻訳できます。つまり英語の文章がうまく出てこないとき——母国語では思い浮かぶのに英語では消えてしまう単語があるとき——母国語で言えば英語の下書きが返ってきます。洗練された翻訳ではないので、そのまま送るわけにはいきませんが、一番得意な言語で下書きして英語で磨くための方法として、本当の壁を取り除いてくれます。考えている言語で言って、学んでいる言語で直す。

ローカルとクラウド: 語学学習者に合うのはどちらか

ESLの書き物のほとんど——メール、宿題、メッセージ、エッセイの下書き——にはローカルモードで十分であり、無料でオフラインで使えます。クラウドが活きるのは、難しい録音で最高精度を求めるときや、文章の途中で何かを調べたいときです。アプリが選択を求めるので、賢く選べるよう3つの方法の違いを説明します。

違いは速度、言語カバレッジ、そしてあなたの音声がどこに送られるかです。

  • Local ParakeetNVIDIAのTDTエンジンで約600MB。最速のローカルオプションで、CPUでWhisperより5〜10倍速い。英語と24の欧州言語(合計25言語)に対応。英語への翻訳はなし。母国語が欧州言語で英語で書くなら、手軽で完全オフラインの選択肢です。
  • Local Whisper同じマシンではParakeetより遅いですが、多言語ビルドは99言語をカバーし、アクセントへの対応が優れており、英語への翻訳もできます。中国語、日本語、韓国語、アラビア語、またはParakeetが対応していない言語や、「母国語で下書き」トリックにはこちらを選んでください。デフォルトの英語モデルは約480MBです。
  • Cloud (OpenAI, BYOK)最高精度とウェブアクセスを備え、自分のOpenAIキーを使ってOpenAIに直接課金されます。デフォルトではgpt-4o-mini-transcribeで書き起こします。インターネットが必要なので、音声がマシン外に出る唯一の方法です。CloudサーフェスはWhisper Proの一部です。

正直なところ、日常の英語ライティングには、ローカルの多言語Whisperモデルがほとんどの学習者に十分対応します。99言語、まずまずのアクセント対応、必要なときの英語翻訳、そしてサーバーに送信するものは何もない。どちらのローカルエンジンも完全にあなたのマシン上で動きます。個人的なエッセイ、就職応募書類、慎重に書きたいメッセージなど、プライバシーを守りたいものを書き起こすときに重要です。まずローカルから始めましょう。精度が足りないと感じたときだけクラウドを使えばいい。

話し言葉の下書きをきれいな英文に仕上げる

どんな言語でも、生の書き起こしは一文に続きがない状態で出てきます。口で言うように文章を言うと——フィラーワード、自己修正、声に出さなかったカンマも含めて——それが音声エンジンが返す句読点のない壁です。学習者にとって、ここが音声テキスト変換の真価を発揮する場所です。クリーンアップパスが第二言語で最も難しい部分を担ってくれるからです。

Whisperは生のテキストにAIパスをかけてから出力できます。「Hey whisper」と言うと、話し言葉の下書きが強化されます——フィラーワードが削除され、句読点が追加され、連続した文章が分割され、明らかなミスが修正されます。ローカルモデルではOllamaを通じて実行され、クラウドモードではデフォルトでgpt-5-miniが使われます。意味を書き直すのではなく文法と構造を整えるので、結果はあなたらしさを保ちながら、よりきれいになります。

Thinking...
変換前

so um i want to ask about the the deadline for the assignment because i am not sure is it friday or next monday and also can i send it by email

変換後

I want to ask about the deadline for the assignment, because I'm not sure if it's Friday or next Monday. Also, can I send it by email?

正直な限界をひとつ。AIパスは文法と構造を直しますが、なぜ変えたのかは教えてくれません。ルールを学ぶことが目標なら、修正前後を並べて読んでください——その差分がレッスンです。締め切り前にきれいなメッセージを送ることが目標なら、クリーンアップして次に進んでいい。どちらも正しい使い方で、目標が違うだけです。今日どちらを求めているかは、あなただけが知っています。

この「話してからクリーン」という流れは、ひとつのアプリだけでなく書くもの全てに使えます——声でより速くタイピングできるのはメール、ドキュメント、チャットも同様で、長い段落が一語ずつ丁寧に打つ壁ではなく、数文の話し言葉になります。

音声テキスト変換がESL学習者に向かない場面

二方向を指す風化した道標。ツール選びを示す

時間を無駄にさせるくらいならクリックを失うほうがいい。なのでディクテーションツールが間違った答えになる場面を正直に言います。発音を上達させることが目標なら、これは違います。音声テキスト変換は音声をテキストに変えるだけで、アクセントを採点したり、言葉の言い方を直したり、「thirty」が「dirty」に聞こえたことを教えてくれたりはしません。発音には、発音専用の語学アプリ、チューター、または会話パートナーが必要です。書き起こしツールはライティング支援であり、スピーキングコーチではありません。そう思わせるのは不誠実でしょう。

もうすこし正直な撤退路を示します。短いメッセージを書き起こすだけなら、すでにマシンに入っている無料ツールで十分です——Windowsなら「Windowsキー + H」で内蔵の音声入力バーを開けます。Macならキーボード設定のシステム設定で音声入力をオンにすれば使えます。Apple Siliconではデバイス上で処理できます。Windowsの音声入力はインターネット接続が必要でMicrosoftのサーバーを経由するため、オフラインではありません。文法ルールをわかりやすく教えてほしいなら、それは文法チェッカーや学習アプリの役割です——ここのAIクリーンアップはテキストを直すのであって、レッスンはしません。

専用のシステム全体ディクテーションツールを使うべきなのは、ライティング自体がボトルネックになっているときです。長いメール、エッセイ、申請書類など、英語でタイピングするより話した方が速く、WindowsでもMacでもすべてのアプリで同じひとつのホットキーが使いたいとき。その基準を下回るなら、無料のものを使うか、目的に合ったツールを使いましょう。正しい判断がときに私たちから遠ざかることもあります。それはいつでも正直に伝えます。

どこで書き起こすか選んでいるなら、プラットフォームガイドに詳しいセットアップが載っています——Windowsでの音声テキスト変換はPC上で同じ手順をステップごとに説明しています。

英語は私の第三言語です。このガイドのほとんどを、テキストボックスに話して、クリーンアップパスに耳では気づかない継ぎ目を直してもらいながら書きました。これが正直なピッチです。英語を完璧にしてくれるわけでも、ルールを教えてくれるわけでもない。でも、頭の中にある文章を指の動きよりはるかに速くページに乗せてくれます。修正はあなたの仕事。速くなる部分が助けです。

次の英語メールを話して書いてみましょう

ホットキーを押したまま英語で話して、離す。カーソルがある場所にきれいなテキストが現れます——メール、ドキュメント、その他すべてのアプリでも。

サインインしているアカウントなら無料でローカルモードを利用できます。開始時にクレジットカードは不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのはおそらく私で、返信もほぼ音声入力でしています。

参考資料