ガイド
Windowsで音声入力を使う方法 完全ガイド
Windowsには音声入力機能が標準搭載されています。任意のテキストボックスで Windows キー + H を押し、「聞いています」と表示されたら話すだけ。インターネット接続と動作するマイクが必要です。オフラインや複数アプリをまたいだ本格的な使用には、ワンホットキーで動く専用ツールが便利です。
最終更新:2026年6月

Windowsで音声入力を使うには、任意のテキストボックスにカーソルを置き、Windows キー + H を押します。音声入力バーが開いて「聞いています」と表示され、話した内容がそのまま入力されます。動作するマイク、インターネット接続、そして「設定」→「プライバシーとセキュリティ」→「音声認識」でオンライン音声認識を有効にする必要があります。
Windowsが自分の代わりに文字を入力してくれると知らない人がほとんどです。この機能はWindows 10と11に標準搭載されていますが、セットアップウィザードもなく、誰もあまり口にしないキーボードショートカットの裏に隠れています。それが Windows キー + H です。テキストボックスにカーソルを置き、Windowsキーを押しながらHを叩くと、画面上部に小さなバーが現れて聞き始めます。
本当にそれだけです。短い入力なら十分機能します。ただし、Microsoftが明記しているにもかかわらずほとんどの解説記事がスルーしている落とし穴があります。Windowsの音声入力は音声をMicrosoftのクラウドに送るため、インターネット接続がなければ何もできません。この一点が、標準機能で十分かどうかを決める分かれ目です。まず標準機能を正直に解説し、そのあとどこで限界が来るかを説明します。
ハウツー記事が隠しがちなことをここで言います。Windowsの音声入力は本物の、無料の、標準搭載機能です。カーソルが置けるテキストボックスならどこでも使えます。ブラウザ、Word、Slackのメッセージ欄、検索バー。何もインストール不要。ショートカットは Windows キー + H。一度知ってしまえば、きっと使い続けるはずです。
正直な答えは二部構成です。前半:標準機能をオンにして使いこなす方法(これが大半の人が必要としていることです)。後半:Win+H の限界、つまりオフライン環境、長い口述入力、毎回聞き間違える単語など、専用ツールが解決できる点。両方をカバーし、代替手段を2分でセットアップする方法もお伝えします。そして、Win+H で十分な場面も正直に伝えます。
Windowsの音声入力とは何か

Windowsの音声入力は、キーボードを使わず声でテキストを入力できる標準機能です。Windows 10とWindows 11に搭載されており、費用はかかりません。カーソルを置けるテキストボックスならどこでも使えます。Microsoftの公式説明を引用する価値があります。音声入力は「Azure Speech Servicesを使用するオンライン音声認識」を利用すると明記されています。この一文から三つのことが分かります。
第一に、インターネット接続が必要です。音声はMicrosoftのサーバーに送られてテキストに変換されるため、接続がなければ何もできません。第二に、動作するマイクが必要です。ノートパソコン内蔵のマイクで問題ありません。第三に、認識がクラウドで行われるため、精度は全体的に良好で、PCのCPUに負荷をかけません。まとめると、無料で精度は高いが、オンライン専用でプライバシーは限定的というトレードオフです。
古いWindows音声認識、新しいVoice Access、または特定アプリ内の音声入力と混同される方もいます。「話しかけると今書いているものに文字が入力される」という日常的な用途なら、使うべきは Windows キー + H で開く音声入力です。次のセクションが具体的な使い方です。
Windows キー + H でオンにする
起動するアプリも、クリックするウィザードもありません。単語を入力したい場所にカーソルを置き、キーボードショートカットで音声入力を起動するだけです。設定で一箇所寄り道が必要になる場合もありますが、手順全体はシンプルです。
文書、メール、チャット、アドレスバーなど、任意のテキストボックスをクリックしてカーソルを点滅させます。Windows キー + H を押します。画面上部に小さな音声入力バーが表示されます。「聞いています」と表示されるまで待ってから話してください。早く話し始めると最初の言葉が切れてしまいます。普通に話すと、カーソルのある場所にテキストが入力されます。停止するには、バーのマイクボタンを押すか、ショートカットをもう一度押します。
何も起きない場合、原因はたいてい二つです。マイクが設定されていないか許可されていない、またはオンライン音声認識がオフになっています。「スタート」→「設定」→「プライバシーとセキュリティ」→「音声認識」から「オンライン音声認識」をオンにしてください。バーが開いても「聞いています」にならない場合は、ほぼ間違いなくインターネット接続の問題です。認識はMicrosoftのサーバーで行われるためです。(Win+H が頑固に動かない場合は、Win+H が動かない原因と解決策 についての別の記事も書いています。)
本格的な使用に向いた方法:どこでも使えるワンホットキー
標準機能は、電車内でネットが使えない、長い口述入力がある、毎回聞き間違える単語があるといった壁にぶつかるまでは快適です。解決策はシステム全体で動くツールを使うことです。自分のPCで動き、最後の言葉が切れないよう短い余白を持ち、どのアプリでもワンホットキーで使えます。必要なのは Windows 10 以降のPC、動作するマイク、そしてアカウントだけ。ローカル処理のパイプライン全体は、サインイン済みのアカウントなら無料で、サインアップ時にクレジットカードは不要です。手順はこちらです。
ステップ 1 — Whisper をインストールしてサインインする。
ダウンロードページからダウンロードしてインストールし、無料アカウントを作成します。カード不要。ローカル音声認識パイプラインがすぐに使えます。
アプリのトレイアイコンが表示され、セットアップウィザードでモデルを選ぶよう促されれば成功です。
ステップ 2 — 音声認識の方式を選ぶ。
アプリが自動で選ぶことはありません。三択です。Cloud(OpenAI、自分のキーを使用)、Local Parakeet、Local Whisper。Win+H のオンライン専用の動作をオフラインに切り替えたい場合は、ローカルエンジンを選んでください。詳細は二つ下のセクションで説明します。
モデルのダウンロードが完了して「準備完了」と表示されれば成功です。
ステップ 3 — ホットキーを確認する。
Windowsではデフォルトが Ctrl+Space のプッシュトゥトークです。既存のショートカットと衝突する場合は設定で変更できます。Win+H と異なり、キーを押し続ける限り録音が継続します。
テスト録音が任意のテキストフィールドに貼り付けられれば成功です。
ステップ 4 — どこにでもカーソルを置いて話す。
文書、メール、チャットボックスをクリックし、ホットキーを押したまま一文話して離します。フォーカスがあるアプリのカーソル位置に文字起こしが貼り付けられます。
話した文章がテキストボックスにテキストとして入っていれば成功です。
時間がかかるのはセットアップではなく、初回のモデルダウンロードだけです。それさえ終われば、どのアプリで文章を書くときも、タイピングから話すことへと変わります。Wi-Fiが切れても動き続けます。
これまで Windows 11でテキスト読み上げ を使ったことがある方には、自動で止まらないホットキー版と思えば分かりやすいでしょう。
句読点:コマンド方式と自動方式
そのまま話した音声には句読点がありません。どの音声入力ツールも二通りの方法でこれを処理します。Windowsの音声入力は両方を備えています。話し方に基づいて自動で読点と句点を追加する「自動句読点」は、音声入力バーの歯車アイコンから切り替えられます。また、「読点」「句点」「改行」「引用符開く」「引用符閉じる」と声で言えば、その記号が挿入されます。
バーの歯車メニューは一度確認する価値があります。自動句読点のほかに、不適切語フィルターとデフォルトマイクの選択もあります。どれも隠れた場所にはなく、Win+H で開くバーからワンクリックで到達できます。話している間は、ツールが聞いていることを示す小さなインジケーターが表示されます。どの優れた音声入力ツールも採用している仕組みで、認識されているかどうか分からないという不安がなくなります。
コマンド方式の句読点には限界があります。「読点」「改行」「句点」と読み上げながら書式を指示する必要があり、短文なら問題ありませんが長い段落では疲れます。自動句読点は助けになりますが、「えーと」や言い直しも含めた話した内容の文字起こしがそのまま届きます。それを使える文章に整えるのは別の作業です。そこで専用ツールが差をつけます。詳しくは後述します。
ローカルかクラウドか:Win+H が与えてくれない選択肢
Windowsの音声入力は、ローカルかクラウドかの選択をあなたに代わって決めています。答えはクラウドの一択です。話すたびに音声がMicrosoftのサーバーに送られます。買い物リスト程度なら気になりませんが、給与明細の備忘録や外部に出したくないクライアントへのメールでは問題になります。専用ツールなら、標準機能が省いたこの選択肢を手に入れられます。アプリが選択を求めるため、三つの方式の違いをきちんと理解しておくことをお勧めします。
- Local Parakeet — NVIDIAのTDTエンジンで、約600MB。最速のローカル選択肢で、CPUでのWhisperより5〜10倍速い。英語と24の欧州言語を含む計25言語に対応。英語への翻訳機能はなし。英語や欧州言語で入力し、速さと完全ローカル処理を両立したい場合の第一候補です。
- Local Whisper — 同じマシンではParakeetより遅いが、多言語ビルドは99言語に対応し英語への翻訳もできる。英語専用ビルドは英語のみで99言語対応ではない。中国語、日本語、韓国語、または翻訳作業にはこちらを選んでください。Parakeetには対応できない言語です。デフォルトの英語モデルは約480MB。
- Cloud(OpenAI、BYOK) — 最高の精度とウェブアクセス。自分のOpenAIキーを使い、料金はOpenAIに直接請求される。文字起こしはデフォルトでgpt-4o-mini-transcribeを使用。Win+H と同様にインターネット接続が必要だが、あなたのキーであなたの判断で使える。Cloud機能は Whisper Pro の一部です。
率直に言えば、日常的な文章入力にはローカルエンジンで十分であり、それこそ Win+H が提供できない唯一の点です。ローカルの二方式はどちらも完全にあなたのPCで動作し、サーバーには何も送られません。クラウドが真価を発揮するのは、難しい録音で最高精度を求めるときや、話の途中でウェブの情報を参照させたいときです。まずローカルから始め、物足りなさを感じたときだけクラウドを使ってみてください。
読点を言わずに整ったテキストを得る
Win+H でも専用ツールでも、出発点は同じです。途切れのない長い文章。「えーと締め切りを金曜に変えてクライアントに連絡して昼前に部屋を二人分予約して」と言っても、どんな音声エンジンも句読点なしのテキストを返します。Win+H は話しながら句読点を付けることも、コマンドで指定することもできます。ただし「えーと」を除去したり、途中で言い直した文を修正したりはしてくれません。
その整理こそ、AIパスが力を発揮する場面です。起動フレーズ「Hey whisper」と言うと、文字起こしされたテキストが届く前に補正されます。フィラーの削除、繋がった文の分割、大文字小文字の修正。ローカルモードではあなたのPCでOllama経由でのモデルが動き、クラウドモードではデフォルトでgpt-5-miniが使われます。雑然とした話し方で一度話すだけで、実際に送れる文章が手に入ります。
えーと締め切りを金曜に変えてクライアントに連絡して昼前に部屋を二人分予約して
締め切りを金曜日に変更し、クライアントに連絡して、昼食前に二人分の部屋を予約してください。
汎用エンジンが繰り返し間違える言葉の問題もあります。製品名、同僚の名前、業界用語など。Win+H にはそれを教える方法がありません。専用ツールはカスタム語彙を優先させることができ、毎日使う言葉が正しく認識されるようになります。「見出しと言えば書式が自動で整う」などと謳っているものは現実ではなくデモです。音声で素早くきれいに言葉を入力し、レイアウトはいつものキーで整える。それが現実的な使い方です。
この「話してから整える」というフローが、人々が乗り換える理由の全てです。すべてのアプリで音声入力をもっと速く使える のに、オンライン専用の標準バーで読点を言い続ける必要はありません。
Win+H で既に十分な場面

すでに手元にある無料のものが正解という場合もあります。正直に言います。Windowsの音声入力は多くの人が必要とすることの大部分をカバーしており、何かを追加インストールするのはやり過ぎになります。
ほぼ常時オンラインで、入力が短い文章の範囲に収まり、音声がMicrosoftのクラウドを通ることを気にしないなら Win+H で十分です。Slack への二行の返信、検索クエリ、ドキュメントへの簡単なメモ。Windows キー + H を押し、「聞いています」を待って話せば終わり。無料で標準搭載、自動で句読点も付きます。一行のリマインダーのためにアプリをインストールするよう勧めるつもりはありません。
標準機能が不便に感じ始めたら専用のシステム全体ツールの出番です。フライトや電車でインターネットが使えない、タイムアウトするバーよりプッシュトゥトークが快適なほど長い口述入力がある、PCの外に出したくないテキストのプライバシーが必要、毎回聞き間違える単語がある、またはどのプログラムでも同じように動くホットキーが欲しい。その水準以下では Win+H がコストとセットアップの手軽さで勝ります。その水準を超えると差は明確です。
まだどちらか迷っているなら、Win+H の代替ガイド にある比較がそれぞれの選択肢がどこに向いているかを、マーケティング的な修飾なしに説明しています。
Windowsは何年も前から音声入力を搭載していながら、誰もあまり口にしないショートカットの裏に隠していました。これで知っています。Windows キー + H、「聞いています」を待って、話す。ほとんどの素早い作業はこれだけで完結し、しかも無料です。オフラインになったとき、メッセージより長い文章を口述するとき、特定の単語が毎回間違って変換されるとき、どの壁にぶつかったかが分かるでしょう。そしてどのツールがその壁を越えられるかも。この記事の大半も音声で書きました。カーソルがどのテキストボックスにあるかを気にしないアプリで。その間、インターネットが二回切れました。音声入力は気にしませんでした。
オフラインでも使える音声入力を試す
ホットキーを押しながら話して離す。電車の中でも、機内でも、Wi-Fiが切れていても、カーソルがあるテキストボックスに文字起こしが届きます。
サインイン済みアカウントなら無料のローカルモードを利用できます。開始にカードは不要です。



