チュートリアル
音声入力を使う Windows 11
ハードウェアキーボードで Windows キー + H を押し、任意のテキストボックスにカーソルを置いて話しかければ、Azure 経由のオンライン音声入力がすぐに動作します。オフラインで好きなアプリに入力したい場合は、専用ツールをインストールしてください。このガイドでは両方の方法を最初から最後まで丁寧に説明します。
最終更新:2026年6月

ハードウェアキーボードで Windows キー + H を押し、テキストボックスにカーソルを置いて話すだけです。話した言葉がカーソルの位置に入力されます。標準搭載の音声入力は Azure のオンライン音声認識を使っているため、インターネット接続が必要です。オフラインで好きなアプリに入力したい場合は、専用ツールをインストールしてください。このガイドでは両方の設定を最初から最後まで説明します。
上の娘に「なんでメール送るのにそんなに時間かかるの?」と聞かれたことがあります。正直に答えるなら、私のタイピング速度は1分間に約40ワード、しかも90秒ごとに何かに邪魔される生活です。音声入力でその半分は解決しました。Windows 11 での肝は、ほとんどの人が気づかないショートカット一つ、Windows キー + H を長押しすると、入力中のどこにでも小さなマイクツールバーが現れます。
あとは話すだけで、言葉がカーソルの位置に入力されます。以下で正直にお伝えしますが、ちょっとしたメモ以上の作業には、標準搭載のツールより良い選択肢があると私は考えています。
Windows 11 で音声入力を使えるようにする方法は2つあり、違いは「処理がどこで行われるか」です。方法1は標準搭載の音声入力で、音声データを Microsoft の Azure サーバーに送り、そこで文字起こしして返してくれます。Teams でのメッセージ送信には十分ですが、Wi-Fi のない機内での給与スプレッドシート作業には向きません。
方法2は、自分のマシン上でオフラインに文字起こしを行うデスクトップアプリです。どのウィンドウでも使えます。このガイドを読み終える頃には両方を動かせるようになり、どちらを使い続けるかも判断できます。サポートメールで一番多い相談は「最初に間違った方法を選んでしまった」というものです。そのメールを読むのは私です。
方法1:Win+H を押して話す
Windows 11 · Win + H
必要なもの:Windows 11、インターネット接続、動作するマイク、テキストボックスにカーソルがあること。ダウンロードもアカウントも不要。所要時間:1分以内。
任意のテキストボックスを開く。 Word の文書、メール、ブラウザの検索バーなど、文字を入力できる場所ならどこでも。
ハードウェアキーボードで Windows キー + H を押す。 マイクボタンの付いた小さなフローティングツールバーが表示されます。
「聴取中」と表示されるまで待ち、話す。 カーソルの位置に話した内容が入力されます。
「聴取を停止」と言うか、マイクをタップして止める。 ツールバーが閉じ、入力した内容はカーソルのあった場所に残ります。
期待される結果:ツールバーに「聴取中」と表示され、話した言葉がリアルタイムでカーソルの位置に現れます。ツールバーのギアアイコンで「自動句読点」を有効にすると、話した内容に合わせてカンマや句点を自動で付けてくれます。
何も起きない場合:音声入力は Azure を使ったオンライン音声認識のため、インターネット接続、動作するマイク、テキストボックス内にカーソルがあることが必要です。接続がなければ文字起こしもできません。詳しい解決方法は2つ先のセクションにあります。
Windows 音声認識について書かれた古いチュートリアルを参考にしていますか?この機能は 2024年9月に、Windows 11 22H2 以降向けの Voice Access に置き換えられました。旧 WSR のコントロールパネルは古い Windows バージョンにのみ残っています。ガイドを見て音声認識ウィザードを開こうとして見つからない場合は、ガイドが古いのであってあなたの PC の問題ではありません。
標準搭載の音声入力で十分なとき

不要なソフトをインストールするよう勧めるつもりはありません。多くの場面では Win+H が正解で、しかも無料です。
短い内容で、接続があって、内容が重要でない場合は標準搭載のツールで十分です。Teams でのちょっとした返信、OneNote のクイックメモ、指で打つより話した方が楽な検索クエリ。自動句読点にも対応しており、Windows 11 上のあらゆる標準テキストボックスで動作します。オンラインで30語程度の内容なら、別のアプリを開くより話した方が断然速い。
もう一つの標準機能で混乱する人が多いので整理します。Voice Access と音声入力は別物です。Voice Access は PC 全体を音声で操作し、テキストも入力できます。Win+H とは異なり、一度言語をダウンロードすれば端末上でオフライン動作します。Windows 11 バージョン 22H2 以降が必要です。完全なハンズフリーで PC を操作したい(クリック、スクロール、アプリの起動など)場合は Voice Access が適切なツールです。音声入力とは役割が違います。
Win+H の限界(オフライン、精度、言語)
標準搭載のツールには3つの明確な限界があります。ちょっとしたメモなら問題になりませんが、長い文書や重要な作業になると3つとも邪魔になってきます。
オフライン非対応
音声入力の文字起こしはノートパソコンではなく Azure サーバー上で行われるため、インターネット接続が必要です。飛行機の中、トンネルを通る電車の中、Wi-Fi の届かない建物では使えません。
精度
Microsoft は音声入力の精度を公表しておらず、私が断言できる中立的なベンチマークもありません。ただ言えるのは、不安定な接続上のクラウドモデル、ノートパソコンの内蔵マイク、強いアクセントのいずれもが、手で修正が必要な文字起こし結果につながる要因だということです。
対応言語
音声入力は Microsoft が管理する約40言語の固定リストに対応しており、切り替え前に各言語をインストールする必要があります。多くの人には十分ですが、Microsoft が追加していない言語で作業する人には壁となります。
最も気になるのはプライバシーの問題です。音声入力した内容——子どもの学校へのメール、契約書の下書き、会議では口にできない半分まとまったアイデア——がすべて自分のマシンを離れてサーバーに送られます。5分遅れの Teams ミーティングならたいした問題ではありませんが、大切な内容については、音声データがどこに行くかを知っておく価値があります。
Win+H が動かない?よくある3つの原因
Win+H が反応しないとき、原因はほぼ3つのいずれかです。発生頻度の高い順に確認してください。
1. インターネットに繋がっていない、またはマイクが動作していない。
音声入力には接続と Windows が認識できるマイクが必要です。設定 > システム > サウンドを開き、話したときに入力デバイスのレベルが動くか確認してください。
確認方法:ツールバーが「聴取中」と表示されるようになればOKです。
2. カーソルがテキストボックスの中にない。
Win+H は入力可能なフィールド内にカーソルがある場合にのみ動作します。Word の文書やメール本文をクリックしてからショートカットを押してください。
確認方法:キーを押した瞬間にマイクツールバーが表示されればOKです。
3. ノートパソコンのファンクションキーが H を横取りしている。
一部のノートパソコンでは上部キーやメディアキーがリマップされており、キーボードユーティリティがショートカットを横取りすることがあります。
確認方法:代わりにタッチキーボードのマイクボタンを使ってみてください。そこで音声入力が動作する場合、問題はハードウェアショートカットなので、メーカーのキーボードユーティリティでキーを再割り当てしてください。
それでも解決しない場合、根本的な原因は言語パックのインストール未完了か、Windows 更新中の問題であることが多いです。そのような場合、私は標準搭載ツールと格闘するのをやめて、自分でコントロールできるものを設定します。それが下記の方法2です。それでも動かない場合に備えて、Windows で音声入力が動かない場合の別ガイドに詳しいチェックリストをまとめています。
方法2:専用の音声入力アプリを設定する
Whisper は私が作っているデスクトップアプリで、Win+H にできない3つのことができます。自分の CPU 上でオフラインに文字起こし、どのアプリでもシステム全体のホットキー一つで動作、そして固定されたクラウドモデルではなくハードウェアと言語に合わせてエンジンを選べます。完全なセットアップ手順を最初から最後まで説明します。
必要なもの:Windows 11、中程度のモデル用に約 1 GB の空きディスク容量、マイク、無料アカウント(最初は支払い方法不要)。接続が必要なのは初回のダウンロードだけで、以降の文字起こしはオフラインです。所要時間:5〜10分、ほとんどはモデルのダウンロード待ちです。
Whisper をダウンロードしてインストールする。 ダウンロードページからインストーラーを取得して実行します。期待される結果:アプリがメインウィンドウを表示して起動します。
サインインする。 プロンプトに従って無料アカウントを作成します。最初はカードは不要です。期待される結果:設定が利用可能なメイン画面が表示されます。
ローカルエンジンを選んでモデルをダウンロードする。 PC の性能に合った Whisper モデルを選ぶか、最速のローカルオプションとして Parakeet を選びます。期待される結果:プログレスバーが完了し、モデルが準備完了として表示されます。
ホットキーを確認する。 Windows のデフォルトホットキーは Ctrl+Space です:押しながら話して離します。他のショートカットと衝突する場合は設定で変更できます。
任意のアプリでテストする。 任意のテキストフィールド(ブラウザ、コードエディタ、チャットなど)をクリックし、Ctrl+Space を押しながら一文話して離します。テキストがカーソルの位置に入力されます。
期待される結果:モデルをダウンロードした後は、任意のアプリで Ctrl+Space を押しながら話して離すと、ダウンロード後のインターネット通信なしで言葉がカーソルに貼り付けられます。「Hey whisper」と言うと、テキストが確定される前に AI によるクリーンアップパスが走ります(設定で有効にした場合)。
ホットキーが誤動作する場合:設定でキーを再割り当てしてください。これは私自身が苦労して学んだことです。最初のホットキーハンドラーは、Windows の実際のキー押下1回に対して記録停止コールバックが6回発火していました。Windows の入力フレームワークが予測不能な間隔でゴーストの Ctrl+Space リリースイベントを生成するためです。クリーンな環境では動いていたのが、2つ目の言語入力が有効なノートパソコンでは壊れました。テレメトリーを取り、50ms のガードでは足りず、最終的に 300ms のデバウンスで解決しました。娘の評価は変わらず:「だからパパのメールは遅いんだ」。
言語対応について言えば、ローカルの Whisper エンジンは多言語モデルで 99 言語に対応し、.en ビルドは英語専用でその用途では少し速くなります。Parakeet エンジンは CPU 上で Whisper の 5〜10 倍速く動作し、英語と 24 のヨーロッパ言語(合計 25 言語)をカバーしますが、アジア言語と英語への翻訳機能はありません。オフラインファーストが重要な場合は、オフライン音声テキスト変換のガイドでエンジンについて詳しく説明しています。
Win+H vs Voice Access vs 専用アプリ
Windows 11 で音声をテキストにする3つの方法を並べて比較します。各ツールが公式にドキュメント化している内容のみを掲載しています。精度や速度の数値は作りません。
| ツール | 種類 | オフライン動作 | 料金 | 対応言語 | 適した用途 |
|---|---|---|---|---|---|
| Win+H 音声入力 | Windows 11 標準搭載 | 不可(Azure オンライン) | Windows に含まれ無料 | 約40言語、固定リスト | 任意のテキストボックスへの短いオンラインメモ |
| Voice Access | Windows 11(22H2+)標準搭載 | 可(端末内処理) | Windows に含まれ無料 | 限られたセット | ハンズフリーでの PC 全体操作 |
| Whisper(専用アプリ) | Windows + macOS にインストール | 可(ローカル CPU) | ローカル機能は無料、Cloud はアドオン課金 | 多言語 Whisper モデルで 99 言語 | 任意のアプリへのオフライン音声入力 |
オンラインで Teams にちょっと返信するだけなら、方法1がシンプルさで勝ちます。すでに PC に入っています。オフライン対応、アプリを選ばない使い方、または対応していない言語が必要になった瞬間、方法2をインストールする価値が生まれます。
ローカル vs クラウド:あなたの PC に合った Whisper モード
Whisper は2つのモードで動作します。選択はハードウェアとウェブアクセスの必要性によって決まります。
ローカルモードはすべて自分のマシン上で処理します。PC の性能に合わせて Whisper モデルを選びましょう:Base は約 140 MB でほぼどんな環境でも動き、Small は約 480 MB、Medium は約 1.5 GB、最高精度を求めるなら多言語対応の Large v3 が約 3 GB(十分な RAM が必要)。英語やヨーロッパ言語が中心なら最速のローカルオプション Parakeet(約 600 MB)も選択肢です。ダウンロード後はインターネットを一切使いません。
クラウドモードは逃げ道です。自分の OpenAI キーを使います:gpt-4o-mini-transcribe または gpt-4o-transcribe での文字起こし、カーソルにライブ回答を貼り付けるウェブ検索。キーはご自身で用意いただき、私たちは手数料を取りません。
私が自信を持って勧めるのはこうです:まずローカルモードを試してください。ここ4年以内の Windows PC なら、日常の音声入力にクラウドは不要で、ローカルモードなら音声データが自分のマシンに留まります。クラウドは壁にぶつかったときの逃げ道であって、デフォルトではありません。Whisper のローカル全機能はサインインした全ユーザーに無料で提供されており、最初は支払い方法は不要です。Cloud 機能は有料の Pro プランです。詳細は料金ページをご覧ください。ローカルモードの完全なウォークスルーは、Windows の音声テキスト変換ガイドにステップごとに説明があります。
専用アプリをスキップしていい場合
使わないものをインストールするより、Win+H を使い続ける方が良いです。次の条件がすべて当てはまる場合は、標準音声入力をそのまま使い続けましょう:
- 長い文書ではなく、短い内容を入力するだけ。
- 音声入力するときは常にオンライン。
- Microsoft の音声入力が対応している言語だけで作業している。
- 音声データの重要度が低く、マシンの外に出ても気にならない。
Win+H は無料で、すでにインストールされており、そういった用途には最適です。専用アプリが必要になるのは、これらの条件のどれか一つを超えたとき——飛行機の中、契約書の下書き、Microsoft が対応していない言語、または標準テキストボックス以外のアプリ——です。
正直な料金説明
Whisper のローカルモードはサインインした全ユーザーに無料で提供されます:Whisper および Parakeet の文字起こし、AI 補正、履歴、プリセット、カスタムホットワード、ハードウェアアクセラレーション、モデルのダウンロード、グローバルホットキー、これらすべてがカード不要で利用できます。Whisper Pro はその上に Cloud 機能を追加します:OpenAI クラウド文字起こし、クラウド AI 補正、音声ウェブ検索。Windows の標準音声入力は Windows の一部として無料です。プランの詳細は料金ページをご覧ください。時間が経つと内容が古くなるブログ記事の数字より、そこの正確な数字を直接確認していただく方が確かです。
2つの方法、1つの選択。オンラインで、短いメモで、内容が重要でないなら、Windows キー + H を押して話してください——無料でしかも PC にすでに入っています。飛行機の中で、好きなアプリで、Microsoft が対応していない言語で、または音声データを自分のマシンに留めたい瞬間が来たら、専用アプリを設定してください。私がその線を越えたのは、お弁当を作りながら片手でミーティングメモを3つ目に入力したときでした。それ以来、長いメールをタイピングすることはなくなりました。
自分の PC でオフラインを試す
Whisper をダウンロードして、Ctrl+Space を押しながら話して離す——インターネットなしで、どのアプリでも言葉がカーソルに貼り付けられます。
サインインしたアカウントはローカルモードが無料。最初はカード不要。Win+H でまかなえるなら、そのショートカットを使い続けてください——優れたものです。



