チュートリアル
Wordで音声入力: Win+H、ディクテーション、それとも別の方法
Wordには音声で入力する方法が標準で2つあり、さらにシステム全体で使えるアップグレードが1つあります。それぞれがどこにあって、どう有効化し、どこで限界に達するのかを解説します。
最終更新:2026年6月

Wordの音声入力は、標準で2通りの使い方ができます。Win+Hを押せばどんな入力欄でもWindowsの音声入力が開き、WordのホームタブにあるDictateボタンをクリックする方法もあります。どちらも文字起こしにはインターネット接続が必要です。Whisperのようなローカルツールを加えれば、Wordでも他のすべてのアプリでもオフラインで音声入力ができるようになります。
先月、700語のステータスレポートをキーボードで打つのに19分かかりましたが、毎分145語で口述すると5分弱で終わりました。同じ文書、同じWordのウィンドウ、同じ書き手です。変わったのは、Microsoftの一番有名なアプリが何の入力に耳を傾けているか、それだけでした。Wordは何年も前から「耳」を持っていたのに、それをオンにする2つのボタンに気づいた人がほとんどいなかったのです。(私は通話をミュートしようとしてWin+Hを押すという、少し恥ずかしい形で見つけました。)
ここに問題があります。Wordユーザーは標準の2つの音声入力ツールのうち片方を見つけると、それが唯一の方法だと思い込み、最初に当たったツールだけで音声入力の良し悪しを判断してしまうのです。今、Windows 11はWin+Hで音声入力を提供し、Microsoft 365はWordの中にDictateを用意していますが、これらは要件の異なる別々のツールです。このガイドでは、Wordの中で両方を有効にする方法、それぞれがどこで止まるのか、そして両者が取りこぼす部分をシステム全体で使えるツールがどう補うのかを取り上げます。
読み終える頃には、1分以内にWordで音声入力が動く状態になり、必要ならオフライン環境も整えられます。私たちのサポート受信箱に届く音声入力の質問のほとんどは、結局「自分が使っているのはどちらなのか」に行き着きます。そのメールを私自身が読んでいるので、これは胸を張って言えます。
Wordの音声入力には経路が2つある、1つではない
両方ともMicrosoftが作ったもので、だからこそ誰も見分けがつかないのです。Windowsの音声入力はオペレーティングシステムの一部です。Win+Hで開き、フォーカスのあるアプリの上にふわりと浮かび、カーソルのある場所に文字を打ち込みます。WordでもNotepadでもブラウザのフォームでも、同じように動きます。一方DictateはMicrosoft 365の一部です。Wordのホームタブにあり、Officeアプリの中だけに存在し、有効なMicrosoft 365のサブスクリプションが必要です。
身も蓋もない事実を言うと、Wordで普通の段落を口述する分には、両者はほぼ同じ結果を返します。どちらも音声をMicrosoftのオンライン音声サービスに通しているからです。本当に違うのは、適用範囲と要件です。Win+HはWindowsに付属していて、どのアプリにもついてきます。DictateはMicrosoft 365のプランに紐づいていて、書式設定コマンドのようなWord固有の技を知っています。Microsoft 365のサブスクリプションがあって一日中Wordの中で過ごすなら、Dictateから始めましょう。Word、Outlook、Slack、ブラウザに書くなら、Win+Hから始めましょう。どちらも、今すでに持っているものに上乗せの費用はかかりません。
Win+H:Wordの中ではなくWindowsに住む音声入力
ステップ1の前に必要なもの:Windows 11のPC(Windows 10では同じショートカットで古い音声認識ツールバーが開きます)、動作するマイク、そしてインターネット接続です。Windowsの音声入力はMicrosoftのオンライン音声認識を通して文字起こしをするため、接続がなければ入力もできません。セットアップにかかる時間は1分未満です。
1. 文書を開き、文字を入れたい場所をクリックする
音声入力にはカーソルが入力欄の中にある必要があります。どこにもフォーカスがないとピルは開きますが、文字は入りません。
確認:カーソルがWordのページの中で点滅していること。
2. Win+Hを押す
音声入力のピルが画面の上部または下部の近くに現れます。
確認:話し始める前に「聞き取り中…」と表示されること。
3. 単語ごとではなく、ひとまとまりの言葉で話す
一語ずつ口述するより、文章全体で話したほうがきれいな結果になります。
4. 自動句読点をオンにする
ピルの歯車をクリックして自動句読点を有効にするか、「マル」「テン」「疑問符」のように声に出します。
確認:文を言い終えて一拍置くと、自分で言わなくても句点が入ること。
5. 声で、または同じショートカットで止める
「聞き取りを停止」と言うか、もう一度Win+Hを押します。
Win+Hは編集コマンドも受け付けます。「それを削除」「それを選択」「Enterを押す」といった具合です。これらは、宿題を交渉する親のような根気強さで動きます。単純な要求はきれいに通り、複合的な指示では時おり予想外のことが起こります。長めの修正なら、キーボードとマウスはいまだに無敗です。ピルは開くのに何も起こらない場合は、私たちのWin+Hが動かないときの対処法がよくある原因を網羅していますし、Microsoftの音声入力ドキュメントには、すべてのコマンドと対応する40以上の言語が載っています。
もう一つの細かい話。Copilot+ PCでは「流暢なディクテーション」という機能があり、話しているそばから文法やスペルを整えてくれて、パスワード欄では自動的にオフになります。
Dictateボタン、手短に
DictateはWordのホームタブにあるマイクのボタンです。クリックして、聞き取り中の表示が出るのを待ち、話します。Microsoft 365のサブスクリプション、マイク、安定したインターネット接続が必要で、Windows版・Mac版・Web版・モバイル版のWordで使えます。Macでは、Option+F1で切り替えられます。一日中Mac版Wordで書いているなら、Dictateとそのショートカット一つで、必要な音声入力はすべてまかなえるかもしれません。
Win+Hに対する強みは、Wordを理解していることです。自動句読点は対応言語のほとんどで使え(設定の中のトグル)、書式設定コマンドも理解します。「それを太字に」「箇条書きを作成」「最後の単語を削除」といった具合です。弱点は届く範囲です。Officeを離れた瞬間、Dictateは置いてけぼりになります。この節をあえて短くしているのは、Word標準のDictate機能の完全ガイドですべてのコマンド・言語・設定を取り上げているからです。そしてMicrosoftのDictateドキュメントが正式なリファレンスです。Dictateがグレーアウトしていたり見当たらなかったりする場合は、Wordの音声認識トラブルシューティングガイドが解決手順を案内します。
標準の2つがどちらも壁にぶつかるところ
実際に使うと3つの限界が見えてきます。困らされる頻度の高い順に並べます。
第一に、どちらもオフラインでは動きません。 Win+HはMicrosoftのオンラインサービスを通して文字起こしをします。Dictateは安定したインターネット接続を要件として挙げています。電車の中、飛行機の中、40秒ごとに切れるホテルのWi-Fi、そのどこでも両方とも黙り込んでしまいます。ここだけの話、オフラインで動けない音声入力は、誰か他人があなたの代わりに下したプライバシーの判断でもあるのです。お子さんの学校へのメール、給与査定、法的な草案——そのすべてが、声で打ちたかったというだけの理由で、どこかのベンダーのサーバーを経由します。ローカルでの文字起こしは何もどこにも送りません。そして一部の文書にとって、これは好みではなく、必須条件なのです。
第二に、対応言語の上限が違います。 Win+Hは40以上の言語に対応しています。Dictateは約15の言語と地域バリエーションに完全対応し、さらに約25言語が精度の低いプレビューとして使えます。ウクライナ語で口述したり、文書の途中で言語を混ぜたりすると、すぐにムラが出てきます。
第三に、適用範囲です。 DictateはOfficeの境界で終わります。Win+Hはどこでも使えますが、あくまでWindowsの機能で、Macに同等のものはありません。そして私は、どちらのツールにも、毎日使うプロジェクト名・顧客名・製品の専門用語を覚えさせる場所を見つけられませんでした。「Remskill」は、何度直しても「rem skill」と出てくるのです。
Wordでもその他どこでも入力できる、たった一つのホットキー
1990年代後半、私の親戚が、64 MBのRAMを積んだWindows 98のデスクトップでDragon NaturallySpeakingを動かしていました。学習には校正用の文章を45分読み上げる必要があり、口述は1文あたり4秒の遅延でのろのろ進み、季節のあいさつ状の段落を1つ仕上げるのに15分かかりました。ヘッドセットは部屋の向こうへ投げ飛ばされました。ヘッドセットは生き延び、実験は終わりました。私は音声入力を「まだ時が来ていないアイデア」に分類し、そのファイルを20年間開きませんでした。この節は、その開き直したファイルです。
Whisperはデスクトップアプリで、システム全体の上にホットキーを一つ重ねます。Wordの中で(あるいは文字が打てる場所ならどこでも)Ctrl+Spaceを押し、話し、離すと、テキストがカーソルの位置に届きます。同じキーがOutlookでも、Slackでも、ブラウザでも、コードエディタでも動きます。探すべきツールバーもなければ、アプリごとに有効化する機能もありません。これが、標準の2つとの構造的な違いです。
セットアップは10分ほど。その大半はダウンロードの時間です。
1. アプリをインストールする
Windows 10以降とmacOS 11以降で動き、容量は約25 MBです。
確認:Whisperのウィンドウが設定画面で開くこと。
2. サインインする
ローカルのパイプライン——モデル、履歴、プリセット、ホットキー——に必要なのはアカウントだけです。
3. ローカルモデルを選んでダウンロードする
既定は多言語対応のSmall(約480 MB)です。Parakeet v3(約600 MB)はCPU上で5〜10倍速く動き、英語に加えて24のヨーロッパ言語をカバーします。詳しくはNVIDIA Parakeetのモデルカードをご覧ください。Whisperのモデルファミリーは最大でLarge v3(約3 GB)まであり、多言語バリアントでは90以上の言語に対応します(英語専用ビルドはまさに英語専用です)。
確認:設定でモデルがダウンロード済みと表示されること。
4. Wordにカーソルを置き、Ctrl+Spaceを押したまま話し、離す
文字起こしされた文章が、カーソルのある場所に貼り付けられます。
確認:句読点も含めて、あなたの言葉が文書の中にあること。
モデルをダウンロードした後は、文字起こしがあなたの端末上で行われ、ネットワーク通信はゼロです。同じ口述が、Wi-Fiを切った高度11,000メートルでも動きます。ローカルモードの精度は、モデルのサイズにもよりますが、おおむね95%から99%の間に収まります。さらにカスタム辞書が、標準ツールがいつも噛んでしまう名前を覚えさせてくれます。クラウドモードもあり、自分のOpenAIキーを持ち込めば最新の文字起こしモデルが使えますが、Wordの音声入力なら、私が使うのはローカルのほうです。この節は、やかんがティーバッグと交渉している間に草稿へ口述しました。節には修正が2か所必要でしたが、お茶には一つも要りませんでした。
標準ツールで十分なとき

週に段落を一つ口述する程度で、良いインターネット環境のある机に向かい、Wordの中だけで、Dictateが完全対応する約15言語のどれかを使うなら、Whisperは見送って構いません。DictateはすでにあなたのMicrosoft 365プランに入っていて、その仕事をきちんとこなします。音声入力がWindowsから出ず、対応する40以上の言語にあなたの言語が含まれているなら、Win+Hについても同じことが言えます。ショートカット一つ向こうにあり、追加費用はかかりません。サードパーティの音声入力がその座を勝ち取るのは、毎日口述する、オフラインで作業する、カスタム辞書が要る、あるいはすべてのアプリで一つのツールを使いたいとき——それより前ではありません。
投げ飛ばされたDragonのヘッドセットと、お茶を淹れている間に自分で文字を打ってくれるWord文書との間には、25年の隔たりがあります。ツールが追いついたのです。残された作業は、あなたの一週間にどの聞き手が合うかを選ぶことだけ。今日Win+Hを押して、本物の段落を一つ口述してみてください——近況の報告でも、先延ばしにしていた返信でも。それで通用するなら、新しい既定の方法が見つかったということです。オフラインの壁や辞書の上限にぶつかったら、アップグレードがどこにあるかはもうご存じです。
同じ段落を、ホットキー一つで試してみる
Whisperをダウンロードし、WordでCtrl+Spaceを押したまま話して、文字起こしがカーソルの位置に届くのを見てください。
Windows 10以降とmacOS 11以降で動きます。ローカルモードはオフラインで動作します。



