トラブルシューティング
Windowsの音声入力が 初期化中のまま固まる
音声入力(Win+H)が「初期化中」で止まってしまうのは、ほとんどの場合、バックグラウンドの処理が止まっているのが原因です。タスクマネージャーで Microsoft Text Input Application を終了し、もう一度 Win+H を押せば、たいてい動き出します。それでも繰り返すなら、より根本的な原因は、Win+Hが依存しているオンライン音声サービスにあります。
最終更新: 2026年6月

「初期化中」で固まったWindowsの音声入力は、タスクマネージャーで Microsoft Text Input Application を終了してから、もう一度 Win+H を押せば直ります。それでも再発する場合は、「プライバシーとセキュリティ」でオンライン音声認識をいったんオフにしてからオンに戻し、再起動してください。専用のオフライン音声入力ツールを使えば、この問題はそもそも起きません。ローカルでの文字起こしは、Microsoftのオンライン音声サービスを待つことが一切ないからです。
Win+H を押すと、小さな音声入力バーが出てきて、そのまま止まってしまう。「初期化中」。あるいは「準備しています」。ドットが点滅し続ける。待つ。眠ってしまったスマートスピーカーに話しかけるような気持ちで、ひとまず話してみる。何も入力されない。私はこの全く同じ現象を3台の別々のマシンで目にしてきました。最初のときは、何が本当に止まっているのかに気づくまでに20分ほど無駄にしました。
長い説明の前に、短い結論を。原因がマイクであることはほぼなく、ほとんどの場合は、Windowsが起動したものの完了せず、自分では再試行してくれないバックグラウンド処理です。直すにはタスクマネージャーで30秒ほど。何度も再発するのは別の、もっと根の深い話で、Win+Hがひそかに依存しているオンライン音声サービスが関係しています。これについても後で取り上げます。
最初の検索結果ではっきり言われないことがあります。Windowsの音声入力は、それ自体で完結する機能ではありません。Win+H を押すと、Windowsはヘルパーとなる処理を立ち上げ、裏でMicrosoftのクラウド音声サービスに接続して、実際の認識を行います。「初期化中」とは、そのやり取りが行われている間に見える画面のことです。ヘルパー処理が引っかかると(たいていはWindows更新のあとや、スリープ・復帰の後)、このやり取りが完了せず、バーがいつまでも止まったままになります。
つまり本当に知りたいのは、今すぐどうやって動かすか、どうすれば再発を止められるか、そしてそもそもこれに依存しない音声入力の方法はあるのか、ということです。この3つすべてを、Microsoftの正確な手順とともに説明します。そして、内蔵機能だけで本当に十分なケースについても正直にお伝えします。
Windowsの音声入力が「初期化中」で止まる理由

Windows 11では、ディクテーション(口述入力)は音声入力と呼ばれ、オンライン音声認識を使って音声を文字に変換します。この「オンライン」という部分がすべてです。Win+H はあくまで入り口にすぎません。認識はMicrosoftのクラウド音声サービスを通して行われ、Microsoft Text Input Application というローカルのヘルパーが接続を仲介します。このヘルパーが固まると、終わりの見えない「初期化中」が表示されるのです。
Microsoft自身のサポートスレッドやドキュメントによれば、繰り返し起きる原因は短く具体的です。Microsoft Text Input Application の処理が止まる(たいていはWindows更新のあとや、PCがスリープから復帰した後)。オンライン音声認識のプライバシー設定がオフになっていて、クラウドとのやり取りが始められない。入力言語または音声の言語が、インストール済みの認識パックと一致していない。プライバシー設定のレベルでマイクへのアクセスがブロックされている。あるいは、Windows更新で音声サービスが不正な状態のまま残り、再起動でも解消されていない。
はっきり言っておきましょう。これはハードウェアの問題ではありません。通話でマイクが使えているなら、音声入力でも使えます。不具合はマイクより手前、認識エンジンを起こすはずのWindowsの部分で起きています。だからこそ、以下の対処法は処理の再起動やサービスの切り替えが中心で、新しいヘッドセットを買うことではないのです。
ほとんどの人に効く、手早い直し方
ヘルパー処理を再起動します。これが大多数の人にとって問題を解消する方法で、1分もかかりません。手順はMicrosoftのサポートスレッドそのままです。
タスクマネージャーを開きます(タスクバーを右クリックして「タスクマネージャー」を選ぶか、Ctrl+Alt+Delete を押して選びます)。コンパクト表示の場合は「詳細」をクリックします。「バックグラウンドプロセス」の中から「Microsoft Text Input Application」を見つけ、右クリックして「タスクの終了」を選びます。それから、もう一度 Win+H を押します。音声入力バーがヘルパーを一から起動し直し、やり取りが完了して、バーが「初期化中」から実際に聞き取りを始める状態に変わります。一覧にその処理が見当たらない場合は、ふつうに再起動しても同じ効果があります。ただ時間が少し余計にかかるだけです。
これが目の前の問題を直す対処法です。上のオーバーレイは別のツール、つまりシステム全体で使える音声入力アプリのもので、ここではある対比を伝えるために載せています。ローカルのレコーダーは、聞き取り中であることを示すか、エラーを表示するかのどちらかです。永遠に起動するふりをして止まり続ける第三の状態は存在しません。最初に起こすべきクラウドサービスがそもそもないからです。これについては次の章でさらに詳しく。もしこれが毎週のように起きているなら、根本的な答えは、止まり続けるものに依存しないことです。
根本的な解決策: そもそも初期化しない音声入力
もし数日おきに同じタスクを終了しているなら、長続きする解決策は、動く前にいちいちクラウドへ問い合わせる機能に頼るのをやめることです。ローカルの音声入力ツールは、自分のマシン上で文字起こしを行います。起こすべきオンライン音声サービスがないので、止まる「初期化中」もありません。必要なのは、Windows 10以降のPCと、使えるマイクだけです。Whisperを使った4ステップのセットアップを紹介します。
ステップ1 — Whisperをインストールしてサインインする。
ダウンロードページから入手してインストールし、無料アカウントを作成します。カード登録は不要です。ローカルの文字起こしパイプライン一式が、すぐに使えるようになります。
アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を案内してくれたら、成功です。
ステップ2 — ローカルの文字起こし方式を選ぶ。
アプリが勝手に選ぶことはありません。オフラインで直したいなら、Local Parakeet(英語で最速)か Local Whisper(多言語・翻訳対応)を選びます。どちらも完全にあなたのマシン上で動きます。クラウドも用意されていますが、ネットワークを使うのはこの方式だけです。
モデルのダウンロードが完了し、使用可能(ready)と表示されたら、成功です。
ステップ3 — ホットキーを設定する。
Windowsの初期設定は Ctrl+Space で、押している間だけ録音するプッシュトゥトーク方式です。Ctrl+Space が他のアプリとぶつかる場合は、設定で別のキーを選びます。専用キーなので、Win+H のようにフォーカスを奪ったり、勝手に停止したりすることはありません。
テスト録音が任意のテキスト欄に貼り付けられたら、成功です。
ステップ4 — どこでもカーソルを置いて話す。
任意のテキスト欄(メール、ドキュメント、検索バーなど)をクリックし、ホットキーを押したまま一文を話して、離します。文字起こしされた内容がカーソルの位置に貼り付けられます。ローカルで処理され、初期化画面はありません。
話した文がテキストとして現れ、クラウドとのやり取りを待つことがなければ、成功です。
唯一時間がかかるのは、一度きりのモデルのダウンロードだけです。そのあとはアプリがローカルで動くので、あなたをここへ導いた不具合、つまりサーバーを待ったまま固まったヘルパー、は設計上そもそも存在しません。録音し、CPU上で文字起こしし、貼り付ける。その流れに、止まる原因となるオンライン音声サービスはありません。
内蔵機能を直したい場合
別のアプリは入れたくない、ただ Win+H をまた動かしたいだけ、という人も大勢います。もっともです。ここからは、私が試す順番で、Windows側のより踏み込んだトラブルシューティングを紹介します。すべてMicrosoft自身のサポートドキュメントやスレッドに基づくものです。どれもレジストリには触れないので、マシンを壊しかねないものはありません。
まず、多くの人が見落とす設定です。音声入力にはオンライン音声認識をオンにしておく必要があります。スタート、設定、プライバシーとセキュリティ、音声、と進み、オンライン音声認識をオンにします。すでにオンなのに音声入力が止まっている場合は、いったんオフにし、少し待ってから、もう一度オンに戻して、サービスを再接続させてください。次に、言語を確認します。設定、時刻と言語、音声、と進み、音声の言語が入力している言語と一致していること、その認識パックがインストールされていることを確かめます。ここの不一致は、バーが止まる見落とされがちな原因です。
3つめは、システムレベルでのマイクの権限です。設定、プライバシーとセキュリティ、マイク、と進み、「マイクへのアクセス」がオンで、アプリがマイクを使えるようになっていることを確認します。音声入力もそのアプリのひとつです。4つめは、内蔵の音声トラブルシューティングツールを実行することです。古いビルドでは、設定、更新とセキュリティ、トラブルシューティング、その他のトラブルシューティングツール、音声、にあります。5つめは、Windowsを最新の状態にすることです。これらのスレッドのいくつかは「後の更新で直った」で終わっています。裏を返せば、更新が原因になることもあるということです。それでもだめなら、再起動が、更新で不正な状態のまま残った音声サービスをリセットしてくれます。これらすべてに共通する正直な弱点は、症状を直しても依存関係そのものは変わらないこと。Win+H は押すたびに毎回クラウドとのやり取りを完了させる必要があり、それこそが繰り返し壊れる部分なのです。
ローカルかクラウドか: どちらのモードが本当にこれを避けられるか
あなたがここへ来た理由が、いつまでもサーバーを待ち続ける機能なら、答えはローカルモード、これに尽きます。どちらのローカルエンジンも完全にあなたのマシン上で動き、どこにも何も送りません。それがまさに肝心なところで、オンライン音声サービスがなければ、止まる「初期化中」もないのです。アプリが選ばせる3つの方式が、実際にどう違うのかを見ていきましょう。
アプリはあなたに選ばせるので、この問題に限って、私ならどう考えるかをお伝えします。
- Local Parakeet — NVIDIAのTDTエンジンで、約600 MB、ローカルで最速の選択肢です。CPU上でのWhisperより5〜10倍高速。英語に加えて24のヨーロッパ言語、合計25言語に対応します。英語への翻訳機能はありません。完全オフライン。英語かヨーロッパの言語を話すなら、これがクラウドとのやり取りの繰り返しから抜け出す一番早い方法です。
- Local Whisper — 同じマシンではParakeetより遅いものの、多言語版は99言語に対応し、英語への翻訳もできます。英語専用版はあくまで英語専用で、99言語ではありません。中国語、日本語、韓国語、あるいはParakeetにはできない翻訳作業には、これを選びます。標準の英語モデルは約480 MB。こちらも完全オフライン。
- クラウド(OpenAI、BYOK) — 精度が最も高く、ウェブにもアクセスできます。あなた自身のOpenAIキーを使い、料金はOpenAIから直接請求されます。文字起こしは標準で gpt-4o-mini-transcribe で動きます。インターネットが必要なので、Win+H と同じく、ネットワークに依存する唯一の方式です。クラウド機能は Whisper Pro の一部です。
つまらない真実ですが、日常の音声入力にはローカルで十分ですし、あなたをここへ導いた具体的な悩みには、ローカルこそが本当の特効薬です。クラウドが価値を発揮するのは、聞き取りにくい録音で最高水準の精度がほしいときや、話している途中でウェブから事実を引っ張ってくる必要があるときです。でも、あなたの不満が「いつもサーバーを待たされる」ことなら、別のサーバー依存の方式を選ぶのは的外れです。まずはローカルから始めましょう。
音声入力がちゃんと動いたら、次は文章をきれいに
音声入力が動くようになると(内蔵でもそれ以外でも)、次の現実にぶつかります。話したままの音声は、句読点のない一続きの文として出てきます。「えっとパスワードをリセットしてクライアントに返信してお昼までに片づいたって伝えて」と話すと、どの音声エンジンも、句読点のないそのままの塊を渡してきます。それをきれいにする部分こそ、ツールによって差が出るところです。
Windowsの音声入力は、動いていれば話しながら句読点を付けられます。もっと本格的な整え方、つまり「えーと」を取り除いたり、一続きの文を直したり、話した一段落を実際に送れる文章に仕上げたりするには、Whisperはテキストが入力される前にAIによる処理をかけられます。起動フレーズの「Hey whisper」と言えば、まずテキストが整えられます。ローカルモデルでは Ollama を通して動き、クラウドモードでは標準で gpt-5-mini が使われます。
えっとパスワードをリセットしてクライアントに返信してお昼までに片づいたって伝えてあとマネージャーもCCに入れて
では、パスワードをリセットして、クライアントに返信し、お昼までに片づいたと伝えてください。それから、マネージャーもCCに入れてください。
この整える工程こそ、専用ツールが「初期化中」で固まるのを避ける以上の価値を持つ理由でもあります。確実に取り込めるだけでなく、仕上がりに近いテキストが手に入るのです。もっと広い形で活用したいなら、この「話してから整える」流れこそが、Win+H がたまたま入り込んだ1つのウィンドウだけでなく、開くすべてのアプリで声で速く入力することを可能にします。
そして、どの欄でもカーソルの位置に貼り付けてくれるので、同じ流れがブラウザのタブでも使えます。Googleドキュメントへの音声入力も、デスクトップのエディタへの音声入力と同じように動きます。フォーカスが移るとそれを常には保証できない Win+H とは違います。
内蔵機能で十分なとき

ここからは、何かをインストールするのを思いとどまらせる話です。Microsoft Text Input Application を終了して直り、それきり再発していないなら、別のアプリは要りません。更新後に一度だけ「初期化中」で止まったのは、まさにそれ、一度きりの出来事です。Win+H は無料で、内蔵されていて、短い場面なら本当に問題ありません。2行の返信を音声入力するためにソフトを入れろ、なんて言うつもりはありません。
内蔵機能で正解なのは、いくつかの条件がそろうときです。入力するのは主に短いテキスト、どのみち常時オンラインで、自分の声がMicrosoftのクラウドに送られて認識されることに抵抗がない、という場合です。最後の点が本当の分かれ道です。Win+H は設計上、あなたの声をMicrosoftのオンライン音声サービスを通します。買い物リストなら問題ありませんが、クライアントへのメールや、自分のマシンに留めておきたいものなら、ひと呼吸おいて考える価値があります。
専用のオフラインツールに手を伸ばすべきなのは、内蔵機能が繰り返し痛手になってきたときです。更新のたびに止まりが再発する、長い文章を音声入力する、オフラインで作業する、または声をローカルに留めておきたい、あるいは、ときどき初期化したりしなかったりするバーではなく、どのアプリでも同じように動く1つのホットキーがほしい。そうしたとき以外は、無料のもので十分です。このガイドの前半の対処法は、まさにそうできるようにあるのです。
本当の問題がこの止まり1つより広い場合、つまり Win+H が何もしない、テキストがまったく出ない、言語が間違っている、といった場合は、Windowsで音声テキスト変換が動かないときのより広いチェックリストが、厳密には「初期化中」の停止ではない、その他の不具合パターンを網羅しています。
関連リンク
Windowsは、一語を入力する前にクラウドサービスを起こさなければならない音声機能を出荷しておきながら、その起動に失敗したときに再試行する仕組みを作りませんでした。だから私たちは、3語ほど長すぎる名前のバックグラウンドタスクを終了し、同じ2つのキーをもう一度押して、直ったと言うのです。たいていは直ります。でも、ある機能を使うのに初めてタスクマネージャーを開かされたとき、人はそっと、そうしなくていいものを探し始めます。私はこのガイドのほとんどを、一度も「初期化中」という言葉を見せたことのないツールで音声入力しました。それが、すべての売り文句です。
初期化画面なしで音声入力を
ホットキーを押して、話して、離す。文字起こしされた内容が、どのアプリでもカーソルの位置に届きます。ローカルで処理され、先に起こすクラウドサービスはありません。
サインインしたアカウントなら、ローカルモードは無料。開始にカードは不要です。



