Denys Medvediev

ガイド

声で文字を 入力する方法

音声入力とは、話した言葉がカーソルのある場所にそのまま表示される機能です。OSには標準機能が備わっています——Windowsキー + H、またはmacOSの音声入力。Whisperのような専用ホットキーツールは、すべてのアプリでオフラインかつAI整形機能付きで同じことができます。

最終更新:2026年6月

静かなデスクに座りラップトップを操作する人物。近くにマイクがあり、タイピングではなく話しかけているようすを表しています

音声入力を始めるには、標準の音声入力ツールを開いてください——Windowsでは「Windowsキー + H」、macOSではシステム設定の「音声入力」です。任意のテキストフィールドにカーソルを置いて話すだけ。すべてのアプリで同じように動作するオフライン対応の専用ツールが必要なら、Whisperのような専用ホットキーツールがカーソル位置にテキストを貼り付けてくれます。

ほとんどの人のタイピング速度は1分間に約40ワード。でも話すスピードはその3〜4倍です。だから音声入力の理屈は昔から明らかでした——問題は、ソフトウェアが口に追いつけるかどうかだけ。約30年間、追いつけませんでした。今は追いつけます。不思議なのは、自分のパソコンがすでにこれをできることを知らない人がまだたくさんいることです。

始めるために何かを買う必要はありません。WindowsもmacOSも、カーソルのあるテキストボックスに入力できる音声入力機能を標準搭載しています。無料で、すでにインストール済みで、短い入力なら十分に使えます。まずそちらを正直にご紹介します——多くの人にとってはそれが正解だからです。その後、私が実際に一日中使っているバージョンと、その優れている点をお見せします。

設定を触る前に理解しておくべきことがあります。音声入力は、カーソルのある場所にテキストを貼り付けます。カーソルがどのアプリにあるかは関係ありません——メール、検索バー、ドキュメント、チャットボックス、どれも単なるテキストフィールドです。これがわかると、すべてがシンプルになります。

つまり、選択肢は100個ではなく、実質2つです。ルート1はOSに標準搭載されているツール。ルート2は押している間だけ話す専用アプリで、どこでも同じように動作してオフラインで動きます。標準ツールは短い入力に十分です。専用ルートが価値を発揮するのは、一日中これを使うときです。両方セットアップし、どちらでも機能する基本を押さえ、アプリが不要なときを教えます。

音声入力とは何か

キーボードの隣にあるデスクトップマイク。タイピングの代わりに声でテキストを入力するようすを表しています

音声入力——ディクテーション、音声認識、何と呼んでもかまいません——はシンプルなアイデアです。話すと、ソフトウェアが音声をテキストに変換し、そのテキストが本来入力していた場所に表示される。それだけです。「新しい技術」に感じられる理由は、コンピューターの歴史のほとんどの期間、まともに動かなかったからです。

私には、64MBのRAMを積んだWindows 98デスクトップでDragon NaturallySpeakingを使っていた親戚がいました。セットアップには45分の「キャリブレーション」トレーニングが必要で、単語リストを声に出して読まなければなりませんでした。それだけやって認識率は70%前後、文章ごとに4秒の遅延があり、年賀状の一段落を入力するのに15分かかりました。ヘッドセットは部屋の向こうに投げられました。ヘッドセットは無事でしたが、音声入力の実験は終わりました。25年後、私の下の娘は90秒ほどで祖母へのメール全文を音声入力しました——トレーニングなし、キャリブレーションなし、一発で。

この差が、すべてを物語っています。現代の音声入力はほとんどのアクセントや言語に対してそのまま動作し、トレーニング不要で、思考の流れを止めないスピードで文字が表示されます。以下で紹介する2つのルートはどちらもこの基盤の上に成り立っています。あとの判断は、どのツールを使うか、どう話しかけるか——それだけです。

WindowsとMacの標準機能を使う手軽な方法

主要なOSはどちらも音声入力を無料で提供しており、まずここから始めるのが正解です。Windowsでは、任意のテキストボックスにカーソルを置き、Windowsキーと H を同時に押します。小さな音声入力ツールバーが開いてリスニングを開始します。話すと、フィールドに文字が入ります。句読点は「コンマ」「ピリオド」「クエスチョンマーク」と言えば入力できますし、ツールバーの設定で自動句読点をオンにして任せることもできます。ひとつ覚えておくべき点:Windowsの音声入力はインターネット接続が必要です。音声はMicrosoftのサーバーに送られてテキストになるため、オフラインモードはありません。

Macでは、一度だけ設定すれば完了です。Appleメニューを開き、「システム設定」を選び、サイドバーの「キーボード」をクリックし、「音声入力」にスクロールしてオンにします(確認が出たら「有効にする」をクリック)。その後は、ファンクションキー列のマイクキー、設定したショートカット、またはメニューバーの「編集」から「音声入力を開始」で音声入力を始められます。任意のテキストフィールドに向かって話せば文字が入ります。Apple Silicon Macでは、一般的なテキスト音声入力はAppleのサーバーに送られず端末上で処理され、対応言語では句読点が自動で挿入されます。話しながらタイピングも続けられるのは、言葉以上に便利な機能です。

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。リスニング中であることがわかります。

短いテキスト、検索、1行のメモなら——それで十分です。ここで読むのをやめても問題ありません。標準ツールが不便になるのは主に3つの場面です:Windowsはオフラインで使えない、長い文章では精度が落ちることがある、アプリをまたいで同じ操作感を保てない。これらが気にならないなら、すでにパソコンに入っている無料ツールで十分です。気になるなら、読み進めてください。

より良い方法:すべてのアプリで使える1つのホットキー

私が実際に使っているのは、すべてのアプリの上で動く専用のプッシュトゥトークツールです。キーを押しながら話して離すと、テキストがカーソル位置に貼り付けられます——メールでも、エディタでも、チャットでも、コミットメッセージでも、どこでも同じように。オフラインで動作し、ローカルパイプラインはサインイン済みのアカウントなら無料(クレジットカード不要)で、話した内容をAIで整形することもできます。Apple SiliconのMac、またはWindows 10以降のPCと動作するマイクが必要です。設定手順を説明します。

ステップ1 — Whisperをインストールしてサインイン。

ダウンロードページからダウンロードしてインストールし、無料アカウントを作成します。支払い方法は不要です。ローカル文字起こしパイプライン全体がすぐに使えるようになります。

アプリのトレイアイコンが表示され、セットアップウィザードでモデルの選択が促されたら成功です。

ステップ2 — 文字起こし方式を選ぶ。

アプリは自動で選びません。3つの選択肢があります:Cloud(OpenAI、APIキー持ち込み)、Local Parakeet、またはLocal Whisper。プライベートなメモにはローカルから始めるのがおすすめです——2セクション後に詳しい比較があります。

モデルのダウンロードが完了して「準備完了」と表示されたら成功です。

ステップ3 — ホットキーを確認する。

Windowsのデフォルトは Ctrl+Space、Macは Command+Option(修飾キーのみのプッシュトゥトーク、話す間押し続ける)です。Macでは求められたらアクセシビリティ権限を許可してください——これがないと、他のアプリへのカーソル貼り付けができません。

テスト録音が任意のテキストフィールドに貼り付けられたら成功です。

ステップ4 — どこにでもカーソルを置いて話す。

任意のアプリの任意のテキストフィールドをクリックし、ホットキーを押しながら文章を話して離します。テキストがカーソル位置に表示されます。離した後も短い余韻録音があるので、最後の単語が切れることはありません。

話した文章がテキストとしてフィールドに表示されたら成功です。

Whisper
実際のWhisperデスクトップアプリの設定画面。「文字起こし」パネルと「AI」パネルが開いています。

時間がかかるのは1回限りのモデルダウンロードだけで、セットアップ自体は上の4ステップがすべてです。起動すれば、文章を書くことがタイピング作業ではなく会話作業になり、ホットキーは受信トレイでもコードエディタでも同じキーです。

Windowsでの音声テキスト入力 · Macでの音声テキスト入力

どちらのツールでも効果を上げる5つのコツ

どちらのルートを選んでも、音声入力が魔法のように感じるか格闘になるかを決めるのは同じ基本事項です。どれも複雑ではなく、ほとんどはソフトウェアではなくあなた自身に関することです。これらを押さえれば、安いOSの標準ツールでも高価なツールを雑に使うより良い結果が出ます。

静かな場所を選びましょう。音声エンジンは聞こえたものをそのまま文字にします——食洗機の音、開いた窓からの音、子どもの声も全部拾います。静かな部屋は、どんな設定変更よりも効果的です。次にマイクについて。これは声を大にして言いたいことがあります:$20のUSBマイクは、どんなモデルのアップグレードよりも認識精度を上げてくれます。Whisperチームのデータによると、ノートパソコン内蔵マイクからポッドキャスト向けUSBマイクに変えると、同じモデルでエラー率が30〜40%下がります——より賢いエンジンに切り替えるより大きな改善です。まずハードウェアにお金をかけてください。

次は話し方です。単語を1つずつではなく、完全なフレーズで話しましょう——音声エンジンは周囲の単語から適切な語を推測するため、「明日の会議は3時に」とまとめて言うほうが、1語ずつより精度が上がります。普通で均一なペースで話してください。早口も過度な発音強調もどちらも逆効果です。話しながら句読点や大文字を気にするのはやめましょう。ツールが必要とするなら声で言うか、次のセクションで紹介するAI整形に任せてください。話しながら句読点も直して編集もしようとすると、長文の迷宮に迷い込みます。

ローカルかクラウドか:どちらで話すべきか

専用ツールを使う場合、本当の選択肢は文字起こしをどこで行うかです。ローカルはすべてが自分のマシン上で動き、サーバーには何も送られません。クラウドはOpenAIに送られ、最高精度とウェブアクセスが使えます。ほとんどの人には、まずローカルをおすすめします——ラップトップにはすでにマイクとCPUがあり、1段落程度ならサーバーは不要です。MacがApple SiliconかPCが数年以内のモデルなら、日常の音声入力はローカルで十分こなせます。アプリが選択を求めるので、3つの方式の違いをここで説明します。

  • Local ParakeetNVIDIAのTDTエンジン、約600MB、最速のローカル選択肢——CPUでWhisperの5〜10倍高速。英語と他の24ヨーロッパ言語、計25言語に対応。英語への翻訳機能はなし。英語または他のヨーロッパ言語を話すなら、これが手軽な完全オフライン選択肢です。
  • Local Whisper同じマシンでParakeetより遅いですが、多言語ビルドは99言語に対応し英語への翻訳もできます。英語専用ビルドは英語のみで99言語ではありません。中国語、日本語、韓国語、または翻訳作業にはこちらを選んでください——Parakeetにはできません。デフォルトの英語モデルは約480MBです。
  • Cloud(OpenAI、BYOK)最高精度とウェブアクセスを提供。OpenAIのAPIキーを使い、料金はOpenAIに直接請求されます。デフォルトではgpt-4o-mini-transcribeで文字起こしを実行。インターネットが必要なため、マシン外にデータが出る唯一の方式です。CloudサーフェスはWhisper Proの一部です。

正直な話、ほとんどの人が一日中入力するもの——メール、メモ、メッセージ、下書き——にはローカルで十分です。両方のローカルエンジンは完全に自分のマシン上で動きます。これが重要なのは、上司の給与スプレッドシートや子どもの学校へのメールを入力するときです。クラウドが価値を発揮するのは、難しい録音で最高精度が必要なときや、文章の途中でウェブから情報を引っ張りたいときだけ。まずローカルで始め、物足りなくなったときだけクラウドに手を伸ばしましょう。

AIに話した内容を整形してもらう

生の音声入力はつながった文章になりがちです。「えーと先生へのメール返信して遠足確認してフォームを木曜日に送るリマインド」——句読点なしのこの塊が、音声エンジンが渡してくるものです。これを整理するところで方式の差が出ます。そしてそれが専用ツールが標準ツールを上回る最大の理由です。

標準ツールは軽度の整形をします。Windowsの音声入力は言ったときに句読点を追加するか、自動句読点をオンにすれば推測してくれます。macOSの音声入力は対応言語で自動的に句読点を挿入します。1〜2文なら十分です。より重い整形——「えーと」を取り除き、長文を直し、話した内容を実際に送れるものにする——には、WhisperのAI整形パスが使えます。「Hey whisper」というアクティベーションフレーズを言うと、テキストが入力される前に整形されます。ローカルモードではOllamaを通じてマシン上で処理されます。クラウドモードではデフォルトでgpt-5-miniが使われます。

Thinking...
整形前

えーと先生へのメール返信して遠足確認してフォームを木曜日の朝のホームルーム前に送るリマインドお願い

整形後

先生へのメールを返信し、遠足を確認して、木曜日の朝のホームルーム前にフォームを送るリマインドをお願いします。

ここが音声入力の感覚を変える部分です。整形パスなしだと、タイピングを編集作業に置き換えることになります——速く話して、節約した時間を大文字の修正や長文の分割に費やします。整形パスがあれば、実際の話し方のまま話して、ほぼ完成したものが返ってきます。私は考えながら断片的に話し、時々言い直しもしながら、整形パスに任せて整えてもらっています。メールを代わりに書いてくれるわけではありませんが、話したメールを書こうとして書いたように聞こえさせてくれます。

この「話してから整形する」流れこそが、音声入力が日常の文章作成でタイピングを上回れる理由です——長い段落がキーボードでの5分間ではなく、数文の発話になります。

標準機能で十分なとき

2つの矢印が異なる方向を指しており、ツール間の選択を表しています

正直に言うと、すでにパソコンに入っている無料ツールが正解のことがあります。短いテキスト、検索、ちょっとしたメモだけなら、標準機能で十分で、アプリのインストールはやりすぎです。1行のリマインダーのためにソフトウェアをセットアップしてください、とは言いません。

Windowsでは、Windowsキー + H のツールバーは短い音声入力に十分機能します。句読点も入れてくれるし、すでにそこにあります。Macでは特にApple Siliconで、音声入力が端末上で動き、自動句読点があり、話しながらタイピングも続けられます——日常の短い入力には申し分ありません。短いメッセージが主でMacを使っているなら、他に何も必要ないかもしれません。標準機能を使い続けたい方向けのより詳しいガイドが、Windowsでの音声テキスト入力Macでの音声テキスト入力のガイドにあります。

専用ツールに手を伸ばすべきときは、標準ツールが日々の痛みになってきたとき——長い文章作成、Windowsでのオフライン音声入力、多言語対応、より重いAI整形、またはウィンドウを切り替えるたびに操作を覚え直すのではなく1つのホットキーをどのアプリでも使いたいとき。そのバーを下回るなら、無料のものを使ってください。正直な答えは、ほとんどの人にとって標準機能が正しいスタート地点で、専用ルートは「摩擦を感じるほど使い込んだとき」の正しいアップグレードです。

音声入力の大半がメッセージ送信ではなくアイデアの記録なら、同じトレードオフが音声テキスト変換でのメモ取りにも当てはまります——短いメモには標準機能、長いセッションには専用ホットキーが力を発揮します。

声で文字を入力することは新しいトリックではありません——30年前からあるアイデアが、ようやく実用的になったのです。パソコンの標準ツールでほとんどのことはできます。多くの人にとってそれが全部の答えです。専用ルートは「ほとんど」では足りなくなったときに手を伸ばすものです。私はこの文章のほぼすべてをラップトップに向かって話し、整形パスに言い直しを直してもらい、読み返してちゃんと人間の文章に聞こえるか確認しました。聞こえました——それが唯一のテストです。

次の一文は、タイピングの代わりに声で

ホットキーを押しながら話して、離す。テキストはカーソルのある場所に——すべてのアプリで、毎回同じように。

サインイン済みアカウントはローカルモード無料。開始にクレジットカード不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読むのは私の仕事で、返信のほとんどは音声入力で書いています。

参考リンク