ガイド
音声入力ソフト: 無料の標準機能と有料ツールの違い
最高の音声入力ソフトのいくつかは、すでにあなたのパソコンに入っています。どれを使うべきか、そして専用アプリにお金を払う価値が本当にあるのはどんなときかを解説します。
最終更新:2026年6月

音声入力ソフトはマイクで音声を聞き取り、話した内容を文字に書き起こして、編集できるテキストに変えます。タイピングが1分あたり約40語なのに対し、音声なら約145語。優れたツールはシステム全体で動くので、文字がカーソルの位置にそのまま入ります。WindowsやMacに無料で組み込まれているものもあれば、オフラインモードやAIによる仕上げを加えた有料アプリもあります。
話せば、言葉はカーソルの位置に届く
初めてうまくいくと、ちょっとした手品のように感じます。キーを押しながら一文を話し、手を離すと、その文がもうメールの中にある。キーボードはいりません。私の年下の親戚は、私が「ディクテーションとは何か」を説明し終える前に、おばあちゃん宛ての90語のメモを話して入力してしまいました。難しかったのは、話すことではありません。20年もの間、難しかったのは、信頼できるほどソフトが良くなることでした。そしてその部分がついに解決されたのです。
この記事は、どの音声入力ソフトが時間をかける価値があるのか、すでに持っている無料の選択肢も含めて、お伝えするものです。
キーボードから離れられない人の多くは、必要だからではなく、習慣でそうしています。タイピングは後天的に身につけた妥協の産物で、頭の中の考えを、耳を持たない機械に出すための手段です。音声入力ソフトはその妥協をなくします。「動くかどうか」が問題でなくなったのは2022年ごろで、問いは「どれを選ぶか、そしてお金を払う必要があるのか」に変わりました。
正直な答えは、三つのことで決まります。どれくらい長く話すか、すべてのアプリで使いたいか、そして自分の言葉がノートパソコンの外に出ないことを気にするか。読み終えるころには、どの道が自分に合うかが分かるはずです。そして、無料の標準機能だけで十分なときも、はっきりお伝えします。私はこのアプリのサポートメールのほとんどに目を通していますが、その一定数は、自分のパソコンにすでにある機能で事足りたのに、ツールにお金を払ってしまった人からのものです。だから私には、購入を思いとどまらせることに、ちょっとした利害があるのです。
音声入力ソフトとは何か

音声入力ソフトとは、マイクから音声を取り込み、音声認識モデルを使って文字に変換するプログラムです。古い呼び名はディクテーションソフト。新しいマーケティング上の呼び名はAIディクテーションで、これはたいてい、句読点や言い回しを整える言語モデルを後ろに足しただけで、中身はほぼ同じものを指します。
形は三つあります。標準のディクテーションはOSに付属しています。Windowsの音声入力、Apple Dictationなどです。ブラウザベースの音声入力は一つのアプリの中だけで動きます。Googleドキュメントの音声入力のようなものです。そして専用のデスクトップアプリは別途インストールし、入力するあらゆる場所で使えます。ブランドよりも、この「形」のほうが重要です。Googleドキュメントの中でしか書けないブラウザツールは、どれだけ精度が高くても、Slackのメッセージには役に立ちません。どんなツールでも最初に問うべきは、精度がどれくらいかではなく、どこに入力させてくれるかです。精度は今やほとんどのツールで解決済みの問題ですが、「届く範囲」はそうではありません。
本格的なツールとおもちゃを分けるのは、どこに貼り付けるかです。標準ツールと専用デスクトップツールはシステム全体で動きます。どんなテキスト欄でもホットキーを押せば、そこにテキストが現れる。これがすべてです。精度も、言語も、AIによる仕上げも、その他のすべては、「今見ている場所に入力できるか」の上に乗った磨き込みにすぎません。
もう一つ、カテゴリーを分けるものがあります。モデルが何を聞き取れるかです。英語しか扱えないツールもあります。何十もの言語を扱い、一文の途中で切り替えられるものもあります。Whisperの英語専用モデルはちょうど一言語に対応し、多言語版は99言語をカバーします。NVIDIAのParakeetはその中間で、英語と24のヨーロッパ言語、計25言語です。英語でしか書かないなら、そんなことはどうでもよく、速さで選ぶべきです。昼までに二つの言語で下書きをするなら、これは大いに重要です。多くの人は、自分が必要とする言語の数を多く見積もりすぎ、レイテンシをどれだけ気にするかを過小評価します。キーを離してから文字が見えるまでの遅れこそ、毎回必ず感じるものなのです。
このカテゴリーについて読むより、システム全体で動くやり方を実際に見たいなら、Whisper音声入力ページで、WindowsとMacでホットキーを押し続けるループが、無料のローカルエンジン込みでご覧いただけます。
仕組み(そしてなぜ精度がついに良くなったのか)
内部のパイプラインは三つのステップでできています。マイクが短い音声クリップを録音する。音声認識モデルがその音声をテキストに変える。そして、ときには言語モデルが整えたあとで、テキストが貼り付けられる。
誰もが気づいた精度の飛躍は、真ん中のモデルから来ました。OpenAIによるオープンソースのWhisperモデルが、「良い」の意味を変えたのです。訛りも、雑音も、多言語版なら99言語も扱え、しかも学習のステップは要りません。最後のその点こそ、静かな革命でした。今どきの音声入力ソフトに、自分の声を教え込む必要はありません。インストールして、話すだけです。
それがSF同然だった時代を覚えているくらい、私は年を取っています。1990年代後半、ある親戚が64MBのRAMを積んだWindows 98のデスクトップでDragon NaturallySpeakingを動かしていました。セットアップとは、ソフトが声に合わせて調整できるよう、45分かけて単語のリストを読み上げることでした。それでようやく、なんとか動いた。精度はせいぜい70%、一文ごとに4秒の遅れ。年賀状の一段落を口述するのに15分かかりました。ヘッドセットは部屋の向こうへ投げ飛ばされました。ヘッドセットは生き延び、その試みは死にました。25年後、同じ作業は90秒、学習はゼロです。ハードウェアが、ようやくこのアイデアに追いついたのです。
今日、真ん中のステップには二つの種類があります。ローカル処理は、モデルを自分のパソコンの上でオフラインで動かすので、音声が一切マシンの外に出ません。オフラインの音声テキスト変換が動くのと同じやり方です。クラウド処理は音声をサーバーに送るので、非力なハードでは速いこともありますが、自分の言葉が外に出ていきます。どちらが欲しいかは、何を口述しているかによります。買い物リストなら、誰も気にしません。顧客の契約書なら、気にするかもしれません。
三つ目のステップ、仕上げこそ、AIディクテーションの「AI」が宿る場所です。生の書き起こしは、段落の切れ目もなく、ときどき「えーと」が混じった言葉の壁を返してきます。言語モデルは句読点を直し、つなぎ言葉を落とし、頼めば口調まで合わせてくれます。Whisper by Remskillでは、このステップは任意で、Ollamaを通じてローカルで、あるいはProをオンにすれば自分のOpenAIキーを使ってクラウドで動きます。音声で起動することもできます。起動フレーズ(現在は「Hey whisper」)を言えば、テキストが生のまま貼られるのではなく、モデルに渡されます。とはいえ、こうしたことは核心の手品を変えるものではありません。言葉が届いたときに、どれだけ磨かれているかを決めているだけです。
すでに持っている無料の選択肢:Windowsの音声入力、Apple Dictation、Googleドキュメント
何かにお金を払う前に、自分のマシンにすでにあるものを確認しましょう。三つの無料の標準機能が、かなりの範囲をカバーします。
Windows · Win + H
macOS · Dictation
Docs · Voice typing
Windowsの音声入力
Windows 11では、どのテキスト欄でもWindowsロゴキーとHを同時に押すと、音声入力バーが現れます。手早いメッセージには向いています。難点は、認識がクラウドで行われるため、動かすにはインターネット接続と使えるマイクが要ること。Microsoftのリストによれば43言語に対応しています。電車の中でオフラインになると、動かなくなります。Windowsでの音声テキスト変換のガイドに、詳しい手順があります。
Apple Dictation
Macでは、「システム設定」の「キーボード」→「音声入力」でオンにし、マイクキーか選んだショートカットで開始します。現行版は長さに関係なくテキストを書き起こし、ハードな時間制限ではなく、30秒の無音が続いたときだけ止まります。Apple Siliconでは、音声を端末上で処理できます。短いメモなら無料で十分です。長めのセットアップはMacでの音声テキスト変換にあります。
Googleドキュメントの音声入力
Chrome、Edge、SafariでGoogleドキュメントを開き、「ツール」→「音声入力」をクリックすると、マイクのボックスが現れます。100を超える言語と地域別の変種に対応しています。決定的な制限は、その名前のとおりです。GoogleドキュメントとGoogleスライドの中でしか書けません。メールにも、Slackにも、コードにも入力してくれません。
この三つの正直な読み方はこうです。これらはデモではなく本物のツールで、多くの人にとっては、これで探索は終わりです。どこで止まるかも予想がつきます。Windowsの音声入力は、電波を失った瞬間に死にます。Googleドキュメントの音声入力は、決してそのドキュメントの外には出ません。Apple DictationはMacでは優秀ですが、それ以外のどこにもありません。あなたの仕事がこの境界の内側に収まるなら、もう終わりです。このタブを閉じて、キーを押してください。有料のカテゴリーは、収まらない仕事のためにあります。一日中の口述、飛行機の中でのオフライン、一つではなくすべてのアプリ、そして自分のディスクにとどめておかなければならない音声、そういう仕事のためです。
知っておく価値のある有料ツール(Dragon、Wispr Flow、Superwhisper、Voicy、Whisper by Remskill)
無料ツールに余裕がなくなったとき、一日中口述する、オフラインモードが要る、AIによる仕上げが欲しいといったとき、有料のカテゴリーが開けます。知っておく価値のある名前を、それぞれ正直な一行とともに挙げます。
ずらりと順位づけして見たいなら、こちらがランキングで見る最高の音声入力ソフトです。
これらをストップウォッチで一対一に走らせたわけではないので、そんなふりはしません。下の名前は三つのことで選びました。文書化されたプラットフォームの広さ(実際に入力する場所で動くか)、文書化されたオフライン対応(音声がマシンの外に出るか)、そして文書化された言語のカバー範囲です。表には、各ベンダーが公表している事実だけを載せています。速さと精度を外したのは、すべてを横並びにする中立的なベンチマークが存在せず、それを自分ででっち上げることこそ、私がここで思いとどまらせようとしている、まさにそのものだからです。
| ツール | プラットフォーム | ローカル / クラウド | オフラインで動作 | 料金モデル | 言語 | 向いている用途 |
|---|---|---|---|---|---|---|
| Windowsの音声入力 | Windows 11 | クラウド | 不可 | 無料、標準搭載 | 43 | ネット接続したPCでの手早いメッセージ |
| Apple Dictation | macOS | Apple Siliconではローカル | 可(Apple Silicon) | 無料、標準搭載 | 数十 | Macでの短いメモ |
| Googleドキュメントの音声入力 | ブラウザ | クラウド | 不可 | 無料、ブラウザ機能 | 100以上 | Googleドキュメント内だけで書くこと |
| Dragon by Nuance | Windows | ローカル | 可 | 有料、買い切りライセンス | 英語中心 | Windowsでの一日中の口述 |
| Whisper by Remskill | Windows、macOS(Apple Silicon) | ローカルまたはクラウド(自分のキー) | 可(ローカルエンジン) | ローカルは無料、クラウドは有料のPro | Whisper多言語版で99 | システム全体での口述、オフライン、あらゆるアプリ |
Dragon by Nuance は古参です。Dragon Professional v16は、初回利用から最大99%の認識精度で、タイピングの3倍速い口述をうたい、Windows 11向けに最適化されています。その99%はNuance自身の数字であって、中立的なベンチマークではありません。難点は、Dragon ProfessionalはWindows専用で、現行のMacデスクトップ版がないことです。
Wispr Flow、Superwhisper、Voicy は、AIディクテーションアプリの新しい波です。音声モデルをきれいなインターフェースで包み、口調や書式の仕上げを加えています。どれも有能です。このカテゴリーのほとんどに共通するパターンは同じ構成で、音声モデル、UI、そして毎月の請求書。差が最も出るのは、その請求書のところです。 その請求書がいちばん痛いところなら、正直なsuperwhisperの代替案を書きました。ローカルのパイプライン全体を、ずっと無料のまま使えます。
Whisper by Remskill(私たちのアプリ)は、WindowsとApple SiliconのmacOS向けのデスクトップツールです。ホットキーを押し、話すと、どのアプリでもテキストがカーソルの位置に貼り付けられます。標準のホットキーはWindowsではCtrl+Space、MacではCommand+Optionの押して話すコードで、両方を押し続け、どちらかを離すと止まります。選ぶのはエンジンです。三つの道から選べます。ローカルのNVIDIA Parakeet(約600MB、CPUでWhisperの5〜10倍速い、英語と24のヨーロッパ言語)。ローカルのWhisper(8つのモデル、多言語版なら99言語、英語への翻訳)。あるいはクラウドモードで、これは自分のOpenAIキーを使ってgpt-4o-mini-transcribeまたはgpt-4o-transcribeを動かし、私たちは一切手数料を取りません。ローカルの書き起こしはすべて純粋なRustで、Pythonはありません。より広い分野の詳しい比較は、書き起こしソフトのまとめにあります。
ここで、私の一つだけの意見を言わせてください。まずはローカルモードを試してください。MacがApple Siliconか、PCがここ4年以内のものなら、日々の口述にクラウドは要りません。ローカルのParakeetは、最近のハードなら2秒もかからずに書き起こしを始め、音声はノートパソコンの外に出ず、クラウドはOpenAI級の精度やウェブ検索が欲しいときの非常口であって、初期設定ではありません。壁にぶつかったときにネットワークに手を伸ばす。その前ではありません。私は反射的に大きくて派手な解決策に手を伸ばし、そのあと自分を引き戻す、そういうタイプの設計者です。ローカルファーストは、私が自分を引き戻している姿そのもの。それを公の場でやることで、私が一週間を無駄にする部分を、あなたは飛ばせます。
現実的な理由はハードウェアです。最近のノートパソコンには、すでにマイクと、音声モデルを単独で動かせるほど速いプロセッサが入っています。一段落分の音声を、マシンがオフラインで2秒以内にできる仕事のために、サーバーへ送って戻すのは、ノートパソコンが遅すぎた時代の名残の習慣です。もうそうではありません。クラウドが元を取るのは難しいケースです。騒がしい部屋、珍しい訛り、返信に貼り付けるライブのウェブ回答が必要なリクエスト。メール、メモ、チャットといった日々の流れには、ローカルのほうが始まりが速く、初期設定でプライベートで、サインインしたユーザーには無料です。非常口は必要なときにそこにあります。でも、たいていの日は使わないでしょう。
専用アプリをやめて標準機能を使うべきとき
ここが、ほとんどの「おすすめソフト」記事が飛ばす部分です。30語のテキストや手早いSlackの返信といった短いメッセージを送るなら、マシンにすでにある無料のディクテーションだけで十分です。Windowsの音声入力(Windowsキー+H)とApple Dictationは無料で、標準搭載で、ちゃんと動きます。一文を書くために、何かをインストールしたりお金を払ったりしないでください。専用アプリがその居場所を得るのは、頻繁に口述する、飛行機の中でオフラインに動いてほしい、一つだけでなくあらゆるアプリで使いたい、あるいは自分の言葉が端末にとどまることを気にする、そういうときです。その手前なら、退屈な真実ですが、あなたはすでに正しいツールを持っています。
Whisper by Remskillの料金
Whisper by Remskillは、サインインしたすべてのユーザーに対して、ローカルのパイプライン全体が無料です。ローカルのWhisper、Parakeet、OllamaベースのAI仕上げ、履歴、カスタムホットキー、モデルのダウンロード。登録に支払い方法は要りません。Whisper Proはクラウドの面を加えます。OpenAIのクラウド書き起こし、クラウドのAI強化、そして自分のOpenAIキーを使った音声ウェブ検索です。クラウドモードはOpenAIから直接請求され、私たちは手数料を取りません。現在のプランとProの体験版は、料金ページにあります。ここで数字を並べ立てるつもりはありません。一段落の文章よりも、そのページのほうがうまく伝えてくれます。
さらに読む
私の親戚は1999年に、ヘッドセットを部屋の向こうへ投げました。ディクテーションが、ゴミのような結果を生む45分の苦行だったからです。ヘッドセットはその試みより長生きしました。25年後、その苦行は消えました。キーを押して話せば、言葉が現れます。残された本当の決断は「どのツールか」だけで、多くの人にとっての正解は、すでにマシンの上に、電源を切られたまま、待っているのです。私自身の子どもたちは、それがかつて大変だったことを決して知らないでしょう。それが目標です。たとえ、夕食の食卓では面白みのない話になるとしても。
まずはすでに持っているものを試そう
余裕がなくなったら、Whisperをダウンロードして、自分の働き方に合うエンジンを選んでください。
ローカルのパイプライン全体が、サインインしたユーザーには無料。登録時にカードは不要。



