Denys Medvediev

ガイド

音声入力ソフト: 無料の標準機能と有料ツールの違い

最高の音声入力ソフトのいくつかは、すでにあなたのパソコンに入っています。どれを使うべきか、そして専用アプリにお金を払う価値が本当にあるのはどんなときかを解説します。

最終更新:2026年6月

明るいオフィスの机に置かれたスタイリッシュなノートパソコンと水のグラス。ハンズフリーの音声入力に向けてセットされている

音声入力ソフトはマイクで音声を聞き取り、話した内容を文字に書き起こして、編集できるテキストに変えます。タイピングが1分あたり約40語なのに対し、音声なら約145語。優れたツールはシステム全体で動くので、文字がカーソルの位置にそのまま入ります。WindowsやMacに無料で組み込まれているものもあれば、オフラインモードやAIによる仕上げを加えた有料アプリもあります。

話せば、言葉はカーソルの位置に届く

初めてうまくいくと、ちょっとした手品のように感じます。キーを押しながら一文を話し、手を離すと、その文がもうメールの中にある。キーボードはいりません。私の年下の親戚は、私が「ディクテーションとは何か」を説明し終える前に、おばあちゃん宛ての90語のメモを話して入力してしまいました。難しかったのは、話すことではありません。20年もの間、難しかったのは、信頼できるほどソフトが良くなることでした。そしてその部分がついに解決されたのです。

この記事は、どの音声入力ソフトが時間をかける価値があるのか、すでに持っている無料の選択肢も含めて、お伝えするものです。

Pasted
Whisperのオーバーレイがディクテーションを終えたところ。テキストがカーソルの位置に貼り付けられる。

キーボードから離れられない人の多くは、必要だからではなく、習慣でそうしています。タイピングは後天的に身につけた妥協の産物で、頭の中の考えを、耳を持たない機械に出すための手段です。音声入力ソフトはその妥協をなくします。「動くかどうか」が問題でなくなったのは2022年ごろで、問いは「どれを選ぶか、そしてお金を払う必要があるのか」に変わりました。

正直な答えは、三つのことで決まります。どれくらい長く話すか、すべてのアプリで使いたいか、そして自分の言葉がノートパソコンの外に出ないことを気にするか。読み終えるころには、どの道が自分に合うかが分かるはずです。そして、無料の標準機能だけで十分なときも、はっきりお伝えします。私はこのアプリのサポートメールのほとんどに目を通していますが、その一定数は、自分のパソコンにすでにある機能で事足りたのに、ツールにお金を払ってしまった人からのものです。だから私には、購入を思いとどまらせることに、ちょっとした利害があるのです。

音声入力ソフトとは何か

鮮やかな音波を表示するデジタルオーディオインターフェースのクローズアップ。音声がデータとして捉えられる様子を表している

音声入力ソフトとは、マイクから音声を取り込み、音声認識モデルを使って文字に変換するプログラムです。古い呼び名はディクテーションソフト。新しいマーケティング上の呼び名はAIディクテーションで、これはたいてい、句読点や言い回しを整える言語モデルを後ろに足しただけで、中身はほぼ同じものを指します。

形は三つあります。標準のディクテーションはOSに付属しています。Windowsの音声入力、Apple Dictationなどです。ブラウザベースの音声入力は一つのアプリの中だけで動きます。Googleドキュメントの音声入力のようなものです。そして専用のデスクトップアプリは別途インストールし、入力するあらゆる場所で使えます。ブランドよりも、この「形」のほうが重要です。Googleドキュメントの中でしか書けないブラウザツールは、どれだけ精度が高くても、Slackのメッセージには役に立ちません。どんなツールでも最初に問うべきは、精度がどれくらいかではなく、どこに入力させてくれるかです。精度は今やほとんどのツールで解決済みの問題ですが、「届く範囲」はそうではありません。

本格的なツールとおもちゃを分けるのは、どこに貼り付けるかです。標準ツールと専用デスクトップツールはシステム全体で動きます。どんなテキスト欄でもホットキーを押せば、そこにテキストが現れる。これがすべてです。精度も、言語も、AIによる仕上げも、その他のすべては、「今見ている場所に入力できるか」の上に乗った磨き込みにすぎません。

もう一つ、カテゴリーを分けるものがあります。モデルが何を聞き取れるかです。英語しか扱えないツールもあります。何十もの言語を扱い、一文の途中で切り替えられるものもあります。Whisperの英語専用モデルはちょうど一言語に対応し、多言語版は99言語をカバーします。NVIDIAのParakeetはその中間で、英語と24のヨーロッパ言語、計25言語です。英語でしか書かないなら、そんなことはどうでもよく、速さで選ぶべきです。昼までに二つの言語で下書きをするなら、これは大いに重要です。多くの人は、自分が必要とする言語の数を多く見積もりすぎ、レイテンシをどれだけ気にするかを過小評価します。キーを離してから文字が見えるまでの遅れこそ、毎回必ず感じるものなのです。

このカテゴリーについて読むより、システム全体で動くやり方を実際に見たいなら、Whisper音声入力ページで、WindowsとMacでホットキーを押し続けるループが、無料のローカルエンジン込みでご覧いただけます。

仕組み(そしてなぜ精度がついに良くなったのか)

内部のパイプラインは三つのステップでできています。マイクが短い音声クリップを録音する。音声認識モデルがその音声をテキストに変える。そして、ときには言語モデルが整えたあとで、テキストが貼り付けられる。

CancelTranscribing
Whisperの書き起こし中。音声モデルが音をテキストに変えている。

誰もが気づいた精度の飛躍は、真ん中のモデルから来ました。OpenAIによるオープンソースのWhisperモデルが、「良い」の意味を変えたのです。訛りも、雑音も、多言語版なら99言語も扱え、しかも学習のステップは要りません。最後のその点こそ、静かな革命でした。今どきの音声入力ソフトに、自分の声を教え込む必要はありません。インストールして、話すだけです。

それがSF同然だった時代を覚えているくらい、私は年を取っています。1990年代後半、ある親戚が64MBのRAMを積んだWindows 98のデスクトップでDragon NaturallySpeakingを動かしていました。セットアップとは、ソフトが声に合わせて調整できるよう、45分かけて単語のリストを読み上げることでした。それでようやく、なんとか動いた。精度はせいぜい70%、一文ごとに4秒の遅れ。年賀状の一段落を口述するのに15分かかりました。ヘッドセットは部屋の向こうへ投げ飛ばされました。ヘッドセットは生き延び、その試みは死にました。25年後、同じ作業は90秒、学習はゼロです。ハードウェアが、ようやくこのアイデアに追いついたのです。

今日、真ん中のステップには二つの種類があります。ローカル処理は、モデルを自分のパソコンの上でオフラインで動かすので、音声が一切マシンの外に出ません。オフラインの音声テキスト変換が動くのと同じやり方です。クラウド処理は音声をサーバーに送るので、非力なハードでは速いこともありますが、自分の言葉が外に出ていきます。どちらが欲しいかは、何を口述しているかによります。買い物リストなら、誰も気にしません。顧客の契約書なら、気にするかもしれません。

三つ目のステップ、仕上げこそ、AIディクテーションの「AI」が宿る場所です。生の書き起こしは、段落の切れ目もなく、ときどき「えーと」が混じった言葉の壁を返してきます。言語モデルは句読点を直し、つなぎ言葉を落とし、頼めば口調まで合わせてくれます。Whisper by Remskillでは、このステップは任意で、Ollamaを通じてローカルで、あるいはProをオンにすれば自分のOpenAIキーを使ってクラウドで動きます。音声で起動することもできます。起動フレーズ(現在は「Hey whisper」)を言えば、テキストが生のまま貼られるのではなく、モデルに渡されます。とはいえ、こうしたことは核心の手品を変えるものではありません。言葉が届いたときに、どれだけ磨かれているかを決めているだけです。

すでに持っている無料の選択肢:Windowsの音声入力、Apple Dictation、Googleドキュメント

何かにお金を払う前に、自分のマシンにすでにあるものを確認しましょう。三つの無料の標準機能が、かなりの範囲をカバーします。

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
あなたのパソコンにすでにあるディクテーションを、二つの種類で。インストールは不要。

Windowsの音声入力

Windows 11では、どのテキスト欄でもWindowsロゴキーとHを同時に押すと、音声入力バーが現れます。手早いメッセージには向いています。難点は、認識がクラウドで行われるため、動かすにはインターネット接続と使えるマイクが要ること。Microsoftのリストによれば43言語に対応しています。電車の中でオフラインになると、動かなくなります。Windowsでの音声テキスト変換のガイドに、詳しい手順があります。

Apple Dictation

Macでは、「システム設定」の「キーボード」→「音声入力」でオンにし、マイクキーか選んだショートカットで開始します。現行版は長さに関係なくテキストを書き起こし、ハードな時間制限ではなく、30秒の無音が続いたときだけ止まります。Apple Siliconでは、音声を端末上で処理できます。短いメモなら無料で十分です。長めのセットアップはMacでの音声テキスト変換にあります。

Googleドキュメントの音声入力

Chrome、Edge、SafariでGoogleドキュメントを開き、「ツール」→「音声入力」をクリックすると、マイクのボックスが現れます。100を超える言語と地域別の変種に対応しています。決定的な制限は、その名前のとおりです。GoogleドキュメントとGoogleスライドの中でしか書けません。メールにも、Slackにも、コードにも入力してくれません。

この三つの正直な読み方はこうです。これらはデモではなく本物のツールで、多くの人にとっては、これで探索は終わりです。どこで止まるかも予想がつきます。Windowsの音声入力は、電波を失った瞬間に死にます。Googleドキュメントの音声入力は、決してそのドキュメントの外には出ません。Apple DictationはMacでは優秀ですが、それ以外のどこにもありません。あなたの仕事がこの境界の内側に収まるなら、もう終わりです。このタブを閉じて、キーを押してください。有料のカテゴリーは、収まらない仕事のためにあります。一日中の口述、飛行機の中でのオフライン、一つではなくすべてのアプリ、そして自分のディスクにとどめておかなければならない音声、そういう仕事のためです。

専用アプリをやめて標準機能を使うべきとき

ここが、ほとんどの「おすすめソフト」記事が飛ばす部分です。30語のテキストや手早いSlackの返信といった短いメッセージを送るなら、マシンにすでにある無料のディクテーションだけで十分です。Windowsの音声入力(Windowsキー+H)とApple Dictationは無料で、標準搭載で、ちゃんと動きます。一文を書くために、何かをインストールしたりお金を払ったりしないでください。専用アプリがその居場所を得るのは、頻繁に口述する、飛行機の中でオフラインに動いてほしい、一つだけでなくあらゆるアプリで使いたい、あるいは自分の言葉が端末にとどまることを気にする、そういうときです。その手前なら、退屈な真実ですが、あなたはすでに正しいツールを持っています。

Whisper by Remskillの料金

Whisper by Remskillは、サインインしたすべてのユーザーに対して、ローカルのパイプライン全体が無料です。ローカルのWhisper、Parakeet、OllamaベースのAI仕上げ、履歴、カスタムホットキー、モデルのダウンロード。登録に支払い方法は要りません。Whisper Proはクラウドの面を加えます。OpenAIのクラウド書き起こし、クラウドのAI強化、そして自分のOpenAIキーを使った音声ウェブ検索です。クラウドモードはOpenAIから直接請求され、私たちは手数料を取りません。現在のプランとProの体験版は、料金ページにあります。ここで数字を並べ立てるつもりはありません。一段落の文章よりも、そのページのほうがうまく伝えてくれます。

さらに読む

私の親戚は1999年に、ヘッドセットを部屋の向こうへ投げました。ディクテーションが、ゴミのような結果を生む45分の苦行だったからです。ヘッドセットはその試みより長生きしました。25年後、その苦行は消えました。キーを押して話せば、言葉が現れます。残された本当の決断は「どのツールか」だけで、多くの人にとっての正解は、すでにマシンの上に、電源を切られたまま、待っているのです。私自身の子どもたちは、それがかつて大変だったことを決して知らないでしょう。それが目標です。たとえ、夕食の食卓では面白みのない話になるとしても。

まずはすでに持っているものを試そう

余裕がなくなったら、Whisperをダウンロードして、自分の働き方に合うエンジンを選んでください。

ローカルのパイプライン全体が、サインインしたユーザーには無料。登録時にカードは不要。

Denys Medvedievの写真

Denys Medvediev

私は、私たちのサポートメールに目を通している張本人です。たぶん、返信もディクテーションで書いています。