Denys Medvediev

音声入力 · ガイド

音声入力アプリ: デバイスごとに何を入れるべきか

Android と iPhone なら、キーボードに組み込まれた音声入力で十分です。無料で、しかもよくできています。Windows と Mac の標準ツールは短い入力ならこなせますが、本格的な文章になるとすぐに限界が来ます。Whisper のようなデスクトップ向け音声入力アプリは、グローバルホットキー、オフラインで動くローカルモデル、そしてどんなアプリにも文字が流し込める機能を加えてくれます。

最終更新:2026年6月

木製のデスクに並ぶノートパソコンとスマートフォン。音声入力アプリが活躍できる2つの場所

音声入力アプリは、カーソルのある場所に話した言葉をそのまま文字にしてくれます。スマートフォンでは、標準のキーボードがすでにこれをやってくれます。Android なら Gboard、iPhone ならキーボードのマイクキーです。Windows と Mac のデスクトップでは標準ツールに制限が多く、ここで Whisper by Remskill のような専用デスクトップアプリが本領を発揮します。

どのアプリストアでも「音声入力アプリ」と検索すれば、マイクボタンに新しい衣装を着せただけのキーボードアプリが何ページも並びます。一方で、根っこの数字は何も変わっていません。多くの人のタイピングは1分あたり40語前後、話す速さは145語前後。このギャップこそが、このカテゴリーが存在する理由のすべてです。

私はこの手のアプリを自分で作っているのに、先週は400語のメールを親指で打っている自分に気づきました。習慣は、その理由がなくなった後も生き残るものです。やっかいなのは、正解が手にしているデバイス次第で変わること。そして、そのうちの1つでは、正解は無料で、最初から入っているのです。

「音声入力アプリ」という1つの名前は、実は2つの異なる状況をひとくくりにしています。そしてたいていのまとめ記事は、それを言いません。スマートフォンでは、音声入力はすでに解決済みの問題で、アプリストアがそれを繰り返し売り直しているだけ。長文を書くデスクトップでは、標準ツールに条件がついて回ります。賢い選び方は、デバイス単位で考えることです。

このページを読み終える頃には、スマートフォンには何を残せばよいか、デスクトップの標準ツールはどこで止まるか、そしてそれを超えたときに何を入れればよいかがわかるはずです。私はデスクトップ向け音声入力アプリを生業にしていますが、最初に人へ伝えるのは「スマートフォンには何も入れなくていい」ということです。

スマートフォンには最初から音声入力アプリが入っている

スマートフォンを持つ手。標準のキーボードがすでに音声入力をこなす

そっけない真実ですが、スマートフォンにとって最高の音声入力アプリは、最初から入っているキーボードです。Android なら Gboard がこれをやってくれます。テキスト欄をタップし、キーボード上部のマイクをタップして、「お話しください」と表示されたら話すだけ。「まる」「てん」「改行」のように、句読点を声に出して入力することもできます。ただし Google は、句読点や音声入力がすべての言語で使えるわけではないと注意しています。iPhone でも、キーボードのマイクキーが同じ仕事をこなします。

これでメッセージ、メール、検索ボックス、メモはカバーできます。スマートフォンで書くものの大半がこれです。よくあるスマートフォンの音声入力は、50〜150語ほどの返信メール、話す時間にして約30秒。標準のマイクは文句ひとつ言わずこれをこなします。検索結果にひしめくサードパーティ製キーボードアプリは、その同じマイクに別のブランドの皮をかぶせただけで、ときにサブスクリプションまで付いてきます。何かを入れる前に、すでに手元にあるボタンを試してみてください。無料でプリインストールされた選択肢が、同時に最も賢い選択でもある。そんな珍しいカテゴリーです。

ここで正直に1つお伝えします。普通なら売り手が自社のモバイルアプリへ話を持っていくところですが、私たちにはモバイルアプリがありません。Whisper by Remskill は Windows と macOS 向けのデスクトップアプリで、それがすべてです。音声入力の主戦場がスマートフォンなら、私のおすすめは標準のキーボードです。このタブは、安心して閉じてしまってかまいません。

デスクトップでは標準ツールが力尽きる

デスクトップ向けの2つのOSは、どちらも音声入力を内蔵しています。何かを入れる前に、両方知っておく価値があります。Windows 11 では、Windows キー + H を押すと小さな音声入力ウィジェットが現れます。必要なものは3つ。インターネット接続、動くマイク、そしてテキストボックスに置かれたカーソルです。40以上の言語に対応し、設定をオンにすれば句読点も自動で入れてくれます。覚えておくべき境界線は、インターネットが必須だという点です。Win+H は、ホテルの Wi-Fi が落ちるその瞬間まで素晴らしいのです。

音声入力

認識中…

Win + H
Windows の音声入力ウィジェットを簡略化したスケッチ。Win + H の裏にある標準ツールです。

Mac では、ファンクション行のマイクキー、キーボードショートカット、または「編集 > 音声入力を開始」からディクテーションが始まります。文字数の上限はありませんが、無音が30秒続くと自動的に止まります。つまり実際には、天井を見上げて言葉を探している間に終わってしまうということです。対応言語では頼まなくても句読点を入れてくれますが、Apple はディクテーションがすべての言語や地域で使えるわけではないと述べています。

どちらのツールも悪くはなく、1〜3文ならどちらでも十分です。境界が見えてくるのは、文章が本格的になったときです。製品名や顧客名のためのカスタム語彙は、どちらの機能リストにもありません。話し言葉に混じる「えっと、その」といった部分を整えるAIの後処理もありません。Mac では音声入力がデバイス上で処理されているか確認できますが、Windows ではオフラインになった瞬間にツールが沈黙します。こうした境界こそが、デスクトップ向け音声入力アプリが1つのカテゴリーとして存在する理由です。

デスクトップ向け音声入力アプリが本来やるべきこと

木製テーブルに置かれた、オレンジ色のアクセントキーを持つメカニカルキーボード

仕組み自体は一言で言えます。デスクトップ向け音声入力アプリはバックグラウンドに常駐し、1つのグローバルホットキーを見張り、押している間だけ録音し、その音声を音声認識モデルに通して、結果をカーソルのある場所に貼り付けます。この一文の各パーツが、入れる前に確認すべきポイントです。

ホットキーが大事なのは、音声入力を「わざわざ訪ねに行く機能」ではなく「反射」に変えてくれるからです。「カーソルのある場所どこでも」が大事なのは、文章を書く場所がメール、Slack、CRM、コードエディタ、ブラウザのフォームと多岐にわたるから。自分のウィンドウの中だけにしか入力できないツールは、マイク付きのメモ帳にすぎません。モデルは2つの意味で重要です。1つは精度、もう1つは音声がどこへ行くか。ローカルモデルは自分のマシン上で動き、オフラインでも使えます。クラウドモデルは音声をサーバーへ送り、たいてい精度はより高くなります。よいデスクトップアプリは、あなたの代わりに決めてしまうのではなく、状況に応じて選ばせてくれます。

速度もチェックリストに入ります。具体的な数字で言いましょう。M1 MacBook Air で小さめのローカル英語モデルを動かすと、Whisper はキーを離してから文字が貼り付くまで約1.4秒。まずまずの回線でクラウドモードなら約1.1秒です。この範囲のレスポンスなら、音声入力は「反射」のカテゴリーにとどまります。待たされたり、ウィンドウを開かされたり、パネルからテキストをコピーさせられたりすると、その手間が、求めていたはずの速さを食いつぶしてしまいます。

このページで、私の意見を1つだけ。最高の生産性ハックは、速いステップではなく、ステップを減らすことです。多くのツールはタイピングを速くしようとします。音声入力はタイピングそのものを消します。流れは「止まる、座る、打つ」から「話す、終わり」へ。これが、1分145語の話し言葉が、新しいスキルを誰も覚えずに、1分40語のタイピングに勝つ仕組みです。ステップを足して戻してしまうアプリは、自分のカテゴリーの本質を見失っています。

カテゴリーそのもの——エンジン、精度、ローカル対クラウドのトレードオフ——をもっと深く知りたい方には、音声入力ソフトウェアの解説記事を別に用意しています。このページは、もっと狭い問いにとどまります。デバイスごとに何を入れるべきか、です。

Whisper は Windows と Mac で音声入力をどう扱うか

Whisper by Remskill は、この問いのデスクトップ側に対する私たちの答えです。ホットキーを1つ押し(Windows なら Ctrl+Space、Mac なら Command+Option)、話して、離す。するとテキストが、どのアプリでもカーソルのある場所に着地します。話している間は、小さなオーバーレイが画面に浮かび、認識中であることがわかります。

Cancel
Whisper の録音オーバーレイをそのまま再現。これは実際に出荷しているUIで、スクリーンショットではなくアニメーションです。

内部では3つの経路から選べます。アプリが勝手に選ぶことはありません。

  • ローカル Whisper英語に最適化されたモデル群と多言語モデル群があり、約140MBの Base モデルから約3GBの Large v3 までそろっています。多言語ファミリーは自動検出を含む90以上の言語をカバーします。英語専用モデルは文字通り英語だけなので、1日のうちに言語を切り替えるなら多言語ファミリーを選んでください。
  • ローカル ParakeetCPU 上で Whisper より5〜10倍速く動き、英語に加えて24のヨーロッパ言語をカバーします。ほぼ英語で音声入力する人のための高速レーンです。
  • クラウド(自分の OpenAI キー)自分の API キーで OpenAI に接続します。音声認識そのものには gpt-4o-mini-transcribe または gpt-4o-transcribe を、任意のAI後処理には gpt-5-mini を使います。

ローカルはすべて無料です。モデルは自分のデバイス上で動き、オフラインでも使え、どこにも何も送らず、登録にカードも要りません。

もう1つ知っておく価値のある仕掛けがあります。AIキーワードです。録音を「Hey whisper」で始めると、アプリはそのまま貼り付ける代わりに、書き起こしたテキストのAI処理を起動します。日常の文章には音声入力を、文章を作り直したいときにはアシスタントを。どちらも同じホットキーです。

私が一番信頼しているテストは、ベンチマークではありませんでした。下の娘に Whisper を渡し、一度だけやって見せて(押す、話す、離す、貼り付け)、彼女は祖母宛てに、抜けた歯と歯の妖精の交換レートについての90語のメールを、追加の質問もなく音声入力しました。その2日後、「お絵かきアプリでホットキーが効かない」という報告が。これで私は、普通のユーザーはホットキーの競合が何かを知らないということを学びました。彼らはただ「効かない」とわかるだけです。カスタマイズ可能なホットキー設定は、その晩のうちに出荷しました。7歳がこのループを回せるなら、ループは十分シンプルです。

Whisper
本物の Whisper デスクトップアプリをそのまま埋め込んでいます。設定やモデル選択を実際にクリックして触ってみてください。

上に埋め込まれているアプリは本物のデスクトップ用フロントエンドで、スクリーンショットではありません。自由にクリックしてみてください。そして、もう一度だけお伝えします。インストールの意思には率直な答えが必要だからです。Whisper は Windows と Apple Silicon の Mac で動き、それ以外では動きません。

何かを入れる前の短いチェックリスト

ソフトウェアを入れることは、たとえ無料でも1つのコミットメントです。どんなレビューまとめより速く整理してくれる5つの問いがあります。

  • 正直なところ、どのデバイスで書いていますか? ほとんどスマートフォンなら、標準キーボードの音声入力を使い、何も払わないこと。
  • どのアプリでも入力できますか? コピー元になる別ウィンドウではなく、カーソル位置に貼り付けてくれるグローバルホットキーを探すこと。
  • オフラインで動きますか? Windows の音声入力は動きません。ローカルモデルは動きます。サーバーに触れさせたくないものを書くなら、この問いを最初に置いてください。
  • 対応言語は何か、エンジンごとに数えると? Windows の音声入力は40以上、Whisper の多言語モデルは90以上、Parakeet は25、.en モデルは英語のみです。
  • 先にマイクを直しましたか? $20 の USB マイクは、どんなモデルのアップグレードよりも精度に効きます。私はソフトウェアを作っている側ですが、それでもマイクの勝ちです。この業界で、それを声に出して言うのを楽しむ人はいません。

もし精度の数字やエンジンの比較といった調査の角度からここに来たのなら、音声文字起こしアプリの解説記事がその側面をカバーしています。プランと内容については料金ページをご覧ください。短く言えば、ローカルはすべて無料です。

Whisper を使わなくていいとき

音声入力がスマートフォンで起きているなら、私たちは飛ばしてかまいません。私たちにはモバイルアプリがなく、Gboard や iPhone キーボードの音声入力は無料で、十分すぎるほど使えます。Mac で1日1〜2文しか書かないなら、Apple Dictation が標準で入っていて、マイクキーから始められ、句読点も入れてくれます。

複数話者の会議の文字起こしと要約が必要なら、それは音声で書くこととは別の製品カテゴリーです。そのカテゴリーで探すべきです。そして Linux や Intel Mac を使っているなら、Whisper は動きません。標準ツールやブラウザのツールが、あなたにとっての正直な選択肢です。

出典

20年前、音声入力といえば、キャリブレーション用の文章をコンピュータに読み上げて、うまくいくことを祈るものでした。今日の正直なまとめは2行に収まります。スマートフォンはすでにそれをこなし、デスクトップは1回のインストールでちゃんとそれをこなせる、と。マイクはもうしばらく前から、あなたのデスクで最速の入力デバイスです。私たちの多くが、まだそのキーを押していないだけなのです。

デスクトップに音声入力アプリを

Whisper をダウンロードし、ホットキーを1つ押して、テキストがカーソルのある場所に着地するのを見てください。

Windows と Apple Silicon の Mac で動きます。ローカルはすべて無料です。キーボードは、必要なときにちゃんとそこにあります。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読んでいるのは私です。返信もたぶん、音声入力で書いています。