比較
Googleの音声入力に代わる選択肢: どこでも音声で入力
Googleの音声入力はGoogleドキュメントの中だけで使えます。カーソルのある場所ならどこにでも文字を入力できるデスクトップ用の音声入力アプリと、包み隠さず並べて比べてみました。そして、無料の標準ツールのままで十分なのはどんなときか、その答えもはっきりお伝えします。
最終更新:2026年6月

Googleの音声入力に代わる一番の選択肢は、Googleドキュメントだけでなくあらゆるテキスト欄に入力できるデスクトップ用の音声入力アプリです。Whisper by RemskillはWindowsとMacで動き、無料のローカルAIモデルでオフライン文字起こしをし、句読点を自動で付け、カーソルのある場所ならどこにでもテキストを貼り付けます。メールでも、Slackでも、Wordでも、どんなブラウザでも。
火曜の朝、登校前に出さなければならない80語ほどの先生宛メール。私はGoogleドキュメントで音声入力を開き、整った段落を3つ口述し、実際の返信を書こうとGmailに切り替えました。すると、いつまでたっても聞いていない作成画面に向かって話している自分に気づいたのです。Googleの音声入力にはたった一つのルールがあります。ドキュメントの中にとどまること。マイクはドキュメントの「ツール」メニューの中に住んでいて、外までついてきてはくれません。
そこであなたは、一つのタブで口述し、コピーし、切り替え、貼り付け、声に出し忘れた句読点を直し、送信します。この小さなリレー競走こそが、代わりの選択肢を探す理由のすべてです。このページでの判断はシンプルです。一つのアプリの中だけで使える無料ツールを使い続けるか、それともカーソルにどこまでもついてくる音声入力に乗り換えるか。
ここに隔たりがあります。Googleの音声入力はGoogleドキュメントの文書とスライドのスピーカーノートに文字を入力しますが、あなたの仕事の一日はそこにとどまりません。一方で、デスクトップの音声入力は大きく成長しました。ローカルAIモデルはいまや普通のノートパソコンで動き、話しながら言い回しを整え、音声をどこにも送りません。
この比較では、私が開発しているデスクトップ音声入力アプリWhisper by Remskillを、Googleの音声入力と5つの観点で並べます。どこに入力できるか、句読点、対応言語、プライバシー、そしてオフラインでの動作です。読み終えるころには、自分の書き方にはどちらが合うかが分かるはずです。もし正直な答えが「Googleのままでいい」なら、このページの終わりに近いセクションでそうはっきり言います。私はサポート返信を含め、自分の文章のほとんどを音声入力で書いています。だからこれは機能紹介ページからの受け売りではなく、毎日の実体験からのものです。
Googleの音声入力が得意なこと、そして止まる場所
まずは評価から。Googleの音声入力はGoogleアカウントがあれば無料で使え、インストールは一切不要、Chrome・Edge・Safariの最新版で動きます。ドキュメントの文書の中、あるいはスライドのスピーカーノートや字幕では、認識精度はまずまずで、対応言語のリストも長い。すべてをドキュメントで書く人なら、それだけの値打ちがあります。設定の詳しい手順は私たちのGoogleドキュメント音声入力の使い方ガイドで説明しています。
止まる場所も同じくらいはっきりしています。句読点は手動です。「句点」「読点」「疑問符」「改行」と口に出して言います。しかも句読点はすべての言語で使えるわけではありません。編集と書式設定のコマンドは英語でしか動かず、しかもアカウントの言語と文書の言語の両方が英語のときだけです。(スライドのスピーカーノートは音声入力は使えますが、音声コマンドはまったく使えません。理由は私にも分かりません。)
そしてこの記事のきっかけになった境界線。この機能はGoogleの2つの画面の中にだけ存在し、それ以外のどこにもありません。Gmail、Slack、CRM、コードエディタ、ウェブフォーム——どれも無反応です。これはどれもバグではありません。無料の機能が、自分のヘルプページに書かれているとおりのことを、それ以上でもそれ以下でもなくやっているだけです。問われているのは、あなたの書き方がその箱の中に収まるかどうかです。それに、文の途中で聞き取りが止まったときは、たいていマイクのせいであってあなたのせいではありません。Googleドキュメント音声入力の不具合の直し方がよくある原因を取り上げています。
あらゆるアプリで使える音声入力の選択肢
Whisperは正反対の賭けに出ます。音声入力は一つのウェブサイトのものではなく、OS全体のものだという考え方です。ホットキーを押します。WindowsならCtrl+Space、MacならCommandとOptionを押しっぱなしにしてプッシュ・トゥ・トークとして使います。話します。キーを離します。テキストはカーソルのある場所——メール、チャット画面、表計算のセル、コミットメッセージ——に着地します。コピーの手順はありません。コピー元の「元の文書」がそもそも存在しないからです。
速さの話はシンプルな算数です。音声入力はおよそ毎分145語で進みます。タイピングはおよそ毎分40語ですから、約3.6倍の差です。M1 MacBook Airで英語のsmallモデルを使うと、キーを離してからテキストが現れるまでの差は1.4秒です。
舞台裏では、3つの道のうち1つをあなたが選びます。アプリが勝手に選ぶことはありません。クラウドモードは自分のAPIキーでOpenAIに接続し、gpt-4o-mini-transcribeまたはgpt-4o-transcribeを使います。NVIDIAのローカルエンジンであるParakeetは、CPU上でWhisperモデルより5〜10倍速く動き、英語と24のヨーロッパ言語に対応します。そしてローカルのオープンソースのWhisperモデルは、140MBの英語モデルから3GBのLarge v3まで幅があります。アプリはWindowsとApple SiliconのMac向けに提供しています。
Googleの音声入力とWhisperを並べて比較
比較の基準は、表を作る前に決めました。どこに入力するか、どこで動くか、句読点、音声コマンド、対応言語、オフラインでの動作、そして料金の形です。私がまだドキュメントのマイクを使っていたころ、この7つが私の決め手になりました。Google側の列はGoogle自身のヘルプページから、Whisper側の列はアプリのソースコードから取っています。ソースコードはここから私が見られます。
| Googleの音声入力 | Whisper | |
|---|---|---|
| 入力できる場所 | ドキュメントの文書、スライドのスピーカーノートと字幕 | パソコン上のあらゆるテキスト欄 |
| 動作環境 | 最新版のChrome・Edge・Safari | デスクトップアプリ、Windows + macOS(Apple Silicon) |
| 句読点 | 声に出して言う。すべての言語で使えるわけではない | AIによる整形で付与 |
| 音声コマンド | 英語のみ。アカウントと文書の言語が両方とも英語のとき | 「Hey whisper」のキーワードとカスタムプリセット |
| 対応言語 | 長いリスト。言語ごとに句読点の制限あり | 多言語Whisperモデルで90以上、Parakeetで25、英語専用の.enビルド |
| オフライン | ブラウザ機能。オフライン利用の記載なし | ローカルモードはインターネットなしで動作 |
| 料金の形 | Googleアカウントで無料 | ローカルモードは無料。クラウド機能は有料—— 料金を見る |
結論は最初の段落どおりです。あなたの文章がGoogleドキュメントの外に出た瞬間、選ぶべきはWhisperです。Googleの音声入力は、文章が決してドキュメントの外に出ない人にとっては今も正しい答えです。その場合については下に専用のセクションを設けました。本気でそう思っています。
ブラウザの音声入力と、デスクトップの音声入力

「ブラウザの音声入力」とは、たいていタブで開くウェブサイトのことです。マイクボタンを押すと文字をテキスト欄に書き起こしてくれる無料のページです。こうしたツールはブラウザの音声認識エンジンに乗っています。その仕組みについて、MDNのWeb Speech APIのドキュメントは率直です。「音声は認識処理のためにウェブサービスへ送られるため、オフラインでは動作しません」。同じページは2つの代償も挙げています。プライバシー——音声が端末から外へ出るため——と、信頼性——接続がなければ書き起こしもないため——です。
一度きりのメモなら、ブラウザの音声入力ページで十分です。代償が見えてくるのは繰り返したときです。口述するたびに、選択、コピー、切り替え、貼り付けで終わります。私は一度、買い物リストを間違ったタブに口述し、家計の表計算シートに貼り付けてしまったことがあります。10秒ほどの間、第3四半期の見通しには「ヨーグルト、大きいやつじゃなくて小さいやつ」が含まれていました。デスクトップツールはこの種の事故をまるごとなくします。テキストが終わる場所——あなたのカーソル——から始まるからです。それに、ブラウザのマイクが言うことを聞かないときは、直すのはブラウザの設定の中で、それだけで午後が一つ潰れます。十分な数の人から尋ねられたので、Chromeの音声入力の直し方をまとめました。
句読点と整形——誰も数えない編集の税金
つまらない真実ですが、遅いのはもともと文字起こしではありませんでした。整形のほうです。Googleの音声入力では句読点を声に出して言います(「句点」「改行」)。これは機能しますが、読点をいちいち口にする人間にあなたを変えてしまいます。この記事のためにコマンドを試したところ、私のテスト文書には「読点」という言葉が11回入っていました。この癖は家にもついてきます。実際の会話で、口に出した文の最後を「句点」で締めたことが、その後ありました。
Whisperはその代わりに、生の文字起こしをAI整形の工程に通します。文法が直り、つなぎ言葉が取り除かれ、句読点が然るべき場所に置かれます。ローカルモードではこれはOllamaを通して、クラウドモードではOpenAIのモデルを使い、既定の整形にはgpt-5-miniが使われます。文を「Hey whisper」で始めると、AIはそれに続く言葉を、入力すべきテキストではなく指示として扱います。「Hey whisper, make this reply polite but firm(この返信を丁寧だけど毅然とした調子にして)」は、デモではなく実際の使い方です。使い心地の違いはいくら言っても言い足りません。一方のツールは、あなたに書式を演じることを求めます。もう一方は、人として話させてくれて、そのまま送れるものを返してくれます。
プライバシー——あなたの声はどこへ行くのか
私が譲らない意見はこれです。自分の管理下にないサーバーへ声を送る音声入力はプライバシーの問題であり、仕事によっては受け入れがたいものです。ブラウザの音声入力は、音声を処理のために外へ送ることで動きます。買い物リストならそれで構いません。契約書の草案、患者のメモ、子どもの学校の事情についてのメールとなると、話は別です。
私はこの教訓の費用面を間近で見ました。一緒に仕事をしていたチームが、外部の請負業者に社内向けAI音声入力の試作品を作らせ、それは発話ごとにクラウドAPIを呼んでいました。四半期末、マネージャーが費用ダッシュボードを開くと、5桁の請求があり、その大半は、あるチームが朝会の録音を4回も文字起こししていたものでした。再試行のロジックが張り切りすぎていたのです。請負業者はプロンプトの最適化を提案しました。CFOは、すでに議事録のある会議を聞かせるためにサーバーに金を払うのをやめてはどうかと提案しました。どちらも、ある点では正しかったのです。
Whisperのローカルモードは、この問いを議論するのではなく、閉じてしまいます。モデルはあなたのマシン上で動き、何も端末から出ず、インターネットもまったく要りません。同じホットキー、同じ流れ、移動中の音声はゼロです。
Whisperを使わずGoogleのままでいいとき
口述する言葉がすべてGoogleドキュメントに着地するなら、Googleの音声入力のままでいてください。費用はかからず、すでに「ツール」メニューにあり、ドキュメントの中では役目を果たします。これは反論しがたい組み合わせで、私もそれを否定するつもりはありません。月に2回しか口述しない人も同じです。コピー&ペーストを2回省くためにデスクトップアプリを入れるのは過剰設計で、これは仕事として言っています。Whisperが値打ちを示すのは、あなたの文章が日常的にドキュメントの外に出るとき(メール、チャット、フォーム、メモ)、あるいはAIによる句読点、オフライン利用、音声を自分のマシンに留めておくことが大事なときです。それまでは、無料の標準ツールこそが正しい道具です。
読む価値のある情報源
冒頭の先生宛のあのメールは、結局のところ送られました。Gmailそのものに口述し、ドキュメントを経由するリレーもなく、私が一言も言わなくても句読点付きで。Googleドキュメントのタブは閉じたままでした。比較はこの一瞬にすべて表れています。無料ツールはあなたの文章に自分のところへ来てもらおうとし、代わりの選択肢は文章がすでにある場所へ自ら出向きます。あなたの一日に合うほうを選んでください。
次のメールでホットキーを試してみる
WhisperをWindowsまたはMacにダウンロードし、一度押して、話して、すでにカーソルのある場所にテキストが着地するのを見てください。
ローカルモードは無料で、オフラインでも動き、音声をどこにも送りません。



