Denys Medvediev2026年5月15日

比較

Whisper と Google Speech-to-Text の比較

Google Cloud Speech-to-Text は、コードから呼び出して使い、音声の分単位で課金される開発者向けの API です。一方、Whisper は OpenAI がオープンソースで公開した音声モデルで、私たちのアプリはそれをあなた自身のマシン上で動かします。Word や Slack に向かって話して入力する人のために作られています。一方は技術者向けの「配管」。もう一方はデスクトップ用のディクテーションツールです。

最終更新: 2026年6月

最新のデータセンターで青く光るサーバーラック。クラウド文字起こし API を連想させる風景

Google Cloud Speech-to-Text は開発者向けの API です。コードから呼び出すと、Google のサーバーに送られた音声の分単位で課金されます。一方、Whisper は OpenAI がオープンソースで公開した音声モデルで、私たちのアプリはそれをあなた自身のマシン上で動かします。Word や Slack に向かって話して入力する人のために作られています。一方は技術者向けの「配管」。もう一方はデスクトップ用のディクテーションツールです。

Google Speech-to-Text は、アプリやサーバーに文字起こし機能を組み込む開発者向けのクラウド API です。ストリーミングに対応し、長尺ファイルをバッチ処理し、多くの言語をカバーし、分単位で課金されます。私たちのアプリに組み込まれた Whisper は、プライベートで、オフラインで、無料のデスクトップディクテーションを求めるエンドユーザーのためのものです。コードを書いて大規模に文字起こしをするなら Google に分があります。話せばカーソルの位置にテキストが現れる体験が欲しいなら Whisper に分があります。そもそもカテゴリーが違うのです。

私は Whisper by Remskill を運営しています。オープンソースの Whisper モデルをデスクトップディクテーションに変えるアプリです。ホットキーを押して話せば、カーソルのある場所にテキストが現れます。だから私はこの話題で一方の当事者です。それでも正直であろうと努めます。なぜなら正直な答えのほうが役に立つからです。検索ボックスに「Whisper vs Google Speech-to-Text」と打ち込む人のほとんどは、同じ土俵に乗らない二つのものを比べようとしています。

Google Speech-to-Text は API であって、開くアプリではない

まずはっきりさせておきたいこと。Google Cloud Speech-to-Text には画面がありません。ドックにアイコンもなく、ホットキーもなく、「押して話す」もありません。あなたのソフトウェアがネットワーク越しに会話するサービスです。コードで音声を送ると、テキストが返ってきます。Google 自身のドキュメントでも、API を通して使う同期・ストリーミング・非同期の音声認識として説明されています。

その設計は、用途に合っていて優れています。ストリーミング認識はリアルタイムで途中結果を返すので、ライブ字幕機能や自社製品の音声コマンドを作るときに便利です。非同期認識は長尺の録音を扱います。音声をアップロードすると、Google がバックグラウンドで処理を進め、完了したら結果を取りに行きます。Google はこのバッチ処理が 1 ジョブで最大 8 時間の音声を扱えると明記しています。これは本物の強みです。録音された通話が倉庫いっぱいにあって一晩で文字起こししたいなら、エンドユーザー向けのディクテーションアプリは間違った道具で、Google のような API が正しい道具です。

対応する言語や地域ロケールのバリエーションは長いリストになっていて、en-US、en-GB、es-MX のように技術者が知っている BCP-47 コードで指定します。ここでは正確な対応言語数や分あたりの価格を載せるつもりはありませんし、それを載せている記事には注意したほうがいいと思います。Google の価格ページや言語ページは更新されますし、ウェブに出回っている数字がすべて、私が信頼できる一次情報にたどり着くわけではないからです。ためらわずに言えるのは、これは使った分だけ課金されるクラウド型の従量課金だということです。送った分だけ支払い、音声は Google のサーバーに送られ、無料のローカルモードはありません。

二人の人物、二つの異なる問題

あなたがこの線のどちら側にいるのかを見分ける、私が見つけた一番すっきりした方法を紹介します。二人の人物を思い浮かべてください。

一人目は開発者です。彼女は録音された通話を検索可能なテキストに変えるカスタマーサポートツールを作っています。文字起こしは彼女のサーバー上、彼女のコードの中で、誰も見ていないところで動きます。彼女が欲しいのは、音声を送れるエンドポイントと、データベースに保存できる JSON のレスポンスです。彼女は文字起こしツールを「開く」ことは決してありません。それは彼女が自社の顧客に届ける製品の内側に組み込まれています。それが Google Speech-to-Text の仕事です。API は部品であり、彼女の製品がアプリなのです。

二人目は書き手です。あるいは電車の中で書類を作る弁護士、講義をノートにまとめる学生、夕食をかき混ぜながら先生からのメールに返信する親かもしれません。彼にはサーバーがありません。あるのはドキュメントの中で点滅するカーソルで、タイプするより話したいのです。彼が望むのは、キーを一つ押して、文を言えば、すでに開いているファイルの中にそれが現れること。彼はコードを書くことは決してありませんし、書く必要もありません。それが私たちの仕事です。

このキーワードの混乱は「Whisper」が二役を演じていることから来ます。Google STT は完成されたクラウドサービスです。Whisper はモデルであり、モデルはアプリではありません。誰かがその周りにアプリを作らなければなりません。マイクをつなぎ、ホットキーを配線し、カーソルの位置にテキストを貼り付ける。それを私たちがやったのです。

私たちのアプリの中の Whisper はデスクトップディクテーションであり、あなたのマシンの上で動く

Whisper は OpenAI がオープンソース化した音声モデルです。私たちのアプリはそれをローカルで動かします。純粋な Rust で、Python のサイドカーもなく、通常のディクテーションでは間にサーバーも入りません。ホットキーを押し（Windows では既定で Ctrl+Space、自由に再割り当て可能）、話し、離すと、すでにカーソルがある場所にテキストが届きます。コードは不要。ローカル経路に API キーも不要。音声はノートパソコンから一切外に出ません。

最後のこの部分こそが要点であり、機能表には現れないものです。

Whisper

実際に動いている Whisper by Remskill アプリ — サイドバー、文字起こしパネル、AI 指示カード。これは本物のインターフェースで、スクリーンショットではありません。

ローカル版では 8 つの Whisper モデルから選べます。約 140 MB から 3 GB まであり、ダウンロードサイズと CPU 時間を精度と引き換えにします。4 つは英語向けに調整され、多言語版の 4 つは幅広い言語をカバーし、同じ操作で音声を英語に翻訳することもできます。これは Google の API が一回のディクテーション操作にまとめてくれない機能で、ほとんどのコンシューマー向けツールはそもそも対応していません。さらに Parakeet もあります。NVIDIA の別エンジンで、英語と他 24 のヨーロッパ言語について CPU 上で Whisper より 5〜10 倍速く、GPU なしで動きます。

ローカルのパイプライン全体は、サインインしたユーザーなら誰でも無料で使えます。登録時にカードは不要。すべてのモデル、Ollama による AI 整形、履歴、カスタムホットワード、その他すべてです。クラウドの面が欲しいなら、それが Whisper Pro です。OpenAI のクラウド文字起こし（gpt-4o-mini-transcribe または gpt-4o-transcribe）、クラウドの AI 整形、ウェブ検索が、すべてあなた自身の OpenAI キーで使え、Remskill は一切手数料を取りません。これは任意です。既定はローカルで無料です。

つまらない真実を言えば、一段落のディクテーションくらいなら、あなたのノートパソコンにはすでにマイクと CPU があります。データセンターは要りません。

コストの仕組みは同じ形ではない

ここが比較がリンゴ対リンゴでなくなる地点です。クラウド API は音声の分単位で課金します。ローカルのディクテーションアプリは、多くてもたった一度しか課金しません。

私は分単位の課金が牙をむく場面を一度見ました。一緒に働いていたチームが、外部の請負人に社内向けの「AI ディクテーション」の試作品を作らせたのです。それは発話のたびにクラウド API を呼び出していました。「賢いリトライ」の処理が過剰になり、同じ朝会の録音を 4 回も繰り返し文字起こししてしまいました。チームのマネージャーが四半期末にコストダッシュボードを開くと、5 桁の請求額がありました。請負人の解決策は「プロンプトを最適化すべきだ」。CFO の解決策は「いや、すでにメモがある会議をクラウドで文字起こしするのに金を払うのをやめるべきだ」でした。

これは Google の API への批判ではありません。意図された通り、メーターを見張る技術者が使えば、本番のパイプライン向けには適正な価格です。批判しているのは、ローカルのアプリなら無料でやれることに、従量制のクラウドサービスを使うことです。クラウドだけに頼った文字起こしは、請求書が来るのを待つプライバシーの惨事です。あなたの契約書のドラフト、給与の表計算、子どもの学校宛のメール、それらがすべて、タイプの代わりに話したかったというだけの理由でマシンを離れていきます。一日中ディクテーションをする個人にとっては、ローカルファーストが正しい既定であり、メーターは決して回り始めません。

並べて比較

正直な見取り図がこちらです。この表は本当は「どちらが優れているか」ではないことに注目してください。「あなたはどちらのカテゴリーにいるか」です。

Google Speech-to-Text と私たちのアプリの中の Whisper のカテゴリー比較
項目	Google Speech-to-Text	Whisper（私たちのアプリ内）
製品の種類	クラウドの開発者向け API	デスクトップのディクテーションアプリ
使い方	自分のコードから呼び出す	ホットキーを押して話す
音声の行き先	Google のサーバー	自分のマシンに留まる（ローカルモード）
料金体系	使った分だけのクラウド従量課金、分単位	無料のローカル版。一つのアプリ、料金は料金ページを参照
オフライン動作	不可	可（ローカルモデル）
対象ユーザー	アプリやサーバーに文字起こしを組み込む開発者	どんなアプリにもディクテーションしたい人
セットアップ	クラウドプロジェクト、認証情報、コード	インストール、サインイン、モデルを選ぶ

この表に Google の具体的な数字をあえて載せていません。大事なのは形です。サーバー対マシン、コード対ホットキー、メーター対無料。これらの行があなたを API のほうに向けるなら、それでよし、次のセクションを読み続けてください。アプリのほうに向けるなら、ダウンロードボタンは一番下にあります。

Google Speech-to-Text が正しい道具になるとき

いくつかのはっきりしたケースでは、私たちのアプリではなく Google の API に手を伸ばします。これは AI が書いた記事が飛ばすセクションなので、ここではっきり書いておきます。

あなたは製品を作っているのであって、製品にディクテーションしているのではない

あなたがバックエンドに文字起こしを組み込む技術者なら（コールセンターの分析パイプライン、自動字幕機能、自社ソフトの音声インターフェースなど）、欲しいのは API で、Google のものは成熟しています。私たちのデスクトップアプリは、あなたのサーバーから呼び出せません。エンドポイントも SDK もなく、あなたのコードがテキストを求める手段もありません。それは設計上のことです。プログラムのためのサービスではなく、人のためのアプリだからです。

長尺の録音を大規模にバッチ処理する必要がある

1 つの非同期ジョブで 8 時間分の音声というのは、まさに Google の非同期認識が作られた目的そのものです。一晩で処理すべき録音通話が 1 万件あるなら、一度に 1 つのモデルを動かすノートパソコンではなく、他人のサーバー上でスケールするサービスが欲しいはずです。

自分のコードの中でリアルタイムのストリーミングが必要

あなたのアプリが、誰かが話すそばから途中結果を表示しなければならないなら（自分で作っているビデオ通話のライブ字幕など）、ストリーミング認識がそのための API です。私たちのアプリはキーを離した後に完成したテキストの塊を貼り付けます。これはライブ字幕機能には間違った挙動で、ディクテーションには正しい挙動です。

プログラムによる制御と監査ログが必要

リクエストごとのクォータ、サーバー側の課金、誰が何を文字起こししたかの一元的な記録。管理されたクラウド API は、規制下の大規模導入が必要とする運用上の足場を与えてくれます。デスクトップアプリはそれを個人のマシンに留めるので、まったく逆のトレードオフです。

これらのどれかがあなたなら、このタブを閉じて Google のドキュメントを開いてください。私たちはサーバー側をやりません。これは謙遜ではありません。別の製品なのです。

私たちのアプリの中の Whisper が正しい道具になるとき

裏返しです。あなたはソフトウェアを作っているのではありません。タイプするのをやめようとしているのです。

メール、メモ、メッセージ、コードのコメントをディクテーションして、すでに使っているアプリの中にそのまま現れてほしい。音声は誰のサーバーにも送ってほしくない。考えている間に分単位のメーターが回ってほしくない。無料で始められて、使うのにコードを一行も書きたくない。

Pasted

実際に提供されているディクテーション後のオーバーレイ — 無料・完全ローカルのディクテーションが終わった瞬間の見た目です。

速度と英語なら Parakeet を、翻訳・あまり使われない言語・より細かい制御が必要なら多言語版の Whisper モデルを選びましょう。ローカルのパイプラインは無料です。クラウド版（あなた自身のキーで使う OpenAI の文字起こし）は任意で、価格は料金ページに記載しています。

この問いのオフライン・ローカル・無料の側面については、より広いトレードオフをローカル対クラウドの文字起こしで書きました。そして、私たちが提供する 2 つのローカルエンジンのどちらを選ぶか迷っているなら、Whisper と Parakeet の比較が速度と対応言語の幅について解説しています。

一つだけ覚えておくなら

Google Speech-to-Text は技術者向けの API。私たちのアプリの中の Whisper は人のためのディクテーション。どちらが「優れている」かを問うのは、自動車のエンジンが自動車より優れているかを問うようなものです。答えは、あなたがそれを作る側か、運転する側かに完全に左右されます。

あなたの仕事に合うほうを選ぶ

あなたの仕事が、すでに使っているアプリにプライベートに・オフラインで・無料で始めてディクテーションすることなら、Whisper をインストールしてキーを押してください。あなたの仕事が、ソフトウェアに文字起こしを組み込むことなら、Google のドキュメントの場所はもうご存じのはずです。

Whisper をダウンロード料金を見る

ローカルの文字起こしはずっと無料。登録時に支払い方法は不要。クラウド版は任意で、自分のキーを使います。

Denys Medvediev

私たちのサポートメールを読んでいるのは私です。たぶん返信もディクテーションで書いています。

さらに読む

よくある質問

プライベートで、オフラインで、無料のデスクトップディクテーションには、私たちのアプリの中の Whisper のほうが合っています。音声はあなたのマシンに留まり、分単位のメーターもありません。プログラムによる、サーバー側の、あるいは大規模なストリーミング統合には、Google の API のほうが合っています。両者は異なる仕事のために作られているので、「優れている」かどうかはあなたの仕事がどちらかによって決まります。