Denys Medvediev

比較

ローカル vs クラウド 文字起こし

ローカル文字起こしは音声モデルをあなたのマシン上で実行するため、音声データがデバイスの外に出ることなく、オフラインで使え、1分あたりの料金も一切かかりません。クラウド文字起こしは音声を最新モデルが動くサーバーに送信します。非力なハードウェアでも高速に動作し、リアルタイムのウェブ検索を追加できますが、音声データはマシン外に出てしまい、使用量に応じた料金が発生します。

最終更新: 2026年6月

ブルーに照らされたモダンなサーバールーム。ローカル対クラウドの文字起こしにおけるクラウド側を象徴するイメージ

ローカル文字起こしは音声データをデバイス上に保持し、オフラインで動作し、モデルのダウンロードさえ済めば1分あたりの追加料金はゼロです。クラウド文字起こしはプロバイダーの最新モデルを使用し、ウェブ検索にも対応していますが、接続が必要で使用量ごとに課金されます。私たちのアプリはどちらも1つのトグルで切り替えられるので、一度きりどちらかに決める必要はなく、用途に応じて選べます。

トレードオフの全体像は、この2段落に詰まっています。以下はその詳細です。

私がどちらの肩も持たずに書けるのは、私たちのアプリが両方を搭載しているからです。ローカルパイプラインはWhisperモデルを8種類とNVIDIAのParakeetを、純粋なRustでCPU上で動かします。サインインしているユーザーであれば誰でも無料で使え、カード登録も不要です。クラウド機能は自分のAPIキーを使うOpenAI文字起こしで、Proアドオンとして提供されています。同じホットキー、同じオーバーレイ、切り替えはトグル1つ。だから「ローカルが多くの人に向いている」と言っても、それはローカルしか売っていないからではありません。データがそう示しているからです。

ローカルとは、モデルがあなたのディスクに置かれること

ローカル文字起こしは音声モデルを一度ダウンロードしたら、あとはあなたのプロセッサー上で実行します。アップロードも、サーバーへの接続も、録音中のアカウント通信も一切ありません。ネットワークケーブルを抜いても、ちゃんとテキスト入力してくれます。

私たちのアプリはtranscribe-rsというライブラリを使って純粋なRustでこれを実現しており、Pythonランタイムは一切必要ありません。Whisperモデルは8種類から選べ、Baseの約140MBからLarge v3の約3GB、またはCPU上でWhisperより5〜10倍高速なNVIDIAのParakeet(約600MB)まで対応しています。GPUも不要です。モデルがRAMに読み込まれ、音声を入れるとテキストが出てくる。その一連の処理でインターネットには一切触れません。

唯一の手間はダウンロードです。3GBのモデルはホテルのWi-Fiでは時間がかかりますし、2018年製のノートPCは小さいモデルなら問題なく動かせますが、大きいモデルには苦労するかもしれません。ただ、最初のダウンロードさえ済めば、1分あたりの料金もなく、サーバーも介在しません。この点について詳しく知りたい方は、完全オフラインでの実行について書いた記事があります。デスクトップでのオフライン音声テキスト変換

クラウドとは、音声データが旅に出ること

クラウド文字起こしは音声を録音し、プロバイダーのサーバーに送信し、サーバーがテキストを返します。相手のハードウェアと最新モデルを借りる形です。

私たちのアプリでは、クラウドモードは自分のOpenAIキーを使う方式です。文字起こしはgpt-4o-mini-transcribeまたは高品質なgpt-4o-transcribeで実行され、同じキーでAIによる文章整形とリアルタイムのウェブ検索も追加できます。OpenAIキーはご自身で用意し、OpenAIへの支払いも直接行っていただきます。私たちは手数料もマークアップも取りません。大きなモデルのダウンロードも不要です。処理はサーバー側で行われるため、5年前のネットブックでも新しいワークステーションでも同様に動作します。また、ウェブを検索して質問に答えることもできます。ローカルモデルにはできないことです。

代償はその名の通りです。音声データがマシンの外に出ます。ネット接続が必要です。そして1分あたりの課金が発生します。1回あたりはわずかな金額ですが、積み重なります。従量課金です。

正直な比較

この表には意図的に金額を載せていません。実際の数字は料金ページをご覧ください。ここでは各選択肢の性質を整理します。

プライバシー、オフライン利用、コスト、速度、モデルの新しさ、ウェブアクセスの観点からローカルとクラウドの文字起こしを比較
気になるポイントローカル文字起こしクラウド文字起こし
プライバシー音声データがマシンの外に出ない音声データがプロバイダーのサーバーに送信される
オフライン利用可能(初回のモデルダウンロード後)不可(ネット接続が必要)
コスト体系ダウンロード後は1分あたりの料金なし従量課金(使用した分だけ支払い)
速度を左右するものあなたのCPUとモデルのサイズプロバイダーのハードウェアと接続速度
モデルの新しさダウンロードしたモデル(更新は自分のタイミングで)常にプロバイダーの最新モデル
リアルタイムのウェブアクセスなしあり(クラウドが検索して回答)

上から下まで読めば、傾向は明確です。ローカルは利便性をある程度手放す代わりに、プライバシー・オフライン利用・定額コストを得ます。クラウドはプライバシーと従量課金を受け入れる代わりに、最新モデルとウェブ接続を得ます。どちらが優れているわけではありません。得意なことが違うのです。

クラウドが正解になる場面

ローカルが常に勝つとは思っていません。クラウドを選ぶ理由が確かにある場面もあります。

ハードウェアが古かったりRAMが少なかったりする場合、クラウドの方が優しい選択肢です。8GBのRAMを積んだ2017年製ノートPCは大きなローカルモデルに苦労しますが、クラウドなら重い処理はサーバー側が担い、あなたのマシンはマイクを処理するだけで済みます。強いアクセント、複数人の重なり合う発話、専門用語のある難しい音声で最高水準の精度が必要なら、最新のホスティングモデルは自宅で動かせるものより一歩先を行く傾向があります。また、質問を口に出してウェブ検索の結果をカーソル位置に貼り付けたい場合は、クラウド一択です。ローカルモデルには検索するインターネットがありません。

共通点はこうまとめられます:クラウドは非力なハードウェア・最高品質・リアルタイムのウェブアクセスという課題への逃げ道です。

ローカルが正解になる場面

多くの人にとって、大半の場面では、まずローカルから始めることをおすすめします。

口に出す言葉がプライベートなものなら——給与スプレッドシート、子どもの学校へのメール、法的な草案——音声でタイプしたいというだけの理由でベンダーのログに残るべきではありません。ローカルはその音声データをあなたのマシンにとどめます。飛行機内や電車の中、あるいはWi-Fiが不安定なカフェで仕事をすることが多ければ、ローカルはネット接続を気にしません。そして口述を多く行うなら、定額コストは大きな意味を持ちます。

一つだけはっきり言える意見があります:まずローカルを試して、クラウドはデフォルトではなく逃げ道として使ってほしいということです。MacがApple Siliconだったり、PCが直近4年以内のものだったりすれば、ローカルは日常の口述を95%〜99%の精度でこなします。サーバーは介在しません。非力なハードウェア、最も難しい音声、ウェブ検索の必要性といった壁にぶつかったときだけクラウドに切り替えてください。ほとんどの人はその壁に当たらないでしょう。

クラウドをデフォルトにすることへの警戒感には理由があります。かつて関わったチームで、業務委託者が内部向けのクラウドAI口述プロトタイプを作りました。毎回の発話のたびにAPIを呼ぶ仕組みです。よくできたリトライループが、同じスタンドアップの録音を4回も文字起こしにかけてしまいました。四半期末にマネージャーがコストダッシュボードを開くと、5桁のドル請求が届いていました。業務委託者の対策は「プロンプトを最適化する」、CFOの対策は「すでにメモのある会議の文字起こしに金を払うのをやめる」でした。従量課金のクラウドは、何かがループするまでは問題ありません。ローカルには暴走するメーターがありません。

両方のモードが1つのアプリに

Whisper
Whisper by Remskillのライブアプリ。モデルピッカーの横にローカルとクラウドの切り替えトグルが表示されています。スクリーンショットではなく、実際のインターフェースです。

上で説明した違いは本物ですが、一度きりの岐路ではありません。私たちのアプリでは、どちらのモードも同じホットキーと同じ録音オーバーレイで使えます。切り替えはスイッチ1つです。朝はローカルでプライベートなメールを口述し、午後にウェブ検索で事実確認が必要になればクラウドに切り替え、また戻す。再インストールは不要です。一度どちらかに決める必要もありません。

Pasted
ローカルでもクラウドでも文字起こし後に表示されるオーバーレイ。

「ローカル vs クラウド」という対立構図が見落としがちなのはここです。これは宗教論争ではなく、同じ引き出しの中の2つの道具であり、適切な方は次に口にする一文によって変わります。ローカルエンジン同士を比較したい場合——速度と言語カバレッジ——それはまた別の記事です:WhisperとParakeetの比較。特定の競合製品と比較したい場合は、superwhisperとの比較記事で1つの例を詳しく取り上げています。

一つだけ覚えておくとしたら

プライバシー・オフライン・定額コストにはローカル。最新モデル・非力なハードウェア・ウェブアクセスにはクラウド。まずローカルを試して、クラウドは逃げ道として使ってください。一番の利点は、永遠に選び続ける必要がないことです:トグル1つ、両モード対応、次に口にする一文に合ったものを選ぶだけです。

両方を試してみてください

ローカルエンジンはサインインしているユーザーなら誰でも無料で使えます。クラウド機能は本当に必要になったときにいつでも追加できます。アプリをダウンロードして、まずローカルでプライベートなメールを口述してみてください。次にトグルを切り替えて、クラウドが何を変えるか確かめてみてください。

ローカル文字起こしはずっと無料。サインアップ時の支払い情報不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読むのは私です。たいていは口述で返信しています。

参考資料