Denys Medvediev

解説

プライベートな音声 テキスト変換、端末上で

プライベートな音声テキスト変換とは、あなたの声を自分の端末上で文字に変換することです。サーバーへのアップロードは一切ありません。ローカルの Whisper と Parakeet は完全オフラインで動作します。一方、クラウド音声入力はオーディオを外部に送信して文字起こしを行います。

最終更新:2026年6月

薄暗い中でノートパソコンのキーボードに置かれた南京錠。端末上のプライバシーを表すイメージ

プライベートな音声テキスト変換とは、ユーザー自身の端末上で文字起こしが行われるため、録音した声が端末の外に出ることのない方式です。Whisper や Parakeet のようなローカルエンジンはサーバーへのデータ送信なしに完全オフラインで動作します。クラウドの音声入力サービスはオーディオをリモートで文字起こしするためにアップロードします。最大限のプライバシーを確保したいなら、ローカルで動作するオフラインツールを選んでください。

どの音声入力ツールも「プライベート」を謳っています。でも、実際にそうであるものはほとんどありません。「プライベート」という言葉が「アップロードを暗号化している」や「30日後に削除する」という意味で使われていますが、それでもあなたの声は端末を離れ、誰かのサーバーに置かれ、自分が所有しないコンピューターで文字起こしされているわけです。それはプライバシーポリシーであって、プライバシーそのものではありません。本来の意味を正しく理解してから、弁護士へのメールなど重要な作業でツールを信頼することが大切です。

正直な定義はシンプルです。プライベートな音声テキスト変換とは、オーディオがあなたの端末上でテキストに変換され、どこにも送信されないことです。アップロードなし、サーバーなし、インターネット不要。その方式は実在していて、ローカルパイプラインは無料で使えて、あなたがすでに持っているノートパソコンで動きます。正直に言うと、クラウドモードを選んで精度を上げようとした瞬間に、その約束は変わります。その境界線をはっきりさせておきます。

マーケティングの陰に埋もれがちな核心はここにあります。「プライベート」は感覚ではなく、答えが一つしかない問いです。オーディオが端末から出るか出ないか。出れば、原則としてあなた以外の誰かが聞くことができます。出なければ、それはできません。暗号化、保持期間、コンプライアンスのバッジ——これらはすべて、データが出てしまった場合の後処理に過ぎません。

つまり本当の問いは「このツールはプライベートか」ではありません。「自分の声が自分の端末で文字起こしされるのか、それとも相手の端末でされるのか」です。ローカルの Whisper と Parakeet はあなたの端末で、オフラインで、モデルをあなた自身の RAM に読み込んで処理します。クラウド音声入力は相手の端末で処理します。このガイドでは、その違いが実際に何をもたらすか、ローカル版を2分でセットアップする方法、そしてクラウドにオーディオを送ることが合理的なトレードオフになる唯一の例外を説明します。

音声テキスト変換における「プライベート」の本当の意味

ノートパソコンのトラックパッドに置かれた閉じた南京錠。端末上のデータプライバシーを表すイメージ

プライベートな音声テキスト変換が意味することは一つだけです。録音した声が自分の端末上でテキストに変換され、オーディオがその端末を離れないこと。サーバーへのアップロードなし、インターネット経由の往復なし、第三者の介在なし。文字起こしはスペルチェックと同じように、あなた自身のメモリとCPUの中で行われ、そのあとオーディオは消えます。それが定義のすべてであり、「プライベート」という言葉を使うほとんどのツールはその基準を満たしていません。

「プライベート」として売られているのはたいてい、ドアの鍵をより堅牢にしたクラウド版です。オーディオはやはりベンダーのサーバーに送られて文字起こしされ、ベンダーは転送中に暗号化してスケジュール通りに削除すると約束するだけです。何もないよりは確かにマシですし、多くの人にとっては問題ないでしょう。しかしそれは、オーディオが一切外に出ないこととは違います。削除の約束はあくまで約束です。端末上での処理は事実——何も送信されていないので削除するものもありません。プライバシーが本当に重要な場面——給与の数字、医療メモ、外部に知られたくない下書き——では、約束と事実の差がすべてを決めます。

端末上での文字起こしが今や可能になった理由は、モデルが小型化しノートパソコンが高速化したからです。数年前は優れた音声認識を動かすためにデータセンターが必要でしたが、それがすべてをクラウドに送る理由でした。今は中程度のスペックのノートパソコンでもオープンな Whisper モデルがローカルで動き、Parakeet はそれより速く動きます。クラウドはかつてのハードウェア制約を回避するための手段でしたが、今はもうその制約はありません。プライベートな音声テキスト変換は追加料金を払うプレミアム機能ではなく、実用的になったデフォルトの選択肢です。このガイドの残りはその使い方についてです。

クラウド音声入力がプライベートでない理由

クラウド音声入力ツールでキーを押すと、内部ではこんなことが起きています。マイクが数秒間のオーディオを録音し、そのファイルがインターネット経由でサーバーに送られ、サーバー上のモデルがそれを文字起こしし、テキストが画面に返ってくる。全体で1秒もかからないことがあるため、まるで透明のように感じられます。でもあなたの声——文字だけでなく実際の録音——は、あなたが管理していないマシンまで往復しているのです。

Windowsの音声入力が最もわかりやすい例です。ほとんどの人がすでに使えます。Windows キー + H を押すと小さなバーが開き、フォーカスのあるフィールドに音声を入力できます。使い心地は良いです。ただしこれはクラウドサービスです——Microsoftのオンライン音声認識——だからインターネット接続が必要で、飛行機の中では使えなくなります。あなたのオーディオはテキストになるためにMicrosoftのサーバーに送られています。今日リリースされているほとんどの「AI音声入力」アプリも同様です。賢い部分は誰かのハードウェアで動いており、それを借りるための静かな月額請求が発生します。ローカルツールは聞いている間は小さなカプセルを表示し、録音したオーディオはノートパソコンを離れません。

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。ローカルエンジンを使えば、録音されたオーディオは端末上で文字起こしされ、アップロードされることはありません。

クラウドの文字起こしが悪だと言いたいのではありません——役に立つ場面については後で弁護します。マーケティングで使われる「プライベート」という言葉は、アップロードに鍵をかけることを指すことが多く、アップロードしないことを意味しないということです。クラウド専用の音声入力はプライバシー上のリスクを内包しており、最初に被害を受けるのは請求を把握できていない人たちです。かつてあるチームが四半期で五桁のクラウドAI料金を積み上げるのを見たことがあります。ほとんどは、同じスタンドアップの録音を4回送り直す「スマートリトライ」のバグが原因でした。CFOが四半期レビューでダッシュボードを開くと、部屋が静まり返りました。誰もそのオーディオをサーバーに送ると決めていませんでした。ツールがそうするように設計されていただけで、毎回、自動的に。

ローカル音声テキスト変換がプライバシーを守る仕組み

プライベート版はあなたの端末上で完全に動作します。ホットキーを押して話し、離すと、あなた自身のRAMにすでに読み込まれたモデルがオーディオをテキストに変換してカーソルの位置に貼り付けます——インターネットなし、サーバーなし、何も送信されません。必要なのは Apple Silicon 搭載のMac、またはWindows 10以降のPC、動作するマイク、そして数分の時間だけです。ローカルパイプライン全体はサインイン済みのアカウントなら無料で使え、サインアップ時に支払い方法は不要です。手順はこちらです。

ステップ1 — Whisper をインストールしてサインイン。

ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。クレジットカード不要。ローカル文字起こしパイプライン全体がすぐにオフラインで使えます。

アプリのトレイアイコンが表示され、セットアップウィザードでモデルを選ぶよう促されたら成功です。

ステップ2 — ローカル文字起こしの方式を選択。

アプリが自動で選ぶことはありません。プライベートなオフライン音声入力には、Local Parakeet または Local Whisper を選んでください——どちらもあなたの端末で動作します。3番目の選択肢であるクラウドはオーディオをアップロードするため、プライバシーが目的なら使わないでください。

ローカルモデルのダウンロードが完了し、準備完了と表示されたら成功です。

ステップ3 — ホットキーを確認。

Windowsのデフォルトは Ctrl+Space、Macのデフォルトは Command+Option を押し続けるプッシュ・トゥ・トークです。Macでは、求められたときにアクセシビリティの権限を付与してください。それがないと、カーソル位置への貼り付けが他のアプリに届きません。

テスト録音が任意のテキストフィールドに貼り付けられたら成功です。

ステップ4 — ネットワークケーブルを抜いて、それでも話してみる。

これがプライバシーのテストです。Wi-Fiをオフにし、任意のテキストボックスにカーソルを置き、ホットキーを押しながら一文を話して離します。モデルがローカルで動作しているため、文字起こし結果は引き続き表示されます。

インターネットを完全にオフにした状態で音声入力が動作したら成功です。

Whisper
実際の Whisper デスクトップアプリの設定画面。ローカルの文字起こしとAIパネルが開いた状態。

時間がかかるのは一度だけのモデルダウンロードで、これは当然インターネットが必要です。その後、ローカルモードではオーディオが二度とオンラインに行くことはありません。ステップ4のケーブルを抜くテストは仕掛けではありません——それが唯一確かな証明です。ネットワークをオフにしても音声入力が動き続けるなら、オーディオはあなたの端末で文字起こしされています、以上。止まったなら、どこかに送られていました。このたった一つのテストが、あらゆるマーケティングページの「プライベート」という主張を判定します。

WindowsでのWindows音声入力 · Macの場合

AIのクリーンアップも端末上で完結できる

ほとんどの人が確認を忘れがちなポイントがあります。そのまま文字起こしした結果はひとつながりになりがちで、句読点がなく、ときどき「えー」が入り、文章が長くなります。その修正はAIが整えて実際に使えるテキストにしてくれます。そしてここが、多くの「プライベート」を謳うローカルツールがこっそりサーバーに繋がる部分です。端末上で文字起こしして、その後の整形をクラウドモデルに送っているのです。オーディオはプライベートのままでも、テキストはそうではありません。

Whisper はクリーンアップもローカルで処理します。Ollama を通じて——無料のローカルモデルランナーで、あなたの端末上の localhost で動作し、インターネットに一切触れません。「Hey whisper」というアクティベーションフレーズを言うと、カーソルの位置に届く前にテキストが整えられます。往復すべてがノートパソコンの内部で完結します。つまりチェーンは途切れません。あなたの声は端末上でテキストになり、そのテキストも端末上で整えられます。文章について——オーディオも下書きも整えられたバージョンも——何一つ外に出ることはありません。

これは「プライベート」を名乗るどんなツールでも確認すべき点です。文字起こしはローカルに保ちながら、整形処理をクラウドに忍ばせることは簡単です。整形には大きなモデルが必要で、大きなモデルはレンタルの誘惑があるからです。ただ地味な真実として、日常的な音声入力なら Ollama のローカルモデルで句読点の修正とフィラーの除去には十分すぎるほどです。クラウドモデルが必要になるのは、本当に難しい要求をするときだけです。それはあなたが意図的に選ぶべきことであって、ツールが裏で勝手に決めることではありません。

ローカルかクラウドか:プライベートなワークフローに向いているのは

プライベートと呼べる作業には、まずローカルから始めてください。Mac が Apple Silicon を搭載しているか、PCが最近のモデルなら、ローカルエンジンは不満なく日常的な音声入力をこなします。クラウドはデフォルトではなく、いざというときの選択肢になります。アプリは意図的に方式をあなた自身に選ばせます——デフォルトを押し付けません——ので、3つの違いをプライバシーの観点で整理します。

選択はオーディオがどこで処理されるか、そして文字起こしに何を求めるかによります。

  • Local ParakeetNVIDIAのTDTエンジンで約600MB。最速のローカルオプションで、CPUでの Whisper より5〜10倍速い。英語と24の他のヨーロッパ言語、合計25言語に対応。英語への翻訳機能はなし。完全に端末上で動作し、アップロードなし。英語または他のヨーロッパ言語を使うなら、プライベートな選択として手軽です。
  • Local Whisper同じ端末では Parakeet より遅いですが、多言語ビルドは99言語に対応し英語への翻訳もできます。英語専用ビルドは英語のみで、99言語には非対応。こちらも完全に端末上で動作します。中国語、日本語、韓国語、または Parakeet にできない翻訳作業にはこちらを選んでください。デフォルトの英語モデルは約480MBです。
  • クラウド(OpenAI、BYOK)最高精度とウェブアクセスを提供します。あなた自身の OpenAI キーを使い、OpenAI に直接課金されます。文字起こしのデフォルトは gpt-4o-mini-transcribe。これはオーディオをアップロードする唯一の方式で、あなたの端末から OpenAI へ送信されます。オプトイン制、Whisper Pro の一部で、オンにしない限り無効です。

境界線は明確です。2つのローカル方式は構造上プライベートです——オーディオはあなたの端末上で文字起こしされ、漏れるものは何もありません。クラウド方式はそうではなく、それを偽ることはしません。あなたのオーディオを OpenAI に送信します。あなた自身のキーで、なぜなら OpenAI の精度とライブウェブアクセスを得る唯一の方法がそれだからです。MacがMシリーズか、PCが最新モデルなら、まずローカルモードから始め、ローカルで本当に物足りないときだけクラウドを使ってください。クラウドはあなたが選ぶ例外であって、気づかないうちに使わされるデフォルトではありません。

各モードで実際に端末から出るデータ

データについて具体的に話しましょう。「プライベート」は何が移動するかを明確にしないと意味がありません。ローカルモードでは、答えは何もありません——オーディオも文字起こし結果も、整えられたバージョンも。録音はRAMで処理され、整形は Ollama があなたの端末上で行い、移動したのはテキストだけ——モデルからあなたのテキストボックスへ。ネットワークを抜いた状態で確認できます。

AIのクリーンアップが動作すると、オーバーレイがローカルモデルがひとつながりの文章を読みやすく整えている間、整形中の状態を表示します。どんな変換をするかを示します——上が生の音声入力、下が整えられたテキスト——すべてローカルモード時にあなたの端末で処理されます。

Thinking...
AIクリーンアップ処理中のオーバーレイ。ローカルモードでは Ollama があなたの端末上で動作するため、テキストが外に出ることはありません。
生テキスト

okay so send the q3 numbers to marcus before the board call and flag the margin dip um but dont cc the whole finance list

整形後

Okay, so send the Q3 numbers to Marcus before the board call and flag the margin dip — but don't cc the whole finance list.

クラウドモードでは、正直な内訳は異なります。切り替える前に知っておくべきです。あなたのオーディオはあなた自身のAPIキーを使って OpenAI の文字起こしエンドポイントにアップロードされ、そこでテキストになります。クラウドAI整形も使う場合は文字起こし結果がGPTモデルに送られ、ウェブ検索も使うならクエリも外に出ます。いずれも Remskill を経由しません——あなたの端末から OpenAI へあなたのキーで直通です——でも端末を離れることに変わりはなく、それがプライベートかどうかを決める唯一の基準です。Q3の数字とMarcusに関するあの文章は、私なら絶対にローカルに留めます。楽しみで口述するレシピなら、正直どうでもいいですが。

話して整えるという同じフローはどのアプリでも機能します。一度設定すると、声でより速く入力できます。エディター、メール、ターミナルを横断して——ローカルモードならプライベートに、ノートパソコンから何も出すことなく。

クラウドへのオーディオ送信が合理的なトレードになるとき

机の上の天秤。プライバシーと精度のトレードオフを表すイメージ

ローカルが常に答えだと言ったら嘘になります。クラウドが正しい選択になることもあります。それを認めずにプライバシーを押し出すのは、私がこの6つのセクションで批判してきたのと同じマーケティングの不誠実さです。トレードオフは本物です。端末から出ないという保証を手放す代わりに、最高の文字起こし精度と、同じホットキーでライブウェブアクセスを得られます。

コンテンツが機密でなく、精度が重要なときにクラウドモードを使ってください。ポッドキャストの文字起こし、公開ブログの下書き、買い物リスト、強いアクセントや騒がしい部屋でローカルモデルが苦戦する難しい録音——これらは端末に留める必要はなく、OpenAIのモデルがよりクリーンに仕上げます。あなた自身のAPIキーを使っているので、オーディオは OpenAI に直接送られ、1分あたりのコストは中間マージンなしであなたに請求されます。品質に対して費用を払う機密性のない作業なら、合理的なトレードです。間違いはクラウドを使うことではなく、機密データを含む作業も含めてすべてにクラウドをデフォルトで使うことです。

本当に短いテキストなら、専用ツールをスキップしても構いません。30語のテキストを口述するなら、Windows キー + H か macOS の音声入力は無料でインストール済みです——ただしWindowsの音声入力自体がクラウドサービスなので、プライベートな選択ではなく、便利な選択肢に過ぎません。Apple Silicon では macOS の音声入力が一般的なテキストを端末上で処理できるため、短い内容については実際にプライベートな唯一の内蔵機能です。200語以下なら、何かをインストールするよう勧めません。専用ツールが力を発揮するのは、メモが長くなるとき、Windowsでオフラインプライバシーが欲しいとき、またはどこでも同じように動く1つのホットキーが欲しいときです。

主にプライバシーの保証のためにツールを選ぶなら、この議論のより詳しい版がオフライン音声テキスト変換のガイドにあります。ネットワークを抜いた状態ですべてを動かす方法を解説しています。

「プライベート」はこのカテゴリーで最も乱用されている言葉ですが、テストするのは最も簡単です。ネットワークを抜いて、それでも動くか確認するだけ。ローカルの Whisper と Parakeet はそのテストをパスします。オーディオが端末を離れないからです。AIのクリーンアップも同様で、Ollama がその隣で動いているからです。クラウドモードは意図的にそのテストを通りません。OpenAI の精度を借りているからです。それは適切な仕事に対しては公平なトレードです。私はこのガイドのほとんどをWi-Fiをオフにした状態で口述しました。それが強力なプロダクトデモなのか、もっと外に出るべきサインなのかはわかりません。どちらも真実かもしれません。

今すぐプライベートに音声入力を始める

ローカルモデルを選び、ネットワークを抜いて、話してください。文字起こし結果はカーソルの位置に届き、あなたの声はノートパソコンを離れません。

サインイン済みのアカウントなら無料のローカルモード。始めるのにクレジットカードは不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読むのは私です。たぶん返信もこのツールで口述しています。

参考資料