ガイド
音声テキスト変換ツールを わかりやすく解説
無料のWebツール、オフラインのデスクトップアプリ、自分のAPIキーを使うクラウド型。どれも音声を文字に変えます。本当に大事なのは、その音声がどこで処理されるかです。
最終更新:2026年6月

音声テキスト変換ツールは、音声認識モデルを使って録音や話し言葉を、編集も検索もできるテキストに変えます。本当に大事なのは音声がどこで処理されるかです。無料のWebツールはファイルをサーバーにアップロードしますが、Whisperのようなデスクトップアプリなら、自分のパソコン上で完全に、オフラインで文字起こしを行い、その結果をカーソルのある場所にそのまま貼り付けられます。
無料の音声テキスト変換ツールのほとんどは、文字起こしを最初の10〜30分までに制限し、それ以降はカード登録を求めてきます。そこは公平な話です。サーバーにはお金がかかります。誰もはっきり言わないのは、あなたの音声がまずそのサーバーまで運ばれた、という部分です。医師のボイスメモ、取締役会の録音、親権争いの準備ファイル。すべて、会ったこともないベンダーにアップロードされているのです。
それについて私には意見があります。あとでお話しします。
音声テキスト変換ツールの仕事はひとつだけ。音を聞いて、言葉を書き起こすことです。面白い違いは、どうやって聞くか(モデル)、どこで聞くか(自分のパソコンかサーバーか)、そしてそのあとテキストをどうするか(ファイルに保存するか、いま入力している場所にそのまま貼り付けるか)にあります。この検索で上位3つに入る無料の変換ツールは、いずれも「ファイルをアップロードして待つ」タイプです。Whisper by Remskillはこれとは別種のものです。ディクテーション(音声入力)が中心で、ホットキーを押して話せば、どんなアプリでもカーソルの位置にテキストが現れます。
このガイドでは、変換ツールの仕組みを説明し、録音ファイルを文字にする3ステップの手順をたどり、Webの変換ツールが正解になる場面とそうでない場面をお伝えします。1年間サポートメールを読んできた私の実感では、その大半は、本来ノートパソコンから出すべきでない音声にクラウドツールを選んでしまった人たちからのものです。
音声テキスト変換ツールは、録音を編集できる言葉に変える
中身を見れば、どの変換ツールも同じものを動かしています。音声認識モデルです。音声の波形を取り込み、少しずつ区切りながら言葉を予測します。精度が決まるのはこのモデルです。これらのツールの多くを支える大きなオープンモデルがOpenAIのWhisperで、多言語版なら99言語に対応します。同じOpenAIのSpeech-to-Text APIは、whisper-1に加え、より新しいgpt-4o-transcribeとgpt-4o-mini-transcribeのモデルも提供しています。
出力されるのは、編集できるプレーンなテキストです。名前を直したり、フレーズを検索したり、メールに貼り付けたりできます。それこそが狙いです。音は流し読みできませんが、テキストなら簡単です。Whisperも同じ編集可能なテキストを生み出しますが、ダウンロードを渡すのではなく、いま開いているアプリにそのまま貼り付けられます。上に埋め込まれているのは、モックアップではなく本物のデスクトップアプリそのものです。
どのモデルを選ぶかが精度を左右する判断であり、オープンなWhisperモデルとGoogle Cloud Speech-to-Textは別々の立ち位置にあります。 Whisper対Google Speech-to-Textの比較記事では、精度、対応言語、そして音声がどこへ行くかという観点で、2つのエンジンを並べて見ています。
音声ファイルをテキストに変換する3ステップ
録音ファイルの場合、手順は短いです。無料のWeb変換ツールはこれを「アップロード、クリック、ダウンロード」と説明しています。
どこで処理するかを選ぶ。 クラウド型の変換ツールは、ファイルをサーバーにアップロードする必要があります。Whisperはローカルモードで自分のパソコン上で文字起こしを行うので、ファイルがパソコンから外に出ることはありません。
言語に合わせてモデルを選ぶ。 英語だけのファイルは、より小さなモデルが一番速いです。多言語や言語が混ざった音声には、99言語に対応する多言語モデルが必要です。
テキストを受け取って編集する。 文字起こしはプレーンなテキストで返ってきます。モデルが固有名詞でいつも作る打ち間違いを直せば、完成です。
知っておく価値のある落とし穴がひとつ。クラウドAPIにはサイズ上限があります。OpenAIの文字起こしエンドポイントは、1リクエストあたり25 MBまでにアップロードを制限しています。長い会議の録音をWAVで扱うと、あっという間に超えてしまいます。ローカル処理なら、自分のディスク容量と根気以外に上限はありません。
録音ファイルかライブのディクテーションか。あなたに必要なのはどっち?
ほとんどの変換ツールのページが飛ばしてしまう問いがここにあります。あなたは、すでに存在するファイルを文字起こししたいのですか。それとも、自分の声で新しい何かを書こうとしているのですか。
録音(インタビュー、講義、ポッドキャスト)があるなら、ファイル変換ツールが正しい道具です。アップロードして、文字起こしを受け取って、次へ進む。上位3つの無料ツールはこれをこなしますが、無料プランには1日あたりの分数制限があります。
新しいメールやメモ、文書を書いているなら、ファイルなんて欲しくありません。話すそばから言葉が現れてほしいはずです。それがディクテーションで、仕組みがまったく違います。Whisperではホットキーを押したまま話し、離します。Windowsの初期設定はCtrl+Spaceで、macOSではCommand+Optionのプッシュ・トゥ・トークの組み合わせです(両方を押したままにし、どちらかのキーを離すと止まります)。文字起こしされたテキストは、どんなアプリケーションでもカーソルの位置に貼り付けられます。アップロードも、ダウンロードも、タブの切り替えもありません。上のオーバーレイが、聞き取り中に表示されるものです。
音声テキスト変換ツールを探す人の多くは、まず1つ目を求め、実は2つ目も欲しかったと気づきます。書くことより録ることのほうがずっと少ないものです。去年、私は2週間かけてもっと良いファイル変換ツールを探し回りましたが、本当に必要だったのは、娘の水泳の練習中に片手の指1本で返信を打つのをやめることでした。
ローカルかクラウドか。音声がどこで処理されるか(そして、なぜそれが大事か)

本当に大事な分かれ道はここに来ます。そして、無料ツールが最も口を閉ざす点でもあります。Web変換ツールはあなたの音声を自社のサーバーで処理します。AudioConvert.aiはファイルを24時間以内に削除すると言っています。HappyScribeとNoteGPTもクラウドにアップロードします。これは標準的なやり方で、公開するポッドキャストなら問題ありません。
さて、約束した私の意見です。クラウド一択の音声変換は、文字起こしされるのを待っているプライバシーの惨事です。かつて一緒に仕事をしたチームが、外注先に社内向けのディクテーション試作品を作らせたことがありました。発話のたびにクラウドAIを呼び出すものでした。担当マネージャーが四半期末にコストのダッシュボードを開くと、5桁の請求額があり、その大半は、リトライの仕組みが攻めすぎていたせいで、朝会の録音を4回ずつ文字起こししていた分でした。CFOの返答は短いものでした。「あるいは、すでにメモがある会議をアップロードするのにお金を払わない、という手もあるよね」。お金は小さな問題でした。もっと大きな問題は、何四半期分もの社内通話が、いまや他人のサーバー上で暮らしていることでした。
Whisperのローカルモードはそれに答えます。ローカルモードでは、すべての音声が自分のパソコン上で処理され、何ひとつデバイスの外に出ません。一度きりのモデルのダウンロード(モデルによっておよそ140 MBから3 GB)が済めば、完全にオフラインで動きます。デバイス上で動くエンジンは2つ。Whisperのモデルと、NVIDIAのParakeetです。ParakeetはCPU上でWhisperより5〜10倍速いですが、対応は英語と24のヨーロッパ言語のみで、英語への翻訳はできません。クラウドが良ければ、Whisperには自分のAPIキーを使うOpenAIモードがあり、gpt-4o-mini-transcribeまたはgpt-4o-transcribe(APIが提供するのと同じモデル)を使えます。請求はOpenAIから直接で、こちらの上乗せはありません。要は、あなたが選ぶということです。無料のWebツールはあなたの代わりに選び、その答えはいつも「自社のサーバー」です。完全にクラウドを使わずに済ませる方法は、こちらのオフライン音声テキスト変換のガイドをご覧ください。
精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか
精度はおおむねモデルの問題で、そのモデルは言語の問題です。無料の変換ツールは大きな数字を宣伝します。AudioConvert.aiはクリアな音声で最大99%の精度をうたい、HappyScribeは最大96%と言っています。これらは公開された手法のないベンダーのマーケティング上の主張なので、ベンチマークではなくパンフレットとして受け止めてください。
精度を動かすのは、モデルを音声に合わせることです。Whisperには英語専用と多言語に分かれた8つのローカルモデルが付いています。英語専用版(約140 MBのBaseから約1.5 GBのMediumまで)は言語の選択肢を英語に固定し、その1つの仕事をうまくこなします。多言語版(Small、Medium、約3 GBのLarge v3、そしてLarge v3 Turbo)は自動検出つきで99言語に対応します。1つの文の中でウクライナ語と英語が混ざる?それには多言語モデルが必要です。きれいな英語のボイスメモなら?英語のBaseモデルのほうが速くて軽いです。
どのモデルのページも認めない地味な真実があります。安いクリップ式マイクは、どんなモデルのアップグレードよりも精度に効きます。ゴミのような音声を入れれば、ゴミのようなテキストが出てきます。回っている食洗機の隣で録った音声を、どんなAIも直せません。私は週末をまるごと使ってモデル設定を調整し、自分のこもった音声をきれいにしようとしましたが、問題はファンから15センチのところにあったノートパソコンのマイクだったと気づきました。私は修士号を持っているのですが。上の設定パネルが、モデルと言語を選ぶ場所です。
Web変換ツールを使わないほうがいいとき(そして代わりに何を使うか)

Web変換ツールのほうが良い選択になることもあります。それを黙っていて、あなたに間違った道具と格闘させるくらいなら、はっきり言ってしまいます。短い録音が1つだけ(5分のインタビュー素材、1つのボイスメモ)で、サーバーに触れることを気にしないなら、HappyScribeのような無料の変換ツールが、カード不要で最初の10分を無料で文字起こししてくれます。ページを開いて、アップロードして、おしまい。そのためにデスクトップアプリを入れるのはやりすぎです。
次の3つのうちどれかに当てはまるときは、Web変換ツールを使わないでください。音声が機密である(医療、法務、財務)、ファイルが大きくてクラウドの25 MB上限に達する、または、古いものを文字起こしするのではなく新しい何かを書いている。最初の2つはローカル処理を求めています。3つ目が求めているのはディクテーションであって、変換ツールではまったくありません。複数の話者と要約を伴う会議向けの文字起こしには、そのカテゴリーの専用ツールがどちらよりも合います。それは別の仕事で、こちらの文字起こしソフトまとめ記事で扱っています。
費用について
Whisperはローカルのパイプライン全体が誰でも無料です(2つの文字起こしエンジン、AIによるテキスト整形、履歴、カスタムホットキーすべて)。登録に支払い方法は必要ありません。自分のAPIキーを使うクラウド面は有料のProプランで、実際に文字起こしした分はOpenAIから直接請求されます。この検索に出てくる無料のWeb変換ツールは、フリーミアムの分数制限で動いています。HappyScribeは10分の無料枠、AudioConvert.aiは1日30分です。Whisperは今日、WindowsとApple SiliconのmacOSで提供されています。正確なプランの数字は、料金ページに明記されています。
無料の変換ツールは、自分の得意なこと(ファイルをドロップして、待って、テキストをコピーする)をうまくこなします。共有しても気にならないポッドキャスト素材には、使えばいいでしょう。けれど、いちばん大事な録音はたいてい、いちばんアップロードしたくないものです。そしてその瞬間、自分のノートパソコン上で動く変換ツールは、あれば便利という存在ではなくなるのです。
パソコンから出ない録音を試してみる
先週の土曜日、下の娘が90語のメールをおばあちゃんに口述して、その言葉はどこへ行ったのと私に尋ねました。どこにも、と私は答えました。ちゃんとここに残っているよ、と。その答えこそ、私がこれを作った理由のすべてです。
ローカルパイプライン全体が無料。登録に支払い方法は必要ありません。



