How do I convert audio to text?

Pick a converter, give it your audio, and read back the text. Web tools want you to upload a file; a desktop app like Whisper can transcribe a recording locally or dictate live at the cursor with a hotkey. The text comes back editable.

Can AI transcribe audio to text accurately?

Yes, on clear audio. Vendors quote 96 to 99% on clean recordings, though those are marketing figures, not independent benchmarks. Accuracy drops on noisy audio, heavy accents, and overlapping speakers. A decent microphone helps more than a bigger model.

Does audio to text work offline?

With the right tool, yes. Whisper's local mode processes everything on your computer and needs no internet after a one-time model download of about 140 MB to 3 GB. The free web converters in this search all require an upload, so they need a connection.

Is there a free audio to text converter?

Several, with limits. HappyScribe offers 10 free minutes with no card; AudioConvert.ai gives 30 minutes a day. Whisper's entire local pipeline is free for authenticated users with no payment method at signup.

What audio formats can I convert to text?

Most tools take the common ones. The OpenAI transcription API accepts mp3, mp4, mpeg, mpga, m4a, wav, and webm. NoteGPT lists MP3, WAV, MP4, and AVI. Cloud uploads also hit a 25 MB ceiling per request on the OpenAI endpoint.

Does it support multiple languages?

Depends on the model. Whisper's multilingual models cover 99 languages with auto-detect; its English-only builds are locked to English. The faster Parakeet engine covers English plus 24 European languages, with no Asian languages and no translate-to-English.

Can I transcribe audio from a video file?

Yes. Transcription only cares about the audio track, so the OpenAI endpoint accepts mp4. For a video on your own drive, local transcription keeps the file off any server while it works.

Denys Medvediev2026年3月13日

ガイド

音声テキスト変換ツールをわかりやすく解説

無料のWebツール、オフラインのデスクトップアプリ、自分のAPIキーを使うクラウド型。どれも音声を文字に変えます。本当に大事なのは、その音声がどこで処理されるかです。

最終更新：2026年6月

暗い画面に光る音声波形を表示したデジタルオーディオインターフェースのクローズアップ

音声テキスト変換ツールは、音声認識モデルを使って録音や話し言葉を、編集も検索もできるテキストに変えます。本当に大事なのは音声がどこで処理されるかです。無料のWebツールはファイルをサーバーにアップロードしますが、Whisperのようなデスクトップアプリなら、自分のパソコン上で完全に、オフラインで文字起こしを行い、その結果をカーソルのある場所にそのまま貼り付けられます。

無料の音声テキスト変換ツールのほとんどは、文字起こしを最初の10〜30分までに制限し、それ以降はカード登録を求めてきます。そこは公平な話です。サーバーにはお金がかかります。誰もはっきり言わないのは、あなたの音声がまずそのサーバーまで運ばれた、という部分です。医師のボイスメモ、取締役会の録音、親権争いの準備ファイル。すべて、会ったこともないベンダーにアップロードされているのです。

それについて私には意見があります。あとでお話しします。

音声テキスト変換ツールの仕事はひとつだけ。音を聞いて、言葉を書き起こすことです。面白い違いは、どうやって聞くか（モデル）、どこで聞くか（自分のパソコンかサーバーか）、そしてそのあとテキストをどうするか（ファイルに保存するか、いま入力している場所にそのまま貼り付けるか）にあります。この検索で上位3つに入る無料の変換ツールは、いずれも「ファイルをアップロードして待つ」タイプです。Whisper by Remskillはこれとは別種のものです。ディクテーション（音声入力）が中心で、ホットキーを押して話せば、どんなアプリでもカーソルの位置にテキストが現れます。

このガイドでは、変換ツールの仕組みを説明し、録音ファイルを文字にする3ステップの手順をたどり、Webの変換ツールが正解になる場面とそうでない場面をお伝えします。1年間サポートメールを読んできた私の実感では、その大半は、本来ノートパソコンから出すべきでない音声にクラウドツールを選んでしまった人たちからのものです。

音声テキスト変換ツールは、録音を編集できる言葉に変える

Whisper

本物のWhisperアプリ。設定をあちこち触ってみると、ローカルとクラウドの文字起こしがどう設定されているかわかります。

中身を見れば、どの変換ツールも同じものを動かしています。音声認識モデルです。音声の波形を取り込み、少しずつ区切りながら言葉を予測します。精度が決まるのはこのモデルです。これらのツールの多くを支える大きなオープンモデルがOpenAIのWhisperで、多言語版なら99言語に対応します。同じOpenAIのSpeech-to-Text APIは、whisper-1に加え、より新しいgpt-4o-transcribeとgpt-4o-mini-transcribeのモデルも提供しています。

出力されるのは、編集できるプレーンなテキストです。名前を直したり、フレーズを検索したり、メールに貼り付けたりできます。それこそが狙いです。音は流し読みできませんが、テキストなら簡単です。Whisperも同じ編集可能なテキストを生み出しますが、ダウンロードを渡すのではなく、いま開いているアプリにそのまま貼り付けられます。上に埋め込まれているのは、モックアップではなく本物のデスクトップアプリそのものです。

どのモデルを選ぶかが精度を左右する判断であり、オープンなWhisperモデルとGoogle Cloud Speech-to-Textは別々の立ち位置にあります。 Whisper対Google Speech-to-Textの比較記事では、精度、対応言語、そして音声がどこへ行くかという観点で、2つのエンジンを並べて見ています。

音声ファイルをテキストに変換する3ステップ

録音ファイルの場合、手順は短いです。無料のWeb変換ツールはこれを「アップロード、クリック、ダウンロード」と説明しています。

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

典型的なWeb変換ツール。ファイルをドロップし、アップロードを待ち、文字起こしをダウンロードします。

どこで処理するかを選ぶ。クラウド型の変換ツールは、ファイルをサーバーにアップロードする必要があります。Whisperはローカルモードで自分のパソコン上で文字起こしを行うので、ファイルがパソコンから外に出ることはありません。

言語に合わせてモデルを選ぶ。英語だけのファイルは、より小さなモデルが一番速いです。多言語や言語が混ざった音声には、99言語に対応する多言語モデルが必要です。

テキストを受け取って編集する。文字起こしはプレーンなテキストで返ってきます。モデルが固有名詞でいつも作る打ち間違いを直せば、完成です。

CancelTranscribing

Whisperが録音をローカルで文字起こししているところ。ファイルはパソコンから外に出ません。

知っておく価値のある落とし穴がひとつ。クラウドAPIにはサイズ上限があります。OpenAIの文字起こしエンドポイントは、1リクエストあたり25 MBまでにアップロードを制限しています。長い会議の録音をWAVで扱うと、あっという間に超えてしまいます。ローカル処理なら、自分のディスク容量と根気以外に上限はありません。

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

ほとんどの変換ツールのページが飛ばしてしまう問いがここにあります。あなたは、すでに存在するファイルを文字起こししたいのですか。それとも、自分の声で新しい何かを書こうとしているのですか。

録音（インタビュー、講義、ポッドキャスト）があるなら、ファイル変換ツールが正しい道具です。アップロードして、文字起こしを受け取って、次へ進む。上位3つの無料ツールはこれをこなしますが、無料プランには1日あたりの分数制限があります。

Cancel

Whisperのライブ録音オーバーレイ。ホットキーを押したまま話し、離します。

新しいメールやメモ、文書を書いているなら、ファイルなんて欲しくありません。話すそばから言葉が現れてほしいはずです。それがディクテーションで、仕組みがまったく違います。Whisperではホットキーを押したまま話し、離します。Windowsの初期設定はCtrl+Spaceで、macOSではCommand+Optionのプッシュ・トゥ・トークの組み合わせです（両方を押したままにし、どちらかのキーを離すと止まります）。文字起こしされたテキストは、どんなアプリケーションでもカーソルの位置に貼り付けられます。アップロードも、ダウンロードも、タブの切り替えもありません。上のオーバーレイが、聞き取り中に表示されるものです。

音声テキスト変換ツールを探す人の多くは、まず1つ目を求め、実は2つ目も欲しかったと気づきます。書くことより録ることのほうがずっと少ないものです。去年、私は2週間かけてもっと良いファイル変換ツールを探し回りましたが、本当に必要だったのは、娘の水泳の練習中に片手の指1本で返信を打つのをやめることでした。

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

稼働中の機器が並ぶデータセンターのサーバーラックの列。クラウドでの音声処理を表す

本当に大事な分かれ道はここに来ます。そして、無料ツールが最も口を閉ざす点でもあります。Web変換ツールはあなたの音声を自社のサーバーで処理します。AudioConvert.aiはファイルを24時間以内に削除すると言っています。HappyScribeとNoteGPTもクラウドにアップロードします。これは標準的なやり方で、公開するポッドキャストなら問題ありません。

さて、約束した私の意見です。クラウド一択の音声変換は、文字起こしされるのを待っているプライバシーの惨事です。かつて一緒に仕事をしたチームが、外注先に社内向けのディクテーション試作品を作らせたことがありました。発話のたびにクラウドAIを呼び出すものでした。担当マネージャーが四半期末にコストのダッシュボードを開くと、5桁の請求額があり、その大半は、リトライの仕組みが攻めすぎていたせいで、朝会の録音を4回ずつ文字起こししていた分でした。CFOの返答は短いものでした。「あるいは、すでにメモがある会議をアップロードするのにお金を払わない、という手もあるよね」。お金は小さな問題でした。もっと大きな問題は、何四半期分もの社内通話が、いまや他人のサーバー上で暮らしていることでした。

Whisperのローカルモードはそれに答えます。ローカルモードでは、すべての音声が自分のパソコン上で処理され、何ひとつデバイスの外に出ません。一度きりのモデルのダウンロード（モデルによっておよそ140 MBから3 GB）が済めば、完全にオフラインで動きます。デバイス上で動くエンジンは2つ。Whisperのモデルと、NVIDIAのParakeetです。ParakeetはCPU上でWhisperより5〜10倍速いですが、対応は英語と24のヨーロッパ言語のみで、英語への翻訳はできません。クラウドが良ければ、Whisperには自分のAPIキーを使うOpenAIモードがあり、gpt-4o-mini-transcribeまたはgpt-4o-transcribe（APIが提供するのと同じモデル）を使えます。請求はOpenAIから直接で、こちらの上乗せはありません。要は、あなたが選ぶということです。無料のWebツールはあなたの代わりに選び、その答えはいつも「自社のサーバー」です。完全にクラウドを使わずに済ませる方法は、こちらのオフライン音声テキスト変換のガイドをご覧ください。

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

精度はおおむねモデルの問題で、そのモデルは言語の問題です。無料の変換ツールは大きな数字を宣伝します。AudioConvert.aiはクリアな音声で最大99%の精度をうたい、HappyScribeは最大96%と言っています。これらは公開された手法のないベンダーのマーケティング上の主張なので、ベンチマークではなくパンフレットとして受け止めてください。

精度を動かすのは、モデルを音声に合わせることです。Whisperには英語専用と多言語に分かれた8つのローカルモデルが付いています。英語専用版（約140 MBのBaseから約1.5 GBのMediumまで）は言語の選択肢を英語に固定し、その1つの仕事をうまくこなします。多言語版（Small、Medium、約3 GBのLarge v3、そしてLarge v3 Turbo）は自動検出つきで99言語に対応します。1つの文の中でウクライナ語と英語が混ざる？それには多言語モデルが必要です。きれいな英語のボイスメモなら？英語のBaseモデルのほうが速くて軽いです。

Whisper

本物のWhisperアプリのモデル・言語選択画面。英語専用版と多言語版が並んでいます。

どのモデルのページも認めない地味な真実があります。安いクリップ式マイクは、どんなモデルのアップグレードよりも精度に効きます。ゴミのような音声を入れれば、ゴミのようなテキストが出てきます。回っている食洗機の隣で録った音声を、どんなAIも直せません。私は週末をまるごと使ってモデル設定を調整し、自分のこもった音声をきれいにしようとしましたが、問題はファンから15センチのところにあったノートパソコンのマイクだったと気づきました。私は修士号を持っているのですが。上の設定パネルが、モデルと言語を選ぶ場所です。

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

Web変換ツールのほうが良い選択になることもあります。それを黙っていて、あなたに間違った道具と格闘させるくらいなら、はっきり言ってしまいます。短い録音が1つだけ（5分のインタビュー素材、1つのボイスメモ）で、サーバーに触れることを気にしないなら、HappyScribeのような無料の変換ツールが、カード不要で最初の10分を無料で文字起こししてくれます。ページを開いて、アップロードして、おしまい。そのためにデスクトップアプリを入れるのはやりすぎです。

次の3つのうちどれかに当てはまるときは、Web変換ツールを使わないでください。音声が機密である（医療、法務、財務）、ファイルが大きくてクラウドの25 MB上限に達する、または、古いものを文字起こしするのではなく新しい何かを書いている。最初の2つはローカル処理を求めています。3つ目が求めているのはディクテーションであって、変換ツールではまったくありません。複数の話者と要約を伴う会議向けの文字起こしには、そのカテゴリーの専用ツールがどちらよりも合います。それは別の仕事で、こちらの文字起こしソフトまとめ記事で扱っています。

費用について

Whisperはローカルのパイプライン全体が誰でも無料です（2つの文字起こしエンジン、AIによるテキスト整形、履歴、カスタムホットキーすべて）。登録に支払い方法は必要ありません。自分のAPIキーを使うクラウド面は有料のProプランで、実際に文字起こしした分はOpenAIから直接請求されます。この検索に出てくる無料のWeb変換ツールは、フリーミアムの分数制限で動いています。HappyScribeは10分の無料枠、AudioConvert.aiは1日30分です。Whisperは今日、WindowsとApple SiliconのmacOSで提供されています。正確なプランの数字は、料金ページに明記されています。

無料の変換ツールは、自分の得意なこと（ファイルをドロップして、待って、テキストをコピーする）をうまくこなします。共有しても気にならないポッドキャスト素材には、使えばいいでしょう。けれど、いちばん大事な録音はたいてい、いちばんアップロードしたくないものです。そしてその瞬間、自分のノートパソコン上で動く変換ツールは、あれば便利という存在ではなくなるのです。

パソコンから出ない録音を試してみる

先週の土曜日、下の娘が90語のメールをおばあちゃんに口述して、その言葉はどこへ行ったのと私に尋ねました。どこにも、と私は答えました。ちゃんとここに残っているよ、と。その答えこそ、私がこれを作った理由のすべてです。

Whisperをダウンロード仕組みを見る

ローカルパイプライン全体が無料。登録に支払い方法は必要ありません。

Denys Medvediev

私はサポートメールを読む担当です。たぶん、返信もディクテーションで打っています。

さらに読む

よくある質問

変換ツールを選び、音声を渡して、返ってきたテキストを読むだけです。Webツールはファイルのアップロードを求めます。Whisperのようなデスクトップアプリなら、録音をローカルで文字起こしすることも、ホットキーでカーソルの位置にライブで音声入力することもできます。テキストは編集できる状態で返ってきます。

Denys Medvediev2026年3月13日

ガイド

音声テキスト変換ツールをわかりやすく解説

最終更新：2026年6月

それについて私には意見があります。あとでお話しします。

音声テキスト変換ツールは、録音を編集できる言葉に変える

Whisper

本物のWhisperアプリ。設定をあちこち触ってみると、ローカルとクラウドの文字起こしがどう設定されているかわかります。

音声ファイルをテキストに変換する3ステップ

録音ファイルの場合、手順は短いです。無料のWeb変換ツールはこれを「アップロード、クリック、ダウンロード」と説明しています。

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

典型的なWeb変換ツール。ファイルをドロップし、アップロードを待ち、文字起こしをダウンロードします。

CancelTranscribing

Whisperが録音をローカルで文字起こししているところ。ファイルはパソコンから外に出ません。

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

Cancel

Whisperのライブ録音オーバーレイ。ホットキーを押したまま話し、離します。

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

Whisper

本物のWhisperアプリのモデル・言語選択画面。英語専用版と多言語版が並んでいます。

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

費用について

パソコンから出ない録音を試してみる

Whisperをダウンロード仕組みを見る

ローカルパイプライン全体が無料。登録に支払い方法は必要ありません。

Denys Medvediev

私はサポートメールを読む担当です。たぶん、返信もディクテーションで打っています。

音声テキスト変換ツールをわかりやすく解説

音声テキスト変換ツールは、録音を編集できる言葉に変える

音声ファイルをテキストに変換する3ステップ

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

費用について

パソコンから出ない録音を試してみる

さらに読む

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声テキスト変換ツールをわかりやすく解説

音声テキスト変換ツールは、録音を編集できる言葉に変える

音声ファイルをテキストに変換する3ステップ

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

費用について

パソコンから出ない録音を試してみる

さらに読む

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声テキスト変換ツールを わかりやすく解説

音声テキスト変換ツールは、録音を編集できる言葉に変える

音声ファイルをテキストに変換する3ステップ

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

費用について

パソコンから出ない録音を試してみる

さらに読む

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声テキスト変換ツールを わかりやすく解説

音声テキスト変換ツールは、録音を編集できる言葉に変える

音声ファイルをテキストに変換する3ステップ

録音ファイルかライブのディクテーションか。あなたに必要なのはどっち？

ローカルかクラウドか。音声がどこで処理されるか（そして、なぜそれが大事か）

精度を選ぶ。あなたの訛りと言語をうまく扱うのはどのモデルか

Web変換ツールを使わないほうがいいとき（そして代わりに何を使うか）

費用について

パソコンから出ない録音を試してみる

さらに読む

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声テキスト変換ツールをわかりやすく解説

音声テキスト変換ツールをわかりやすく解説