Denys Medvediev

ガイド

mp3 をテキストに 変換する方法

mp3 をテキストに変換するには、ファイルを音声認識ツールにかけます。無料で、しかも安全な方法は、Buzz や OpenAI Whisper のコマンドラインのようなローカルのオープンソースアプリを使うことです。これらは自分のパソコン上で文字起こしを行います。すぐに始められる方法は、ファイルをアップロードする Web 変換サービスを使うことです。

最終更新: 2026年6月

音声編集ソフトで録音の波形が表示されているパソコンの画面

mp3 をテキストに変換するには、ファイルを音声認識ツールにかけます。無料で安全な方法は、Buzz や OpenAI Whisper のコマンドラインのようなローカルのオープンソースアプリを使うことです。これらは自分のパソコン上で文字起こしを行います。すぐに始められる方法は、ファイルをアップロードする Web 変換サービスを使うことです。どちらも音声を編集可能なテキストに変えてくれます。

手元に mp3 があり、その中身の言葉が欲しい。録音したインタビュー、ボイスメモ、ポッドキャストの一話、スマホに保存しておいた講義。どんな場合でもやることは同じです。音声を取り込み、編集できるテキストにする。

うれしいことに、これは2026年にはすでに解決済みの問題で、その方法のほとんどは無料です。少し厄介なのは、ツールがどれも似たような名前で紛らわしいことなので、ここで整理しておきましょう。

正直に言って、選択肢は三つあります。自分のパソコンで無料のローカルツールを動かす(最も安全で、アップロード不要、費用もかかりません)。この用途に作られた Mac アプリを使う。あるいは、サーバー上で文字起こしする Web サービスにファイルをアップロードする(これが一番手早く始められますが、音声が自分のパソコンの外に出ます)。どれが正解かは、プライバシーと手軽さのどちらを重視するか、そして今日の自分がどれくらい技術的なことに前向きかで決まります。

気まずい部分は早めに言っておきます。隠すのは不誠実ですから。私たちのチームが作っているアプリ、Whisper by Remskill は mp3 ファイルを変換しません。これはリアルタイムのディクテーションツールです。ホットキーを押しながら話すと、入力中のどこへでも言葉がそのまま現れます。まったく別の仕事です。どこで役立つかは終わりのほうで説明しますが、もし既存の録音を変換するためにここに来たのなら、必要なのは下で紹介するツールです。

無料で安全な方法は、ローカルのオープンソースツール

録音を誰かのサーバーに置きたくないなら、文字起こしを自分のパソコンで行いましょう。この用途でほぼ誰もが使うエンジンが OpenAI Whisper で、MIT ライセンスで公開されており、使うのも、中身を読むのも、動かすのも無料です。広告で見かける有料アプリの多くを支えているのと同じ系列のモデルです。

実際に使う方法はいくつかあり、「ターミナルなら慣れている」という人向けから「クリックできるボタンをください」という人向けまで揃っています。

OpenAI Whisper (Python コマンドライン)

pip でインストールし、依存している ffmpeg ツールを入れたら、ファイルを指定して実行します: whisper recording.mp3 --model turbo。mp3 を読み込み、文字起こしして、テキストファイルを書き出します。モデルサイズは6種類あり、小さくて速いものから大きくて正確なものまであるので、速度と精度を天秤にかけられます。多言語対応で、英語以外の音声を英語に翻訳することもできます。難点はセットアップです。pip と ffmpeg は難しくはありませんが、まったく手間がないわけでもありません。おろしたてのノートパソコンで ffmpeg のパスを直すのに20分かかったことがあります。私は修士号を持っているのですが。

whisper.cpp

同じ Whisper モデルを素の C と C++ で書き直したもので、Python も重い依存関係もなしに高速で動きます。CPU だけで動作し、Apple Silicon の Mac 向けに徹底的にチューニングされています。こちらも MIT ライセンスです。ソースからビルドしてコマンドラインで実行するので、まさに「ターミナルに慣れている人」向けです。処理したいファイルがたくさんあるなら、これが無駄のない選択肢です。

Buzz

技術にあまり詳しくない人に勧めるのはこれです。Buzz はごく普通のウィンドウを持つ普通のデスクトップアプリです。開いて、mp3 を選ぶと、自分のパソコン上でオフラインで文字起こしします。OpenAI Whisper をベースにしており、文字起こしも翻訳もでき、macOS、Windows、Linux で動きます。MIT ライセンスで無料。ターミナルも pip も ffmpeg のいじり回しも不要です。ファイルが一つあって、できるだけ手間をかけずに済ませたいなら、答えはこれです。

Whisper Desktop (Const-me)

グラフィックボードを持っている人向けの Windows アプリです。音声ファイルを文字起こしし、GPU を使ってそれを高速に行います。これはファイルが長いときに効いてきます。MPL-2.0 ライセンスのオープンソースで、Windows 専用です。そこそこの GPU を積んだ PC で2時間の録音を扱うなら、これが速い道です。

きれいなデスクの上で、ノートパソコンの画面にコードとコマンドラインのターミナルが開かれている様子

Mac なら、専用アプリがセットアップの手間を省いてくれる

Mac を使っていて、コマンドラインで一晩過ごすのが楽しいとは思えないなら、MacWhisper はまさにこのために作られています。音声ファイルや動画ファイルをドラッグ&ドロップすると、端末上で文字起こしするので、何も外には出ません。同じ OpenAI Whisper モデルに加え、NVIDIA の Parakeet エンジンも動かせ、ファイルの文字起こしという仕事をきちんとこなします。動画用の字幕ファイルなど、実際に必要になる形式での書き出しにも対応しています。

MacWhisper は設計からしてファイル中心です。録音を入れて、テキストを出す。それがこのアプリの目的のすべてで、それが得意です。特に挙げているのは、あなたが検索したまさにその用途に対して、ワンクリックの Mac の答えに一番近いものだからです。

Web 変換サービスは一番手早く始められるが、音声が自分のパソコンの外に出る

もう一つの方法はインストールが一切いりません。多くの Web サービスでは、mp3 をアップロードして、少し待てば、文字起こし結果をダウンロードできます。セットアップ不要、ダウンロードするモデルもなし、スマホや借り物のノートパソコンからでも使えます。一回きりの作業なら、その手軽さは本物で、それを否定するつもりはありません。

この記事で唯一はっきり言いたい意見がこれで、ごまかさずに当たり前の理由を添えて主張します。録音を Web 変換サービスにアップロードすると、音声は自分のパソコンを離れ、誰か他人のサーバーに着地します。どうせ公開する予定のポッドキャストなら、気にする必要はありません。けれども録音した人事面談、医師の所見、あるいは給与額や患者名が口に出される顧客との打ち合わせの場合、それはあなたが下しているプライバシー上の判断です。しかも多くの場合、ファイルがどれくらい保存されるかを説明するページを読まないまま下しているのです。ローカルツールは同じ仕事をしますが、音声はどこにも行きません。クラウド専用の文字起こしは、機密性の高い録音にとっては、文字起こしされるのを待っているプライバシーの惨事です。

もし Web 変換サービスが本当に自分に合った選択なら、文字起こしサービスの全体像を眺めてみる価値があります。その界隈については別のところで書きました。まずは高速文字起こしの手引き音声テキスト変換ガイドから始めてください。どちらもアップロード方式とローカル方式を並べて解説しています。

精度と言語は宣伝文句ではなく、モデルで選ぶ

どのツールに落ち着くにせよ、精度はおもに自分でコントロールできる二つの要素で決まります。モデルサイズと、音声を録音したマイクです。大きいモデルは遅くて正確、小さいモデルは速くて軽い。上で挙げたローカルツールのほとんどはこれを選べます。どれも違うボタンの裏で、同じ Whisper モデルを動かしているからです。

「賢い AI」変換サービスを売る人が口にしたがらない、退屈な真実があります。安いUSBマイクで録ったクリアな音声は、一番大きなモデルにかけた濁った音声に勝ちます。ツールはエアコンの音を聞かなかったことにはできません。もし mp3 を部屋の向こうからノートパソコンのマイクで録ったのなら、期待値を調整し、まだ可能ならいっそ録り直しましょう。

Whisper by Remskill が役立つ場面と、役立たない場面

では約束した正直な話です。Whisper by Remskill は、あなたの mp3 を取り込んでテキストにすることはしません。別の場面のために作られています。

これはリアルタイムのディクテーションツールです。ホットキーを押し(Windows では既定で Ctrl+Space、変更可能)、話すと、言葉が今いるアプリにそのまま入力されます。メール、ドキュメント、Slack のメッセージ、コードのコメントなど、どこへでも。文字起こしは話しながら端末上で行われ、話し終えた一拍あとにテキストがカーソル位置に着地します。ファイルもアップロードも、録音してから変換するという繰り返しもありません。

Pasted
実際に搭載されているディクテーション後のオーバーレイ。ファイルを変換しているのではなく、リアルタイムのディクテーションがカーソル位置で仕上がっている様子です。

では、これが本当に欲しいツールになるのはいつでしょう。必要な言葉がまだ録音として存在せず、頭の中にあるときです。もし本当の目的が「このファイルを変換する」ではなく、はじめから「自分の話した言葉を素早くドキュメントに入れる」だったのなら、録音という段階をまるごと飛ばせます。考えて、口に出すと、もう入力されている。ローカルのパイプライン全体が無料で、Windows と Mac(Apple Silicon)で動きます。あるとき、やかんのお湯が沸くまでの間に、先生宛のメール、買い物リスト、妹への返信を口述したことがあります。そしてお茶を注ぐのをすっかり忘れました。ツールはちゃんと働きました。私はだめでした。

Whisper
実際に動いている Whisper by Remskill アプリ。サイドバー、文字起こしパネル、AI 指示カード。これはスクリーンショットではなく、本物のインターフェースです。

リアルタイムでオフラインの文字起こしが内部でどう動くのか、その全体像についてはオフライン音声認識ガイドがさらに深く掘り下げています。けれども今この瞬間、ダウンロードフォルダに録音が眠っているなら、ページの上のほうに戻ってください。欲しいのは私たちではなく、Buzz か Whisper のコマンドラインです。

今回一回だけでいいなら

ファイルが一つ、一回きりで、二度とやる予定はない? それなら Buzz を開いて、mp3 を放り込み、動かすだけです。無料で、オフラインで動き、あとで保守しなければならないものは何もインストールせずに済みます。おすすめはそれだけです。ターミナルのツールは、ファイルが一つではなく五十になった日のためにとっておきましょう。

mp3 を変換する一番速い方法は、そもそも mp3 を持たないことです。とはいえ、すでに手元にある録音なら、無料のローカルツールが、どこにも送らずにゴールまで連れて行ってくれます。

Whisper by Remskill はリアルタイムのディクテーション用で、ファイル変換用ではありません

目的が、自分の話した言葉をタイプせずにドキュメントへ入れることなら、リアルタイムのディクテーションがどう動くかをご覧ください。すでに手元にある録音を変換するなら、無料の答えは上の Buzz です。

無料のローカルパイプライン。Windows と Mac(Apple Silicon)。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読んでいるのは私です。たいていは返信を口述しながら。

さらに読む