Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Denys Medvediev2026年4月23日

チュートリアル

音声から字幕へ：実際に使えるもの

音声から字幕を生成するツールは、音声ファイルをタイムスタンプ付きのSRTまたはVTTファイルに変換します。実際のワークフロー、ファイルを書き出せるツール、そして音声をアップロードしないオフライン無料オプションをご紹介します。

最終更新：2026年6月

音声から字幕を生成するツールは、MP3やWAV、ポッドキャストのエクスポートなどの音声ファイルを受け取り、タイムスタンプ付きの字幕ファイルを作成します。テキストの各行には開始と終了のタイムスタンプが含まれます。VEED、Kapwing、Descriptといったウェブツールはブラウザ上でこれを実現します。無料のオープンソースOpenAI Whisperコマンドラインツールなら、自分のマシン上でオフラインで実行できます。

以前、10分のポッドキャストクリップを手で字幕付けするのに40分かけたことがあります。3秒ごとに一時停止しながら、タイムスタンプを推測してタイプし続けました。私はソフトウェアエンジニアリングの修士号を持っています。それでも計算は残酷です。手作業での字幕付けは、音声の再生時間の何倍もかかります。現代の字幕生成ツールなら、ファイルの再生時間にコーヒー一杯分を加えた程度の時間で同じ作業が終わります。誰も最初に教えてくれないポイントは、適切なツールが一つの問いに依存するということです。ダウンロードできるタイムスタンプ付きファイルが必要ですか？それともテキストだけでいいですか？

「字幕生成ツール」という言葉は、実は二つの異なる用途に使われます。間違ったツールを選ぶと、午後を丸ごと無駄にします。このカテゴリは、タイムスタンプ付きファイルを書き出すブラウザツールと、ターミナルが使えれば同じことを無料でできるオフラインツールに分かれます。このガイドでは、ワークフローの流れ、音声ファイルだけから本物の.srtファイルを出力できるツール、SRT・VTT・TXTそれぞれの意味、そして私たちのような文字起こしアプリが不向きな場面を説明します。最後には、自分の成果物に対してどのツールを開くべきかわかるはずです。サポート受信箱に届くほとんどの混乱は、字幕ファイルが必要なのに文字入力ツールを選んでしまった人からのものです。一年分のそうしたメッセージが、この記事を書いた主な理由です。

必要なのはタイムスタンプ。テキストだけでは足りない

字幕ファイルはトランスクリプトとは違います。トランスクリプトはテキストです。字幕ファイルはテキストにタイミングを加えたものです。すべてのキャプションブロックは「この行を00:01:04から00:01:07まで表示せよ」と指定します。このタイミングこそが仕事の全てです。それにより動画プレイヤーは正しいタイミングで正しい言葉を画面に表示できます。

ほとんどの「音声テキスト変換」ツールは、私たちのものも含め、テキストだけを渡して終わりです。カーソルの位置にきれいな段落を貼り付けて止まります。音声から字幕を生成するツールはそれ以上のことをしなければなりません。音声を短いキャプションサイズのチャンクに分割し、各チャンクを音声の時刻に合わせ、プレイヤーが読める厳密なファイル形式で書き出します。YouTube、動画編集ソフト、講座プラットフォームにアップロードするファイルが成果物なら、タイムスタンプが必要です。文書内のテキストが成果物なら不要です。そのためだけに字幕ツールにお金を払う必要はありません。

音声ファイルから字幕を生成する3つのステップ

ホームオフィスの机の上にヘッドフォンが置かれ、ノートパソコンで音声編集ソフトが動いている様子

ワークフローはウェブでもオフラインでも、ほぼすべてのツールで同じです。

音声ファイルをアップロードまたは指定する。ほとんどのツールはMP3、WAV、M4A、FLACに対応しており、動画は不要です。VEEDはMP3、WAV、ポッドキャスト録音、インタビュー音声、ボイスメモを受け付けます。動画しかない場合は、ツールが自動的に音声を抽出します。

文字起こしとタイミング合わせを任せる。ツールは音声を音声モデルで処理し、結果をキャプション長の行に分割し、各行に開始時刻と終了時刻を付けます。手作業なら音声の再生時間の何倍もかかります。ツールなら再生時間とほぼ同じ時間で完了します。

確認してファイルを書き出す。トランスクリプトを一度読んで（モデルの出力は良好ですが完璧ではありません）、誤った固有名詞を修正したら書き出します。ここでSRT、VTT、またはプレーンTXTのいずれかを選びます。

これが全体の流れです。ツールの違いは価格、対応言語、音声の送信先、そしてステップ3が無料かどうかという点に集約されます。

SRT vs VTT vs TXT：どのファイルが必要か

書き出しメニューには3つのフォーマットが並んでいますが、間違ったものを選ぶ人が絶えません。

SRT （SubRip）は標準的な字幕ファイルです。番号付きのブロックで構成されたプレーンテキストファイルで、各ブロックにタイムコード範囲と1〜2行のテキストが含まれます。YouTube、ほとんどの動画編集ソフト、ほぼすべてのプレイヤーが対応しています。どれを選べばよいかわからない場合はSRTを選んでください。
VTT （WebVTT）はSRTのウェブ版です。同じ考え方で、構文が少し異なり、スタイルや位置指定に対応しています。ウェブサイトやHTML5ビデオプレイヤーが明示的に要求する場合にVTTを使います。
TXT はテキストだけで、タイムスタンプなしです。記事を書くとき、要約を作るとき、インタビューを引用するときに選ぶフォーマットです。また、シンプルな文字起こしツールが提供できる唯一のフォーマットでもあります。

私の目安：動画にはSRT、文書にはTXT、ウェブプラットフォームが指定する場合はVTT。ほとんどのツールは3つすべてを書き出せます：VEED、Kapwing、Descriptなど。

音声を字幕ファイルに変換するツール

各ブラウザツールの位置づけを、それぞれの公式ページの説明をもとに整理します。

VEED は、音声ファイルのみから文字起こしを行い、SRT、VTT、TXTとしてダウンロードできるウェブ・モバイルの自動字幕生成ツールです。無料から始められます。字幕ファイルのダウンロードや長い動画の字幕付けは有料プランに移行します。
Kapwing は「99%の精度の字幕を数秒で生成」と謳っています。これはKapwing自身のマーケティング数値であり、独立した検証値ではありません。MP3を含む動画・音声ファイルに対応し、100以上の言語への字幕翻訳が可能で、SRT、VTT、TXTを書き出せます。無料アカウントは最大10分の字幕とウォーターマーク付き。Proプランでウォーターマークが外れます。
Descript は22以上の言語で字幕を生成し、音声ファイルのみの入力に対応し、「公開 → 書き出し → 字幕」の操作でSRTまたはVTTとして書き出せます。月1時間の無料枠があるフリーミアムモデルです。

コミットする前に確認できる項目について、4つのツールを比較します。同じ音声で直接比較したデータがないため、精度や速度の数値は含めません：

ツール	プラットフォーム	ローカルまたはクラウド	オフライン対応	料金モデル	対応言語	最適な用途
VEED	ウェブ、モバイル	クラウド	不可	無料開始、書き出しは有料	40以上のオプションを提供、総数は非公開	ダウンロード付きの素早いブラウザ処理
Kapwing	ウェブ	クラウド	不可	無料プラン（ウォーターマーク）、Pro	100以上の言語に翻訳可能	字幕付けと翻訳をまとめて
Descript	ウェブ	クラウド	不可	フリーミアム、月1時間無料	22以上	音声編集と字幕付けを同時に
OpenAI Whisper CLI	Windows, macOS, Linux	ローカル	可	無料、オープンソース	多言語99言語、.en版は1言語	無料・プライベート・アップロード不要

3つのブラウザツールはいずれも、音声を他社のサーバーに送信します。マーケティング用クリップならそれで構いません。でも録音したクライアントとの通話や給与情報が含まれるものは、読み続けてください。

これらのツールのUIは概ねこのような形をしています：

interview-audio.mp3自動字幕

SRTVTTTXTダウンロード

アップロード、生成ボタンをクリック、フォーマットを選択、ダウンロード。このバー（私たちのものではありません）こそが、音声から字幕を生成するツールの姿です。

無料かつオフライン：オープンソースWhisperでSRTを生成する

ダークモードのコンピュータ画面に表示されたコード。コマンドライン字幕ワークフローを想起させる

何もアップロードしたくない場合、OpenAIのオープンソースWhisperコマンドラインツールが自分のマシン上で無料に字幕ファイルを作成します。--output_formatフラグはtxt、vtt、srt、tsv、json、またはallを受け付け、デフォルトはallです。つまり、`whisper interview.mp3 --model turbo`という1つのコマンドで、アカウントなし・アップロードなしでオフラインに.srtファイルが生成されます。

オープンソースのWhisperはWhisper by Remskillとは別のプロジェクトです。OpenAIのコマンドラインモデルで、自分のコンピュータ上で動作し、タイムスタンプ付きの字幕ファイルを出力します。6つのモデルサイズ（tiny、base、small、medium、large、turbo）があり、小さい4つには英語専用版もあります。多言語モデルは99言語に対応し、.en版は英語のみです。

私がはっきり言えることがあります。センシティブな内容については、音声をノートパソコンの外に出すべきではありません。録音された人事評価、医師の口述メモ、法的な証言調書—タイムスタンプが必要だというだけで、それらをベンダーの処理ログに残すべき理由はありません。

あるチームが1四半期でスタンドアップ録音を文字起こしするためにクラウドAIに5桁の費用をかけているのを見たことがあります。次のレビューでのCFOの反応は「プロンプトを最適化しよう」ではありませんでした。「そもそもなぜ会議音声をサーバーに送っているんだ」でした。あなたのノートパソコンにはすでにCPUとマイクがあります。プライベートな素材には、オフラインのWhisper CLIが答えです。しかも費用はかかりません。

whisper.cppという高速なローカル版もあります。依存関係のないC/C++によるWhisperのビルドで、オープンライセンスのもとCPUのみで動作します。字幕ファイルも書き出せるという報告がありますが、検証済みの.srtの道としては公式OpenAI Whisper CLIをお勧めします。慣れてきたら速度向上のためwhisper.cppに移行するといいでしょう。

Whisper by Remskillが適さない場合

Pasted

Whisperのオーバーレイの完成状態。カーソル位置にきれいな段落を貼り付けます。タイムスタンプ付きの字幕ファイルではありません。青いウィジェットはどのアプリの上にも表示されます。

ほとんどの製品ブログが書かない部分です。.srtや.vttファイルをダウンロードすることが目的なら、私たちのアプリは適切なツールではありません。ダウンロードを無駄にする前に、今お伝えします。

Whisper by Remskillは文字起こし優先のアプリです。ホットキー（Windows: Ctrl+Space、macOS: Command+Option）を押しながら話し、離すと、開いているアプリのカーソル位置にテキストが貼り付けられます。音声をキャプションブロックに分割せず、音声時刻に合わせず、タイムスタンプ付き字幕ファイルも作成しません。インタビュー音声を入力しても、SRTではなくきれいな段落が得られるだけです。何度も頭の中で書き出しメニューを設計しましたが、実装しませんでした。タイムドキャプションはそれ自体が一つの製品であり、中途半端に作っても誰の役にも立たないからです。

字幕ファイルには上記のツールを使ってください。私たちのアプリが得意なのは隣接した用途です。自分の声をその場でテキストに変換すること。メール、下書き、SNSに手で入力するキャプション。2つのピュアRustエンジン（OpenAI WhisperとNVIDIA Parakeet）で動作し、Pythonもアップロードも不要です。用途が違えば、ツールも違う。適切なツールを選ぶこと—それがこの記事の全てです。

何かを開く前に、全てを決める問いに答えてください。ファイルを作るのか、テキストを作るのか。ファイルならタイムスタンプが必要で、本物の字幕生成ツールが必要です。素早いブラウザ処理にはVEEDかKapwing、無料かつプライベートならWhisper CLI。テキストならトランスクリプトツールが必要で、それは別のものです。私は文字起こしアプリを作っていますが、別のツールの方が適切なときは素直にそちらを勧めます。先週7歳の娘が仕事で何を作っているか聞いてきました。正直に答えると「人々がタイプするのを止める手伝いをしている」ということで、娘はひどくつまらなそうにしていました。あなたが節約できる午後は、私がポッドキャストクリップを3秒ごとに手で字幕付けしていた午後です。

文字起こし機能を使ってみませんか？

字幕ファイルではなく、カーソル位置のテキストが必要なら、Whisperが完全オフラインで音声をその場でテキストに変換します。

Whisperの仕組みを見る料金を確認する

サインイン済みのすべてのユーザーに無料のローカル文字起こし機能を提供。字幕ファイルには上記のツールをご利用ください。

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信も口述筆記で書いています。

音声から字幕へ：実際に使えるもの

最終更新：2026年6月

必要なのはタイムスタンプ。テキストだけでは足りない

音声ファイルから字幕を生成する3つのステップ

ワークフローはウェブでもオフラインでも、ほぼすべてのツールで同じです。

これが全体の流れです。ツールの違いは価格、対応言語、音声の送信先、そしてステップ3が無料かどうかという点に集約されます。

SRT vs VTT vs TXT：どのファイルが必要か

書き出しメニューには3つのフォーマットが並んでいますが、間違ったものを選ぶ人が絶えません。

SRT （SubRip）は標準的な字幕ファイルです。番号付きのブロックで構成されたプレーンテキストファイルで、各ブロックにタイムコード範囲と1〜2行のテキストが含まれます。YouTube、ほとんどの動画編集ソフト、ほぼすべてのプレイヤーが対応しています。どれを選べばよいかわからない場合はSRTを選んでください。
VTT （WebVTT）はSRTのウェブ版です。同じ考え方で、構文が少し異なり、スタイルや位置指定に対応しています。ウェブサイトやHTML5ビデオプレイヤーが明示的に要求する場合にVTTを使います。
TXT はテキストだけで、タイムスタンプなしです。記事を書くとき、要約を作るとき、インタビューを引用するときに選ぶフォーマットです。また、シンプルな文字起こしツールが提供できる唯一のフォーマットでもあります。

音声を字幕ファイルに変換するツール

各ブラウザツールの位置づけを、それぞれの公式ページの説明をもとに整理します。

VEED は、音声ファイルのみから文字起こしを行い、SRT、VTT、TXTとしてダウンロードできるウェブ・モバイルの自動字幕生成ツールです。無料から始められます。字幕ファイルのダウンロードや長い動画の字幕付けは有料プランに移行します。
Kapwing は「99%の精度の字幕を数秒で生成」と謳っています。これはKapwing自身のマーケティング数値であり、独立した検証値ではありません。MP3を含む動画・音声ファイルに対応し、100以上の言語への字幕翻訳が可能で、SRT、VTT、TXTを書き出せます。無料アカウントは最大10分の字幕とウォーターマーク付き。Proプランでウォーターマークが外れます。
Descript は22以上の言語で字幕を生成し、音声ファイルのみの入力に対応し、「公開 → 書き出し → 字幕」の操作でSRTまたはVTTとして書き出せます。月1時間の無料枠があるフリーミアムモデルです。

ツール	プラットフォーム	ローカルまたはクラウド	オフライン対応	料金モデル	対応言語	最適な用途
VEED	ウェブ、モバイル	クラウド	不可	無料開始、書き出しは有料	40以上のオプションを提供、総数は非公開	ダウンロード付きの素早いブラウザ処理
Kapwing	ウェブ	クラウド	不可	無料プラン（ウォーターマーク）、Pro	100以上の言語に翻訳可能	字幕付けと翻訳をまとめて
Descript	ウェブ	クラウド	不可	フリーミアム、月1時間無料	22以上	音声編集と字幕付けを同時に
OpenAI Whisper CLI	Windows, macOS, Linux	ローカル	可	無料、オープンソース	多言語99言語、.en版は1言語	無料・プライベート・アップロード不要

これらのツールのUIは概ねこのような形をしています：

interview-audio.mp3自動字幕

SRTVTTTXTダウンロード

無料かつオフライン：オープンソースWhisperでSRTを生成する

Whisper by Remskillが適さない場合

Pasted

文字起こし機能を使ってみませんか？

字幕ファイルではなく、カーソル位置のテキストが必要なら、Whisperが完全オフラインで音声をその場でテキストに変換します。

Whisperの仕組みを見る料金を確認する

サインイン済みのすべてのユーザーに無料のローカル文字起こし機能を提供。字幕ファイルには上記のツールをご利用ください。

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信も口述筆記で書いています。

音声から字幕へ：実際に使えるもの

必要なのはタイムスタンプ。テキストだけでは足りない

音声ファイルから字幕を生成する3つのステップ

SRT vs VTT vs TXT：どのファイルが必要か

音声を字幕ファイルに変換するツール

無料かつオフライン：オープンソースWhisperでSRTを生成する

Whisper by Remskillが適さない場合

文字起こし機能を使ってみませんか？

関連リソース

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声から字幕へ：実際に使えるもの

必要なのはタイムスタンプ。テキストだけでは足りない

音声ファイルから字幕を生成する3つのステップ

SRT vs VTT vs TXT：どのファイルが必要か

音声を字幕ファイルに変換するツール

無料かつオフライン：オープンソースWhisperでSRTを生成する

Whisper by Remskillが適さない場合

文字起こし機能を使ってみませんか？

関連リソース

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声から字幕へ： 実際に使えるもの

必要なのはタイムスタンプ。テキストだけでは足りない

音声ファイルから字幕を生成する3つのステップ

SRT vs VTT vs TXT：どのファイルが必要か

音声を字幕ファイルに変換するツール

無料かつオフライン：オープンソースWhisperでSRTを生成する

Whisper by Remskillが適さない場合

文字起こし機能を使ってみませんか？

関連リソース

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声から字幕へ： 実際に使えるもの

必要なのはタイムスタンプ。テキストだけでは足りない

音声ファイルから字幕を生成する3つのステップ

SRT vs VTT vs TXT：どのファイルが必要か

音声を字幕ファイルに変換するツール

無料かつオフライン：オープンソースWhisperでSRTを生成する

Whisper by Remskillが適さない場合

文字起こし機能を使ってみませんか？

関連リソース

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声から字幕へ：実際に使えるもの

音声から字幕へ：実際に使えるもの