チュートリアル
音声から字幕へ: 実際に使えるもの
音声から字幕を生成するツールは、音声ファイルをタイムスタンプ付きのSRTまたはVTTファイルに変換します。実際のワークフロー、ファイルを書き出せるツール、そして音声をアップロードしないオフライン無料オプションをご紹介します。
最終更新:2026年6月

音声から字幕を生成するツールは、MP3やWAV、ポッドキャストのエクスポートなどの音声ファイルを受け取り、タイムスタンプ付きの字幕ファイルを作成します。テキストの各行には開始と終了のタイムスタンプが含まれます。VEED、Kapwing、Descriptといったウェブツールはブラウザ上でこれを実現します。無料のオープンソースOpenAI Whisperコマンドラインツールなら、自分のマシン上でオフラインで実行できます。
以前、10分のポッドキャストクリップを手で字幕付けするのに40分かけたことがあります。3秒ごとに一時停止しながら、タイムスタンプを推測してタイプし続けました。私はソフトウェアエンジニアリングの修士号を持っています。それでも計算は残酷です。手作業での字幕付けは、音声の再生時間の何倍もかかります。現代の字幕生成ツールなら、ファイルの再生時間にコーヒー一杯分を加えた程度の時間で同じ作業が終わります。誰も最初に教えてくれないポイントは、適切なツールが一つの問いに依存するということです。ダウンロードできるタイムスタンプ付きファイルが必要ですか?それともテキストだけでいいですか?
「字幕生成ツール」という言葉は、実は二つの異なる用途に使われます。間違ったツールを選ぶと、午後を丸ごと無駄にします。このカテゴリは、タイムスタンプ付きファイルを書き出すブラウザツールと、ターミナルが使えれば同じことを無料でできるオフラインツールに分かれます。このガイドでは、ワークフローの流れ、音声ファイルだけから本物の.srtファイルを出力できるツール、SRT・VTT・TXTそれぞれの意味、そして私たちのような文字起こしアプリが不向きな場面を説明します。最後には、自分の成果物に対してどのツールを開くべきかわかるはずです。サポート受信箱に届くほとんどの混乱は、字幕ファイルが必要なのに文字入力ツールを選んでしまった人からのものです。一年分のそうしたメッセージが、この記事を書いた主な理由です。
必要なのはタイムスタンプ。テキストだけでは足りない
字幕ファイルはトランスクリプトとは違います。トランスクリプトはテキストです。字幕ファイルはテキストにタイミングを加えたものです。すべてのキャプションブロックは「この行を00:01:04から00:01:07まで表示せよ」と指定します。このタイミングこそが仕事の全てです。それにより動画プレイヤーは正しいタイミングで正しい言葉を画面に表示できます。
ほとんどの「音声テキスト変換」ツールは、私たちのものも含め、テキストだけを渡して終わりです。カーソルの位置にきれいな段落を貼り付けて止まります。音声から字幕を生成するツールはそれ以上のことをしなければなりません。音声を短いキャプションサイズのチャンクに分割し、各チャンクを音声の時刻に合わせ、プレイヤーが読める厳密なファイル形式で書き出します。YouTube、動画編集ソフト、講座プラットフォームにアップロードするファイルが成果物なら、タイムスタンプが必要です。文書内のテキストが成果物なら不要です。そのためだけに字幕ツールにお金を払う必要はありません。
音声ファイルから字幕を生成する3つのステップ

ワークフローはウェブでもオフラインでも、ほぼすべてのツールで同じです。
音声ファイルをアップロードまたは指定する。 ほとんどのツールはMP3、WAV、M4A、FLACに対応しており、動画は不要です。VEEDはMP3、WAV、ポッドキャスト録音、インタビュー音声、ボイスメモを受け付けます。動画しかない場合は、ツールが自動的に音声を抽出します。
文字起こしとタイミング合わせを任せる。 ツールは音声を音声モデルで処理し、結果をキャプション長の行に分割し、各行に開始時刻と終了時刻を付けます。手作業なら音声の再生時間の何倍もかかります。ツールなら再生時間とほぼ同じ時間で完了します。
確認してファイルを書き出す。 トランスクリプトを一度読んで(モデルの出力は良好ですが完璧ではありません)、誤った固有名詞を修正したら書き出します。ここでSRT、VTT、またはプレーンTXTのいずれかを選びます。
これが全体の流れです。ツールの違いは価格、対応言語、音声の送信先、そしてステップ3が無料かどうかという点に集約されます。
SRT vs VTT vs TXT:どのファイルが必要か
書き出しメニューには3つのフォーマットが並んでいますが、間違ったものを選ぶ人が絶えません。
- SRT (SubRip)は標準的な字幕ファイルです。番号付きのブロックで構成されたプレーンテキストファイルで、各ブロックにタイムコード範囲と1〜2行のテキストが含まれます。YouTube、ほとんどの動画編集ソフト、ほぼすべてのプレイヤーが対応しています。どれを選べばよいかわからない場合はSRTを選んでください。
- VTT (WebVTT)はSRTのウェブ版です。同じ考え方で、構文が少し異なり、スタイルや位置指定に対応しています。ウェブサイトやHTML5ビデオプレイヤーが明示的に要求する場合にVTTを使います。
- TXT はテキストだけで、タイムスタンプなしです。記事を書くとき、要約を作るとき、インタビューを引用するときに選ぶフォーマットです。また、シンプルな文字起こしツールが提供できる唯一のフォーマットでもあります。
私の目安:動画にはSRT、文書にはTXT、ウェブプラットフォームが指定する場合はVTT。ほとんどのツールは3つすべてを書き出せます:VEED、Kapwing、Descriptなど。
音声を字幕ファイルに変換するツール
各ブラウザツールの位置づけを、それぞれの公式ページの説明をもとに整理します。
- VEED は、音声ファイルのみから文字起こしを行い、SRT、VTT、TXTとしてダウンロードできるウェブ・モバイルの自動字幕生成ツールです。無料から始められます。字幕ファイルのダウンロードや長い動画の字幕付けは有料プランに移行します。
- Kapwing は「99%の精度の字幕を数秒で生成」と謳っています。これはKapwing自身のマーケティング数値であり、独立した検証値ではありません。MP3を含む動画・音声ファイルに対応し、100以上の言語への字幕翻訳が可能で、SRT、VTT、TXTを書き出せます。無料アカウントは最大10分の字幕とウォーターマーク付き。Proプランでウォーターマークが外れます。
- Descript は22以上の言語で字幕を生成し、音声ファイルのみの入力に対応し、「公開 → 書き出し → 字幕」の操作でSRTまたはVTTとして書き出せます。月1時間の無料枠があるフリーミアムモデルです。
コミットする前に確認できる項目について、4つのツールを比較します。同じ音声で直接比較したデータがないため、精度や速度の数値は含めません:
| ツール | プラットフォーム | ローカルまたはクラウド | オフライン対応 | 料金モデル | 対応言語 | 最適な用途 |
|---|---|---|---|---|---|---|
| VEED | ウェブ、モバイル | クラウド | 不可 | 無料開始、書き出しは有料 | 40以上のオプションを提供、総数は非公開 | ダウンロード付きの素早いブラウザ処理 |
| Kapwing | ウェブ | クラウド | 不可 | 無料プラン(ウォーターマーク)、Pro | 100以上の言語に翻訳可能 | 字幕付けと翻訳をまとめて |
| Descript | ウェブ | クラウド | 不可 | フリーミアム、月1時間無料 | 22以上 | 音声編集と字幕付けを同時に |
| OpenAI Whisper CLI | Windows, macOS, Linux | ローカル | 可 | 無料、オープンソース | 多言語99言語、.en版は1言語 | 無料・プライベート・アップロード不要 |
3つのブラウザツールはいずれも、音声を他社のサーバーに送信します。マーケティング用クリップならそれで構いません。でも録音したクライアントとの通話や給与情報が含まれるものは、読み続けてください。
これらのツールのUIは概ねこのような形をしています:
アップロード、生成ボタンをクリック、フォーマットを選択、ダウンロード。このバー(私たちのものではありません)こそが、音声から字幕を生成するツールの姿です。
無料かつオフライン:オープンソースWhisperでSRTを生成する

何もアップロードしたくない場合、OpenAIのオープンソースWhisperコマンドラインツールが自分のマシン上で無料に字幕ファイルを作成します。--output_formatフラグはtxt、vtt、srt、tsv、json、またはallを受け付け、デフォルトはallです。つまり、`whisper interview.mp3 --model turbo`という1つのコマンドで、アカウントなし・アップロードなしでオフラインに.srtファイルが生成されます。
オープンソースのWhisperはWhisper by Remskillとは別のプロジェクトです。OpenAIのコマンドラインモデルで、自分のコンピュータ上で動作し、タイムスタンプ付きの字幕ファイルを出力します。6つのモデルサイズ(tiny、base、small、medium、large、turbo)があり、小さい4つには英語専用版もあります。多言語モデルは99言語に対応し、.en版は英語のみです。
私がはっきり言えることがあります。センシティブな内容については、音声をノートパソコンの外に出すべきではありません。録音された人事評価、医師の口述メモ、法的な証言調書—タイムスタンプが必要だというだけで、それらをベンダーの処理ログに残すべき理由はありません。
あるチームが1四半期でスタンドアップ録音を文字起こしするためにクラウドAIに5桁の費用をかけているのを見たことがあります。次のレビューでのCFOの反応は「プロンプトを最適化しよう」ではありませんでした。「そもそもなぜ会議音声をサーバーに送っているんだ」でした。あなたのノートパソコンにはすでにCPUとマイクがあります。プライベートな素材には、オフラインのWhisper CLIが答えです。しかも費用はかかりません。
whisper.cppという高速なローカル版もあります。依存関係のないC/C++によるWhisperのビルドで、オープンライセンスのもとCPUのみで動作します。字幕ファイルも書き出せるという報告がありますが、検証済みの.srtの道としては公式OpenAI Whisper CLIをお勧めします。慣れてきたら速度向上のためwhisper.cppに移行するといいでしょう。
Whisper by Remskillが適さない場合
ほとんどの製品ブログが書かない部分です。.srtや.vttファイルをダウンロードすることが目的なら、私たちのアプリは適切なツールではありません。ダウンロードを無駄にする前に、今お伝えします。
Whisper by Remskillは文字起こし優先のアプリです。ホットキー(Windows: Ctrl+Space、macOS: Command+Option)を押しながら話し、離すと、開いているアプリのカーソル位置にテキストが貼り付けられます。音声をキャプションブロックに分割せず、音声時刻に合わせず、タイムスタンプ付き字幕ファイルも作成しません。インタビュー音声を入力しても、SRTではなくきれいな段落が得られるだけです。何度も頭の中で書き出しメニューを設計しましたが、実装しませんでした。タイムドキャプションはそれ自体が一つの製品であり、中途半端に作っても誰の役にも立たないからです。
字幕ファイルには上記のツールを使ってください。私たちのアプリが得意なのは隣接した用途です。自分の声をその場でテキストに変換すること。メール、下書き、SNSに手で入力するキャプション。2つのピュアRustエンジン(OpenAI WhisperとNVIDIA Parakeet)で動作し、Pythonもアップロードも不要です。用途が違えば、ツールも違う。適切なツールを選ぶこと—それがこの記事の全てです。
何かを開く前に、全てを決める問いに答えてください。ファイルを作るのか、テキストを作るのか。ファイルならタイムスタンプが必要で、本物の字幕生成ツールが必要です。素早いブラウザ処理にはVEEDかKapwing、無料かつプライベートならWhisper CLI。テキストならトランスクリプトツールが必要で、それは別のものです。私は文字起こしアプリを作っていますが、別のツールの方が適切なときは素直にそちらを勧めます。先週7歳の娘が仕事で何を作っているか聞いてきました。正直に答えると「人々がタイプするのを止める手伝いをしている」ということで、娘はひどくつまらなそうにしていました。あなたが節約できる午後は、私がポッドキャストクリップを3秒ごとに手で字幕付けしていた午後です。
文字起こし機能を使ってみませんか?
字幕ファイルではなく、カーソル位置のテキストが必要なら、Whisperが完全オフラインで音声をその場でテキストに変換します。
サインイン済みのすべてのユーザーに無料のローカル文字起こし機能を提供。字幕ファイルには上記のツールをご利用ください。



