Denys Medvediev

チュートリアル

YouTube動画を文字起こしする 3つの方法

3つの方法で、ほぼすべてのケースをカバーできます。動画に備わっている文字起こしパネルを開く、リンクを無料のジェネレーターに貼り付ける、あるいは自分のメモを声で書き起こす。最初の2つはブラウザさえあれば足ります。

最終更新: 2026年6月

モダンなデスクで動画編集ソフトを動かしているノートパソコン。動画をテキストに変えるための作業環境

YouTube動画を文字起こしするには、3つの方法でほぼすべてをカバーできます。字幕がある動画なら動画の「文字起こしを表示」パネルを開く、もっときれいなテキストやダウンロードが欲しいならリンクを無料のオンライン文字起こしジェネレーターに貼り付ける、あるいはデスクトップツールで自分のメモを録音して書き起こす。最初の2つはブラウザさえあれば足ります。

先週、40分の講演から3つの文章をコピーするのに20分かかりました。全部を文字起こししたわけではありません。18分あたりで話された3つの文章を、メールに引用したかっただけです。爆弾を解除するみたいに、何度も巻き戻しては早送りしました。身も蓋もない真実を言えば、「YouTube動画を文字起こしするツール」を探している人の多くは、文字起こし全文なんて必要としていません。観るかわりに読みたい、引用を1つ拾いたい、あとで検索できるメモに動画を変えたい——たいていそれだけです。

YouTube動画は、読まれない本が棚に積まれていくのと同じようにタブの中に溜まっていきます。そして等速で1本観るのは、そこから情報を取り出すいちばん遅いやり方です。今この話題で検索すると、リンクを貼り付けるだけのウィジェットがずらりと並びます。どれもよく似ていて、どれも「数秒で無料の文字起こし」をうたっています。たいていはちゃんと動きます。問題は、あなたのやりたいことにどの方法が合うか、です。このガイドでは3つを順に見ていきます。YouTubeに最初から備わっている文字起こし、リンクを貼るだけの無料ジェネレーター、そしてそれらが手を出せない部分のためのデスクトップ音声入力ツール。読み終わるころには、10秒もかからずどれを使うべきか分かるようになり、歯を食いしばってタイムラインを巻き戻すこともなくなります。私はサポートメールを自分で読んでいるので、最初に間違った方法を選んでしまう人を何人も見てきました。たいていは、私自身が最初に間違った方法を選んだすぐあとに、です。

無料の方法は、もうYouTubeの中にある

Transcript··· Toggle timestamps
0:00so the thing people get wrong about this is
0:04you don't actually need the whole transcript
0:09you need three sentences and a way to find them
0:14which is what the panel on the right is for
YouTube自身の「文字起こしを表示」パネル——無料で、すぐ使えて、もうあなたのブラウザの中にある。

動画に字幕があるなら、文字起こしはもう手元にあります。ツールも、アカウントも、クレジットカードもいりません。動画を開いて、その下の説明欄あたりを見て、「文字起こしを表示」をクリックします。プレーヤーの横にパネルが開いて全文が出てきて、動画が進むと話されている行までパネルがスクロールします。どの行をクリックしても、動画はその瞬間に飛びます。

これは多くの記事が末尾に埋めてしまう方法です。おそらく、その周りで売れるものが何もないからでしょう。デスクトップでもモバイルでも動きます。落とし穴は、そもそも動画に字幕が存在している必要があること。人気のチャンネルのほとんどには、自動生成かアップロード者が付けたものがありますが、小さなクリエイターの古い投稿にはないこともあります。

うまくいったかの確認: 文字起こしパネルに、音声と同じタイミングでスクロールするテキストが表示されている。まったく開かないなら、その動画には字幕がありません。方法2に進みましょう。

もう一つ、見落とされがちなことがあります。文字起こしパネルには、タイムスタンプの表示をオフにする小さなメニューがあります。これをオフにすると、テキストをきれいな文章としてコピーするのがぐっと楽になります。この切り替えはパネルの中にあって、サポート文書には載っていません。広く知られてはいますが、YouTubeの公式ヘルプページには書かれていません。数字の羅列をドキュメントに貼り付けてしまう前に、知っておく価値があります。

リンクを貼れば、もっときれいなテキストが手に入る

文字起こしをYouTubeの外で使いたいとき(ダウンロードしたい、要約ツールにかけたい、組み込みパネルが言うことを聞いてくれない動画を読みたいとき)には、リンクを貼るだけの無料ジェネレーターが出番です。形はいつも同じ。YouTubeのURLをコピーして、ボックスに貼り付けて、テキストを受け取る。

YouTube Transcript Generator
ここに文字起こしが表示されます——コピーするか .txt でダウンロード
ありがちなURL貼り付け型の文字起こしジェネレーターを、肝心な部分だけに絞ったもの。

Tactiqの無料YouTube文字起こしジェネレーターは、貼り付けたURLを受け取り、インストールもサインインもメール登録も求めず、結果を .txt ファイルとしてダウンロードさせてくれます。自動音声認識は必ずしも100%正確ではないと正直に明記しているのも、誠実な姿勢です。NoteGPTのジェネレーターも同じくリンクを貼るだけのやり方で、タイムスタンプ付きの文字起こしを返し、多言語に対応し、タイムスタンプの有無を選んでコピーでき、AI要約まで付いてきます。検索1位の youtubetotranscript.com は、FAQで翻訳、文字数制限、APIをうたっています。これらは「うたっている」もので、検証済みではないと考えてください。

うまくいったかの確認: 文字起こしテキストを選択・コピー・ダウンロードできる。ツールが止まったり何も返さなかったりするなら、たいていその動画には引き出せる字幕がありません。これらのジェネレーターはYouTubeにある既存の字幕トラックを読んでいるだけで、音声を聞いているわけではないのです。

この最後の一文が、まさに限界そのものです。だからこそ、3つ目の方法が登場します。

リンク系ツールにできないこと

上のどの方法も、YouTubeが渡してくれる字幕トラックがあることが前提です。字幕がなければ、文字起こしもありません。これで公開動画のほとんどはカバーできますが、一つ穴が残ります。そもそも公開のYouTube動画ではない音声です。誰かが共有してくれた限定公開のリンク。まだ字幕のないライブ配信。講座プレーヤーの中のクリップ。アップロードする前の自分の撮影素材。

もう一つ、静かな穴も残ります。動画の言葉が欲しいわけではないときがあります。欲しいのは、動画について語る「あなたの言葉」です。観ながら書きたくなるメモ。自分の言い回しでの要約。この講演がなぜ大事なのかを同僚に説明する、口述したい3つの文章。

ここでデスクトップ音声ツールが本領を発揮します。そして、それが何をして何をしないのかを正確に言っておく価値があります。Whisper by Remskill はホットキー駆動の音声入力アプリです。ホットキーを押して、マイクに向かって話すと、あなたの言葉が、今いるアプリのカーソル位置にテキストとして現れます。YouTubeのリンクを受け取って動画を代わりに文字起こしすることはしません。それはリンク貼り付け型ジェネレーターの仕事であって、私たちの仕事ではありません。Whisperがするのは、動画を観ながら、タイプするかわりに話して自分のメモを取れるようにすること——多くの人にとって、「この動画を文字起こしして」の裏に隠れている本当のやりたいことは、実はこちらなのです。

動画を再生しながら、メモを声で取る

私が使っているワークフローはこうです。動画を再生する。残しておきたいものが出てきたら、ホットキーを押し続けて、メモを声に出して言い、離す。テキストがドキュメントに現れます。タブの切り替えなし、タイプするための一時停止なし、思考の流れを失うこともなし。

Windowsでのデフォルトのホットキーは Ctrl+Space です。macOSでは修飾キーだけのプッシュトゥトーク方式で、Command+Option を一緒に押し続け、どちらかのキーを離すと止まります。何かと干渉するなら、Settingsで変更できます。録音オーバーレイが聞き取り中であることを示してくれるので、ちゃんと拾えたかどうかを当て推量することはありません。

Cancel
メモを口述しているときのWhisper録音オーバーレイ——聞き取り中であることが分かるようになっている。

文字起こしは2通りで動き、選べます。ローカルモードは、純Rust製の2つのエンジンを通じて自分のマシン上で動きます。1つはOpenAI Whisperで、モデルサイズはおよそ140 MBから約3 GBまであり、多言語版では99言語に対応します。もう1つはNVIDIA Parakeet TDTで、25言語(英語と24のヨーロッパ言語)をカバーする単一の約600 MBモデルで、2つのうち速いほうです。ローカルモードでは何もあなたのノートパソコンから出ていきません。クラウドモードは自分のOpenAIキーを持ち込む方式で、音声からテキストへの変換に gpt-4o-mini-transcribe または gpt-4o-transcribe を使い、最新モデルとウェブアクセスが欲しいときに向いています。

ローカルパイプラインは、サインインしているすべてのユーザーが無料で使えます。クラウドは Whisper Pro の領域です。

ここで自分のバイアスを認めておきます。たいていの生産性ツールは、姿を変えたタイピングの問題です。メモアプリ、クリップボード管理ツール、入れ子のデータベースが11個もあるセカンドブレイン——そのどれもの根っこにあるのは、すでに口で言えることを取り込むために、指をキーの上で動かすという同じ行為です。音声入力はキーボードを飛ばします。話すのは1分あたり約145語、タイプは約40語ですから、タイプに1分かかった動画メモも、話せば15秒ほどで済みます。タイピングの問題の解決策は、たいてい、もっと洗練されたアプリではありません。タイプしないことです。

うまくいったかの確認: 動画を最後まで観終えたとき、スクロールのとき以外はキーボードに一切触れずに、メモ1ページぶんが手元にできている。

タイムスタンプ、SRTファイル、その他の言語

よく聞かれる3つのことは、すべてが同じ場所から出てくるわけではないので、整理しておきましょう。

タイムスタンプ。 YouTubeの組み込みパネルとNoteGPTはどちらも、数字の有無を選んでコピーできるタイムスタンプ付きの行を渡してくれます。動画の既存の字幕にひも付いたタイムスタンプが欲しいなら、それらを使いましょう。マイク入力の音声入力ツールは、他人の動画のどこにいるかを知りません。

SRTおよびVTTの字幕ファイル。 これは字幕の書き出し作業です。OpenAI自身の音声テキスト変換APIは whisper-1 モデルで srt と vtt 形式を出力でき、Descriptのような編集ツールはアップロードしたメディアから字幕ファイルを作ります。Whisper by Remskill はプレーンテキストをカーソル位置に貼り付けます。アプリに言葉を入れることのために作られていて、.srt ファイルを作るためのものではありません。適材適所、というわけです。

その他の言語。 リンク貼り付け型ジェネレーターは、YouTubeの字幕トラックをもとに複数言語を扱います。自分の多言語メモを口述するなら、ローカルのWhisperエンジンは多言語モデルで99言語をカバーし、音声を英語に翻訳できます。Parakeetは25言語に対応し、翻訳はしません。手順を追った音声入力のセットアップについては、voice-to-text アプリガイド がすべてを解説しています。

インタビューと録音した会話。 同じファイルドロップの流れで、録音したインタビューも扱えます。長い対談から、話者ごとのきれいなテキストが欲しい場合に向いています。インタビューを自動で文字起こしする 方法についての私たちのガイドが、この特定のケースを最初から最後まで取り上げています。

Whisper
本物のWhisperアプリ——言語と翻訳の設定はSettingsの中にあります。あちこちクリックしてみてください。

Whisperをまるごと使わなくていいとき

公開されているYouTube動画をテキストとして読むことだけが目的なら、Whisperは使わず、迷う必要もありません。YouTubeの組み込み文字起こしは無料で、すぐ使えて、もうあなたのブラウザにインストールされています。

ダウンロードできるファイルや、もっときれいなコピーが必要なら、Tactiqのような無料ジェネレーターが、アカウントもメールも不要でこなし、.txt で書き出してくれます。

編集中の動画に字幕を入れ込むなら、Descript(アップロードしたメディアで30以上の言語と最大95%の精度をうたっています)のような本格的なエディターが適したカテゴリで、私たちではありません。私たちが受け持つのは、それらのツールが手を出せない部分——観ながら、声で、自分の言葉を取り込むことです。

3つの文章に20分を失ったあの午後、上の娘が通りかかり、私が同じ10秒を4回目に巻き戻すのを見て、なぜそのまま読まないのかと聞いてきました。動画には文字起こしが付いてこないんだ、と私は答えました。娘は「いまどき何にだって文字起こしはあるよ、パパ」と言って、1時間後には言い逃れることになる宿題をしに行きました。だいたい当たっていました。文字起こしはたいてい、もうそこにあります。動画の下に、リンクの向こうに、あるいはホットキー1つ先のあなた自身の言葉として。

次に観る動画で試してみる

Whisperをダウンロードして、次の動画メモはタイプするかわりに口述してみてください。

ローカルパイプラインはまるごと無料。サインアップ時にカードは不要です。

Denys Medvedievの写真

Denys Medvediev

私はサポートメールを読んでいる本人です。たぶん、返信も口述で書いています。

さらに読む