Denys Medvediev

ガイド

講義文字起こしアプリ、 徹底解説

ライブ収録か自己口述か、音声の出どころ、そしてローカルとクラウドの違い——学生がもっと真剣に考えるべきポイントをわかりやすく説明します。

最終更新:2026年6月

講義が始まる前の、青いシートと机が並ぶ広々とした空の講義室——ここで講義の音声が文字起こしされます

講義文字起こしアプリは、授業中の言葉を検索可能なテキストに変換します。ライブ音声をリアルタイムで収録する方法と、録音を後から文字起こしする方法の2種類があります。クラウドで録音を処理するツールもあれば、Whisperのようにデバイス上でプッシュトゥトーク操作により口述内容をローカル処理するツールもあります。最適なツール選びは、誰の声を収録するか、音声をどこで処理するかによって変わります。

先学期、ある学生から90分の有機化学の講義録音が届きました。「enantiomer(エナンチオマー)が『an anti-mom(アンチマム)』になってしまうのはなぜですか」という質問と一緒に。もっともな疑問です。正直に答えると、ほとんどの講義アプリが同じ難題に取り組んでいます——静かな教授1人のいる騒がしい部屋をきれいなテキストに変えること——で、ツールの違いは音声の行き先と保管者にあります。90分の講義は最悪の音声シナリオです。距離、エコー、専門用語、そしてビデオ通話向けに設計されたマイクという組み合わせが待ち受けています。

学生たちは長年、信頼できる講義文字起こし機能を求めてきました。しかし従来の内蔵メモアプリは、短いクリップにすら対応しきれないことが多かった。2026年、その差はいよいよ縮まりました。フルレングスの講義を検索可能な文字起こしとサマリーに変換できるアプリが複数登場し、中にはすべてをノートPC上で完結させるものもあります。この記事では、ライブ授業の録音と自分でのノート口述の違い、音声の出どころ、そして学生が軽視しがちなローカルとクラウドの境界線について解説します。最後まで読めば、自分の授業に合ったツールの種類がわかります。私は学生から届くサポートメールの大半に目を通していますが、正直なところ、その多くは「最初にカテゴリの違うアプリを選んでしまった人」から来ています。そのサポートの山が、ある意味でこの記事を書くきっかけになりました。

講義文字起こしアプリを探す学生には、主に3つのタイプがあります。20分でノートを取る手が疲れてしまう人、集中が途切れたときのバックアップが欲しい人、そして母語以外の言語で学ぶ人。3者とも同じ問題——話す人間に追いつくこと——を解決しようとしており、3者とも「文字起こしアプリ」が実は2種類あることを知ることになります。

講義を録音して、きれいなテキストを得る。それだけです。

マーケティングを取り払えば、すべての講義文字起こしアプリは一つのことをします。誰かが話している音声を受け取り、検索・引用・学習に使えるテキストを返す。教授が話し、アプリが聞き、言葉がページに落ちる。ツール間の違いはすべてその後の話です。音声をライブで収録するか事後に処理するか、サーバーで処理するかデバイス上で処理するか、そして結果をどう整形するか。

Whisper by Remskillは、その口述側の仕事を担います。ホットキーを押しながら話すと、Notionでも、Wordでも、Googleドキュメントでも、メールでも、現在使っているアプリのカーソル位置に文字起こしが貼り付けられます。WindowsのデフォルトホットキーはCtrl+Spaceです。macOSではCommand+Optionの押しながら録音、離すと停止という操作になります。手を離した後、マイクは500ミリ秒のテールバッファを保持するので、最後の一言が切れることもありません。「会議に参加する」ステップも、アップロード待ちもありません。話せば、1〜2秒後にテキストが届きます。

CancelTranscribing
Whisperが録音をテキストに変換する様子——ホットキーを押しながら話し、離すと文字起こしがカーソル位置に貼り付けられます。

この区別は、多くのユースケースよりも講義での使い方において特に重要になります。次の点が肝心です。

ライブ収録と自分でノートを口述するのは別物です

ライブ講義の収録が行われる、屋内の講堂に並ぶオレンジ色の客席

ここが多くの学生が混乱するポイントです。ライブ授業を収録するために作られたアプリがあります——部屋を録音したり、Zoom通話に参加したりして、教授の声を文字起こしするものです。一方、自分自身の声でノートやサマリーを口述するために作られたアプリもあります。どちらも文字起こしを生成しますが、互換性はありません。

Whisperは後者のカテゴリです。マイクが拾った声を文字起こしします。これは講義後の学習段階、つまり記憶が新鮮なうちにサマリーを口述したり、問題を声に出して考えたり、概念を自分の言葉で再説明したり、勉強グループへのメールを下書きしたりするのに最適です。部屋にいて教授の声を代わりに収録するボットではありません。誰かのライブ講義を無人で収録したい場合は、それ専用に作られたレコーダーが適切なツールです。後ほど正直に名前を挙げます。

単純な話として、講義から最も精度の高い文字起こしを得られるのは、良質なマイクのすぐ近くで話が行われる場合です。自分でリキャップを口述するとき、口はマイクから20センチの距離にあります。教授を録音するとき、教授の口は演台の後ろ、エアコンと戦いながら20メートル先にあります。同じソフトウェア、まったく異なる結果です。

講義音声はどこから来るのか

木製の客席と大きな窓が並ぶ広々とした近代的な講堂——音声が部屋全体に広がる空間

すべての文字起こしはマイクから始まりますが、講義室はマイクにとって過酷な環境です。音声は3か所から得られます。1つ目はノートPCの内蔵マイク。目の前に座っている人向けに調整されており、自分のノートを口述するには十分ですが、200人収容の教室の向こう側の教授には力不足です。2つ目はシステムのループバック音声、つまりスピーカーから出てくる音で、ライブZoomや録画されたオンライン授業の収録に使われます。3つ目は音源の近くにクリップする外付け専用マイクです。

マイクの配置が精度に影響する最大の要因であり、モデルではありません。$20のUSBマイクは、どんなモデルのアップグレードよりも文字起こしに貢献します。コーヒーショップでノートPCのマイクに向かって口述しながら、「どのアプリが最も精度が高いか」と悩む学生を何度も見てきました。問題はアプリではありませんでした。音声だったのです。

オンライン授業やZoom講義では、音声がすでにクリーンなデジタルチャネルを通っているため、ループバック音声の収録がうまく機能します。大きな対面講堂の場合、現実的な答えは音源に近づいて録音することです。前列に座るか、クリップオンマイクを使い、後から文字起こしをする。どんなアプリも、ひどい録音を完璧な文字起こしに変えることはできません。良質な音声を素晴らしいテキストに変えるのがアプリであり、粗悪な音声からは「アンチマム」が生まれます。

ローカルとクラウドの文字起こしは、学生が意識すべきプライバシーの境界線を引いています

ほとんどの講義アプリ比較はこの部分を省きますが、学生の立場で最も気にすべき点です。音声はどこで処理されるのか。答えは2つ。クラウドツールはサーバーに録音を送り、そこで文字起こしして、テキストを返します。ローカルツールはすべてをノートPC上で完結させ、何もデバイスの外に出ません。

本音を言えば、講義のクラウド文字起こしは、当人が意識しないまま下しているプライバシーの判断です。教授の言葉、未発表の研究内容、期末試験についての余談——その録音がベンダーのログに残ることは、何か問題が起きるまでたいして気にされません。ローカルファーストか、さもなくばやめておく。これは私にしては強い言い方ですが、根拠があります。録音がノートPC内にだけ存在するなら、サーバー侵害で漏洩することはなく、利用規約の変更でトレーニング権を黙って付与されることもなく、削除し忘れたアカウントも存在しません。

Whisper
本物のWhisperアプリ——ローカルエンジンとオプションのCloud機能が1つのウィンドウに。設定画面を操作してみてください。

WhisperはPythonサイドカーなしの純粋なRustでローカル文字起こしを実行し、2つのエンジンから選択できます。ローカルWhisperは約140MBのBaseモデルから約3GBの多言語Large v3まで複数のモデルサイズを提供し、多言語版は99言語に対応し英語への翻訳機能もあります。NVIDIA Parakeetは約600MBの1モデルで、英語と24のヨーロッパ言語(合計25言語)に対応し、CPU上でWhisperより5〜10倍速く動作しますが、翻訳やアジア系言語には対応していません。最高品質とウェブアクセスを求める場合は、独自のOpenAIキーを使うCloudモードもあります。ローカルパイプライン全体はサインインしたユーザーなら無料で、サインアップ時にカードは不要です。CloudはオプションのPaid追加機能です。インターネットなしでも完全に動作します。詳しくはオフライン音声テキスト変換ガイドをご覧ください。

知っておくべき他の講義アプリ

Whisperは口述ツールであり、部屋を録音するボットではないため、ライブ講義収録についてはその目的に作られたアプリを正直にお伝えします。一般的な選択肢がどう異なるか、一次情報がある場合は実際の数値とともに紹介します。

アプリ用途音声の処理場所無料プランの実情対応言語
Whisper by Remskill自分のノートとサマリーの口述ローカル(WhisperまたはParakeet)または自己キーによるCloudローカルパイプライン全体が無料、カード不要多言語Whisperで99言語、Parakeetで25言語
Otterライブ会議・授業の録音とサマリー作成クラウド月300分、1録音につき30分上限一次情報による記載なし
Apple Voice Memos講義の録音と後から文字起こしの確認Apple(内蔵)macOSに内蔵一次情報による記載なし
Notta会議・授業向けクラウドAIノートテイカークラウド価格未確認Notta自称「多数」
主な講義文字起こしの選択肢が何を収録するか、音声をどこで処理するか、無料プランの実情を比較した表。

いくつかの行には補足が必要です。OtterのBasicプランは月300分の文字起こし、1録音あたり30分の上限があります。つまり90分の講義は1回の無料録音に収まりません。Apple Voice Memosは音声を録音してその文字起こしを表示できるため、Macユーザーにとっては「授業を録音して後で読む」という本物の選択肢がすでにデバイスに入っています。Nottaは「多数の言語に対応」としていますが、料金ページを開いて分数制限を確認できなかったため、プランの詳細は「申し込む前に確認を」として扱ってください。

講義にWhisperが向かない場合

ライブ講義の前にツールを置いて、教授の言葉をそのまま記録したいなら、Whisperはやめてください。私たちは口述内容を文字起こしするツールであり、廊下の向こうの誰かの言葉を拾うものではありません。無人のライブ収録には、そのために作られたレコーダーを使ってください。Macであれば、Apple Voice Memosが部屋を録音して文字起こしを無料で表示します。すでにインストール済みです。スピーカーラベルとサマリー付きのライブ会議収録が必要なら、Otterがそのために作られています。無料プランは月300分使えますが、1録音あたり30分の上限があるため、90分の講義をフルに収めるには有料プランが必要です。Whisperは授業後の学習に使ってください。サマリーの口述、問題を声に出して考えること、夕食を作りながら打つメール——そういった場面です。

ローカル文字起こしは無料、CloudサーフェスはPro

学生から最も多く聞かれるのがコストについてです。Whisperのローカル側全体——両エンジン、ローカルモデルによるAI整形、履歴、カスタムホットキー、モデルのダウンロード——はサインイン済みユーザーなら無料で、サインアップ時に支払い方法は不要です。これは意図的な設計です。ローカル文字起こしはノートPC自身のCPUで動作します。すでに購入済みのコンピューターに月額料金を課すのは筋が通らないと考えています。

有料プランのWhisper Proは、Cloudサーフェスを追加します。OpenAIクラウド文字起こし、クラウドAI強化、音声によるウェブ検索。これらはOpenAI側に使用コストが発生し、サーバーが介在するため、短いCloudトライアル付きのサブスクリプションで提供されています。具体的な金額は料金ページでご確認ください。純粋な講義学習の口述には、ほとんどの学生が無料のローカル層から離れることはありません。それがこの設計の意図です。

先学期のある火曜の夜、お弁当を作っていました(サンドイッチ、果物、下の子が食べてくれないヨーグルト)。その時、上の娘が校外学習について担任の先生へ返信を出さないといけないと言い出しました。片手でノートPCを手に取り、ホットキーを押しながら、キュウリを切る合間にメールを口述。先生の名前のスペルを確認するために一時停止、月がいつも見えるわけじゃないのはなぜかと下の子に聞かれてまた一時停止、そして続きを口述。メールは送られました。お弁当も完成しました。ちなみに私の手書き字では、どちらも実現していなかったでしょう。これが現実の生活に合った文字起こしの姿です。講義室のボットではなく、両手がふさがっているときも追いついてくれる声の力。自分の目的に合ったツールを選んで、学習を進めてください。 Whisperの使い方を見る.

次の学習セッションで試してみませんか?

Whisperをダウンロードして、ホットキーを押しながら、記憶が新鮮なうちに講義のサマリーを口述してみてください。ローカルパイプライン全体が無料です。

サインイン済みアカウントならローカル文字起こしが無料——サインアップ時にカード不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールの大半を読んでいるのは私です。おそらく返信も口述で書いています。

参考情報