Denys Medvediev

ガイド

講義文字起こし アプリ

「講義文字起こしアプリ」という言葉には、実は2つの異なる用途が含まれています。ひとつは録音した講義を文章に変換すること——これはファイルの文字起こしです。もうひとつは復習中に自分の声でノートを書き留めること。Whisper by Remskillが担うのは後者で、WindowsとMacのシステム全体で動作します。

最終更新:2026年6月

段状の座席とホワイトボードを備えた空の大学講堂。学習とノート作成を想起させる

講義文字起こしアプリには、2つの異なる役割があります。録音した講義をテキストに変換する「ファイル文字起こし」は、専用の文字起こしサービスが担います。一方、自分が話した内容をノートアプリに書き留める「ディクテーション」は、Whisperのようなシステム全体で使えるツールが担います。ホットキーを押して話せば、テキストがカーソル位置に入力されます。

「講義文字起こしアプリ」と検索すると、まったく異なる2種類のニーズを持つ人たちが同じ検索結果に集まります。ひとつは90分の講義を録音して、その音声を読める文章に変換したい人たち。もうひとつは講義を聴き終えて内容もだいたい理解できたので、1時間タイピングせずに自分のノートをまとめたい人たち。この2つはまったく別の作業であり、1つのツールが両方をうまくこなすことはめったにありません。

このガイドがどちらを扱うのか、正直に伝えます。Whisper by Remskillはディクテーションツールです。どのアプリを使っていても、カーソル位置に話した言葉を入力するツールです。講堂の後ろで黙って録音して文字起こしを届けるものではありません。それが目的なら、数セクション後に適切なツールを紹介します。「自分の声でノートを素早くまとめたい」という目的ならば、それが私たちの得意領域であり、このガイドの大部分で扱う内容です。

この検索キーワードが隠している違いを説明しましょう。講義の文字起こしとは、音声ファイル——誰か他の人が話した録音——を取り込んで、後からテキストに変換することです。これは録音・文字起こしのワークフローであり、専用のツールがあります。ディクテーションはその逆方向です。自分の意志でマイクに向かって話すと、カーソルのある場所にリアルタイムで言葉が現れます。

つまり本当の問いは、自分がどちら側にいるかということです。教授の言葉を録音から文字起こししたいなら、文字起こしサービスが必要で、専用ガイドを読むべきです。自分のレビューノートや要約、フラッシュカード用のプロンプトを、タイピングの代わりに声で書きたいなら、システム全体で使えるディクテーションホットキーが必要です。両方を正直に説明し、ディクテーションを2分でセットアップする方法をお伝えして、使わないほうがいい場面もきちんと説明します。

ひとつの検索の中に隠れた2つの作業

学習環境の机に置かれたノート、ペン、開いたノートPC。講義内容の復習を表している

作業その1は、録音した講義の文字起こしです。授業中に録音ボタンを押した、あるいは教授が講義音声を公開していた——そして今、ファイルが手元にあります。そのファイルを読める・検索できる・引用できるテキストに変換したい。入力は手元にある音声データ。作業は録音の変換です。これはファイル文字起こしであり、専用ツールが存在する正式なカテゴリです。

作業その2は、声でノートを取ることです。資料を復習している——スライドを読み返したり、教科書を読み進めたり、講義の余韻が残るまま歩いて帰ったりしている——そして自分の考えをタイピングなしで書き留めたい。話せば言葉がノートアプリに現れます。入力は自分の声で、意図的に、リアルタイムで行います。これはディクテーションであり、まったく異なる仕組みです。一方は他者の録音を処理し、もう一方は考えながら入力してくれます。

Whisper by Remskillが担うのは2つ目の作業です。部屋を黙って録音して文字起こしするようなことはしませんし、そういうふりもしません——それは録音ツールの仕事であり、ディクテーションツールの仕事ではないからです。Whisperがすることは、書き上げる作業からキーボードを取り除くことです。多くの学生にとって、夕方の時間を本当に食い尽くすのはその2つ目の作業です。だからこそ、気にかける価値があります。

ホットキーを押して話せば、ノートが書き上がる

仕組みはシンプルです——シンプルであること自体が目的です。ホットキーを押して話して離すと、文字起こし結果がカーソル位置にペーストされます。Notion、Google ドキュメント、OneNote、メモアプリ、フォーカスがあるどのテキストフィールドにも対応しています。キーを離した後も少しの間入力を待つので、最後の言葉が切れることはありません。OSのカーソルにペーストするため、ノートアプリは「どんなテキストボックスでも」という扱いです。プラグン不要、どのアプリかも問いません。

学生の実際の作業に当てはめると、こうなります。読書を終えて、章の内容を自分の言葉で声に出して要約すれば、その要約がノートに記録される——タイピングより格段に速い。スライドを後で自分が確認するための質問に変換できます。講義の要点が新鮮なうちに、復習ドキュメントにディクテーションできます。話している間は小さなカプセルが表示されるので、Whisperが聴いていることがわかります:

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。Whisperが聴いていることを知らせます。

ホットキーだけは最初に正しく設定する価値があります。Windowsでは Ctrl+Space、Macでは Command+Option を話している間ホールドするプッシュトゥトーク方式です。どちらも、すでに使っているものと競合する場合は設定で変更できます(末娘がドローイングアプリで「ホットキーが効かない」と言ってきたことがありました。バグではなくキーの競合だったのですが、そのとき初めて、ほとんどの人がキーの競合という概念自体を知らないことに気づきました。だからすべてのホットキーはカスタマイズ可能にしています)。以前に学生向けディクテーションソフトを使ったことがあれば、同じ操作感でノートに入力できます。

2分でセットアップ(WindowsまたはMac)

必要なものは、Apple SiliconのMacまたはWindows 10以降のPC、動作するマイク、そして開いているノートアプリです。ローカルパイプライン全体はサインインしたどのアカウントでも無料で使えます。サインアップ時に支払い方法は不要です。手順は以下の通りです。

ステップ 1 ― Whisperをインストールしてサインインする。

ダウンロードページからダウンロードしてインストールし、無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えるようになります。

アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促したら成功です。

ステップ 2 ― 文字起こし方式を選ぶ。

アプリが自動で選ぶことはありません。選択肢は3つ:Cloud(OpenAI、自分のキーを使用)、Local Parakeet、Local Whisperです。プライベートな学習ノートにはローカルから始めてください——詳しくは2セクション後で説明します。

モデルのダウンロードが完了し「準備完了」と表示されたら成功です。

ステップ 3 ― ホットキーを確認する。

Windowsのデフォルトは Ctrl+Space、MacはプッシュトゥトークとしてCommand+Optionを押し続けます。Macではプロンプトが表示されたらアクセシビリティ権限を付与してください。これがないと、カーソル位置へのペーストが他のアプリに届きません。

テスト録音がどのテキストフィールドにもペーストされたら成功です。

ステップ 4 ― カーソルをノートに置いて話す。

ノートアプリを開き、テキストを入れたい場所をクリックして、ホットキーを押しながら一文話して離します。文字起こし結果がカーソル位置に表示されます。

話した内容がきれいなテキストとしてノートに表示されたら成功です。

Whisper
設定画面を開いたWhisperデスクトップアプリの実際の画面。TranscriptionパネルとAIパネルが開いています。

時間がかかるのはモデルのダウンロードであり、セットアップそのものではありません。それ以外は上記の4ステップだけです。一度動き始めれば、講義の書き起こしはタイピング作業から会話作業に変わります——授業後の30分の、ずっと良い使い方です。

声を使った学習ノートワークフロー

学生に実際に効果があるのは「講義全体をそのまま口述する」ではありません。声に出して復習することです。講義や読書の後、その考えを自分の言葉で説明し直すと、その説明がノートに残ります。声に出すこと自体が学習の半分であり、書き留めることが残り半分です——キーボードに触れずに両方同時にこなせます。地味な真実として、最良の学習ツールはたいてい「内容について話すこと」であり、音声入力がそれをノートとして残してくれます。

具体的な使い方をいくつか紹介します。各章のセクションを2〜3文で声に出して要約すれば、コピーした文章ではなく自分のパラフレーズがノートになります。読み進めながらセルフテスト用の質問をディクテーションして、後でフラッシュカードに変換します。難しい段落を読んだら、疑問点を声に出す——「なぜ第2ステップが第1ステップに依存するのかわからない」——そうすると復習ドキュメントに事実だけでなく自分の本当の疑問が残ります。90分の講義が数分の会話で600語の要約になるのは、一行ずつタイピングする夜とはまったく違う体験です。

医学用語、法律用語、有機化学の物質名など、専門的な言葉を多く使う分野では、ローカルWhisperにカスタム語彙やホットワードを追加できます。そうするとエンジンが正しい言葉に偏るようになります。これによってWhisperが臨床ツールや法的ツールになるわけではなく、何かを認定するわけでもありません。ただ「myocardium(心筋)」が「my cardio」と誤認識されなくなるだけです。声で素早く言葉を入力して、見出し・箇条書き・リンクといった構造は使い慣れたキーで整えましょう——ディクテーションツールが生み出すのは言葉であり、ノートアプリのレイアウトではないからです。

学習ノートにはローカルとクラウドのどちらを使うか

学習ノートにはまずローカルモードを試してください。あるトピックについての不完全な理解、試験に出そうな予想、半分しか追えなかった講義——それらはラップトップから外に出る必要はありません。MacがApple Siliconかここ数年のPCであれば、ローカルは日常的なディクテーションを問題なくこなします。クラウドはデフォルトではなく逃げ道になります。無料でもあります——学生にとってそれは社会人以上に大きな意味を持ちます。

アプリ側が選択を求めるので、賢く選べるよう3つの方式の違いを説明します:

  • Local ParakeetNVIDIAのTDTエンジン、約600 MB、最速のローカル選択肢——CPUではWhisperより5〜10倍速い。英語と他の24のヨーロッパ言語、計25言語に対応。英語への翻訳機能はなし。英語または他のヨーロッパ言語で学習しているなら、これが手軽な完全オフライン選択肢です。
  • Local Whisper同じマシンではParakeetより遅いものの、多言語ビルドは99言語に対応し英語への翻訳も可能。専門用語に役立つカスタム語彙とホットワードもサポートしています。英語専用ビルドは英語のみで、99言語には対応していません。中国語、日本語、韓国語、翻訳作業、または用語の多い分野に最適です。デフォルトの英語モデルは約480 MBです。
  • Cloud (OpenAI, BYOK)最高精度とウェブアクセスを提供。自分のOpenAIキーを使い、OpenAIに直接課金されます。文字起こしはデフォルトでgpt-4o-mini-transcribeを使用。インターネットが必要なため、デバイスの外に出る唯一の方式です。クラウド機能はWhisper Proの一部です。

地味な真実として、ほとんどの学生がディクテーションするテキスト——要約、質問、自分のパラフレーズ——にはローカルで十分です。両方のローカルエンジンはサーバーに何も送らず、完全にデバイス上で動作します。クラウドが活きるのは、難しい録音で最高精度が必要なときや、文中でモデルにウェブから情報を引っ張ってきてほしいときです。日常的なノート書きはローカルから始めて、物足りなさを感じたときだけクラウドを使いましょう。

整理と構造化:話した要約を本物のノートに変える

生のディクテーションは繋ぎ目のない文章として出てきます。「ミトコンドリアはエネルギーつまりATPを作る部分でDNAも持ってるのが面白くて試験でも絶対出そう」と言えば、どんな音声エンジンもそのまま句読点なしで出力します。ここから整えるところでアプローチが分かれます。

Windows音声入力は話しながら句読点を追加し、macOSのディクテーションは「コンマ」「ピリオド」と言うと基本的な句読点を処理します。より本格的な整理——「えー」の削除、繋ぎ文の修正、口頭のとりとめない話を実際に見直せる文章に変換する——には、WhisperのAIパスを使えます。「Hey whisper」というアクティベーションフレーズを言うと、テキストが整えられてから入力されます。ローカルモードではOllamaを通じて、クラウドモードではデフォルトでgpt-5-miniが使われます。

Thinking...
変換前

ミトコンドリアはエネルギーつまりatpを作る部分でdnaも持ってるのが面白くて試験でも絶対出そう

変換後

ミトコンドリアはエネルギー(ATP)を生成し、独自のDNAを持つ点が特徴的です。試験で出やすいトピックです。

ノートアプリ固有の構造——見出し、ネストした箇条書き、タグ、リンク——については、正直なところ、声はテキストを生み出し、アプリが構造を生み出します。要約をディクテーションして、見出し・箇条書き・リンクはいつも通りの操作で追加しましょう。ディクテーションツールがコマンド一つでアウトラインを生み出してくれるなどと約束するものがあれば、それは実際の使用ではなくデモを売っています。声で素早く言葉を入力して、すでに慣れているキー操作でノートを整えましょう。

この「話してから整える」フローは学習以外にも効果を発揮します——ひとつのホットキーであらゆるノート用途に声をきれいなテキストに変換できるので、タイピングしていた段落が数文の発話に変わります。

本当に講義音声の文字起こしが必要なとき

講義のぼかされた背景の前に立てられたマイク。録音音声の文字起こしを表している

お約束した境界線をはっきり引きます。「講義の録音があって、その全部をテキストにしたい」というのであれば、ディクテーションツールは間違ったカテゴリです。そう示唆するのは親切ではありません。Whisper by Remskillはカーソル位置に話した内容を入力します。教授の音声ファイルを取り込んで文字起こしを出力するものではありません。その用途には録音・文字起こしのワークフローが必要であり、専用ガイドがあります。

真の講義音声文字起こしが必要なのは、講師の正確な言葉が欲しいときです——論文用の引用、ゲストスピーカーの逐語記録、欠席した授業で音声しかない場合など。そのようなツールは音声・動画ファイルを受け取りテキストを返し、多くはタイムスタンプ付き、スピーカー分離機能を持つものもあります。ディクテーションホットキーとは根本的に異なる仕組みで、入力が自分のリアルタイムの声ではなく録音の場合に適しています。録音した講義の文字起こし方法で、その作業に実際に合ったワークフローを読んでください。

ちょっとしたメモなら、すでにデバイスに入っている無料ツールが最適なこともあります。ノートに2行のリマインダーを追加するだけなら、Windows音声入力(Windowsキー + H)とmacOSのディクテーションで無料でできます——どちらもフォーカスのあるフィールドに入力しますが、Windowsはインターネット接続が必要です。専用のシステム全体ツールが価値を持つのは、ノートが長くなるとき、内容が多言語になるか専門用語が多くなるとき、またはノート・メール・レポートで同じ動作の単一ホットキーが欲しいときです。それ未満なら無料のものを使いましょう。1行のリマインダーのためにアプリをインストールしろとは言いません。

書くものがメモより論文やレポートが多いなら、声でより速くタイピングするの考え方がそのまま当てはまります。ホットキーはカーソルがノートアプリにあるかワードプロセッサにあるかを気にしません。

講義文字起こしアプリは本当のところ、ひとつの検索キーワードをまとった2つのツールです。録音があるなら文字起こしツールで変換しましょう。自分の理解があって白紙のノートページがあるなら、声に出してカーソルのある場所に言葉を届けましょう。このガイドのほとんどは、ノートアプリではないテキストボックスにどのアプリかを気にしないツールでディクテーションして、まとめてアウトラインにペーストして書き上げました。勉強そのものは、残念ながら自分の頭の中でやるしかありません。

次の講義内容を声でまとめよう

ホットキーを押して内容を声に出して要約して、離す。カーソルがあるノートアプリに——そして他のすべてのアプリにも——テキストが届きます。

サインインしたどのアカウントでも無料のローカルモードが使えます。開始時にカード不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信もディクテーションで書いています。

参考資料