Denys Medvediev

ガイド

リアルタイム文字起こし、 徹底解説

同じ名前を持つ2種類のアプリが、まったく正反対の仕事をしています。ライブ字幕とほぼ瞬時のディクテーションの違いを理解して、あなたの問題に本当に必要なほうを選びましょう。

最終更新:2026年6月

テーブルでノートパソコンを操作する人物の俯瞰写真。ホットキーを使った素早いディクテーションを連想させる

リアルタイム文字起こしアプリは、話した言葉をその場でテキストに変換します。アップロードして待つ手間は一切ありません。大きく2種類に分かれます。会議中にトランスクリプトをストリーミングする「連続ライブ字幕」と、ホットキーを離した瞬間に文字起こししてカーソル位置に貼り付ける「ほぼ瞬時のディクテーション」です。どちらが必要かは、会話を読みたいのか、文章を書きたいのかで決まります。

かつて一緒に仕事をした財務チームが、自前の「リアルタイム文字起こし」ツールを作ったことがあります。外部業者がGPT-4を全社員のノートパソコンのマイクに接続し、そのまま動かし続けました。四半期末にマネージャーがクラウドのダッシュボードを開くと、5桁のドルの請求書が届いていました。その大半は、1チームがスタンドアップのレコーディングを4回重複して文字起こしさせた結果でした。「スマートリトライ」のロジックが過剰に働いたのです。業者はプロンプトを最適化すべきだと言いました。CFOはもっと短い言葉で答えました。「リアルタイム文字起こし」という言葉が、誰一人同じ意味で使っていなかったのです。

このすれ違いこそが、このカテゴリー全体の問題です。「リアルタイム文字起こしアプリ」と言っても、2人の人間が思い浮かべるものはまったく違います。一方は、同僚がZoom会議で話す間に言葉が画面に流れてほしい。もう一方は、キーを押し続けて一文を話し、離したらすでに書きかけのメールに文字が現れてほしい。この記事では、どちらがどちらなのかを整理し、高速なローカル版がどのように動くのかを示し、代わりに会議ツールを使うべき場面を伝えます。読み終えるころには、自分の問題にどのカテゴリーが合うかがわかるはずです。多くの人が最初に間違ったほうを選びます。サポートメールの大半がまさにそういう内容だったので、よくわかります。1か月間、一通一通手で答え続けてから、最初に違いを説明しようと思い至ったのです。

この分類が重要なのは、2つの設計がまったく逆の仕事に優れているからです。ライブ字幕は止まらないように作られています。1時間の会議についていきながら、あなたは読み続ける。ディクテーションは素早く終わるように作られています。15秒話せばテキストが届き、作業を続けられる。営業の冷たいメールは80語の12パターンで、声なら約12分、手入力なら45分かかります。講義の要約は90分のレコーディングを600語のノートに圧縮します。検索窓に同じ言葉を打っても、必要なツールは2つに分かれているのです。

「リアルタイム」が実際に意味すること

鮮やかな音声波形を映すデジタル音声インターフェース。リアルタイムで収録・変換される音声を表している

「リアルタイム」には2つの正直な定義があり、それを掲げるアプリも2つの陣営に分かれています。

1つ目は連続ライブ字幕です。音声が再生されている間、トランスクリプトが単語ごとに画面に現れます。会議でも、講義でも、動画でも。テキストがストリーミングされるのを読み続ける仕組みです。Otter はこれを通話中に行い、ZoomやGoogle Meetのライブ字幕を提供します。Maestra は125以上の言語でリアルタイム文字起こしと翻訳を無料のライブ枠付きで提供しています。Windows 11 には Live Captions が内蔵されており、約21言語に対応し、端末上でオフラインでも動きます。これらはストリームを見守り、言葉を書き記すツールです。

2つ目はほぼ瞬時のディクテーションです。ホットキーを押したまま一文か一段落を話し、離すと、カーソルがすでにある場所に完成したテキストが現れます。ストリーミング字幕はありません。1〜2秒ほどの短い間があってから、テキストのブロックがまとめて届きます。これが Whisper by Remskill のやり方です。ホットキーを離した瞬間に文字起こしし、カーソル位置に貼り付けます。話し終わりに声が尻切れになっても最後の単語を拾えるよう、キーを離した後も500ミリ秒マイクを開いたままにしています。

どちらも人間にとって意味のある意味での「リアルタイム」です。ファイルを録音してアップロードして待つ必要がない。しかし、解決する問題は異なります。ライブ字幕は「読む」ツールです。他の人の話を受け取る側。ディクテーションは「書く」ツールです。自分の言葉を生み出す側。混同すると、1行のメールに答えるために会議メモのサブスクリプション料を払う羽目になったり、ウェビナーをキャプションしようとディクテーションアプリと格闘したりすることになります。そのアプリは最初からそのために作られていないのに。

もう1つ、ここに混ざり込んでくるものがありますが、これはリアルタイムではまったくありません。ファイル文字起こしです。インタビューを録音し、音声をアップロードし、数分後にトランスクリプトが返ってくる。RevやTrintはそういった作業向けに作られており、これは別の仕事です。話している最中の音声を収録するのではなく、完成した録音を編集する作業です。はっきり名前をつけておくと、除外できます。アップロードのプログレスバーを待っているなら、それはリアルタイムアプリではありません。マーケティングが何と言っていようと。

こうして見ると、カテゴリーの輪郭が見えてきます。今起きている音声を読む:ライブ字幕。今自分が発している音声を書く:ディクテーション。以前の録音を整理する:ファイル文字起こし。「リアルタイム文字起こしアプリ」という検索ワードは最初の2つを衝突させ、3つ目を偶然引き込みます。何かをインストールする前に、自分が正しいカテゴリーに入っているか確認することが、一番有益な一歩です。

ホットキーを押せば、カーソル位置にテキストが届く

ディクテーションのループを最初から最後まで説明します。ホットキーを押します。Windowsなら Ctrl+Space、macOS なら Command+Option を同時押し。話している間は両方のキーを押したまま、止めるにはどちらかを離します。話します。離します。小さなオーバーレイがアプリの文字起こし中を示し、1〜2秒後には、いままで作業していたアプリ(メール、ドキュメント、チャット欄、コードコメント)にテキストが届いています。

CancelTranscribing
文字起こし中のWhisperのライブオーバーレイ。スクリーンショットではなく、キーを離してから文字が現れるまでの約0.5秒間に実際に見える画面です。

切り替えるウィンドウはありません。「文字起こしタブからコピーして貼り付ける」手間もありません。テキストがカーソル位置に届くのは、それがこのツールの存在意義だからです。あなたは文章を書いていた。そして今、より速く書いています。上のオーバーレイはライブアプリそのもので、スクリーンショットではありません。キーを離してから文字が現れるまでの約0.5秒間に実際に見える状態です。

「リアルタイム」の感覚が字幕ストリームと違う理由はここにあります。字幕は他の人に起きることを見守るものです。ディクテーションは自分の文章に起きることで、言いかけた言葉の流れを失わないほど速い。500ミリ秒の末尾バッファが存在するのもそのためです。文末で声が小さくなる人は多く、キーを離した瞬間にマイクを切ると最後の単語が途切れます。細かい話です。でも「ミーティングの準備、あり」と完全な文の差はそこにあります。

なぜこのタイミングになるかを理解すると納得しやすいです。キーを離すと、話した音声はすでにメモリに収められています。モデルはその短いクリップ(一文か一段落)を処理します。ライブストリームではありません。だから結果が1つのまとまったブロックとして届き、単語ごとにスクロールするわけではないのです。短いクリップは処理が速い。それがこのツールの仕掛けです。ライブ字幕ツールは開いたストリームをデコードし続け、音声が増えるたびに修正する部分的な推測を表示しなければなりません。ディクテーションはそのすべてをスキップします。話し終えるのを待ち、一度だけ、クリーンに文字起こしします。

この設計の選択こそが、フローを保つ秘訣です。私の経験では、ディクテーションを崩すのは遅延です。間が1〜2秒を超えると、意識がいままで作業していたアプリに戻り、書きかけの文の流れを失ってしまいます。これは毎日このループを使っている感想であり、公表された仕様ではありません。短いクリップと速いローカルエンジンが間を短く保ちます。気にすべきはその間であり、ループが「書く」感覚を与える理由もそこにあります。「話してから待つ」ではなく。

パイプライン全体がどう組み合わさるかの詳細版を読みたい方のために、別の記事を書きました。Whisperがホットキー押下をテキスト貼り付けに変える仕組み。短縮版はこうです:押す、話す、離す、完了。

Parakeetがローカルで最速な理由

かつてローカル文字起こしは遅いものでした。NVIDIAのParakeetモデルが登場するまでは。Whisperアプリ内でのParakeetの説明は「CPUでのWhisperより5〜10倍速い」で、英語と24のヨーロッパ言語に対応し、ディスク容量は約600MBです。この速度こそが、ローカルディクテーションをコーヒーブレイクではなくほぼ瞬時に感じさせる理由です。上で説明したホットキーループがサーバーなしで成立する核心でもあります。

Whisper
本物のWhisperアプリ。設定からモデル選択画面に進むと、ローカルエンジンを並べて比較できます。スクリーンショットではなく、ライブのフロントエンドです。

エンジンは1つに縛られません。Whisper by Remskill には2つのローカルオプションがあります。Parakeet は25言語(英語+24のヨーロッパ言語)に対応しますが、アジア系言語と英語への翻訳には非対応です。faster-whisperエンジンはより広い範囲をカバーします。多言語ビルドは自動言語検出で99言語を処理し、.enビルドは英語専用で、小さく速い代わりに1言語のみです。Whisperモデルは約140MBの英語Baseから約3GBの多言語Large v3まで揃い、精度の大部分を短い待機時間で得たい人向けに約1.62GBのLarge v3 Turboも用意されています。

アプリは自動で選びません。それは意図的な設計です。上に埋め込まれているのは本物の設定画面です。主に英語を話して生の速度を求めるならParakeetを、99言語対応や英語への翻訳が必要ならWhisperモデルを選びます。どのエンジンが「最適」かを自動選択しようと恥ずかしい午後を費やした末、正しい答えを知っているのは話している本人だけだと認めました。トレードオフは本物です。Parakeetは最速・最小ですが、中国語・日本語・韓国語には非対応で翻訳もできません。多言語Whisperビルドはそのすべてをこなしますが、モデルが大きく、クリップあたりの待機時間が長くなります。どちらが「優れている」という話ではなく、あなたの口とあなたの言語に合うほうが優れているのです。

自分のOpenAIキーを持ち込むクラウドパスもあります。gpt-4o-mini-transcribeまたはgpt-4o-transcribeによる文字起こしで、テキストのクリーンアップはデフォルトでgpt-5-miniが担当します。クラウドにはインターネットが必要ですが、ローカルエンジンは不要です。クラウドパスはあくまで逃げ道であり、出発点ではありません。4年前のノートパソコンでもローカルエンジンが問題なく動く場合が多く、そういった場合はメール1段落のためにサーバーを挟む必要はありません。

少し立ち止まって考えてみてください。クラウドのみのディクテーションはプライバシー上の惨事です。上司の給与スプレッドシート、子供の学校へのメール、電車内の法的文書。声でタイプしたかっただけで、これらがベンダーのログに残るべきではありません。ローカルモードは端末上で動き、1回限りのモデルダウンロード後はオフラインでも完全に機能します。ローカル文字起こし中にサーバーへ送信されるものは何もありません。あの財務チームの5桁の四半期請求は、言葉が社外に出たから起きました。防げたことでした。

より長い議論を読みたい方は、こちらをどうぞ。外部に送信しないオフライン音声テキスト変換の理由

会議のライブ字幕 vs. カーソル位置のディクテーション

プロジェクタースクリーンがある広々とした現代的な会議室。ライブ字幕が使われる会議の場を表している

「リアルタイム」と一番大きく謳っているツールではなく、今やっていることに合ったツールを選びましょう。

会議中に会話をリアルタイムで記録したい場合(複数の話者、1時間、後でまとめが欲しい)、必要なのは連続ライブ字幕です。これは読んで記録する作業です。Otter、Maestra、Google Meetの内蔵字幕、Windows 11 Live Captions。これらはストリームについていき、書き留めます。Windows 11 はスクリーン上で再生されるすべての音声を端末上でオフラインで字幕化しますが、あくまで読み取り専用です。作業中のアプリにテキストを打ち込むわけではありません。

このWindowsの違いで躓く人が多いです。Live Captionsは再生中の音声(動画、通話、スピーカーから聞こえる同僚の声)を読み取り、画面に表示します。書いているドキュメントにテキストを入れるわけではありません。読むツールと書くツールの境界線がここにあります。同じ端末上の文字起こしエンジンを使っていても、言葉の届け先が違う。一方は読むための字幕バーへ。もう一方は入力中のカーソルへ。

メール、ドキュメント、Slackのメッセージ、コミットノートを書いているなら、必要なのはディクテーションです。他の人の言葉を記録するのではなく、自分の言葉を生み出している。カーソル位置に素早く届いて、終わり。それがホットキーループです。ライブ字幕ツールもある意味文字起こしはしますが、専用ウィンドウにテキストを吐き出し、コピーして戻す手間が生じます。それでは求めていた速さが台無しです。

具体的なケースを見ると違いは明確です。通話と通話の間にCRMのメモを口述するセールス担当者(50語、1回のキー操作、30秒)はディクテーション。週次の計画会議を後で検索可能なトランスクリプトとアクションアイテム付きで残したいチームはライブ字幕。90分の講義を600語のまとめにしたい学生は、講義中は字幕、その後に圧縮するツールが必要です。お弁当を詰めながら先生のメールに返信する保護者はディクテーションです。キッチンを録音しているのではなく、返信を書いているのですから。同じ人が1日に両方を必要とすることもあります。それでも2つは別のツールです。

ルールはこうです:音声を見守る → ライブ字幕、音声で書く → ディクテーション。境界を曖昧にするアプリも少しありますが、このカテゴリーの不満のほとんどは、会議ツールで文章を書こうとしたり、書くツールで会議を字幕化しようとしたりすることから来ています。Whisperは書く陣営にあります。ほぼ瞬時、カーソル優先、プッシュトゥトーク。Gmailでも、テキストフィールドがある場所ならどこでも、ループは同じです。

知っておくべき他のリアルタイム文字起こしアプリ

私の言葉を鵜呑みにする必要はありません。主要プレイヤーについて正直な一言評価をまとめました。使う前に各ツールの位置づけを把握してください。

  • Otter はZoomとGoogle Meetのライブ字幕付き会議文字起こし、iOS・Android・Web向けアプリ、英語・スペイン語・フランス語・ドイツ語・日本語・中国語のAI文字起こしに対応しています。無料枠は月300分までです。
  • Maestra は125以上の言語でのリアルタイム文字起こしと翻訳、字幕、吹き替えを提供しており、ライブ文字起こし枠は無料と同社は説明しています。字幕・キャプション向けに作られており、カーソル位置のディクテーションには不向きです。
  • Notta はリアルタイムの音声・映像テキスト変換を行い、翻訳付きで58言語に対応していると報告しています。クラウドベースの会議・録音ツールです。
  • RevとTrint はカーソルディクテーションよりも録音メディアに主眼を置いています。Revは会議や録音の文字起こしで知られ、Trintはジャーナリズムやニュースルームのワークフローで録音インタビューの処理に広く使われています。どちらも読んで編集するツールで、キーを押しながらアプリに直接入力するループとは別物です。

パターンに気づきますか。これらのほとんどはクラウドに存在する会議・録音ツールです。「ライブ文字起こしアプリ」市場全体がそうなっています。カーソル位置のディクテーション、つまり書くツールの陣営は、より小さく静かなカテゴリーです。そして、この検索ワードで探している人の多くが、名前を知らずに本当に必要としているのはこちらです。

発明した速度や精度スコアではなく、検証できる事実でツールを並べてみます:

ツールプラットフォームローカル/クラウドオフライン対応料金モデル対応言語最適な用途
Whisper by RemskillWindows, macOS (Apple Silicon)ローカル+任意のクラウド(BYOK)あり(ローカルモード)無料のローカル枠;有料クラウドアドオン99言語(Whisper多言語)/25言語(Parakeet)カーソル位置へのディクテーション
OtteriOS, Android, Webクラウドなし無料枠+有料プラン6会議のライブ字幕
MaestraWebクラウドなし無料ライブ枠+有料プラン125以上字幕、吹き替え、キャプション
NottaWeb、モバイルクラウドなし無料枠+有料プラン58言語(報告値)会議・録音メモ
Windows 11 Live CaptionsWindows 11ローカル(端末上)ありOS標準搭載約21画面上の字幕を読む用途
検証可能な事実で比較したリアルタイム文字起こしアプリ。発明されたスコアは使いません。

この市場がこういう形をしている理由は一言で言えます。お金が集まるのは会議です。企業はすべての通話を記録し、まとめ、アクションアイテムをプロジェクト管理ツールに流し込むために1席あたり費用を払います。それは繰り返し発生する経費として計上できる項目です。個人が声で文章を書くことはそうではありません。だからカテゴリーの声が大きく資金が潤沢な半分は会議室向けに作られており、1人がメールをより速く答えるのを助ける半分はマーケティングの酸素をあまり得られません。「リアルタイム文字起こしアプリ」という言葉が両方の上に乗っているため、タイピングツールを探していた人が会議ツールに辿り着きます。カテゴリー別に整理した広い視点が欲しい方のために、随時更新している文字起こしソフトウェアのカテゴリー別ガイドがあります。

Whisperを使わずに会議ツールを選ぶべき場面

正直に言います。代わりに間違ったものを売りつけるわけにはいきません。あなたの仕事がライブ会議の記録(複数人が1時間話し、最後に整ったまとめが欲しい)なら、Whisperを使わないでください。Otterを使ってください。ZoomとGoogle Meetのライブ字幕とあらゆるプラットフォーム向けアプリを備えた、まさにこの用途のために作られたツールです。無料枠で月300分試せます。多言語字幕や吹き替えが必要なら、Maestraのライブ枠が125以上の言語をカバーします。Windows の画面で再生中の音声に字幕をつけるだけなら、Windows 11 Live Captions が無料で端末上に標準搭載されています。私たちは書くツールを作っています。読むツールが必要なときは、それらのほうが優れた選択であり、正しいほうを使ってほしいと思っています。(会議ケースの詳細な比較については、こちらでOtter.aiの代替ツール比較をまとめました。)

料金について

Whisper by Remskillはサインインしたすべてのユーザーが、ローカルパイプライン全体(Parakeet、すべてのWhisperモデル、端末上AIクリーンアップ、履歴、プリセット、カスタムホットキー)を無料で使えます。サインアップ時に支払い情報は求められません。有料プランのWhisper Proは、クラウド機能を追加します。自分のキーを使ったOpenAI文字起こしとウェブ検索です。正確な金額は料金ページに掲載されており、「〜から」という注釈で金額を動かすことはありません。参考として他のツール:Otterの無料枠は月300分で上限があり、それ以上は有料プランになります。無料のローカルパイプラインの目的は、クラウドが自分にとって1円の価値があるかどうかを判断する前に、ホットキーから話して貼り付けるまでの書くループ全体を試せるようにすることです。

この記事を読んで、2人の人が2つの異なるアプリを求めます。一方はスタンドアップに字幕をつけようとしています。もう一方は学校のお迎えまでに30通のメールをホットキー1回ずつで答えようとしています。唯一の失敗は、どちらも箱に「リアルタイム」と書いてあるからという理由で間違ったツールを手に取り、3か月後にクラウドのダッシュボードを開いてどこから請求が来たのか首をかしげることです。今やっていることで選んでください。音声を見守るのか、声で書くのか。それさえ決まれば、あとはついてきます。

自分のノートパソコンで書くループを試す

Whisperをダウンロードして、キーを押しながら一文を話し、カーソルがいた場所に文字が届くのを見てください。

ローカルパイプライン全体が無料。サインアップ時に支払い情報は不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。返信もたぶん口述筆記で書いています。

参考情報