Denys Medvediev

チュートリアル

音声を速く 文字起こしする方法

手で入力する代わりに、AIモデルに最初の草稿を作らせて、あとは修正するだけ。最速のローカルエンジンを使った、本当に速いステップバイステップの方法。

最終更新:2026年6月

画面に表示された音声波形。高速なデジタル音声処理のイメージ

音声を速く文字起こしするとは、手で入力する代わりにAIモデルに最初の草稿を作らせ、あとは修正するということです。自動文字起こしなら、1時間の明瞭な音声が数分でラフドラフトになります。同じ1時間を人が入力すると3〜4時間かかります。速さと引き換えに、あとから精度の確認が必要ですが、それだけの価値は十分あります。

プロの文字起こし担当者が1時間のクリアな音声を入力するのに、約4時間かかります。4時間。たった1時間の音声のために。以前、コンプライアンス審査でこれを目の当たりにしました。同僚は3時間を過ぎたあたりで、自分の絶望をそのまま録音に向かって語り始めました。もちろん、それも文字起こしされました。

速い方法とは、タイピングを速くすることではありません。そもそもタイピングをしないことです。モデルに草稿を作らせて、固有名詞や句読点の修正に数分使うだけでいい。

これは、段階的な改善ではなく、構造的な変化です。正確でどこでも使える文字起こしは10年来の願いでしたが、OSの標準ツールは短い音声にやっと対応できる程度でした。2026年、その差はついに埋まりました。AI文字起こしは数分で完了し、速いバージョンなら手元のノートパソコンで動きます。

このガイドでは速い方法を解説します。各方法にかかる時間、Whisper by Remskillでのステップバイステップの操作方法、そして最速のローカルエンジンが有利な場面を取り上げます。読み終わるころには、あなたの録音とハードウェアに合った方法が分かるはずです。サポートメールを1年間読んできて気づいたのは、最初に遅い方法を選んでそのまま使い続けている人が多いということです。

少し正直に話しておきます。Whisper by Remskillの核心は、ライブのホットキー音声入力です。キーを押して話せば、開いているアプリのカーソル位置にテキストが入力されます。ファイルをドラッグ&ドロップする画面はありません。ですから「音声を速く文字起こしする」といったとき、私が意味するのは2つです。ライブで話してその場でテキストになる方法か、録音済みファイルを処理するツールを使う方法か。この区別をはっきりさせながら説明します。インターネットにはこの違いをあいまいにした記事があふれていて、午後をまるまる無駄にさせます。

方法別・1時間の音声の文字起こしにかかる時間

まず理解しておきたいのは、「速い」は幅広いスペクトルで、その差は非常に大きいということです。1時間のクリアな音声を文字起こしするコストを方法別にまとめました。

方法別・1時間のクリアな音声の文字起こし所要時間
方法1時間の音声にかかる時間対応言語オフライン対応
手動入力約3〜4時間入力できる言語ならすべてはい
クラウドAI(OpenAI gpt-4o-mini-transcribe)数分98以上いいえ
ローカル Whisper(small.en)最近のCPUで数分多言語99言語 / .en版は1言語はい
ローカル Parakeet TDT最速ローカル。CPUでWhisperの5〜10倍速25言語(English + 24ヨーロッパ言語)はい
方法別・1時間のクリアな音声の文字起こし所要時間

「数時間」から「数分」への飛躍が、ここで唯一重要な数字です。AI処理が2分でも6分でも、入力に費やす4時間と比べれば誤差の範囲です。NVIDIAはopen-ASRリーダーボードのハードウェアでParakeetモデルがリアルタイムの何千倍もの速度で動作すると報告していますが、その数字は無視していいです。実際の速度はベンチマーク機ではなく、あなたのCPUに依存します。信頼すべき数字はアプリ内のものです。Parakeetは同じプロセッサ上でWhisperの5〜10倍速く動作します。

速い方法:ステップバイステップ

動作確認済みの最速ルートを順番に説明します。ここではライブで話して、その場でテキストを取得する方法を前提としています。ほとんどのユースケースでは「録音してから処理」より速いです。話し終わった瞬間にトランスクリプトができているからです。

Whisper
実際のWhisperアプリ(ライブ表示)。設定やモデルの選択画面を操作できます。
1

Whisper by Remskillをインストールする。 ダウンロードして開き、サインインします。ローカルパイプライン全体は、サインイン済みのユーザーなら誰でも無料です。サインアップ時に支払い方法は不要です。Windows と macOS Apple Silicon で利用できます。

2

モデルを選ぶ。 最速のローカル結果を求めるなら、英語またはヨーロッパ言語を話す場合はParakeet TDT(約600 MB)を選んでください。翻訳が必要な場合や99の多言語対応が必要な場合は、Whisperモデルを選んでください。ダウンロードは一度だけです。

3

ホットキーを確認する。 Windowsのデフォルトは Ctrl+Space です。macOS では Command+Option の組み合わせです。両方押したまま話し、どちらかのキーを放すと停止します。他のアプリと競合する場合は設定で変更できます。初期バージョンではホットキーハンドラにデバウンスを入れ忘れ、1回のキー押下でレコーダーが6回起動しました。ソフトウェアエンジニアリングの修士号を持つ人間の仕事です。

4

話す。 ホットキーを押したまま、普通のペースで話し、キーを放します。フォーカスされているアプリ(メール、ドキュメント、チャットなど)のカーソル位置にトランスクリプトが貼り付けられます。これだけです。

5

残りを修正する。 固有名詞、数字、句読点をざっと確認します。これが最初に約束した「数分」です。カスタム語彙とホットワードを設定すると、この手間は時間とともに減っていきます。

ライブ音声ではなく録音済みのファイルが素材の場合は、下部のFAQをご覧ください。正直な回答を載せています。

ローカルとクラウド:速さの源はどこか

青い照明のネットワーク機器が並ぶサーバールーム。クラウド側の文字起こし処理のイメージ

サーバーが大きいからクラウドの方が速い、と思いがちです。しかし1段落程度の音声入力では、その前提は間違いです。クラウド文字起こしは音声をパッケージ化してネットワーク越しに送り、応答を待って受け取る必要があります。接続が良ければ往復は速いですが、モデルが自分のCPUで動けばネットワーク時間はゼロです。

ローカルモードはプロセス内で処理します。Whisperのローカル文字起こしはすべてtranscribe-rsを通じたピュアRustで動作し、Pythonのサイドカープロセスは不要です。サーバーが介在せず、APIの従量課金もなく、音声がマシンの外に出ることもありません。クラウドモードは逃げ道です。独自キーを使うOpenAIで、デフォルトではgpt-4o-mini-transcribeを使用します。最新モデルやウェブアクセスが必要なときのオプションです。これが Whisper Pro の機能で、無料のローカルパイプラインの上に重なるレイヤーです。

この記事での私の唯一の強い意見はこれです。まずローカルモードを試してください。PCが過去4年以内のものか、Mac が Apple Silicon なら、文字起こしにクラウドは必要ありません。ローカルモードは最近のマシンでキー離しからテキスト貼り付けまで2秒以下を達成し、データはローカルに留まり、1分あたりの料金もかかりません。クラウドは限界に当たったときの切り替え先であり、出発点ではないのです。かつて一緒に仕事したチームが1四半期で5桁のクラウド請求を積み上げるのを見ました。その大半は、同じスタンドアップ録音を4回再文字起こしするスマートなリトライ処理のせいでした。四半期レビューでCFOがダッシュボードを開いたとき、部屋が静まり返りました。ローカルファーストなら、その請求はゼロでした。

Parakeetが最速のローカルオプションである理由

純粋な速さが目的で、英語またはヨーロッパ言語を話すなら、Parakeetが最善の選択です。NVIDIAのParakeet-TDTモデルはCC-BY-4.0ライセンスの6億パラメータモデルで、Whisperでは同じCPU上でWhisperモデルの5〜10倍速く動作します。これが速度の決め手です。専用GPUのないノートパソコンでは、この差が「待つ」か「待たない」かの分かれ目になります。

Whisper
ライブWhisperのモデルピッカーでParakeet TDTを選択中。各オプションをクリックして確認できます。

トレードオフは言語のカバレッジです。Parakeetは25言語(English + 24のヨーロッパ言語)に対応しており、英語への翻訳機能もアジア言語対応もありません。日本語、韓国語、中国語の文字起こしや、ある言語の音声を英語に翻訳する必要があるなら、Parakeetは向いていません。その場合は多言語99言語対応で英語への翻訳もできるWhisperモデルを選んでください。Whisperの.en版(Base、Small、Medium、Turbo)は英語専用で、1モデル1言語です。

正直なところ、日常的な英語入力においては、Parakeetはモデルがボトルネックにならないくらい速いです。制約はあなたの話すペースの方です。その瞬間、音声文字起こしはツールから、キーボードなしのタイピングへと変わります。私はエンジンを信頼する前に3通りのベンチマークを取るタイプのアーキテクトですが、それでも2週目のどこかでタイマーを確認するのをやめました。オフライン中心で作業する場合は、オフライン音声テキスト変換ガイドで、すべてをデバイス上で動かす方法を詳しく解説しています。

AI文字起こしをスキップして手動で行うべき場面

白い机の上のスパイラルノートに書き込む手のクローズアップ。手動文字起こしのイメージ

AI文字起こしは速い、でも魔法ではありません。スキップして手動で入力した方がいい場面が3つあります。1つ目は、録音状態が悪い場合。複数の話者が重なっている、大きなバックグラウンドノイズ、カフェのテーブルに置かれた電話。モデルは自信を持って間違った言葉を出力し、その修正は最初から入力するより時間がかかります。$20のUSBマイクはどんなモデルアップグレードより精度向上に貢献します。まずソースを改善してください。2つ目は、1つの聞き間違えた数字が意味を変える法律文書や医療文書で、どのみち一語一語確認が必要な場合。3つ目は短いクリップ。30秒の音声メモに何かを起動する価値はなく、スマートフォンの標準音声入力で無料で対応できます。速い方法は長い音声のためのものです。節約できる4時間は本物です。

ライブ音声ではなく保存済みの録音を素材にする場合は、それ独自の小さなワークフローがあります。音楽や音声配信ファイルが素材なら、MP3をテキストに変換する方法のステップバイステップで、ファイルドロップのルートを最初から最後まで説明しています。

ローカルパイプラインは無料

Whisperのローカル文字起こしパイプライン全体は、サインイン済みのユーザーなら誰でも無料です。Parakeet、8つのWhisperモデル全て、Ollamaによる AIテキスト整形、履歴、プリセット、ホットワード、ハードウェアアクセラレーション。サインアップ時に支払い方法は不要です。Whisper Proはその上にクラウド機能を追加します。独自キーを使うOpenAI文字起こしとウェブ検索を必要とするユーザー向けです。正確な料金は料金ページで確認できます。月払い、年払い、買い切りを、途中で数字を挟まずに比較できます。

私が見た中で最速の文字起こしはベンチマークではありませんでした。下の娘が祖母宛てのメールを2分以内に口述したときです。内容は「抜けた歯、歯の妖精の交換レート、ダンスの授業」。90語、修正なし、キーボードなし。娘は遅い方法をスキップしたとは気づいていませんでした。コンピュータとはそういうものだと思っていただけです。サポートチケットを1年間読み続けて、私は娘が正しいと結論づけました。私たちが追いつく途中にいるだけです。

録音を手で入力するのをやめる準備はできましたか?

Whisperをダウンロードして、ホットキーを押したまま話すと、カーソル位置にトランスクリプトが現れます。

ローカルパイプライン全体が無料。サインアップ時に支払い方法は不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。たぶん返信も口述入力で書いています。

参考資料