What is the fastest way to transcribe audio?

Let an AI model produce the first draft instead of typing it. For live speech, dictate into the mic and the transcript is already typed when you stop. For raw English audio, a local engine like Parakeet runs several times faster than older models and keeps everything offline.

How long does it take to transcribe one hour of audio?

By hand, three to four hours. With AI, a few minutes for the draft plus a short edit for names and punctuation. The exact AI time depends on your CPU and the model, but the order of magnitude is minutes, not hours.

Can AI transcribe audio instantly?

Close, for short clips. Live dictation pastes text in under two seconds on a recent machine. A long recording takes a few minutes to process, which still feels instant next to typing.

How do I transcribe audio for free?

Whisper's local pipeline is free for any signed-in user, no card at signup. Your phone and OS also have free built-in dictation for short clips. Free has limits on length and accuracy, which is where a dedicated tool earns its place.

Is local transcription faster than cloud?

For a paragraph of dictation, usually yes, because there's no network round-trip. Cloud wins when you want the newest OpenAI models or web access, which is the Whisper Pro surface.

Can I transcribe audio offline?

Yes. Local mode runs on your device with no internet, pure-Rust, no server in the loop. Your audio never leaves the machine. The offline guide covers the setup.

Does it transcribe a pre-recorded file or only live dictation?

Whisper by Remskill's core is live hotkey dictation, not file upload, so there's no drag-and-drop file screen. To transcribe an existing recording, you can play it aloud into your microphone (real-time, not faster-than-real-time), or use a file-upload tool like the OpenAI Speech-to-Text API, which accepts mp3, m4a, wav, and webm up to 25 MB. For most people, dictating live is the fast path because the text exists the moment you finish talking.

Denys Medvediev2026年4月6日

チュートリアル

音声を速く文字起こしする方法

手で入力する代わりに、AIモデルに最初の草稿を作らせて、あとは修正するだけ。最速のローカルエンジンを使った、本当に速いステップバイステップの方法。

最終更新：2026年6月

音声を速く文字起こしするとは、手で入力する代わりにAIモデルに最初の草稿を作らせ、あとは修正するということです。自動文字起こしなら、1時間の明瞭な音声が数分でラフドラフトになります。同じ1時間を人が入力すると3〜4時間かかります。速さと引き換えに、あとから精度の確認が必要ですが、それだけの価値は十分あります。

プロの文字起こし担当者が1時間のクリアな音声を入力するのに、約4時間かかります。4時間。たった1時間の音声のために。以前、コンプライアンス審査でこれを目の当たりにしました。同僚は3時間を過ぎたあたりで、自分の絶望をそのまま録音に向かって語り始めました。もちろん、それも文字起こしされました。

速い方法とは、タイピングを速くすることではありません。そもそもタイピングをしないことです。モデルに草稿を作らせて、固有名詞や句読点の修正に数分使うだけでいい。

これは、段階的な改善ではなく、構造的な変化です。正確でどこでも使える文字起こしは10年来の願いでしたが、OSの標準ツールは短い音声にやっと対応できる程度でした。2026年、その差はついに埋まりました。AI文字起こしは数分で完了し、速いバージョンなら手元のノートパソコンで動きます。

このガイドでは速い方法を解説します。各方法にかかる時間、Whisper by Remskillでのステップバイステップの操作方法、そして最速のローカルエンジンが有利な場面を取り上げます。読み終わるころには、あなたの録音とハードウェアに合った方法が分かるはずです。サポートメールを1年間読んできて気づいたのは、最初に遅い方法を選んでそのまま使い続けている人が多いということです。

少し正直に話しておきます。Whisper by Remskillの核心は、ライブのホットキー音声入力です。キーを押して話せば、開いているアプリのカーソル位置にテキストが入力されます。ファイルをドラッグ＆ドロップする画面はありません。ですから「音声を速く文字起こしする」といったとき、私が意味するのは2つです。ライブで話してその場でテキストになる方法か、録音済みファイルを処理するツールを使う方法か。この区別をはっきりさせながら説明します。インターネットにはこの違いをあいまいにした記事があふれていて、午後をまるまる無駄にさせます。

方法別・1時間の音声の文字起こしにかかる時間

まず理解しておきたいのは、「速い」は幅広いスペクトルで、その差は非常に大きいということです。1時間のクリアな音声を文字起こしするコストを方法別にまとめました。

方法別・1時間のクリアな音声の文字起こし所要時間
方法	1時間の音声にかかる時間	対応言語	オフライン対応
手動入力	約3〜4時間	入力できる言語ならすべて	はい
クラウドAI（OpenAI gpt-4o-mini-transcribe）	数分	98以上	いいえ
ローカル Whisper（small.en）	最近のCPUで数分	多言語99言語 / .en版は1言語	はい
ローカル Parakeet TDT	最速ローカル。CPUでWhisperの5〜10倍速	25言語（English + 24ヨーロッパ言語）	はい

方法別・1時間のクリアな音声の文字起こし所要時間

「数時間」から「数分」への飛躍が、ここで唯一重要な数字です。AI処理が2分でも6分でも、入力に費やす4時間と比べれば誤差の範囲です。NVIDIAはopen-ASRリーダーボードのハードウェアでParakeetモデルがリアルタイムの何千倍もの速度で動作すると報告していますが、その数字は無視していいです。実際の速度はベンチマーク機ではなく、あなたのCPUに依存します。信頼すべき数字はアプリ内のものです。Parakeetは同じプロセッサ上でWhisperの5〜10倍速く動作します。

速い方法：ステップバイステップ

動作確認済みの最速ルートを順番に説明します。ここではライブで話して、その場でテキストを取得する方法を前提としています。ほとんどのユースケースでは「録音してから処理」より速いです。話し終わった瞬間にトランスクリプトができているからです。

Whisper

実際のWhisperアプリ（ライブ表示）。設定やモデルの選択画面を操作できます。

Whisper by Remskillをインストールする。ダウンロードして開き、サインインします。ローカルパイプライン全体は、サインイン済みのユーザーなら誰でも無料です。サインアップ時に支払い方法は不要です。Windows と macOS Apple Silicon で利用できます。

モデルを選ぶ。最速のローカル結果を求めるなら、英語またはヨーロッパ言語を話す場合はParakeet TDT（約600 MB）を選んでください。翻訳が必要な場合や99の多言語対応が必要な場合は、Whisperモデルを選んでください。ダウンロードは一度だけです。

ホットキーを確認する。 Windowsのデフォルトは Ctrl+Space です。macOS では Command+Option の組み合わせです。両方押したまま話し、どちらかのキーを放すと停止します。他のアプリと競合する場合は設定で変更できます。初期バージョンではホットキーハンドラにデバウンスを入れ忘れ、1回のキー押下でレコーダーが6回起動しました。ソフトウェアエンジニアリングの修士号を持つ人間の仕事です。

話す。ホットキーを押したまま、普通のペースで話し、キーを放します。フォーカスされているアプリ（メール、ドキュメント、チャットなど）のカーソル位置にトランスクリプトが貼り付けられます。これだけです。

残りを修正する。固有名詞、数字、句読点をざっと確認します。これが最初に約束した「数分」です。カスタム語彙とホットワードを設定すると、この手間は時間とともに減っていきます。

ライブ音声ではなく録音済みのファイルが素材の場合は、下部のFAQをご覧ください。正直な回答を載せています。

ローカルとクラウド：速さの源はどこか

青い照明のネットワーク機器が並ぶサーバールーム。クラウド側の文字起こし処理のイメージ

サーバーが大きいからクラウドの方が速い、と思いがちです。しかし1段落程度の音声入力では、その前提は間違いです。クラウド文字起こしは音声をパッケージ化してネットワーク越しに送り、応答を待って受け取る必要があります。接続が良ければ往復は速いですが、モデルが自分のCPUで動けばネットワーク時間はゼロです。

ローカルモードはプロセス内で処理します。Whisperのローカル文字起こしはすべてtranscribe-rsを通じたピュアRustで動作し、Pythonのサイドカープロセスは不要です。サーバーが介在せず、APIの従量課金もなく、音声がマシンの外に出ることもありません。クラウドモードは逃げ道です。独自キーを使うOpenAIで、デフォルトではgpt-4o-mini-transcribeを使用します。最新モデルやウェブアクセスが必要なときのオプションです。これが Whisper Pro の機能で、無料のローカルパイプラインの上に重なるレイヤーです。

この記事での私の唯一の強い意見はこれです。まずローカルモードを試してください。PCが過去4年以内のものか、Mac が Apple Silicon なら、文字起こしにクラウドは必要ありません。ローカルモードは最近のマシンでキー離しからテキスト貼り付けまで2秒以下を達成し、データはローカルに留まり、1分あたりの料金もかかりません。クラウドは限界に当たったときの切り替え先であり、出発点ではないのです。かつて一緒に仕事したチームが1四半期で5桁のクラウド請求を積み上げるのを見ました。その大半は、同じスタンドアップ録音を4回再文字起こしするスマートなリトライ処理のせいでした。四半期レビューでCFOがダッシュボードを開いたとき、部屋が静まり返りました。ローカルファーストなら、その請求はゼロでした。

Parakeetが最速のローカルオプションである理由

純粋な速さが目的で、英語またはヨーロッパ言語を話すなら、Parakeetが最善の選択です。NVIDIAのParakeet-TDTモデルはCC-BY-4.0ライセンスの6億パラメータモデルで、Whisperでは同じCPU上でWhisperモデルの5〜10倍速く動作します。これが速度の決め手です。専用GPUのないノートパソコンでは、この差が「待つ」か「待たない」かの分かれ目になります。

Whisper

ライブWhisperのモデルピッカーでParakeet TDTを選択中。各オプションをクリックして確認できます。

トレードオフは言語のカバレッジです。Parakeetは25言語（English + 24のヨーロッパ言語）に対応しており、英語への翻訳機能もアジア言語対応もありません。日本語、韓国語、中国語の文字起こしや、ある言語の音声を英語に翻訳する必要があるなら、Parakeetは向いていません。その場合は多言語99言語対応で英語への翻訳もできるWhisperモデルを選んでください。Whisperの.en版（Base、Small、Medium、Turbo）は英語専用で、1モデル1言語です。

正直なところ、日常的な英語入力においては、Parakeetはモデルがボトルネックにならないくらい速いです。制約はあなたの話すペースの方です。その瞬間、音声文字起こしはツールから、キーボードなしのタイピングへと変わります。私はエンジンを信頼する前に3通りのベンチマークを取るタイプのアーキテクトですが、それでも2週目のどこかでタイマーを確認するのをやめました。オフライン中心で作業する場合は、オフライン音声テキスト変換ガイドで、すべてをデバイス上で動かす方法を詳しく解説しています。

AI文字起こしをスキップして手動で行うべき場面

白い机の上のスパイラルノートに書き込む手のクローズアップ。手動文字起こしのイメージ

AI文字起こしは速い、でも魔法ではありません。スキップして手動で入力した方がいい場面が3つあります。1つ目は、録音状態が悪い場合。複数の話者が重なっている、大きなバックグラウンドノイズ、カフェのテーブルに置かれた電話。モデルは自信を持って間違った言葉を出力し、その修正は最初から入力するより時間がかかります。$20のUSBマイクはどんなモデルアップグレードより精度向上に貢献します。まずソースを改善してください。2つ目は、1つの聞き間違えた数字が意味を変える法律文書や医療文書で、どのみち一語一語確認が必要な場合。3つ目は短いクリップ。30秒の音声メモに何かを起動する価値はなく、スマートフォンの標準音声入力で無料で対応できます。速い方法は長い音声のためのものです。節約できる4時間は本物です。

ライブ音声ではなく保存済みの録音を素材にする場合は、それ独自の小さなワークフローがあります。音楽や音声配信ファイルが素材なら、MP3をテキストに変換する方法のステップバイステップで、ファイルドロップのルートを最初から最後まで説明しています。

ローカルパイプラインは無料

Whisperのローカル文字起こしパイプライン全体は、サインイン済みのユーザーなら誰でも無料です。Parakeet、8つのWhisperモデル全て、Ollamaによる AIテキスト整形、履歴、プリセット、ホットワード、ハードウェアアクセラレーション。サインアップ時に支払い方法は不要です。Whisper Proはその上にクラウド機能を追加します。独自キーを使うOpenAI文字起こしとウェブ検索を必要とするユーザー向けです。正確な料金は料金ページで確認できます。月払い、年払い、買い切りを、途中で数字を挟まずに比較できます。

私が見た中で最速の文字起こしはベンチマークではありませんでした。下の娘が祖母宛てのメールを2分以内に口述したときです。内容は「抜けた歯、歯の妖精の交換レート、ダンスの授業」。90語、修正なし、キーボードなし。娘は遅い方法をスキップしたとは気づいていませんでした。コンピュータとはそういうものだと思っていただけです。サポートチケットを1年間読み続けて、私は娘が正しいと結論づけました。私たちが追いつく途中にいるだけです。

録音を手で入力するのをやめる準備はできましたか？

Whisperをダウンロードして、ホットキーを押したまま話すと、カーソル位置にトランスクリプトが現れます。

Whisperをダウンロード使い方を見る

ローカルパイプライン全体が無料。サインアップ時に支払い方法は不要です。

Denys Medvediev

サポートメールを読んでいるのは私です。たぶん返信も口述入力で書いています。

参考資料

よくある質問

手で入力する代わりにAIモデルに最初の草稿を作らせることです。ライブ音声なら、マイクに向かって話すと話し終わった時点でテキストが完成しています。英語の録音音声なら、Parakeetのようなローカルエンジンが旧来のモデルより何倍も速く、すべてオフラインで完結します。

Denys Medvediev2026年4月6日

チュートリアル

音声を速く文字起こしする方法

最終更新：2026年6月

方法別・1時間の音声の文字起こしにかかる時間

方法別・1時間のクリアな音声の文字起こし所要時間
方法	1時間の音声にかかる時間	対応言語	オフライン対応
手動入力	約3〜4時間	入力できる言語ならすべて	はい
クラウドAI（OpenAI gpt-4o-mini-transcribe）	数分	98以上	いいえ
ローカル Whisper（small.en）	最近のCPUで数分	多言語99言語 / .en版は1言語	はい
ローカル Parakeet TDT	最速ローカル。CPUでWhisperの5〜10倍速	25言語（English + 24ヨーロッパ言語）	はい

方法別・1時間のクリアな音声の文字起こし所要時間

速い方法：ステップバイステップ

Whisper

実際のWhisperアプリ（ライブ表示）。設定やモデルの選択画面を操作できます。

ライブ音声ではなく録音済みのファイルが素材の場合は、下部のFAQをご覧ください。正直な回答を載せています。

ローカルとクラウド：速さの源はどこか

Parakeetが最速のローカルオプションである理由

Whisper

ライブWhisperのモデルピッカーでParakeet TDTを選択中。各オプションをクリックして確認できます。

AI文字起こしをスキップして手動で行うべき場面

ローカルパイプラインは無料

録音を手で入力するのをやめる準備はできましたか？

Whisperをダウンロードして、ホットキーを押したまま話すと、カーソル位置にトランスクリプトが現れます。

Whisperをダウンロード使い方を見る

ローカルパイプライン全体が無料。サインアップ時に支払い方法は不要です。

Denys Medvediev

サポートメールを読んでいるのは私です。たぶん返信も口述入力で書いています。

音声を速く文字起こしする方法

方法別・1時間の音声の文字起こしにかかる時間

速い方法：ステップバイステップ

ローカルとクラウド：速さの源はどこか

Parakeetが最速のローカルオプションである理由

AI文字起こしをスキップして手動で行うべき場面

ローカルパイプラインは無料

録音を手で入力するのをやめる準備はできましたか？

参考資料

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声を速く文字起こしする方法

方法別・1時間の音声の文字起こしにかかる時間

速い方法：ステップバイステップ

ローカルとクラウド：速さの源はどこか

Parakeetが最速のローカルオプションである理由

AI文字起こしをスキップして手動で行うべき場面

ローカルパイプラインは無料

録音を手で入力するのをやめる準備はできましたか？

参考資料

よくある質問

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声を速く 文字起こしする方法

方法別・1時間の音声の文字起こしにかかる時間

速い方法：ステップバイステップ

ローカルとクラウド：速さの源はどこか

Parakeetが最速のローカルオプションである理由

AI文字起こしをスキップして手動で行うべき場面

ローカルパイプラインは無料

録音を手で入力するのをやめる準備はできましたか？

参考資料

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声を速く 文字起こしする方法

方法別・1時間の音声の文字起こしにかかる時間

速い方法：ステップバイステップ

ローカルとクラウド：速さの源はどこか

Parakeetが最速のローカルオプションである理由

AI文字起こしをスキップして手動で行うべき場面

ローカルパイプラインは無料

録音を手で入力するのをやめる準備はできましたか？

参考資料

よくある質問

続きを読む

Wordで音声入力

すべてのOSで使える音声入力ショートカット

Googleの音声入力に代わる選択肢：どこでも音声入力

音声を速く文字起こしする方法

音声を速く文字起こしする方法