What does "real-time" mean for a dictation app?

For Whisper it means push-to-talk with very little delay: you hold a hotkey, speak a sentence, release, and the transcript pastes at your cursor about 1.4 seconds later on a local model. It is not literal word-by-word streaming as you talk — the text lands per utterance, on release, which in practice feels real-time for writing because the words appear before you've lost your next thought.

Does the text appear word by word as I speak?

No. Whisper pastes the whole utterance at once when you release the hotkey, not letter by letter as you talk. Word-by-word streaming on screen is live captioning, which is a different tool for a different job. For drafting, paste-on-release is faster and cleaner, because you speak a full thought and get a full sentence rather than a stuttering live feed.

Is there a free, offline real-time dictation app for writers?

Yes. Whisper's local modes, Parakeet and local Whisper, run entirely on your machine with nothing sent to a server, and the local pipeline is free for any signed-in account with no card at sign-up. That suits writers drafting private work, because the manuscript never leaves your laptop to become text.

How fast is the dictation, really?

From releasing the hotkey to text appearing in your document is about 1.4 seconds on a local model on an M1 Air, and a little over two seconds on a mid-range Windows machine with a larger model. Cloud mode on a good connection is around 1.1 seconds, since the network round-trip beats local compute on slower hardware. Anything under two seconds is fast enough that the flow of writing doesn't break.

Which writing apps does it work in?

Any of them. Because the transcript pastes at the operating-system cursor, it lands in whatever has focus — Scrivener, Final Draft, Word, Google Docs in a browser, a plain text editor, your CMS. There's no per-app plugin or integration; if you can type into it, you can dictate into it on Windows or macOS.

Can it clean up my spoken draft automatically?

Yes, optionally. Say the activation phrase "Hey whisper" and an AI pass adds punctuation, strips filler words, and fixes run-ons before the text lands — through Ollama locally, or gpt-5-mini by default in cloud mode. It is a mechanics pass, not a rewrite; it won't change your voice, which for fiction or stylised prose is the point. Many writers skip it on first drafts and edit by hand.

Is it accurate enough for long-form writing?

Local Whisper's multilingual models are strong across 99 languages, and cloud mode adds top-tier accuracy via OpenAI. The bigger lever, though, is your microphone: a decent USB mic improves accuracy more than any model upgrade. For long drafts, dictate in chunks of a sentence or three and run a cleanup pass before editing, rather than trying to speak a whole chapter in one breath.

When should a writer not use a dictation app?

When the job isn't drafting. For live on-screen captioning of a talk or stream, use a captioning tool. For turning a recorded interview or meeting into a labelled transcript, use a transcription service like Otter or Rev. For a quick 30-word note away from your desk, your phone keyboard's microphone is free and already there — Whisper is a desktop tool for Windows and macOS.

Denys Medvediev2026年4月18日

ガイド

リアルタイム音声入力ライター向けアプリ

ライター向けのリアルタイム音声入力アプリなら、話した言葉がほぼ即座にカーソル位置に入力されます。Whisper ならホットキーを押しながら話し、離すだけ。ローカルモデルなら約1.5秒でテキストが書いているアプリに貼り付けられます。

最終更新：2026年6月

暗いデスクに置かれたキーボードと開いたドキュメントの横に置かれたライターの手。音声による執筆の雰囲気を伝えている

ライター向けリアルタイム音声入力アプリは、わずかな遅延でカーソル位置にテキストを入力します。Whisper はプッシュ・トゥ・トークを採用。ホットキーを押したまま文を話し、離すと使用中のエディタにテキストが貼り付けられます。ローカルモデルではキーを離してからテキスト表示まで約1.4秒。オフライン動作、無料、どのデスクトップアプリでも使えます。

私が Whisper を作ったのは、タイピングが執筆の中で最も遅い作業だったからです。考えること、編集すること——ではなく、頭の中ですでに完成している文に指先を追いつかせることが問題でした。声はそれを解決します。話す速さはおよそ毎分145語、タイピングは40語程度。この差こそがすべてです。

ただ、「リアルタイム」という言葉には罠があります。多くの音声入力の宣伝ページは、都合のいいイメージを植え付けます。だからこそ、ダウンロードする前に正直に伝えたい——ここでいうリアルタイムとは何か、遅延はどう感じるか、長文の文章やブログ記事、フィクション、ずっと先延ばしにしていたメールを書くときにこのツールがどう機能するかを。

多くのマーケティングページが省く正直な説明をします。Whisper はプッシュ・トゥ・トークです。ホットキーを押したまま文を1〜3つ話し、離す。テキストは離した瞬間にカーソル位置に貼り付けられます。法廷速記者の画面のように、話しながら単語が流れていくわけではありません。単位は「発話ひとまとまり」であり、一音節ではありません。

この違いは重要です。正しい期待値を設定するからです。口の動きに連動して文字が流れるイメージを持っているなら、それはライブキャプション——別のツール、別の用途です。Whisper がライターに提供するのは、実際にはそれより速いもの。考えを言えば現れる、次の考えを言えばまた現れる。ローカルモデルなら往復約1.4秒。慣れると遅延を意識しなくなり、ただ書いているという感覚になります。

ライターにとって「リアルタイム」が意味すること

ノートを傍らにノートパソコンで作業するライター。音声が置き換えようとしている執筆の流れを示している

ライターが音声入力に手を伸ばすのは、私が最初にそうしたのと同じ理由から——頭の中に下書きがあるのに、キーボードが邪魔をするからです。初稿は速く、荒くていい。ところがキーボードはそれを遅く、きれいにしてしまう。まったく逆です。話せば、思考のスピードで乱雑な文章を書き留められる。そして指先が本当に活きる作業——編集——はそのあとです。

だからライターが「リアルタイム音声入力」を検索するときに求めているのは、これです。文を話したら、次の考えが消える前にそれが現れること。それが本当の基準。文字単位のストリーミングではなく、2秒未満の遅延で、言葉が蒸発する前にそこにある状態。Whisper はそれを実現します。ホットキーを離した瞬間からテキストがドキュメントに現れるまで、M1 Air のローカルモデルで約1.4秒。ミドルレンジの Windows マシンで大きめのモデルを使えば2秒強。（遅延が2秒を超えると集中が途切れるのを目の当たりにしてきました。画面に目が向いて、思考の糸が切れる。だからこの数字には徹底的にこだわります。）

もうひとつライターが求めるのは、ドキュメントから離れないこと。長い下書きはフロー状態であり、フローは別の文字起こしウィンドウを開き、録音ボタンを押し、待って、コピーして貼り付けるという作業には耐えられません。Whisper は、すでに使っているアプリのカーソル位置に直接貼り付けます——Scrivener、Word、ブラウザ上の Google Docs、テキストエディタ、CMS、どこでも。ウィンドウを切り替えません。キーを押したまま書き続ける。技術的には「離した瞬間に貼り付け」なのに、リアルタイムに感じる理由はここにあります。

ホットキーを押し、話し、離す——テキストが貼り付けられる

仕組みはシンプルです。シンプルさはソフトウェアへの最高の賛辞だと思っています。ホットキーを押し、話し、離す。するとフォーカスのあるアプリのカーソル位置にテキストが貼り付けられます。Whisper はキーを離したあと250ミリ秒の余白を持たせているので、最後の一言が途切れることはありません。OSのカーソルに貼り付けるため、原稿は「テキストボックス」として扱われます。Scrivener、Final Draft、Word、ブラウザの Substack 下書き——どれも同じ動作、アプリごとの設定は不要です。

話している間は小さなカプセルが表示されてリスニング中であることがわかり、短い文字起こし処理のあと言葉が現れます。それだけです。alt-tab するウィンドウも、録音ボタンを探す手間も、エクスポートするファイルも不要。カーソルは段落の中に、話せば文がそこに現れます：

Cancel

録音オーバーレイ：話している間に表示される小さなカプセル。Whisper がリスニング中であることを示します。

早めに設定しておくべきなのはホットキーだけです。Windows では Ctrl+Space、Mac では Command+Option を押しながら話すプッシュ・トゥ・トーク方式です。どちらも設定で変更できます。多くの執筆アプリが独自のショートカットを持っているので、ライターにはこの変更機能が重要です。（娘がホットキーが「効かない」と言ってきたことがあります。実はコンフリクトでした——だから今はすべてのホットキーをカスタマイズ可能にしています。）すでに Windows で音声入力や Mac で音声入力を使っていた方なら、同じ感覚で使い始められます。

2分でセットアップ（Windows または Mac）

必要なのは、Apple Silicon の Mac または Windows 10 以降の PC、動作するマイク、そして普段使いのエディタが開いていること。ローカルパイプライン全体はサインイン済みアカウントなら無料で、登録時にカード情報は不要です。手順は以下のとおりです。

ステップ 1 — Whisper をインストールしてサインイン

ダウンロードページからダウンロードし、インストールして無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えます。

アプリのトレイアイコンが表示され、セットアップウィザードでモデルを選ぶ画面が出ればOKです。

ステップ 2 — 文字起こし方式を選択

アプリが自動で選ぶのではなく、3つの選択肢から選びます：Cloud（OpenAI、自分のキー使用）、Local Parakeet、または Local Whisper。プライベートな文章の下書きなら、まずローカルから。どれを選ぶかは後で詳しく説明します。

モデルのダウンロードが完了し「準備完了」と表示されればOKです。

ステップ 3 — ホットキーを確認

Windows のデフォルトは Ctrl+Space、Mac はプッシュ・トゥ・トーク方式の Command+Option 長押しです。Mac では求められたときにアクセシビリティ権限を許可してください。これがないと、カーソル位置への貼り付けが執筆アプリに届きません。

テスト録音が任意のテキストフィールドに貼り付けられればOKです。

ステップ 4 — 下書きにカーソルを置いて話す

ドキュメントを開き、次の文を入れたい場所をクリック。ホットキーを押したまま話し、離す。テキストが段落の途中でもカーソル位置に現れます。

話した文章がテキストとして下書きに現れればOKです。

Whisper

設定画面を表示した実際の Whisper デスクトップアプリ。文字起こしと AI パネルが開いている。

時間がかかるのはモデルのダウンロードだけで、セットアップ自体は上記の4ステップです。動き出せば、文を書くことがタイピング作業ではなく話す作業になります。長い下書きを書くとき、午後で終わるか夜にまで及ぶかの差が生まれます。

Windows での音声文字変換 · Mac での音声文字変換

下書きを口述するとはどういうことか

散文を音声入力するコツは、完璧な文章を話そうとしないことです。初心者はコンマや改行まで口に出そうとしてタイピングより遅くなってしまいます。速いのは、まとまった考えを話すこと——友人に話すように文を言い、離して、次の文を言う。最初のパスは荒くていい。下書きを書き留めているのであって、組版をしているのではありません。私がタイピングで90分かかる1,500字のブログ記事は、口述なら約半分の時間で書けます。節約のほとんどは、文の途中で直そうとしないことから来ています。

プッシュ・トゥ・トークのリズムは、ライターの実際の思考方法に合っています。キーを1つのアイデアのために押し、離して何が出たか確認し、次の文を考えてまた押す。プレスの合間の休憩は「無駄な時間」ではなく思考の時間——次のシーンをどう展開するか壁を見つめている間、ツールが「えーと」を録音しているわけではありません。フィクションでは特に、頭の中でセリフが聞こえる感覚に近い。演じてから、それをページに持つ。

長時間セッションへの実用的なアドバイスを2つ。まず、段落全体を一息で話さず、1〜3文ずつ話す——短いまとまりのほうが速く貼り付けられ、言葉が出にくかったときも修正しやすい。次に、マイクの質が思う以上に重要です。2,000円のUSBマイクはどんなモデルのアップグレードよりも精度を上げます。モデルが処理するのはきれいな音声だからです。「AI精度」を売りにする誰もが触れたくない退屈な真実です。言葉がこれほど速く流れるようになったら、声でまるごと下書きを書くことができ、キーボードを本来得意な編集作業専用にできます。

ローカルかクラウドか：執筆者に合った選択

下書きにはまずローカルモードを試してください。書きかけの原稿、まだ送っていないピッチ、日記——どれもテキストにするためにクラウドに送る必要はありません。Mac が Apple Silicon か、PC が数年以内のものであれば、ローカルは日常的な音声入力を十分こなせます。クラウドはデフォルトではなく、いざというときの選択肢になります。3つの選択肢の違いをまとめます：

Local Parakeet — NVIDIAのTDTエンジン、約600 MB、最速のローカルオプション——CPUでの Whisper より5〜10倍速い。英語と24のヨーロッパ言語、計25言語に対応。英語への翻訳なし。英語または他のヨーロッパ言語で書くなら、この高速・完全オフラインの選択肢が最適です。遅延を低く保てます。
Local Whisper — 同じマシンでは Parakeet より遅いですが、多言語版は99言語をカバーし英語への翻訳も可能。英語専用版は英語のみ（99言語ではない）。中国語、日本語、韓国語（Parakeet では非対応）で書く場合や、翻訳が必要な場合、人名・造語のホットワードバイアスが必要な場合はこちらを。デフォルト英語モデルは約480 MB。
Cloud（OpenAI、BYOK） — 最高精度とウェブアクセスを備え、自分の OpenAI キーを使用して OpenAI から直接課金。デフォルトは gpt-4o-mini-transcribe での文字起こし。インターネット接続が必要で、マシン外にデータが出る唯一のパス。Whisper Pro の機能です。

退屈な真実を言えば、ほとんどの文章にはローカルで十分です——両ローカルエンジンはすべてをマシン上で処理し、サーバーには何も送りません。クラウドが力を発揮するのは、難しい録音で最高精度が必要なときか、文の途中でウェブから情報を引っ張りたいとき。また、接続が良ければクラウドは約1.1秒で最低遅延を実現します——遅いノートパソコンではネットワーク往復がローカル計算を上回るからです。まずローカルから始め、物足りなくなったらクラウドへ。

はっきり言いたいことがあります。クラウドのみの音声入力は、プライバシーの爆弾です。あるチームが四半期で5桁のクラウド料金を積み上げたのを見たことがあります——「スマートリトライ」ループが同じ録音を4回文字起こしするせいでした。四半期レビューで CFO がダッシュボードを開いたとき、会議室が静まり返りました。初稿をテキストにするためにベンダーのログに置く必要はありません。あなたのノートパソコンにはすでにマイクと CPU があります。

話した下書きをきれいな文章にする

生の音声入力は続き文になります。「えーと章の始まりは駅で彼女は遅刻して乗り継ぎを逃したんだけどそこからすべてが始まるんだ」——これが音声エンジンが渡してくる句読点のない文字の塊です。下書きとしては構いません——どうせ編集します。でも読みやすくする近道があります。

Windows の音声入力は話しながら句読点を追加し、macOS のディクテーションは「コンマ」「ピリオド」と言えば基本的な処理をします。より本格的な整形——「えーと」の除去、続き文の修正、話した段落を残せる形にする——には、Whisper の AI パスが使えます。「Hey whisper」と言うと、テキストが整形されてから貼り付けられます。ローカルモデルでは Ollama 経由で処理され、クラウドモードではデフォルトで gpt-5-mini が使われます。

Thinking...

生の入力

えーと章の始まりは駅で彼女は遅刻して乗り継ぎを逃したんだけどそこからすべてが始まるんだ

整形後

章の始まりは駅だ。彼女は遅刻して——乗り継ぎを逃していた——そこからすべてが始まる。

ライターに特に伝えたいこと：AI整形は句読点と余分な言葉の処理であり、共同執筆者ではありません。文章の機械的な部分を直すだけで、あなたの声を書き直しません。また書き直すべきでもありません。フィクションや個性的な文体のある文章では、私は軽いローカル整形にとどめるか、初稿では完全にスキップして後で手編集します。速く口述する目的は、荒い下書きをあなた自身のものにすることだからです。整形はメモを読みやすくするために使う。実際の執筆は自分でする。

この「話して→整形」の流れは、テキストを残しておく場所ならどこでも使えます——私がノートを取り、アイデアを記録するのもまさにこの方法です。執筆セッションの合間に研究のアイデアやプロットの転換点を話すだけで、流れを止めることなくきれいな一行になっています。

リアルタイム音声入力が向いていない場面

正直に言うと、別のツールのほうが合う場面があります。売り込むよりも、それを伝えたい。Whisper はプッシュ・トゥ・トークで書いているアプリに音声入力するツールです。ライブキャプションではなく、インタビュー文字起こしでもなく、スマートフォン用のツールでもありません。

話しながら画面に言葉をリアルタイムで流したい場合——ライブトークのキャプション、配信中のサブタイトル、アクセシビリティ字幕——それは真のライブキャプション。プレス・アンド・リリース型の音声入力とは別のカテゴリで、継続ストリーミング向けに設計されています。録音済みのインタビューや2時間の会議をトランスクリプトに変えたいなら、Otter や Rev のような文字起こしサービスが適しています——話者ラベル付きの文字起こしは音声入力ホットキーの仕事ではありません。外出中に30語のメモを残したいだけなら、スマートフォンのキーボードのマイクが無料でポケットの中にあります。Whisper は Windows と macOS のデスクトップツールなので、その用途にインストールする理由はありません。

リアルタイム音声入力アプリが本領を発揮するのは、下書きの場面です。長文の文章、ブログ記事、章、ずっと後回しにしていたメール——デスクで、すでに使っているアプリで、タイピングより話すほうが速く、1秒後にカーソル位置に言葉が欲しい場面。その基準を下回るなら、無料のものを使ってください。一行のテキストを送るためにデスクトップアプリを起動しろとは言いません。

相談を受けるライターの多くは Windows か Mac のどちらかを使っています。プラットフォーム別のガイドが必要であれば、ライター向け音声入力ソフトでモデルの選び方からキーボードを一切使わないセッションまで、ワークフロー全体を説明しています。

ライターにとっての「リアルタイム」とは、口の動きに合わせて文字が流れることではありません。文を話して、次の考えが消える前にそれがそこにある——約1.5秒、すでに使っているアプリの中で、どこにも送られない。それがこのツールの静かな魔法です。このガイドのほとんども一文ずつ口述しました。考えと考えの間にキーを離し、次の文を考えながら言葉が現れるのを見る。キーボードはずっとそこにあって、編集のときだけ役立ちました。それがキーボードの本来の使い方です。

次の下書きをページに声で書こう

ホットキーを押し、文を話し、離す。書いているアプリのカーソル位置に、どこにも送らず、約1.5秒で言葉が届きます。

Whisper をダウンロード使い方を見る

サインイン済みアカウントならローカルモードは無料。開始にカード不要。

Denys Medvediev

サポートメールを読んでいるのは私です——おそらく返信も音声入力しながら。

参考資料

よくある質問

Whisper では、遅延の少ないプッシュ・トゥ・トークを指します。ホットキーを押したまま文を話し、離すと、ローカルモデルで約1.4秒後にカーソル位置にテキストが貼り付けられます。話しながら単語が1つずつ流れるストリーミングではありません——テキストは発話ごと、離した瞬間にまとめて現れます。次の考えが消える前に言葉が届くので、執筆ではリアルタイムに感じられます。