Denys Medvediev

ガイド

ライター向け 音声入力ソフト

話すほうが、タイピングより速く下書きを作れます。システム全体で使えるツールを使えば、ホットキーを押して話すだけで、Scrivener、Word、Google Docs、どのエディタにも文字が入力されます。あとはAIパスで仕上げるだけ。

最終更新:2026年6月

木製のライティングデスクの上に置かれたノートブック、ペン、コーヒー。ノートパソコンの隣に長文執筆の雰囲気が漂う

ライター向け音声入力ソフトは、声で書いた下書きをどのエディタにもテキストとして書き出します。Whisperのようなシステム全体対応ツールなら、ホットキー一つでScrivener、Word、Google Docsにカーソル位置へ貼り付け。WindowsまたはMacで無料・オフラインで動作し、オプションのAIパスが流れるような話し言葉をきれいな文章に整えます。

執筆で一番遅いのはタイピングです。言葉はすでに頭の中に、文の形で浮かんでいる。それを十本の指でせいぜい毎分40語のペースで絞り出している。私が話す速さはその約3倍です。あなたもそうでしょう。ボトルネックはアイデアではありません。キーボードです。

「音声入力ソフト」で検索すると、Dragon NaturallySpeakingの記憶、699ドルのライセンス、45分のトレーニングセッションが頭に浮かぶかもしれません。その時代は終わりました。2026年の小説家やブロガーが必要なのは、すでに使っているエディタに話し言葉を書き出すホットキー、そしてテキストを整えるAIパスです。ライセンスは不要。アプリごとのプラグインも不要。手持ちのノートパソコンで動きます。

多くの音声入力紹介ページが見落としている点があります。エディタ自体に音声入力機能は必要ないということです。Scrivenerのドキュメント、Wordのページ、Google Docsのウィンドウ――どれもカーソルのついたテキストボックスに過ぎません。カーソル位置に貼り付けるツールは、どれが開いているかを気にしません。

だから「どの執筆アプリに一番いい音声入力機能があるか」という問いは的外れです。長文の音声入力向けに設計されたアプリはそもそもなく、特定のアプリに縛られたいわけでもない。本当の問いは「すべてのアプリの上で動く音声入力ツールはどれか」です。正直な答えは、どのプログラムでも同じように動くオフラインのホットキー一つです。ワークフローを説明し、2分でセットアップし、音声入力をスキップすべき場面も伝えます。

なぜライターは音声入力を選ぶのか

ノートブックとキーボードの近くで手を休める、文章の合間に考え込むライター

下書きは音声入力が最も力を発揮する場面です。下書きはスピード重視で、粗くていい――形をとらえて後で直せばいい。タイピングはそれに逆らいます。言葉が画面に現れるのを見ながら、つい直したくなる。話しながらは直せません。文を言い切って、次へ進む。章を書き進めるノベリストも、子供が起きる前に1500字の記事を仕上げたいブロガーも、この「前へ進む勢い」がすべてです。

速さの差は歴然としています。タイピングの持続速度は多くの人で毎分40語前後。話す速さは毎分145語前後。そのスピードで完成した章は書けません――誰もそうはしません――でも、下書きの素材は3分の1の時間で手に入ります。粗削りな素材を編集するほうが、白紙を前に固まるより速い。執筆で一番コストがかかるのは「始めること」です。音声入力は始めるコストを下げてくれます。

もう一つ、正直に言っておきたい静かな理由があります。音声入力は手を休ませてくれます。文章で生計を立てているなら、キーボードの負荷は積み重なります。デスクから少し離れて長い部分を口述できれば、手首の負担が減ります。医学的なアドバイスではなく、生産性の観点から言えることですが、私が聞いたライターたちが音声入力を始めた理由の一つでもあります。キーボードの疲れを和らげるために音声入力に切り替えるのと同じ論理です。同じ文字数をより少ないキーストロークで――それは明らかに良い取引です。

ホットキーを押して話せば、下書きがエディタに届く

仕組みはシンプルです。だからこそどこでも使えます。ホットキーを押し、段落を話し、離すと、文字起こしがカーソル位置に貼り付けられます――フォーカスのあるテキストフィールドであればどこにでも。Whisperはキーを離した後も少し待つので、文の最後の単語が切れることはありません。カーソル位置に貼り付けるので、Scrivenerのエディタも、Wordのページも、Google Docsのウィンドウも、どれも「テキストボックス」にすぎません。同じキー、同じ動作、いつでも。

昔の音声入力ツールが正しく実現できなかった点がここにあります。Scrivenerにプラグインを追加する必要はなく、Wordの音声入力モードと格闘する必要もなく、Docsで拡張機能を認証する必要もありません。カーソルが章の中にある状態で話せば、言葉が章の中に現れます。話している間は小さなカプセルが表示されるので、録音中かどうか一目でわかります。

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。Whisperがリスニング中であることを示します。

ホットキーだけは最初に正しく設定する価値があります。Windowsでは Ctrl+Space、Macでは Command+Option を押しながら話すプッシュ・トゥ・トークです。どちらも設定から変更できます――既存のショートカットと衝突した場合も含めて。(最初のバージョンはホットキーが固定で、あるユーザーが深夜2時に音楽ソフトと衝突することを発見するまでそのままでした。今はすべてカスタマイズ可能です。)WindowsでのVoice to Text設定Macでの設定 を経験していれば、同じ感覚で原稿に向けて使えます。

2分でセットアップ(WindowsまたはMac)

必要なのは、Apple SiliconのMacかWindows 10以降のPC、マイク、そして使いたいエディタを開いた状態です。ローカルパイプライン全体は、ログイン済みのアカウントであれば無料で使えます。サインアップ時にクレジットカードは不要です。手順はこちらです。

ステップ1 ― Whisperをインストールしてサインイン

ダウンロードページからダウンロードし、インストールして無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えます。

アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を提示したら成功です。

ステップ2 ― 文字起こし方法を選ぶ

アプリは自動で選びません。3つの選択肢があります:Cloud(OpenAI、自前キー持ち込み)、ローカルParakeet、またはローカルWhisperです。まだ誰のサーバーにも送りたくない原稿には、ローカルから始めることをお勧めします――詳しくは2つ下のセクションで説明します。

モデルのダウンロードが完了し「準備完了」と表示されたら成功です。

ステップ3 ― ホットキーを確認する

Windowsのデフォルトは Ctrl+Space、Macはプッシュ・トゥ・トークで Command+Option を長押しです。Macでは、プロンプトが出たときにアクセシビリティ権限を許可してください。これがないと、他のアプリへのカーソル貼り付けができません。

テスト録音がテキストフィールドに貼り付けられたら成功です。

ステップ4 ― 下書きにカーソルを置いて話す

Scrivener、Word、またはブラウザのドキュメントを開き、ページをクリックし、ホットキーを押しながら一文話して離します。文字起こし結果がカーソルのある位置に現れます。

話した文が原稿にテキストとして入力されたら成功です。

Whisper
本物のWhisperデスクトップアプリの設定画面。文字起こしとAIパネルが開いた状態。

時間がかかるのはモデルのダウンロードだけで、セットアップ自体は上の4ステップです。一度動き始めたら、段落を書くことがタイピング作業ではなく会話作業になります――それがそもそも求めていた変化です。

WindowsでのVoice to Text · Macでの設定

本物の章を乗り越えられる下書きワークフロー

章全体を口述するのは、メールを口述するのとは違います。その違いを無視すると、1週目で挫折します。コツは、ライターが同時にやっている二つの作業を切り分けることです。下書きは一つの仕事:言葉を出す、順番通りに、速く、批判しない。編集は別の仕事:句読点、段落の区切り、二度言った文。音声入力は前者が得意で、後者は苦手。だから分けましょう。下書きを最初から最後まで話してから、キーボードで形を整える。キーボードを完全に手放す必要はありません。

続けるための習慣がいくつかあります。断片ではなく完全な文で話す――文字起こしは完結した思考のほうが精度が上がります。「新しい段落」と声に出してマークを入れておく、ツールが対応しなくても――話し言葉のテキストが壁のように続くと、後から戻りにくいためです。登場人物の名前など固有名詞の一覧を手元に置いておく。キャラクター名、架空の地名、専門用語はどの音声エンジンも推測で補う部分です。ローカルWhisperはカスタム語彙にバイアスをかけられるので、「Aelwyn」が「Ellen」になるのを防げます。特別なことは何もありません。下書きを下書きとして扱うだけです。

正直な期待値を言えば:口述した2000字の文章は、読める流れではあるものの、繋がりすぎていて少し話し言葉っぽいものが出てきます。でも、それで十分です。1時間タイピングするのではなく15分話して素材を手に入れ、白紙のままカーソルが点滅する状態ではなく編集できるものが目の前にある。私も長いものはこうして下書きして、細かい編集はキーボードで手作業で行います。声で量をこなし、キーで磨く。二つは対立しません。

ローカルとクラウド:原稿にはどちらが合うか

自分の文章には、まずローカルモードを試してください。原稿は、公開を決めるまでプライベートなものです。未公開の章を誰かのサーバーに送る必要はありません。MacがApple Siliconなら、あるいはPCが直近数年のモデルなら、ローカルは日常の下書きに十分対応します。クラウドはデフォルトではなく、いざというときの選択肢です。

アプリで選択が必要なので、3つの違いを整理しておきます。

  • ローカルParakeetNVIDIAのTDTエンジン、約600MB、最速のローカル選択肢です。CPUでWhisperの5〜10倍高速。英語を含む計25言語(欧州言語を中心とした24言語+英語)に対応。英語への翻訳やカスタム語彙はなし。英語で下書きしてスピード重視なら、完全オフラインで動くこれが第一候補です。
  • ローカルWhisper同じマシンでParakeetより遅いですが、多言語ビルドは99言語に対応し、英語への翻訳も可能、カスタム語彙にも対応しています。カスタム語彙はキャラクター名を守るレバーです。英語専用ビルドは英語のみで、99言語ではありません。キャラクター用語集、多言語の作業、翻訳が必要な場合にこちらを選んでください。英語デフォルトモデルは約480MBです。
  • Cloud(OpenAI、BYOK)最高精度かつウェブアクセス付き。自分のOpenAIキーを使い、OpenAIへの課金は直接行われます。デフォルトの文字起こしはgpt-4o-mini-transcribeです。インターネットが必要なため、唯一マシンの外に出るパスです。CloudサーフェスはWhisper Proの一部です。

正直なところ、執筆の下書きならローカルで十分です。両方のローカルエンジンはマシン上で完全に動作し、サーバーに何も送りません。まだ誰も読んでいない本のファイルには、それが大事です。クラウドが真価を発揮するのは、難しい録音で最高精度が必要なとき、あるいは文の途中でウェブから情報を引き出したいときです。日常の章の執筆はローカルから始めて、物足りなさを感じたときだけクラウドを検討してください。

話し言葉の下書きをきれいな文章に変える

生の口述は文がつながって出てきます。それは正常です。「えーと刑事が入ってきて彼女はまだ何も言わない死体を見るだけでそれから照明が消える」という句読点のない流れが、音声エンジンが返す姿です。下書き自体は全部そこにある。コンマがないだけ。整えるアプローチは方式によって違います。

Windows Voice Typingは話しながら句読点を追加し、macOS Dictationは「コンマ」「ピリオド」と言えば基本的な句読点を入れます。より深いクリーンアップ――「えーと」の除去、文のつながりの修正、話し言葉のモノローグを実際に使える文に分解すること――はWhisperのAIパスで行えます。「Hey whisper」というアクティベーションフレーズを言うと、テキストが入力される前に強化されます。ローカルモデルではOllamaを通じて、クラウドモードではデフォルトでgpt-5-miniが使われます。

Thinking...
生の出力

えーと刑事が入ってきて彼女はまだ何も言わない死体を見るだけでそれから照明が消える

整えた後

刑事が入ってくる。彼女はまだ何も言わない――ただ死体を見ている。それから照明が消えた。

ライターに正直に伝えておくべきことがあります:AIパスは文法のためにあり、あなたの声を変えるためではありません。句読点とフィラーワードを直す。文章をあなたが言った内容より平板にするべきではありません。下書きを読めるようにするために使い、本当の編集は自分でやってください。一行のリズムは誰かのモデルに任せるものではありません。役割分担は明確です:声が言葉を出し、AIパスが読みやすくし、あなたが自分のものにする。

この「話してから整える」フローは原稿の外でも活きます――どのアプリにも口述で音声日記をつける こともでき、一日のメモが深夜にタイプする1ページではなく、数文の音声になります。

音声入力をスキップして別の手段を使うべき場合

路面に描かれた2本の矢印が逆方向を指している。選択を象徴するイメージ

音声入力は自分の言葉を下書きするための道具です。ライターがよく混同する二つの作業には向いていません。その点を明確にしておくと、無駄な午後を防げます。

録音したインタビュー、ポッドキャスト、会議のファイルをテキストに変換するのは文字起こしであり、音声入力ではありません。別のカテゴリです。タイムスタンプと話者ラベル付きのドキュメントを返してくれる文字起こしサービスが必要です。プッシュ・トゥ・トークのホットキーは、カーソルでリアルタイムに話すためのもので、以前録音したファイルを処理するためではありません。また、スマートフォンで一文だけメモしたいだけ――例えば買い物列に並んでいるときに思いついたセリフ――なら、スマホのキーボードに内蔵されているマイクで十分です。Whisperはそもそも、WindowsとmacOSのデスクトップ専用アプリです。一行を入力するためにデスクトップアプリをインストールする必要はありません。

短いテキスト入力には、すでにマシンに入っている無料の機能もあります。Windowsでは Windows キー + H を押すとVoice Typingバーがカーソル位置に開き、自動で句読点を付けてくれます。1〜2文なら十分ですが、Microsoftのサーバーを経由してインターネットが必要なため、オフラインオプションではありません。MacではDictationを使えば任意のテキストフィールドに話せます(設定はシステム設定のキーボードから)。Apple Siliconでは一般的なテキスト処理はデバイス上で行われます。これらが物足りなくなったときに専用のシステム全体対応ツールを使う場面があります:長文の下書き、原稿のオフラインプライバシー、キャラクター名のカスタム語彙、Scrivenerでもメールでもブログエディタでも同じように動くホットキー一つ。その水準を下回るなら、無料のものを使ってください。一行のセリフを入力するためにアプリをインストールするよう勧めるつもりはありません。

そもそも音声入力を調べ始めた理由が長時間のタイピングによる負担なら、そのトレードオフを詳しく説明した記事があります:手への負担を減らすために音声入力に移行する――同じ生産性の論理で、同じページ数をより少ないキーストロークで。

子供のころ、親戚がWindows 98マシン(64メガバイトのRAM)にDragon NaturallySpeakingを入れていました。トレーニングに45分かかりました――単語リストを読み上げてキャリブレーションする――その後の精度は7割程度で、1文に4秒の遅延がありました。年賀状の1段落を口述するのに15分かかり、最終的にヘッドセットが部屋を飛びました。それから25年、下書きの章が1.5秒ほどでカーソル位置に届き、オフラインで、無料です。ちなみにそのヘッドセットは無事でした。このガイドのほとんどはテキストボックスに話しかけて書いた後、キーボードで編集しました――まさに今お伝えしているワークフローです。次に書くものに試してみてください。

次の章を声でページに書き出す

ホットキーを押しながら段落を声に出して離す。テキストがエディタに入力されます――あなたが文章を書くすべてのアプリに。

ログイン済みアカウントであればローカルモードは無料。開始時にカード不要。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信も口述しています。

関連資料