Denys Medvediev

ガイド

本を音声入力で書く 方法

音声入力で本を書くのは、友人に話して聞かせるのと同じです。まずアウトラインを作り、システム全体で使えるホットキーでシーンごとに Word、Scrivener、またはドキュメントに話しかけていきます。話しながら編集しないこと。仕上げは後でまとめてやる。

最終更新:2026年6月

柔らかな光の中に原稿、コーヒー、開いたノートパソコンが置かれた作家の机

音声入力で本を書くには、まずアウトラインを作り、システム全体で使えるディクテーションホットキーを使ってチャプターごとに Word、Scrivener、または Google Docs に話しかけます。ルールはひとつ——編集のために止まらず、シーン全体を話し切ること。仕上げのパスは後でまとめて行います。話す速さはタイピングの約3倍半、1分あたり約145語です。

初めてタイピングの代わりに音声入力を試したとき、画面に言葉が現れるたびに自分が文を直していることに気づいた。話して、止まって、コンマを直して、また話す。20分後には4段落のきれいな文章と、顎の疲れだけが残った。それは完全に間違ったやり方で、ほとんど全員が最初にやってしまうことでもある。

本を音声入力で書くのは、ソフトウェアの問題ではなく、手放さなければならない習慣の問題です。内なる編集者は、言葉が現れるそばから直したがる。音声入力の速さのすべては、その編集者に「待て」と言えるかどうかにかかっています。口から出てくる速さで言葉を吐き出す——雑でも構わない——それから別のパスで整える。話すことはタイピングの約3倍半速いが、それは流れを止めないときだけです。

「自分の小説を音声入力で」という記事のほとんどが飛ばしているのがここです。ツールはほとんど関係ない。Scrivener のチャプターはテキストボックスであり、Google Doc も空白の Word ファイルも同じです。カーソル位置に貼り付けるディクテーションは、どのアプリを見ているかを気にしません。

だから本当の問いは「音声で本を書いてくれるアプリは何か」ではありません。本を書いてくれるアプリなど存在しない。問いは「話した言葉を全速力で原稿に取り込み、後からきれいにするにはどうすればいいか」であり、答えは3つの正直なパーツからなります。コンピューターにすでに搭載されているディクテーション機能、あらゆる場所で動くシステム全体のホットキー、そして言葉が揃うまで内なる編集者を黙らせておくワークフロー。この3つをすべて説明し、2分でセットアップして、組み込み機能だけで十分なときも正直に伝えます。

著者がタイピングではなく音声入力を選ぶ理由

数字の話は簡単です。ほとんどの人は1分あたり約40語タイプし、約145語話します。これは約3倍半の差であり、9万語の原稿では、数ヶ月かかる下書きと数週間で終わる下書きの違いになります。しかし著者がそうする本当の理由は、速さだけではありません。

より大きな理由は、物語はそもそも頭の中で「話し言葉」として生きているということです。シーンを段落単位で考えるのではなく、誰かが語るように考える。音声入力を使えば、台所のテーブルで友人に章を説明するように粗削りな下書きを語り、形を整えるのは後でできる。キーボードは思考とページの間に一層の壁を作る。声はその壁を、最も混乱した最初のパスから取り除いてくれる——多くの本がそのパスで止まるのだから。

身体的な理由もあります。でも、手首が12章あたりで文句を言い始めるまで誰も口にしない理由です。本を一冊書くのは膨大なキーストロークです。構造を声で話し、細かい編集のためにキーボードを残しておくことで、1日の負担を分散できる。これは快適さと生産性の話であり、医学的な主張ではありません——でも何時間ものタイピングが足かせになっているなら、時々手を休めるために音声入力を使うのは合理的な手です。

最も手軽な方法:あなたのコンピューターはすでに音声入力できる

マイクが置かれた書き物机のノートパソコン——内蔵の音声ディクテーションを示唆している

何かをインストールする前に知っておいてほしいのは、オペレーティングシステムがすでにこれを無料でできるということ、そして短いセッションなら十分だということです。Windows では原稿にカーソルを置き、Windows キー + H を押します。音声入力バーが開き、話すと言葉がカーソルのある場所に入力されます——Word でも、Scrivener でも、ブラウザの Google Doc でも。話すにつれて句読点も自動で付きます。

Mac では、システム設定のキーボードからディクテーションをオンにし、設定したショートカットで起動します。タイピングできる場所ならどこでも使えます。Apple Silicon では音声モデルのダウンロード後にデバイス上で処理できます。「コンマ」「ピリオド」「改行」と言えば、話しながら句読点が付きます。

本全体に使うときの問題は2つあります。Windows の音声入力は Microsoft のサーバーを経由してインターネット接続が必要なため、オフラインオプションではありません——どこにも送りたくない原稿を書いているときには重要な問題です。また、どちらの組み込み機能も短いバースト向けにチューニングされています。テキスト、メール、段落程度。タイムアウトしやすく、珍しいキャラクター名を聞き間違え、作った語彙を教える方法もありません。8万語の下書きにわたると、そういった小さな摩擦が積み重なります。それが専用ツールの出番です。

Whisper を2分でセットアップする(Windows または Mac)

システム全体で使えるディクテーションツールは、組み込み機能の2つの限界を一度に解決します。オフラインで動き、開いているどのライティングアプリでも同じように機能します。必要なのは Apple Silicon の Mac か Windows 10 以降の PC、使えるマイク、そして Word、Scrivener、Google Docs など下書きに使っているアプリで開いた原稿です。ローカルパイプライン全体はサインイン済みのアカウントなら無料で、サインアップ時に支払い方法は不要です。手順はこうなります。

ステップ1 — Whisper をインストールしてサインインする。

ダウンロードページからダウンロードし、インストールして無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えます。

アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促したら成功です。

ステップ2 — 文字起こしの方式を選ぶ。

アプリは自動で選んでくれません。3つの選択肢があります。Cloud(OpenAI、自分のキーを使用)、Local Parakeet、Local Whisper。非公開の原稿にはローカルから始めましょう——2つ後のセクションで詳しく説明します。

モデルのダウンロードが完了し、準備完了と表示されたら成功です。

ステップ3 — ホットキーを確認する。

Windows のデフォルトは Ctrl+Space、Mac は Command+Option を押し続けるプッシュトーク方式です。Mac では求められたときにアクセシビリティ権限を付与してください。これがないと、カーソル位置への貼り付けが他のアプリに届きません。どちらのキーも、既存の設定と衝突する場合は設定で変更できます。

テスト録音が任意のテキストフィールドに貼り付けられたら成功です。

ステップ4 — 原稿にカーソルを置いて話す。

チャプターを開き、次の段落を入れたい場所をクリックし、ホットキーを押しながら数文話して、離します。文字起こしがカーソルのある場所、ドキュメントの中に表示されます。

話した文章が原稿のテキストとして入力されていたら成功です。

Whisper
実際の Whisper デスクトップアプリの設定画面。「文字起こし」と「AI」パネルが開いた状態。

時間がかかるのはモデルのダウンロードであり、セットアップではありません。それ以外は上の4ステップだけです。動き始めると、章の下書きがタイピング作業から会話作業に変わります——それがすべてのポイントです。

以前にWindows で音声入力をセットアップしたことや、Mac で設定したことがあれば、同じ手の動きを原稿に向けるだけです。

まずアウトラインを作り、シーンごとに口述する

音声入力は、口を開く前にシーンがどこへ向かうかを知っている書き手を優遇します。実際に機能するワークフローは地味で繰り返しが効くものです。まずアウトラインを作り、本を塊ごとに話して進め、後でまとめて整える。アウトラインを飛ばすと、下書きを書きながら自分で袋小路に追い込むことになります。

各セッションはシーンの箇条書き数項目から始めましょう——誰が登場するか、何が変わるか、どこで終わるか。これは音声入力する必要はない。タイプして、足場として使います。それからカーソルを次の空白行に置き、ホットキーを押したまま、声に出して語るようにシーンを話します。話している間は小さなカプセルが表示されて録音中だとわかるようになっており、Whisper はリリース後も少し録音を続けるので最後の言葉が切れません。

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。Whisper が聞いていることがわかります。

他の何よりも大切なルールが一つあります。話しながら編集しないこと。コンマを直したり一文を言い直したりするために止まった瞬間、シーンから抜け出して編集者モードに入ってしまう——その2つはギアを共有していません。シーン、セクション、ひとつの展開単位、まるごと話し切ってから初めて画面を見る。10分か15分の作業単位で口述し、キャラクターや場所の名前は毎回同じ言い方で統一して文字起こしに一貫性を持たせ、文のつながりや句読点の抜けはそのままにしておく。仕上げのパスは、まさに下書きのパスを速くて荒削りにするために存在しています。話す速さで言葉を出し切り、後から形を整える——声でもっと速く入力するのと同じように、どんな場面でも。

ローカルかクラウドか:原稿にはどちらのモードか

本の下書きには、まずローカルモードを試してください。原稿は、ほとんどの著者が本当に守りたいと思っている唯一のドキュメントです——未完成で、未発表で、時には契約の下にある。それを自分のディスクに保存しながら、言葉をそこに入れるために声をクラウド経由でルーティングするのは妙な選択です。Mac が Apple Silicon または最近数年以内の PC なら、ローカルは下書きセッション全体を問題なく処理でき、クラウドはデフォルトではなく逃げ道になります。

3つの方式の違いを説明します。アプリが選択を求めるので、正しく選んでほしいからです。

  • Local ParakeetNVIDIA の TDT エンジン。約600 MB で、CPU 上で Whisper より5〜10倍速い最速のローカルオプションです。英語に加え24の欧州言語、合計25言語に対応。英語への翻訳とカスタム語彙は非対応。英語または別の欧州言語で書いており、キャラクター名が一般的なものであれば、これが手軽で完全オフラインな選択です。
  • Local Whisper同じマシンでは Parakeet より遅いが、多言語ビルドは99言語に対応し英語への翻訳もでき、カスタム語彙もサポートしています。これは、本の中に造語の名前や場所、専門用語がたくさんあるときに教えて正しく書かせるために便利です。英語専用ビルドは英語のみで99言語には対応しません。デフォルトの英語モデルは約480 MB です。
  • Cloud(OpenAI、BYOK)最高の精度とウェブアクセスを提供します。OpenAI に直接課金される自分の OpenAI キーを使用します。デフォルトでは gpt-4o-mini-transcribe で文字起こしが行われます。インターネットが必要で、マシンの外に出る唯一の方式です。Cloud 機能は Whisper Pro の一部です。

つまらない真実を言えば、初稿を埋める種類の文章であれば、ローカルで十分です。どちらのローカルエンジンもサーバーに何も送らずにマシン上で完全に動くので、原稿に求めるものとしてはまさにそれです。本にファンタジーの名前、架空の場所、40回使う造語の技術用語など造語の語彙が多い場合は、Local Whisper のカスタム語彙が決め手になります。同じ名前を5通りに誤変換するのを防いでくれるからです。クラウドが真価を発揮するのは、難しい録音セッションでトップレベルの精度が欲しいときです。日々の下書きにはローカルから始めて、物足りないと感じたときだけクラウドに手を伸ばしましょう。

言葉が揃ったら仕上げのパスを走らせる

生の音声入力はつながった文として出てきます。「彼女は部屋を横切った彼を見なかった窓をただ開けてえーと通りの騒音が沈黙を満たすのを待った」——それが音声エンジンが返す句読点なしの壁です。それでいい——それが話す速さと引き換えにした取引です。仕上げは別のパスで行い、そこで下書きが散文に戻ります。

Windows の音声入力は話しながら句読点を付けてくれ、macOS のディクテーションは「コンマ」「ピリオド」と言えば基本的なものを処理します。より本格的な仕上げ——「えーと」の除去、文のつながりの修正、話し言葉の段落を実際に残せる文章に変換——には、Whisper が AI パスを実行できます。アクティベーションフレーズ「Hey whisper」と言えば、テキストは着地前に強化されます。ローカルモードでは Ollama 経由で動き、クラウドモードではデフォルトで gpt-5-mini が使われます。

Thinking...
生の入力

she crossed the room she didn't look at him she just opened the window um and waited for the noise from the street to fill the silence

整形後

She crossed the room. She didn't look at him; she just opened the window and waited for the noise from the street to fill the silence.

一つ正直な限界を伝えます——著者はしばしば逆のことを売られているので。AI パスは句読点とフィラーを整えます。あなたの文章を書き直したり、継続性を修正したり、シーンが機能しているかを判断したりしません。主人公の目の色が章をまたいで変わったことも見つけません——それはあなたの仕事であり、本をあなたのものにする仕事です。仕上げのパスは文字起こしを整えるタイピスト、共著者ではないと考えてください。声の作業は速くて荒削りな下書きを与えてくれる。実際の書き方——選択、構成、刺さるセリフ——はあなたのものとして残ります。

この「話してから整える」リズムはフィクションを超えて続きます——長い下書きの習慣は、小説を書いていても論文の章を書いているときも同じです。ワークフローは変わらない。アウトラインを作り、止まらずにセクションを話し切り、それから独立したパスで整える。

組み込み機能だけで十分なとき

標識に2方向を指す矢印——ツール選択を示す

マシンにすでに入っている無料ツールが正解なこともあり、そうでないふりをするのは不誠実です。短いバーストでしか口述しないなら——ふと思いついたセリフの一行、アウトラインへのメモ、会議の合間の段落——オペレーティングシステムが無料でそれをカバーします。Windows では Windows キー + H、Mac ではディクテーションショートカット。一文を入力するためにアプリをインストールする必要はありません。

本の音声入力のように見えて実は違う作業もあります。それを名指しして、間違ったツールを選ばないようにする価値があります。録音済みの音声ファイルを文字起こしすること——録ったインタビュー、散歩中に自分の考えをつぶやいたボイスメモ、著者イベントの録音——は、リアルタイムで口述することとは別の作業です。ディクテーションは今マイクに向かって話している言葉をタイプします。事後的に複数話者の録音を処理するようには作られていません。そのためには音声ファイル文字起こし専用のサービスを使ってください。ライブのディクテーションと録音済み音声の文字起こしは別の仕事であり、一方が得意なツールはたいてい他方では並程度です。

組み込み機能が不満を感じさせ始めたとき——バーストではなくチャプター全体、未発表原稿のオフラインプライバシー、一貫して正しく書いてほしい造語、または Scrivener、Word、メールで同じように動く1つのホットキーを求めるとき——専用のシステム全体ツールに手を伸ばしてください。それ以下なら無料のものを使えばいい。買い物リストを音声入力するためにソフトウェアをインストールするよう言うつもりはありません。

プロジェクトがフィクションではなく学術的なものなら、同じチャプターごとのロジックが論文の音声入力にも当てはまります。そこでは造語の語彙が専門用語になり、プライバシーの議論はさらに切実になります。

本を書いてくれるアプリはない。これからも出てこない。シーンが出てこない日には、それはある種の恵みかもしれません——責めるソフトウェアがなく、ただ仕事があるだけ。音声入力が変えるのは、雑然とした最初のパスの速さです。アウトラインを作り、話し切り、後から整える。このガイドの大半は画面に向かって話しながら下書きし、全部出切ってから初めて文字を見ました。話しながら完璧にしようとした最初の3段落は、今でも書いた中で最悪の3段落です。

次のチャプターを声でページに書き落とす

シーンのアウトラインを作り、ホットキーを押しながら語り、離す。下書きはカーソルのある原稿に——そして他のすべてのアプリにも——入力されます。

サインイン済みのアカウントなら無料のローカルモード。開始にカード不要。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信も音声入力で書いています。

参考資料