Denys Medvediev

ガイド

音声入力ソフト 脚本家のために

セリフを声に出してみて初めて、使えるかどうかわかる。音声入力ソフトなら、演じながらそのまま文字に起こせる。システム全体のホットキーで Final Draft、Fade In、WriterDuet、Highland に貼り付けられ、フォーマットは各アプリのショートカットがそのまま使える。

最終更新:2026年6月

暗いデスクに置かれた印刷された脚本とペン。脚本執筆と音声入力を連想させる

脚本家向け音声入力ソフトは、口頭のセリフやアクションラインをテキストとして取得し、脚本アプリのカーソル位置に貼り付けます。システム全体のホットキーは Final Draft、Fade In、WriterDuet、Highland で同じように動作します。言葉は声が作り、スラッグライン・キャラクタキュー・書式は各アプリのショートカットが担います。手軽な一行ならOSの内蔵音声入力で十分です。

セリフは、テキストになる前にまず「演技」だ。「こんなこと、頼んだ覚えはない」という一行をページで10分眺めても、使えるかどうかはわからない。一度声に出せば即わかる——平板すぎる、言葉が詰まる、あるいはちょうどいい。ページと口の間にあるその距離こそが、脚本家が音声入力を使いたくなる本当の理由だ。速く打つためじゃない。セリフを聴くために。

それで脚本家向け音声入力ソフトを探しても、わかりにくい壁に当たる。Final Draft には音声入力モードがあるが、Mac限定・英語限定だ。Fade In の旧Mac Dictation連携は macOS のアップデートで壊れた。WriterDuet には独自のDictate機能がある。Highland にはそれがほとんどない。アプリごとに答えがバラバラで、半分は使っているPCによって変わってくる。もっとシンプルな考え方があって、セットアップは2分で終わる。

比較記事が飛ばすポイントがある。脚本アプリは、書式の下を見れば、テキストエディタだ。セリフフィールドはテキストボックス。アクションフィールドもテキストボックス。カーソル位置に貼り付ける音声入力は、そのボックスが Final Draft にあろうと Gmail にあろうと、気にしない。

だから本当の問いは「どの脚本アプリの内蔵音声入力が一番優れているか」じゃない。正直な答えは「どれもムラがあって、一部はプラットフォーム縛りがある」だ。正しい問いは「今使っている脚本アプリの上に、どの音声入力ツールを乗せるか」だ。そうすれば、今日 Final Draft を使っていても来年 Fade In に乗り換えても、同じ流れで動く。仕組みを説明し、実際にセットアップし、セリフとアクションを整理する方法を見せて、専用ツールをスキップしていいときも伝える。

脚本家が音声入力に頼る理由

脚本ページを見ながら話す作家。セリフを声に出して演じる様子を表す

一つ目の理由は冒頭の通り:打ったセリフは聴けない。セリフは声に出すものだ。一つのビートが決まるかどうかを最速で確かめる方法は、演じて、口から出た言葉をそのまま捉えることだ。セリフを口述し、読み返し、残すか切るかを決める。人間が話していたから——あなたが話していたから——話し言葉らしいセリフが残る。

二つ目の理由はペースだ。第一稿は、自分の迷いとの競争だ。アクションラインは特に、打っていると作り込みすぎてしまう。声に出せば自然とシンプルになり、現在形で、アクションらしい読み方になる。会話ペースで音声入力すると1分あたり約145語。タイピングはせいぜい40語。110ページの草稿なら、その差は週末に仕上げられるかどうかの分かれ目だ。

三つ目の理由は手だ、これは小さくない。脚本家は職業柄タイピストで——長い作業、締め切り、何年も同じ手首を同じように使い続ける。音声入力は作業を止めずにキーボードを休ませてくれる。生産性と快適さのための手段であって、医療的な解決策ではない。手首の痛みが主な理由なら、手首が痛い人のための音声入力セットアップの方がここよりも深く掘り下げている。ほとんどの脚本家には、三つすべてが少しずつ混ざっている:セリフを聴く、ペースを保つ、手を休める。

ホットキーを押し、セリフを演じ、カーソル位置に着地する

仕組みは単純で、それがいい。ホットキーを押し、話し、離すと、テキストがカーソル位置に貼り付く——フォーカスのあるどのフィールドにでも。Final Draft のセリフブロックにカーソルを置き、キーを押しながらセリフを言って離せば、その言葉がブロックに現れる。Whisper は離した後も少し待つので、セリフの最後の一語が途中で切れない。OSのカーソル位置に貼り付けるから、Final Draft のセリフフィールドも、Fade In のアクションラインも、WriterDuet のシーンも、全部「カーソルのあるボックス」にすぎない。

アプリ別のガイドが複雑にしすぎるのはここだ。脚本アプリにプラグインを入れる必要はない。設定を掘り起こす必要もない。別ウィンドウに話してからコピーする必要もない。カーソルはすでに脚本の中にある。話せば、セリフが脚本に現れる。話している間は小さなカプセルが表示されるので、聴いていることがわかる:

Cancel
録音オーバーレイ:セリフを演じている間に表示される小さなカプセル。Whisper が収音中であることを示す。

ホットキーだけは最初に正しく設定しておく価値がある。Windows では Ctrl+Space、Mac では Command+Option を押しながら話すプッシュトゥトーク方式だ。脚本アプリが使っているショートカットと衝突する場合は設定で変更できる——脚本アプリはショートカットが多いので確認しておこう。スクリプトブロックを埋める同じキーが、コミットメッセージや他のテキストフィールドも埋める。声を一つのアプリに縛らないことの、静かな利点がそこにある。

2分でセットアップ(Windows または Mac)

必要なのは、Apple Silicon の Mac か Windows 10 以降の PC、動作するマイク、そして開いている脚本アプリ——Final Draft、Fade In、ブラウザまたはデスクトップの WriterDuet、Highland、どれでも。ローカル処理のパイプライン全体は、ログイン済みのアカウントなら無料で使えて、サインアップ時に支払い情報は不要だ。手順はこの通り。

ステップ1 — Whisper をインストールしてサインインする。

ダウンロードページからダウンロードし、インストールして、無料アカウントを作成する。カード不要。ローカル文字起こしパイプラインがすぐに使えるようになる。

アプリのトレイアイコンが表示され、セットアップウィザードがモデル選択を促したら成功だ。

ステップ2 — 文字起こしの方法を選ぶ。

アプリが選んでくれるわけではない。三つの選択肢がある:Cloud(OpenAI、自分のキーを持ち込む)、Local Parakeet、または Local Whisper。未発表の脚本を自分のディスクに留めておきたいなら、ローカルから始めよう——2つ後のセクションで詳しく説明する。

モデルのダウンロードが完了して「準備完了」と表示されたら成功だ。

ステップ3 — ホットキーを確認する。

Windows のデフォルトは Ctrl+Space、Mac は Command+Option をプッシュトゥトークとして押し続ける。Mac ではプロンプトが出たときにアクセシビリティ権限を許可する。ないと、カーソル位置への貼り付けが Final Draft や他のアプリに届かない。

テスト録音が任意のテキストフィールドに貼り付いたら成功だ。

ステップ4 — 脚本のブロックにカーソルを置いてセリフを演じる。

脚本を開き、セリフまたはアクションフィールドをクリックし、ホットキーを押しながらセリフを言って離す。カーソルのある位置、ブロックの内側に文字起こしが現れる。

話したセリフが脚本ブロックにテキストとして入っていたら成功だ。

Whisper
実際の Whisper デスクトップアプリの設定画面。Transcription と AI のパネルが開いた状態。

時間がかかるのはモデルのダウンロードで、セットアップではない。それ以外は上の4ステップだけだ。動き始めたら、シーンの草稿を書くのがタイピング作業から会話作業に変わる——セリフにとって、それが本来あるべき形だ。

Windows での音声テキスト変換 · Mac の場合

声でセリフとアクションラインを使い分ける

脚本を音声入力するときの正直な注意点がある。音声入力が届けるのは言葉であって、Final Draft の自動フォーマットではない。セリフを話すと、カーソルのあるフィールドにテキストとして入る。キャラクタキューが自動で付くわけでも、スラッグラインが中央揃えになるわけでも、Tab や Enter で要素を切り替える操作が起きるわけでもない。「INT. KITCHENと言えば自動でフォーマットされる」と言うのはデモを見せているだけで、実務の話ではない。だからこのワークフローは両手を使うものだ。それを受け入れてしまえば、速い。

うまく機能するパターン:構造はアプリに、言葉は声に任せる。脚本アプリ独自のショートカットを使って要素を設定する——Final Draft では Tab と Enter でシーンヘディング・アクション・キャラクタ・セリフを切り替え、Fade In や WriterDuet でも同等のショートカットがある——そして、その要素の内容を声で口述する。セリフフィールドにカーソル、ホットキーを押しながらセリフを言う。アクションフィールドにカーソル、ホットキーを押しながらショットを描写する。アプリが脚本を脚本らしく保ち、実際の書き込みでは手がキーボードを触らなくていい。

一部のアプリには知っておく価値のある独自の音声機能がある。存在を知らないふりをするより、知っていてほしい。WriterDuet の Dictate 機能は「press enter」のような音声フォーマットコマンドを理解して改行できる。Final Draft 13 の音声入力は、動く環境であれば「new scene heading」のような自然言語コマンドに応答する。それぞれのアプリの中では本当に便利だ——トレードオフは、そのアプリの中でしか機能しないことで、Final Draft のバージョンは Mac と英語のみだ。システム全体のホットキーは音声フォーマットコマンドを諦める代わりに、どこでも同じように動く。今日 Final Draft で演じたセリフが、来年 Fade In でも同じように貼り付く。一つのアプリに永遠に住むか、複数を行き来するかで選ぼう。

ローカルかクラウドか:未完成の脚本にどちらを使うか

脚本なら、まずローカルモードを試してほしい。未発表の脚本は、ベンダーのログに残したくないものだ——まだ誰にも買われていない、あなたのアイデアだ。ローカルでの文字起こしはあなたのマシンを出ない。それが未発表ページに対する正しいデフォルトだ。Mac が Apple Silicon か、PCがここ数年以内のものなら、ローカルは1回の執筆セッションを問題なくこなす。クラウドは出発点ではなく、逃げ道になる。

三つの方法の違いを説明する。アプリが選ばせるので、よく選んでほしい:

  • Local ParakeetNVIDIAのTDTエンジン、約600 MB、最速のローカルオプション——CPUでの Whisper より5〜10倍速い。英語と24の欧州言語、計25言語に対応。英語への翻訳機能はない。英語または他の欧州言語で書くなら、長い執筆セッションに最適な完全オフラインの選択肢だ。
  • Local Whisper同じマシンでは Parakeet より遅いが、多言語ビルドは99言語に対応し、英語への翻訳もできる。英語専用ビルドは英語のみで99言語対応ではない。欧州以外の言語のセリフがある脚本や翻訳作業、あるいはキャラクタ名のカスタム語彙など細かい制御が必要なときにこちらを選ぼう。デフォルトの英語モデルは約480 MB。
  • Cloud(OpenAI、BYOK)難しい音声への最高精度とWeb接続、OpenAI に直接請求される自分のキーを使う。文字起こしはデフォルトで gpt-4o-mini-transcribe を使用。インターネットが必要なので、マシンを出る唯一の方法だ。Cloud機能は Whisper Pro の一部。

正直なところ、セリフとアクションラインなら、ローカルで十分だ。両方のローカルエンジンはサーバーに何も送らずマシン上で完全に動作する——未完成の脚本に求めることそのものだ。ローカルが脚本家にとって特に光る点:Local Whisper にキャラクタ名や架空の地名をカスタム語彙として登録できるので、「Kaelin」が「Caitlin」に、「Veth」が「Beth」に戻ってくることがなくなる。クラウドが活きるのは音声が粗いときや、シーンの途中でWebから情報を引きたいときだ。まずローカルを使い、物足りなくなったらクラウドに手を伸ばそう。

話した草稿を脚本テキストに整える

生の音声入力は区切りなしで出てくる。セリフとアクションを一息で演じると「彼女はドアのところで立ち止まる振り返らないただ言う あなたはもともと留まるつもりなんてなかったでしょ」という、音声エンジンが渡してくる句読点なしの壁が届く。そこを整えるのが各モードの分岐点だ。

Windows の音声入力は話しながら句読点を追加し、macOS の Dictation は「カンマ」や「ピリオド」と言うと基本的な句読点を処理する。より重い整理——フィラーの除去、繋がった文の修正、一息を綺麗な一行に分割——には、Whisper が AIパスを実行できる。起動フレーズ「Hey whisper」と言うと、テキストが着地する前に整えられる。ローカルモデルでは Ollama を通じて動き、クラウドモードではデフォルトで gpt-5-mini が使われる。一点注意:整理はアクションラインと自分のメモには効果的だが、セリフには軽めに使うほうがいい。セリフを口述した目的は、実際に聴こえた通りを残すことだから。

Thinking...
生のテキスト

she stops at the door she doesn't turn around just says you were never going to stay were you

整理後

She stops at the door. She doesn't turn around. "You were never going to stay, were you?"

整理されたテキストはまだ脚本としてフォーマットされていないし、そのふりをすべきでもない。言葉は声が届け、スラッグライン・キャラクタキュー・中央揃えのセリフ・改ページは脚本アプリ自身のツールが担う。Tab と Enter で移動したセリフフィールドに整理した一行を落とし込んで、Final Draft や Fade In や WriterDuet が得意なことをやらせよう。コマンド一つで正確な脚本フォーマットを生み出す音声入力ツールは存在しない——試みるアプリは、自分の中だけで、一つのプラットフォームだけで行う。言葉を声で落とし、ページの形はすでに知っているキーで整えよう。

話して整えるこの流れは、脚本の外でも効果を発揮する——Google ドキュメントにきれいなテキストを口述するのも同じ方法で、トリートメント、ログライン、あるいはずっと後回しにしているマネージャーへのメールにも使える。

専用の音声入力ツールをスキップするとき

舗道にチョークで描かれた二つの矢印が別方向を指している。ツールの選択を表す

最適なツールが、すでに自分のマシンにあるものや脚本アプリに内蔵されているものであることもある。そうでないふりをするのは不誠実だ。シーンに一行だけ試しに入れたいだけなら、何もインストールしなくていい。

手軽な一行なら、OSが対応している。Windows では Windows キー + H を押せば、カーソルのある場所——Final Draft や WriterDuet のフィールドでも——に内蔵の Voice Typing バーが開く。自動で句読点を付けて、短いバーストには十分だ——ただしMicrosoftのサーバー経由でインターネットが必要なので、オフラインオプションではなく、ページが未発表のときには気になる点だ。Mac では Dictation がどのテキストフィールドでも使え、システム設定のキーボードで設定できる。Apple Silicon なら一般的なテキストはオンデバイスで処理できる。一つのアプリの中だけに住んでいるなら、そのアプリの音声機能を使おう:WriterDuet の Dictate と Final Draft 13 の Mac音声入力はどちらも、システム全体のツールには無理な音声フォーマットコマンドを理解する。そのアプリを離れない限り、それは本物の強みだ。

内蔵機能では足りなくなったとき、専用のシステム全体ツールが必要になる:長い執筆セッション、キャラクタ名のカスタム語彙、Windows でのオフラインプライバシー、または Final Draft、Fade In、Highland、メール、メモのどこでも同じように動く一つのホットキーを求めるとき。もう一つ正直な境界線——これはすべて、録音済みのテーブルリードやインタビューを脚本に文字起こしするためのものではない。それはファイル文字起こしで別の仕事だ。完成した録音は文字起こしサービスに回そう。音声入力は、書きながらリアルタイムで話している言葉のためにある。

プラットフォームの仕組みは脚本以外でも同じだ——Windows での音声入力の仕組みは、カーソルが脚本アプリにあろうとスプレッドシートにあろうと変わらない。なぜなら、統合されているのはアプリではなくカーソルだからだ。

脚本アプリは、台詞をページに乗せるための清潔でクロスプラットフォームな方法を一つも生み出さなかった。これを書き終えて、一つが生まれるとも思っていない——統合されているのはカーソルだから。セリフを演じ、言葉を捉え、ページはアプリに任せよう。このガイドのほとんどは、脚本アプリではないテキストボックスに、そのボックスがどこかを気にしないツールで口述した——それが自分の下書きフォルダにある脚本を書くとしたら、ちょうど理想的なやり方だ。

次のシーンで試してみよう

セリフブロックにカーソルを置き、ホットキーを押しながらセリフを演じ、離す。言葉が脚本に着地する——そして、あなたが書くすべてのアプリにも。

ログイン済みアカウントならローカルモードは無料。開始にカード不要。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読むのは私です。たぶん返信も口述しています。

参考リンク