ガイド
論文を 音声入力で書く
論文は長すぎて、空白のページを前にタイピングが止まってしまいます。代わりに最初の草稿を口述で。ホットキーを押して章を話すと、Word、Scrivener、LaTeX にそのまま入力されます。あとは編集するだけ。ローカルモードは無料でオフラインでも動きます。
最終更新: 2026年6月

論文を音声入力するには、システム全体で動く音声入力ツールをインストールし、ホットキーを押して、Word、Scrivener、Google ドキュメント、LaTeX ファイルなど使っているエディタに向かって話しかけます。文字起こしはカーソル位置に貼り付けられます。ローカルエンジンは完全オフラインで動き、サインイン済みのアカウントなら無料です。あとはキーボードで編集します。
論文で一番つらいのは、まだ何も書かれていないページです。論文は読んだ、主張も頭の中にある、でもカーソルだけが点滅していて、頭の中で9回書き直した文章の始め方を決めかねている。そのカーソルに夜を丸ごと持っていかれる友人を何人も見てきました。考えること自体は終わっていた。タイピングが壁だったのです。
話すことは、その壁を越える方法です。段落の半分をタイピングする時間で、その段落のだいたいの内容を口に出せます。そしてページに書かれた荒削りな文章は直せます。空白のページは直せません。章の最初の草稿を口述するのは、タイピングを速くするためではありません。ダメな版を吐き出して、良い版が戦う相手を作るためなのです。
これが、論文の音声入力について書かれたほとんどのページが飛ばしている部分です。ワープロはただのテキストフィールドです。Scrivener のエディタも、Google ドキュメントも、コードエディタの `.tex` ファイルの本文も同じです。カーソル位置に貼り付ける音声入力ツールは、どのアプリにいるかを気にしません。文献管理ツールに接続するプラグインも、特別な「論文モード」もありません。
だから本当の問いは「どのアプリが音声入力に対応しているか」ではありません。「すでに使っているアプリの上で動く音声入力ツールはどれか」です。何年もかかり、資金援助もないことが多いこの作業では、手軽なメールよりも二つのことが重要になります。オフラインで動き、無料のローカル層があること。そして、自分の分野の専門用語や名称を覚えてくれること。ワークフローを章ごとに説明し、2分でセットアップし、別のツールに任せるべき仕事を一つ紹介します。
大学院生が最初の草稿を口述する理由

目的は「速く文字を書く」ことではありません。「じっと見つめるのをやめる」ことです。論文の章は8,000語から12,000語あり、どんな方法で書いても最初の版は粗削りになります。唯一の問いは、午後に話して粗削りな草稿を作るか、一週間タイピングしてきれいな草稿を作れないか、です。話すことが勝つのは、完璧主義が入り込めないからです。キーを打ちながら文章を直すようには、息の途中で直せません。だから言葉が出て、そのままページに残り、あとで直せます。
もう一つ、単純に身体的な理由があります。論文は多くの人が書く中で最も長いもので、何ヶ月にもわたる長丁場になります。そして手にはそれについての意見があります。草稿の一部を口述することで、その日の執筆の一部がキーボードから手を離した状態で進められます。これを医学的な主張として飾るつもりはありません。そうではなく、1時間ごとに立ち上がるのと同じ生産性と快適さの話です。手首の疲れが具体的な悩みなら、手を休める方法としての音声入力 にその生産性の側面を正直に書いています。論文そのものについては、もっとシンプルな話です。手がタイピングを嫌がる日でも、草稿を続けられます。
そして退屈な真実があります。論文のほとんどは、洗練された最終的な文章ではありません。それは骨組みです。「この章では〜を論じる」という文章、誰かの研究の要約、セクション間をつなぐ段落。その骨組みこそ、声で口述してもうまく出てくるものであり、タイピングと比べて読みが劣るわけでもありません。正確さが必要な文章はキーボードに取っておきましょう。
ホットキーを押して話すと、エディタにテキストが届く
仕組みはシンプルで、それが最大の褒め言葉です。ホットキーを押し、話し、離すと、フォーカスがあるどのアプリでもカーソル位置に文字起こしが貼り付けられます。Word の見出しでも、Scrivener のドキュメントでも、Google ドキュメントの段落でも、LaTeX ファイルのコメントブロックでも同じです。Whisper はキーを離した後も少し待つので、長い文の最後の単語が切れることがありません。OS のカーソルに貼り付けるため、エディタは「たまたま前面にあるテキストボックス」にすぎません。
チュートリアルが過剰に複雑にする部分がここです。Word にインストールする連携機能も、Scrivener のアドオンも、文献管理ツールに貼り付けるトークンも不要です。カーソルをドキュメントに置いて話すと、言葉が現れます。話している間は小さなカプセルが表示されるので、聞いているかどうかが分かります。
ホットキーは、長いセッションを始める前に設定しておく価値がある唯一のものです。Windows では Ctrl+Space、Mac では Command+Option を話している間押し続けて離すプッシュ・トゥー・トーク方式です。どちらも Settings で変更できます。LaTeX のショートカットや文献管理ツールのホットキーがある環境では、たいてい何かと衝突するものです。以前に Windows での音声入力 や Mac での音声入力 を設定したことがあれば、同じ感覚で論文に向けて使えます。
2分でセットアップ (Windows または Mac)
必要なのは Apple Silicon の Mac か Windows 10 以降の PC、動作するマイク、そして開いているエディタ(Word、Scrivener、Google ドキュメントのブラウザタブ、LaTeX エディタなど)です。ローカルのパイプライン全体はサインイン済みのアカウントなら無料で、サインアップ時に支払い方法は不要です。何年もかかり、資金状況が不透明な作業ではこれが重要です。手順は以下の通りです。
ステップ 1 — Whisper をインストールしてサインインする。
ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。カード不要。ローカルの文字起こしパイプライン全体がすぐに使えます。
アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促せば成功です。
ステップ 2 — 文字起こしのパスを選ぶ。
アプリは自動では選びません。三択あります: Cloud (OpenAI、自分のキーを使用)、Local Parakeet、Local Whisper です。専門用語が多いオフライン草稿には Local Whisper が最適です。理由は2つ先のセクションで説明します。
モデルのダウンロードが完了し、準備完了と表示されれば成功です。
ステップ 3 — ホットキーを確認する。
Windows のデフォルトは Ctrl+Space、Mac はプッシュ・トゥー・トークとして Command+Option を押し続けます。Mac ではプロンプトが出たときにアクセシビリティの許可を付与してください。それがないと、カーソルへの貼り付けがエディタに届きません。
テスト録音が任意のテキストフィールドに貼り付けられれば成功です。
ステップ 4 — 草稿にカーソルを置いて話す。
章を開き、次の段落を書きたい場所をクリックし、ホットキーを押し続けて数文話し、離します。文字起こしがカーソル位置のドキュメントに現れます。
話した段落が章の中にテキストとして入っていれば成功です。
時間がかかるのは一回限りのモデルダウンロードだけで、セットアップ自体は速いです。あとは上の4ステップです。動き始めると、章を開くことが「タイピングする気力を見つける」から「話す気力を見つける」に変わります。疲れた木曜日には、ずっとハードルが低いものです。
章を声で書き、専門用語を覚えさせる
長文に合うワークフローは、塊で話して、繰り返し編集することです。磨き上げた章を最初から最後まで口述しようとしないでください。それはマイクをつけたタイピング思考です。代わりにアウトラインを開き、見出しの下にカーソルを置いて、ラボの同僚にコーヒーを飲みながら説明するように、そのセクションの大まかな内容を声に出します。一つのセクション、数百語、キーを離して次の見出しへ。骨格を埋めているのであって、像を彫刻しているのではありません。彫刻は編集であり、あとでキーボードで行います。
学術的な音声入力の成否を分けるのは語彙です。論文には一般的な音声認識エンジンが想定しない言葉がたくさんあります。引用する手法、自分の分野の化学物質、概念、定理、そして最も厄介なのが人名です。「Foucault」「Nyquist」「Bourdieu」、引用に必要な正確なスペルのポーランド語や韓国語の共著者名。一般的なエンジンは推測し、そして間違えます。見たことのない名前をオートコレクトがめちゃくちゃにするのと同じです。ここで Local Whisper が真価を発揮します。カスタム語彙に対応しており、よく使う著者名や専門用語のリストを渡すと、それらを正しく文字起こしするよう優先されます。高速なローカルエンジンの Parakeet はホットワードに対応していないため、専門用語が多い草稿には Whisper がローカルの選択肢です。Cloud モードも精度が高いですが、カスタム語彙の機能は Local Whisper 固有の機能です。
そのリストを論文の最初に一度設定しておけば、2年間効果があります。繰り返し使う20〜30の用語と名前を追加すると、返ってくる文字起こしで「Burdew」を毎段落 find & replace する必要がなくなります。それでも修正はあります。どのツールも一発ですべての名前を正確に書けるわけではありません。でも修正するのは、自分が使うすべての専門用語を打ち直すのではなく、たまのミスだけになります。
何年もかかるプライベートな作業にローカルかクラウドか
論文にはローカルから始めることをお勧めします。原則論だけではありません。未発表の研究、未完成の主張、守秘義務のあるインタビュー素材。これらが誰かのサーバーに送られる理由は一切ありません。ローカルエンジンはマシン上で完全に動作し、どこにも送信されません。これは プライベートなオフライン音声テキスト変換環境を選ぶ 理由と同じです。また、分単位の料金もなく、インターネット接続も不要です。何年もかけて資金援助なしで図書館の地下で執筆するときには、これが重要です。アプリが選択を求めるため、三つのパスの違いを説明します。
アプリは自動で選びません。実際の草稿を念頭に置いて選びましょう。
- Local Parakeet — NVIDIA の TDT エンジン、約 600 MB で最速のローカルオプション。CPU 上で Whisper より5〜10倍速いです。英語と他の24のヨーロッパ言語、計25言語対応。英語への翻訳とカスタム語彙には対応していないため、専門用語が多い論文には向きません。用語が一般的な、速くて平易な英語の草稿に適しています。
- Local Whisper — 同じマシンで Parakeet より遅いですが、99言語に対応し、英語への翻訳もでき、何より自分の分野の用語や引用する著者名のカスタム語彙とホットワードに対応しています。人名と専門用語が多い論文には、このローカルエンジンが適しています。デフォルトの英語モデルは約 480 MB で、大きいモデルは速度を犠牲にして精度を上げます。
- Cloud (OpenAI、BYOK) — 最高の精度とリアルタイムのウェブアクセス。自分の OpenAI キーを使い、OpenAI から直接課金されます。文字起こしはデフォルトで gpt-4o-mini-transcribe で動作します。インターネットが必要なため、マシンから出るパスです。機密性のないセクションには問題ありませんが、守秘義務のある素材には不向きです。Cloud 機能は Whisper Pro の一部です。
正直なところ、論文のほとんどには、良い語彙リストを持つ Local Whisper で十分です。費用はかからず、ラップトップの中に留まります。Cloud が活躍するのは、難しい録音で最高精度が欲しいときや、文章の途中でウェブから事実を引っ張りたいときです。2年間の守秘義務のある草稿作業には、ローカルがデフォルトで、クラウドはたまの逃げ道です。
話した章を提出できる文章に仕上げる
生の口述はつながりっぱなしで出てきます。「つまりこの章では第3章の実証研究を踏まえてフーコーの規律の概念が現代の職場監視にどう対応するかを検討する」という内容を話すと、句読点のない壁のような文字列が返ってきます。それで構いません。最初の草稿は粗削りで当然です。読めるようになるのは整理の段階です。
Windows Voice Typing は話しながら句読点を追加し、macOS Dictation は「comma」や「period」と言うと基本的な句読点を処理します。より本格的な整理として、「えーと」を削除したり、つながった文を分割したりするには、Whisper がテキストを受け取る前に AI パスを実行できます。「Hey whisper」という起動フレーズを言うと、入力されながらテキストが補正されます。Ollama を使ったローカルモデルでは完全オフラインで動き、クラウドモードではデフォルトで gpt-5-mini が使われます。句読点のような作業を整えることで、主張の編集に時間を使えます。
so this chapter examines how foucaults notion of discipline maps onto modern workplace surveillance drawing on the empirical work in chapter three um and the interview data
This chapter examines how Foucault's notion of discipline maps onto modern workplace surveillance, drawing on the empirical work in Chapter Three and the interview data.
AI パスがしないこと、そしてすべきでないことは、学術的な編集です。引用が主張を裏付けているか確認することも、誤った日付を修正することも、段落4が段落1と矛盾していることに気づくことも、AI はしません。それはあなたの仕事であり、本質的な仕事です。音声入力はそれを偽りません。正直な手順は、粗削りの草稿を話す、整理を実行して文章の体裁を整える、そして指導教員の最後のコメントを開きながら自分でキーボードで全行読むことです。ツールは1時間早く読める草稿を届けます。守れる主張は届けません。それはあなたの領域であり、そうあるべきです。
話してから整えるリズムは論文の後にも続きます。同じホットキーで、メールでも、研究助成申請でも、就職活動のカバーレターでも、声でタイピングを速くする ことができます。
音声入力が向かない場面

音声入力は自分が話す言葉を書き起こします。他の人が話した言葉の文字起こしサービスではなく、その二つを混同すると、残念な午後を過ごすことになります。研究作業で最もよくある誤解: 録音されたインタビュー、フォーカスグループ、フィールドセッションをテキスト化すること。それは別の仕事です。草稿を書いているのではなく、複数話者の録音を書き起こしています。重複があり、アクセントがあり、話者ラベルとタイムスタンプが必要な場合もあります。そのような場合は、音声ファイル向けに作られた専用の文字起こしサービスを使いましょう。ライブ口述のホットキーは形が全く違います。今マイクに聞くのであって、先週火曜日の2時間の MP3 を聞くのではありません。
本当に短い用途には、マシンにすでに入っている無料のツールが最適です。文献管理ツールに一行メモを入れたり、共有ドキュメントに短いコメントを書いたりするなら、OS で対応できます。Windows では Windows キー + H を押すとカーソルのある場所に内蔵の Voice Typing バーが開きます。注意点: Microsoft のサーバーを経由してインターネットが必要なため、オフラインオプションではありません。守秘義務のある研究では特に重要な点です。Mac では Dictation を使えばタイプできる場所なら話せます。System Settings の Keyboard で設定でき、Apple Silicon では一般的なテキストをデバイス上で処理できます。
内蔵ツールが不便になったときに専用のシステム全体で動くツールを使いましょう。長い章、カスタム語彙が必要な分野の専門用語、未発表作業のオフラインプライバシー、または Word、Scrivener、LaTeX エディタで同じように動くホットキーが欲しいときです。その基準を下回る場合は無料のものを使い、インタビュー音声には専用のものを使いましょう。録音の書き起こしに使うツールで論文の章を口述することは勧めません。それは二つの異なる仕事であり、一つだと思い込むと両方に失望することになります。
「論文を書いてください」ボタンを搭載したエディタはなく、数年間取り組んでいるとそれを待つのをやめます。カーソルこそが統合です。ドキュメントに向かって話し、粗削りの草稿を得て、キーボードとたくさんのコーヒーできれいな版を仕上げる。ダメな草稿を頭の中からページに出して、そこで戦いましょう。戦いこそが本当の作業です。音声入力はただ、数時間早くその戦いに連れて行ってくれます。ページが白紙の日には、それがすべてです。
次の章を声で生み出す
草稿を開き、見出しの下にカーソルを置いて、ホットキーを押し、大まかな内容を声に出しましょう。あとで編集します。空白のページより、ダメなページの方がずっとマシです。
サインイン済みのアカウントなら無料のローカルモード。開始にカード不要。



