ガイド
医師のための 音声入力ソフト
これは医師が自分自身の文章を書くための音声入力ツールです。メール、紹介状、個人メモ、事務作業、研究の下書きなど、デスクトップアプリ上で声を使って入力できます。臨床記録・EHR・医療文書作成ツールではなく、コンプライアンス上の保証も一切しません。
最終更新:2026年6月

ここで扱う「医師のための音声入力ソフト」とは、医師が自分の文章を書くために使う汎用ツールのことです。メール、紹介状、個人メモ、事務作業、研究の下書きなどを、デスクトップアプリ上で声を使って入力できます。ホットキーを押すとカーソル位置に音声が文字起こしされます。ローカルモードではオフラインで動作し、臨床記録やコンプライアンス対応ツールではありません。
まず、これが何でないかから始めます。「医師のための音声入力ソフト」というキーワードは、まったく異なる2つの世界を引き寄せてしまい、混同すると時間を無駄にしてしまうからです。ひとつの世界は臨床記録——患者のノートを電子カルテに音声で入力するもので、高い精度、システム連携、コンプライアンスの仕組みが求められます。それは専門的な製品カテゴリーであり、Whisper はそこには入りません。後ほど改めて説明しますし、本当にそちらが必要なら適切なツールを案内します。
もうひとつの世界は、医師が日々こなすその他すべての文章です。患者記録とは無関係なもの——同僚への紹介状、同僚への返信メール、当直表についての管理者へのメモ、論文の最初の荒削りな下書き、学会事務局へのメール。そういった文章は、誰もがやる普通のタイピングと同じです。このガイドが扱うのはその部分です。タイピングの代わりに話すだけで、ひとつのホットキーで、マシン上のどのアプリでも使えます。
ここで明確に線引きしておきます。Whisper は生産性向上のための音声入力ツールです。フォーカスしているアプリのカーソル位置に、話した内容をテキストとして入力します。臨床ツールでも医療記録ツールでもなく、保護された医療情報には対応しておらず、HIPAA・EHR・コンプライアンス上の保証は一切しません。患者ノートの入力には使わないでください。ご自身の非臨床的な文章作成にお使いください。
その範囲内には、十分な余地があります。医師自身の文章に特に向いている、正直な特長が2つあります。ローカルモードはマシン上で完全に動作するため、メールや下書きのテキストがノートパソコン外に出ることはありません——コンプライアンス証明書ではなく、処理がどこで行われるかという実際の特性です。そして、ローカルの Whisper はカスタム語彙を登録できるので、毎日使う専門用語が誤変換されなくなります。セットアップ方法を説明し、どんな日常的な文章に向いているかをお見せした上で、専用の医療製品が必要な場面では率直にそうお伝えします。
これが何であり、何でないか

これが何であるか:話した言葉をデスクトップアプリに入力する汎用の音声入力ツールです。医師はメール、紹介状、個人メモ、事務連絡、研究テキストをタイピングの代わりに話して作成できます。カーソル位置にペーストするため、メールクライアント、ワープロ、ブラウザのどれでも同じように動作します。カーソルがどのアプリにあるかは問いません。
これが何でないか、曖昧さがないよう率直に述べます:臨床記録ツールではなく、EHRやEMRのアドオンでもなく、医療文書作成ツールでもなく、患者記録・診断・治療のためのものでもありません。HIPAA・GDPR・その他いかなるコンプライアンス上の保証もしません。それでも医師が手を伸ばす理由があるとすれば、ありふれていて真実のことです——長い手紙や下書きはタイピングが疲れる。自分の文章を口述すれば打つより速い。それだけです。医療上の主張は一切ありません。
この線引きを常に見えるようにしているのは、2つの世界が並んで売られているからで、その差は重要です。臨床製品は患者記録を中心に構築されており、連携機能とコンプライアンス対応が伴います。このような生産性ツールはカーソルとご自身の言葉を中心に構築されています。同じ「音声入力」という言葉でも、責任はまったく異なります。書いている内容がカルテ行きの患者メモなら、このガイドはここで終わりです。「臨床ツールが必要な場合」のセクションに進んでください。
ホットキーを押して話すと、カーソルにテキストが入力される
仕組みはシンプルです。ホットキーを押して話し、離すと、フォーカスしているテキストフィールドのカーソル位置に文字起こし結果がペーストされます。Whisper は離した後も少しだけ待機するので、最後の単語が切れることはありません。OSのカーソルにペーストするため、下にあるアプリは「どんなテキストボックスでも」構いません——メールの作成画面、Wordドキュメント、ドキュメントに保存している紹介状テンプレート、研究下書きの本文。話している間は小さなカプセルが表示され、Whisper が聴いていることがわかります。
特定のプログラムへの連携設定は不要です。アプリごとのプラグインも、トークンのペーストも、同期作業も必要ありません。カーソルがメールにあれば、話した内容がメールに入力されます。同じキーで論文下書きの次の文、管理者へのメッセージ、タスクの合間のメモも入力できます。ツールひとつで、普段タイピングするすべてのテキストフィールドに対応します。
ホットキーだけは意識して設定してください。Windows では Ctrl+Space、Mac では Command+Option(話している間押し続け、止めるときに離すプッシュ・トゥ・トーク方式)です。どちらも既存のショートカットと競合する場合は設定で変更できます。(ホットキーの競合は「動かない」という報告の中で最も多い原因で、ほぼバグではありません——2つのアプリが同じキーを奪い合っているだけです。だからこそすべてのホットキーはカスタマイズ可能にしています。)以前にWindows の音声入力やMac の音声入力を設定したことがあれば、同じ感覚でご自身の文章作成に使えます。
2分でセットアップ(Windows・Mac 対応)
必要なのは、Apple Silicon 搭載 Mac または Windows 10 以降の PC、動作するマイク、そして実際に使うアプリ(メールクライアント、ワープロ、ブラウザ)が開いていることです。ローカルパイプライン全体はサインイン済みのアカウントなら無料で使えます。サインアップ時にお支払い方法の入力は不要です。手順は次のとおりです。
ステップ 1 — Whisper をインストールしてサインインする。
ダウンロードページからダウンロードし、インストールして無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えます。
アプリのトレイアイコンが表示され、セットアップウィザードでモデルの選択が促されたら成功です。
ステップ 2 — 文字起こし方式を選ぶ。
アプリは自動で選んでくれません。3つの選択肢があります:クラウド(OpenAI、自分のAPIキーを使用)、ローカル Parakeet、ローカル Whisper。手元に保存したい文章や下書きにはローカルから始めるのがおすすめです。どちらを選ぶかは2つ下のセクションで詳しく説明します。
モデルのダウンロードが完了し「準備完了」と表示されたら成功です。
ステップ 3 — ホットキーを確認する。
Windows のデフォルトは Ctrl+Space、Mac は Command+Option を押し続けるプッシュ・トゥ・トーク方式です。Mac ではプロンプトが表示されたらアクセシビリティの権限を付与してください。これがないと、カーソルへのペーストが他のアプリに届きません。
テスト録音の内容がどこかのテキストフィールドにペーストされたら成功です。
ステップ 4 — メールやドキュメントにカーソルを置いて話す。
メールクライアントかワープロを開き、入力したい場所をクリックして、ホットキーを押しながら文を話し、離します。カーソルのある位置に文字起こし結果が表示されます。
話した文がメールやドキュメントにテキストとして入力されたら成功です。
時間がかかるのはセットアップではなく、モデルのダウンロードです。他の手順は上記の4ステップだけです。一度動き出せば、長い紹介状や先送りにしていた返信メールを書く作業が、タイピング作業から会話のような作業に変わります。長い一日の終わりには、それだけで疲れ方が違います。
日常の非臨床的な文章に向いている
患者記録以外で日々こなしている文章を思い浮かべてください。同僚への紹介状——ほぼ自分で構成する文章です。メールの山——学会への返信、管理者へのメッセージ、事務からの問い合わせへの回答。フォローアップや読もうと思っていた論文についての自分へのメモ。論文の最初の荒削りな下書き、ポスター抄録、教育用スライドのテキスト。どれも臨床記録ではなく、タイピングより話す方が速い内容ばかりです。
音声入力が最も力を発揮するのは長い文章です。多くの人がタイピングで維持できる速度は1分あたり約40語ですが、話す速度は約145語に近づきます。話す速度で完成した手紙を作るのは無理です——誰もそうはしません——でも本文を約3分の1の時間で書き上げ、その後仕上げることができます。目的は編集をなくすことではありません。遅い最初の一稿をタイピング速度から話す速度に移行させ、キーボードを使うのは構成ではなく修正のためにすることです。
このガイド全体の根底にある正直な意見は、ほとんどの生産性ツールは変装したタイピング問題だということです。より速いメールクライアント、よりよいテンプレート、より整ったインボックス——これらはすべてタイピングという行為の周りに設けた足場です。「夜を文書への返信に費やしている」という問題の本当の解決策は、もっとスマートなアプリではありません。タイピングをやめることです。返信を口述して、誤変換した2語を直して、送って、帰宅する。それが構造的な解決であり、患者とは一切関係ありません。
ローカルかクラウドか:自分のテキストを手元に置く
医師自身の文章において理解する価値のある特性は、音声がどこで処理されるかです。ローカルモードはマシン上で完全に動作します——メールや下書きの言葉はノートパソコン上で文字起こしされ、どこにも送信されません。これはコンプライアンス保証ではなく、処理がどこで行われるかという事実の話であり、そのように粉飾するつもりはありません。ただし、口述している内容が自分の文章であり、手元に置いておきたい場合には、実際に有用な特性です。クラウドモードは文字起こしのために音声を OpenAI に送信します。逆のトレードオフです。アプリで選択が必要なため、3つの方式の違いを説明します。
選択は、書いている内容と何を重視するかによって決まります:
- ローカル Parakeet — NVIDIAのTDTエンジンで、約600 MB。最速のローカルオプションで、CPUで動かす Whisper の5〜10倍速です。英語と他の24のヨーロッパ言語、計25言語に対応。英語への翻訳機能とカスタム語彙はありません。英語で書いていて、日常の手紙やメールに高速なオフライン音声入力が欲しい場合、これが素直な選択です。
- ローカル Whisper — 同じマシンでは Parakeet より遅いですが、多言語対応ビルドは99言語をカバーし英語への翻訳も可能で、ここで重要な点として——カスタム語彙を登録できます。それが専門用語の誤変換を防ぐ機能です。専門用語が多い下書きや英語以外の言語で書く場合はこちらを選んでください。デフォルトの英語モデルは約480 MB。こちらも完全にマシン上で動作します。
- クラウド(OpenAI、BYOK) — 最高の精度とウェブアクセスを提供し、自分の OpenAI キーを使用して OpenAI に直接課金されます。文字起こしはデフォルトで gpt-4o-mini-transcribe で実行されます。インターネット接続が必要で音声をマシン外に送信するため、ノートパソコンの外に出る唯一の方式です。クラウド機能は Whisper Pro の一部です。手元に保存したい文章には、この方式はお勧めしません。
率直に言えば、医師自身の文章のほとんど——手紙、メール、メモ、下書きの文章——にはローカルで十分です。どちらのローカルエンジンもサーバーに何も送らずマシン上で完全に動作します。クラウドが役立つのは、難しい録音で最高の精度が必要なときや、文章の途中でウェブから情報を引用したいときです。自分のテキストを自分のディスクに保存することがここに来た理由の一部なら、ローカルから始めてクラウドは例外として使ってください。どちらの方式を選んでも、線引きは変わりません:患者記録には使用できません。
専門用語、ひと続きの文章、そして音声下書きの仕上げ
生の音声入力はひと続きで出てきます。「ご紹介ありがとうございます記録を確認しました6週間後にフォローアップを予約して管理者にもCCで送ることをご提案します」と言うと、どの音声エンジンも句読点なしのひとつながりの文章として出力します。それを送れる手紙に変えるには、2つのことが必要です:用語を正確に認識させること、そして文章の形を整えることです。
汎用の音声入力が崩れやすいのは専門用語の部分です。音声モデルは想定外の単語を推測で入力してしまうからです。ローカル Whisper はカスタム語彙を登録できます——専門用語、薬品名、略語、固有名詞のリストを登録すると優先的に認識するため、毎日使う言葉が誤変換されなくなります。Parakeet とクラウドの文字起こしはそのリストを使えないので、下書きに専門用語が多い場合はローカル Whisper が用語を守れる方式です。文章の形を整えるには——「えーと」の削除、ひと続きの修正、会話を文に分割——Whisper の AI クリーンアップ機能が使えます。「Hey whisper」というアクティベーションフレーズを言うと、テキストが入力される前に整形されます。ローカルモードでは Ollama 経由で動作し、クラウドモードではデフォルトで gpt-5-mini が使われます。
ご紹介ありがとうございます記録を確認しました6週間後にフォローアップを予約して管理者にもCCで送ることをご提案します
ご紹介ありがとうございます。記録を確認しました。6週間後にフォローアップを予約して、管理者にもCCで送ることをご提案します。
クリーンアップ機能が何のためにあり、何でないかについて一言。これは文章の形を整えるためのものです——句読点、フィラーワード、文の区切り。内容に対する判断ではなく、ましてや医療的なチェックでもありません。自分の文章の仕上げとして扱い、タイピングしたものを読み返すのと同じように、送信前に出力を確認してください。モデルがひと続きを修正しますが、送信するすべての言葉に対して責任はご自身にあります。
この「話して整形する」流れは文章全般で効果を発揮します——声でメモを素早く残すのも同じ方法でできます。タスクの合間にノートアプリにひと言入力するだけで、タイピング不要です。
臨床ツールが必要な場合

ここが最も重要なセクションなので、率直に言います。口述しているのが臨床記録——患者メモ、電子カルテに入力するもの、保護された医療情報、コンプライアンス要件を伴う医療文書作成——であれば、Whisper は適切なツールではありません。読むのを止めて、専用の医療音声入力製品を購入してください。Dragon Medical のようなソフトウェアがまさにそのために存在します:患者記録を中心に構築され、EHRシステムと連携し、臨床業務が求めるコンプライアンスの仕組みを備えています。Whisper にはそのいずれもなく、そのような機能を主張することもありません。
謙遜ではありません。生産性向上のための音声入力ツールと臨床記録製品は、異なる問いに答えているのです。一方は自分の言葉を自分のメールに入力します。もう一方は患者に関する規制された記録における精度・連携・コンプライアンスに責任を持ちます。このページに留めるためにその線を曖昧にするつもりはありません。タスクがカルテに関するものなら、そのために設計された医療製品に進んでください——それが正直な答えであり、同僚から聞かれても同じことを言います。
非常に短い非臨床のメモなら、すでにマシンに無料のツールが入っているかもしれません。Windows では Windowsキー + H でカーソルのある場所に音声入力バーが開きます。自動で句読点を付けますが、Microsoftのサーバー経由でインターネットが必要なため、オフラインでは使えません。Mac では「音声入力」を使えば入力できる場所ならどこでも話してテキストを入力でき、Apple Silicon では一般テキストをデバイス上で処理できます。「長い手紙や本格的な下書き」のレベルを下回る場合は無料のツールを使ってください。文章が長くなってきたとき、専門用語が増えてきたとき、どこでも同じように動く一つのホットキーが欲しいときに専用ツールを使ってください——そして患者記録が関わった瞬間に臨床製品を使ってください。
ローカル処理を重視する理由が他人のサーバーに自分のテキストを置きたくないからなら、プライベートなオンデバイス音声テキスト変換について幅広く解説したページで、「ローカル」が実際に何を意味するか、その限界はどこかを詳しく説明しています。
このガイド全体はひとつの線引きと、その後ろに広がる広い空間です。線引き:これは臨床ツールではなく、患者記録用でもなく、コンプライアンス上の保証もしません。広い空間:医師がカルテとは無関係に書くすべてのメール、手紙、メモ、下書き——タイピングの代わりに話して、どのアプリでも、必要ならオフラインで。私はこの文章のほとんどを、EHRではないテキストボックスに、EHRが何かすら知らないツールを使って音声で下書きしました。それがすべてです。
次の手紙やメールで試してみる
ホットキーを押して話し、離す。文字起こし結果はカーソルのある場所——メール、下書き、使っているどのアプリでも——に入力されます。患者記録ではありません。
サインイン済みのアカウントなら無料のローカルモードを利用できます。開始にカードは不要です。



