Denys Medvediev

ガイド

音声入力で書く タイピングができないとき

タイピングが選択肢にないとき——手が痛い、ギプスをしている、あるいは単に打ちたくない——音声入力なら、話すだけでどんなアプリにも文字を書けます。ホットキーを押して話せば、言葉がカーソルの位置に届きます。これは生産性のガイドであって、医療上の助言ではありません。

最終更新: 2026年6月

マイクとノートパソコンが置かれた、静かで整った机。キーボードは使われておらず、声で書くことを示している

タイピングができない人のための音声入力は、書いているアプリ自体ではなく、システム全体で動くツールを通して機能します。ホットキーを押して話すと、文字起こしがどのプログラムでもカーソルの位置に貼り付けられます。Whisperのようなツールは、WindowsでもMacでもオフラインで動作し、無料のローカル枠があります。これは生産性を助けるものであり、医療上の助言ではありません。

ある週は、タイプするよりも口述する量のほうが多くなります。しかも、それが自分の選択とは限りません。落ちかけた皿を受け止めて指を痛めたとき、手首がもう無理だと言い続ける長い時期——キーボードは選択肢から外れても、仕事はなくなりません。だから代わりにコンピューターに話しかけ、コンピューターが書いてくれます。それが、タイピングができない人、あるいは快適に打てない人、あるいは今日はもう打ちたくない人のための音声入力という考え方の核心です。

何よりもまず、正直に枠組みを示しておきます。私は口述ソフトウェアを作っています。私は医者ではなく、これは医療上の助言ではありません——ここに書かれていることは、どんな症状も治療したり予防したり治したりしません。口述ができるのは、狭くて役に立つことです——キーを打たずに文字を作ること。キーを押すこと自体が問題なら、押さずに文字を作ることが、実際に引ける唯一のレバーです。それが売り文句で、私はそれを飾り立てるよりも、仕組みそのものを説明したいのです。

ここが、ほとんどのページが飛ばしてしまう部分です。テキストボックスはテキストボックスです——メール、Googleドキュメント、チャットウィンドウ、検索バー。カーソルの位置に貼り付ける口述は、それがどのボックスかを気にしません。だから本当の問いは「このアプリは音声入力に対応しているか」ではありません。「すべての上で動かすツールはどれか」であり、その答えは、どのプログラムでも同じ振る舞いをする一つのホットキーです。

早めに出しておくべき、もう一つの正直な一行があります。口述ツールは文字を書きますが、コンピューター全体を操作するわけではありません。メニューをクリックしたり、マウスを動かしたり、声でウィンドウを切り替えたりはしません。多くの人にとって、キーボードの痛みの原因は文字を打つことなので、その文字を任せるだけで状況は大きく変わります。クリックもスクロールも、何もかも手を使わずに動かしたいなら、最後にちゃんとしたツールを案内するセクションがあります。それは私たちの役目ではないからです。

なぜ人はキーボードを使わない書き方を求めるのか

閉じたノートパソコンのそばで静かに休んでいる両手。タイピングからの休息を示している

理由はいくつかの正直なグループに収まり、どれも本物であるために診断を必要としません。手が痛くて今日は休ませたい人もいます——その生産性の側面については、タイピングが負担になるときの口述という別のガイドで扱っています。一時的に打てない人もいます——添え木、ギプス、包帯を巻いた指。永続的にキーボードから手を離しておくべき理由がある人もいます。そして、十本の指で打っていたときよりも、声に出すほうが速く書ける人もたくさんいます。

理由が何であれ、やることは同じです。存在しなければならない文字がある——メール、一段落、返信、メモ——そしてキーボードは痛いか、遅いか、使えないかのどれかです。口述はその文字を声で作ります。打っていたはずのキーを、打たずに済みます。普段なら四十分かけて打つ受信箱なら、それは数百回分の打鍵をまるごと省けるということです。

話す速さは、たいていの人で毎分およそ145語。タイピングは40語あたりに落ち着きます。だから手を休められることに加えて、およそ3倍半の速さで進んでいることになります。遅いほうしか選べなかったときに、これは嬉しい副産物です。これは何度でもはっきり言い続けます。大事なことだからです——これは生産性とアクセシビリティを助けるものです。療法でも治療でもなく、何か痛みがあるなら、聞くべき相手はブログ記事ではなく臨床医です。

ホットキーを押して話せば、言葉がカーソルの位置に届く

これが仕組みのすべてで、最良の意味で退屈です。ホットキーを押して、話して、離すと、文字起こしがカーソルの位置——フォーカスされているテキスト欄——に貼り付けられます。Whisperはキーを離した後も少しだけ録音を続けるので、最後の言葉が切れません。OSのカーソル位置に貼り付けるので、メールクライアントも、ドキュメントも、チャットアプリも、すべてただの「どこかのテキストボックス」です。どこでも同じ振る舞いです。

そこが、ランディングページが余計に複雑にしてしまう部分です。一つのアプリに組み込む拡張機能も、貼り付けるトークンも、言葉を取り出すための別ウィンドウもありません。カーソルが文字の行き先で、あなたが話すと、言葉がそこに現れます。話している間は小さなカプセルが表示され、聞き取り中だとわかります。

Cancel
録音オーバーレイ。話している間、アプリのブルーで浮かぶ小さなカプセルが現れ、Whisperが聞き取り中だとわかります。

ちゃんと設定しておく価値があるのは、ホットキーだけです。Windowsでは Ctrl+Space、Macでは Command+Option——話している間だけ押し続け、離すと止まる、修飾キーだけのプッシュトゥトークです。キーの組み合わせを押し続けること自体がつらいなら、設定の「録音」からタップ切り替えに変えてください——一度タップで開始、もう一度タップで停止、何も押し続けません。このホットキーのパネルがあるのは、かつてキーを固定で出荷したら、深夜2時に誰かの音楽ソフトとぶつかったからです。私は修士号を持っているのに、です。一度動き出せば、あなたが選んだ取引は、どのアプリでもタイプの代わりに口述することと同じものです——キーボードは任意になります。

2分でセットアップ(WindowsまたはMac)

必要なのは、Apple SiliconのMacかWindows 10以降のPC、動くマイク、そして書きたいアプリを目の前で開いておくこと。ローカルのパイプライン全体は、サインインしたアカウントなら無料で、サインアップ時に支払い方法を求められることもありません。手順はこうです。

ステップ1 — Whisperをインストールしてサインイン。

ダウンロードページから入手し、インストールして、無料アカウントを作成します。カードは不要。ローカル文字起こしのパイプライン全体がすぐに使えるようになります。

アプリのトレイアイコンが現れ、セットアップウィザードがモデルの選択を促してくれたら、うまくいったサインです。

ステップ2 — 文字起こしの方法を選ぶ。

アプリが代わりに選んでくれることはありません。選択肢は3つ——クラウド(OpenAI、自分のキーを使う)、ローカルParakeet、ローカルWhisper。プライバシーやオフラインでいることが大事なら、ローカルから始めてください——詳しくは2セクション後で。

モデルのダウンロードが終わり、準備完了と表示されたら、うまくいったサインです。

ステップ3 — 手の届くホットキーを設定する。

Windowsの初期設定は Ctrl+Space、Macは押し続けるプッシュトゥトークの Command+Option です。キーを押し続けるのが手につらいなら、タップ切り替えに変えれば、一度のタップで開始、もう一度のタップで停止します。Macでは、求められたらアクセシビリティ権限を許可してください。これがないと、カーソル位置への貼り付けが他のアプリに届きません。

テスト録音がどこかのテキスト欄に貼り付けられたら、うまくいったサインです。

ステップ4 — 文字の行き先にカーソルを置いて話す。

どこかのテキストボックスをクリックし、録音を開始し、一文話して、止めます。文字起こしが、まるで自分で打ったかのように、カーソルのある場所に現れます。

話した一文がテキスト欄に文字として収まっていたら、うまくいったサインです。

Whisper
設定画面を映した本物のWhisperデスクトップアプリ——文字起こしエンジンを選び、手にやさしいホットキーの動作を設定できます。

時間がかかるのはモデルのダウンロードで、セットアップではありません。それ以外は上の4ステップだけです。一度動き出せば、思いついたことをどんなアプリに入れるのも、タイプの作業ではなく話す作業になります——タイプこそができないことであるとき、それがすべての肝心な点です。

どんなアプリでも書く——そして音声にできないこと

正直に言えば、ほとんど何でもです。一番大きいのはメール——返信、フォローアップ、ずっと避けてきた長い謝罪のメッセージ。文書やレポートも、カーソルと格闘するより声に出して考えたいときに。Slack、Teams、Discord、チームがいる場所がどこであれチャットも。メモも、会議のメモも、夜11時のリマインダーのメモも。検索バー、フォーム欄、コメント欄。ボックスに入る文字なら、タイプする代わりに話せばよく、同じホットキーがどこでもそれをやってくれます。

ここが限界です。あとで痛い目を見ないよう、はっきり言っておきます。Whisperは、すでにカーソルがある場所に言葉を置きます。カーソルを動かしたり、メニューをクリックしたり、スクロールしたり、ウィンドウを切り替えたり、声でコンピューターを動かしたりはしません。テキストボックスにはいつものやり方——マウス、トラックパッド、タップ——でたどり着き、そこに口述します。多くの人にとって、キーボードの負担の大半は書くことであって操作ではないので、書くことを任せるだけで勝ちのほとんどです。でも、タイピングだけでなく何もかもから手を休めたいなら、口述ツールだけでは答えになりません。

そのギャップは、見落としではなく意図的なものです。私たちは、声で書くという行為を、どのアプリでも速く確実にすることに徹していて、完全なハンズフリーのデスクトップを中途半端に作るより、その一つをうまくやりたいのです。完全な操作が必要なときには、ちょうどそのためのツールがあって、最後にその名前を挙げます。ここだけの話、ツールがどこで止まるのかを正確に知っているほうが、何でもできるふりをした機能一覧より役に立ちます。

ローカルかクラウドか——タイピングが選択肢でないときどちらを

まずはローカルモードを試してください。キーボードがつらくて口述に頼っているなら、ツールまでが安定したネット接続や分単位の請求に依存するのは、一番避けたいことのはずです。ローカルモードは完全にあなたの端末上で、完全にオフラインで動き、サーバーには何も送りません。MacがApple Silicon、あるいはPCがここ数年のものなら、日常の口述はローカルが文句なくこなし、クラウドは初期設定ではなく非常口になります。

3つの方法がどう違うのか、ここに示します。アプリが選ばせる以上、しっかり選んでほしいからです。

  • ローカル ParakeetNVIDIAのTDTエンジンで、約600 MB、そしてローカルで最速の選択肢です——CPUではWhisperより5〜10倍速い。英語に加えて他の24のヨーロッパ言語、合計25言語に対応。英語への翻訳機能はありません。英語か他のヨーロッパ言語で書くなら、これが速くて完全オフラインの選択です。
  • ローカル Whisper同じ端末ではParakeetより遅いですが、多言語ビルドは99言語に対応し、英語への翻訳ができます。英語専用ビルドは英語専用で、99言語ではありません。中国語、日本語、韓国語、あるいはParakeetにはできない翻訳作業には、これを選んでください。標準の英語モデルは約480 MBです。
  • クラウド(OpenAI、BYOK)最高の精度とウェブアクセス。自分のOpenAIキーを使い、料金はOpenAIから直接請求されます。文字起こしは標準で gpt-4o-mini-transcribe で動きます。インターネットが必要なので、端末から外に出る唯一の方法です。クラウド機能はWhisper Proの一部です。

退屈な真実は、日常の書き物にはローカルで十分だということです。どちらのローカルエンジンも完全に端末上で動き、これはいつも以上に大事です——医者へのメール、保険の書類、できれば業者のログを通したくないメッセージ、そのどれもがノートパソコンから出ていきません。あなたのコンピューターにはすでにマイクとCPUがあります。一段落のためにサーバーを噛ませる必要はありません。クラウドが本領を発揮するのは、難しい録音で最高水準の精度がほしいときや、話の途中でウェブから事実を引っ張ってくる必要があるときです。ローカルから始めて、ローカルでは物足りないときだけクラウドに手を伸ばしてください。

キーボードに戻らずに整えて編集する

話し言葉は雑なものです。「えーと」と言い、文を言い直し、言葉尻が消えていく。それを全部タイプで直さなければならないなら、打鍵をそっくり戻したことになります——タイプこそが避けたいことであるとき、それでは本末転倒です。だから、ここでは整える工程が、たいていの人にとってよりも重要になります。

Whisperには任意のAI処理があり、文字が届く前につなぎ言葉を削り、言い回しを整えるので、貼り付ける時点でほぼ仕上がっています。起動フレーズの「Hey whisper」と言えば、整えられた版が現れます。ローカルモデルでは、これがOllamaを通して、無料で、あなた自身の端末上で動きます。クラウドモードでは標準で gpt-5-mini です。どちらにしても、修正が減れば、打つキーも減ります。

Thinking...
そのまま

えーっと、はい、レポートはまあだいたいできてると思いますし、会議の前の木曜には送りますね、えっと、それで大丈夫なら

整えた後

レポートはだいたいできていると思います。会議の前の木曜にお送りします。それで大丈夫でしたら。

編集は、どんな音声ワークフローでも正直なところ弱点で、それを隠すつもりはありません。間違った一語を声で直すのは、手を伸ばして打ち直すよりも手間がかかります。たまの打鍵を惜しまないなら問題ありませんが、惜しむなら問題です。二つのことが助けになります。短く区切って口述すれば、間違いは一段落のやり直しではなく、ひと言の素早い録り直しで済みます。そしてAIの整えにつなぎ言葉や句読点を前もって拾わせれば、そもそも直すものが減ります。もっと深い音声編集——声の命令で単語を選んでまるごと置き換えること——は、次のセクションにある完全操作ツールの、まさに領分です。

その「話してから整える」流れこそ、どんなアプリにもきれいな文字を口述する日々の習慣の裏側にあるもので、長いメッセージが、打ち出さなければならない一段落ではなく、話した数文になります。

口述ツールが正しいツールでないとき

別々の方向を指す2つの道標。ツール選びの分かれ道を表している

このガイドで一番大事な正直さがここにあります。友人になら率直に言ってほしい一線です。コンピューター全体を手を使わずに動かす必要があるなら——文字を書くだけでなく、クリックし、スクロールし、カーソルを動かし、アプリを切り替え、声で操作する必要があるなら——Whisperは間違ったツールです。私たちはフォーカスされた欄に文字を口述します。コンピューターを操作はしません。完全なハンズフリー操作には、まさにそのために作られたソフトウェアがほしくなります。正直な答えは3つあります。

Windows 11には、OSに組み込まれたVoice Accessがあり、画面を操作し、クリックし、声で動き回ることも、口述もできます。Macでは、Voice Controlが同じことをします——システム設定のアクセシビリティから開けば、声の命令でクリックし、スクロールし、カーソルを動かせて、その上に口述も乗ります。どちらも無料で、どちらもコンピューター全体の操作のために作られているので、それが必要なら、何かをインストールする前にまずそこから始めてください。そして、最も多機能でスクリプトを書ける、ハンズフリーのセットアップ——視線追跡や物音によるクリックと組み合わせた声の命令、その一切合切をPythonでプログラム可能——を求めるなら、Talon VoiceがMac、Windows、Linuxで動き、本当のハンズフリー利用では別格です。

もっと小さな「使わなくていい場面」は、いつもと同じです。ときどき短いメッセージをボックスに入れるだけなら、OS組み込みの音声入力が無料でまかなえます。Windowsなら Windows キー + H のバー、Macなら音声入力のショートカットで、Apple Siliconでは端末上で動きます。専用ツールが本領を発揮するのは、量と手間においてです——つなぎ言葉の整え、キーを押し続けないためのタップ切り替え、オフライン動作、どのアプリでも同じ一つのホットキー。その基準より下なら、無料のものを使ってください。一行の返信のためにアプリを入れろとは言いません。

ここに来た理由が、手ではなく読み書きの困難であるなら、枠組みは少し変わります——書くことを助ける音声入力の論理がその場合を扱っていて、こちらも医療のガイドではなく生産性のガイドです。

キーボードは、コンピューターに文字を入れる一つの方法です。唯一の方法ではなく、それが選択肢にならない日には、そのことを思い出せるだけで救われます。ボックスに話しかけ、文字を得て、整えになめらかにしてもらい、短く区切って口述すれば、はぐれた一語は厄介事ではなく素早い録り直しで済みます。文字より先のすべて——声で機械全体を動かすこと——には、Voice Access、Voice Control、Talonがそのために作られていて、私は迷わずそちらを案内します。このガイドのほとんどを、私は片手で、自分が打っていないことを知りもしないし気にもしないアプリに向かって口述しました。それがコツです——カーソルは、その言葉がどうやってそこに来たのかを尋ねません。

次のメッセージを、キーボードなしで書く

手の届くホットキーを設定し、話すだけで、文字起こしがカーソルのあるどのアプリにも届きます——オフラインで、あなた自身の端末で。

サインインしたアカウントなら、ローカルモードは無料。始めるのにカードは不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。たぶん返信も口述で書いています。

さらに読む