ガイド
音声からテキストへ ノートを取るために
入力する代わりに、話してノートを取る。システム全体で使えるホットキーが、どんなノートアプリでもカーソル位置に言葉を貼り付けます — Notion、Obsidian、Apple Notes、OneNote、プレーンテキスト。アプリの切り替えも、アプリごとのプラグインも不要。話し終わった後は、AI が頭の中をそのまま吐き出したメモを整えてくれます。
最終更新: 2026年6月

ノート取りのための音声からテキストへの変換は、ノートアプリ自体ではなく、システム全体で動くツールを通して機能します。ホットキーを押して話せば、文字起こしされたテキストが、その時フォーカスのあるアプリのカーソル位置に貼り付けられます — Notion、Obsidian、Apple Notes、OneNote、あるいはプレーンテキストのファイル。ローカルモデルならオフラインかつ無料で動き、AI のひと手間が話した下書きを整えてくれます。
たいていのノート取りは、ひと手間多い「ただの入力」です。何かを思いつき、アプリを開き、目的のページを探し、その考えを打ち込む — 指が追いつく頃には、思いついた考えはもう半分蒸発しています。私が見つけた一番速いやり方は、思いついた瞬間にそれを声に出し、たまたま開いているウィンドウに向かって話して、言葉がそのまま文字になって落ちてくるのを待つことです。
「ノート取りのための音声からテキスト」と検索する人は、一番ディクテーションが優れたアプリを一つ選ぼうとしています。でも、それは問いの立て方が間違っています。デスクトップで優れた標準ディクテーションを備えたノートアプリはほとんどなく、備えているものもそのアプリの中でしか動きません。本当にどこでも同じように動くものは、アプリの機能ではありません。それはカーソル位置に貼り付けるホットキーであり、そのカーソルは自分がどのノートアプリの中にいようと気にしないのです。
ここが、このキーワードの周りで言葉を濁すたいていのページがはっきり言わない部分です。どのアプリでも、ノートとは一つのテキストボックスです。Notion のエディタはテキストボックス。Obsidian のノートもテキストボックス。Apple Notes、OneNote、Stickies のウィンドウ、どんなエディタで開いた .txt ファイルも — すべてテキストボックスです。カーソル位置に貼り付けるディクテーションは、それがどれなのかを気にしません。
だから本当の問いは「どのノートアプリの音声入力が一番優れているか」ではありません。「それらすべての上で、どのディクテーションツールを走らせるか」です。答えは、システム全体で動き、望むならオフラインで動き、話したあとの乱れた文を整えてくれるツールです。これから、なぜそうなのか、どうやるのか、2分でできるセットアップ、それぞれのノートアプリへの落とし込み方、そして — 他の誰も書かない部分 — いつ専用ツールをまるごと使わずに済ませるべきかをお見せします。
なぜノートを入力せずに話すのか

ノートアプリが本当にやっている仕事は、アイデアが消える前に捕まえることです。ボトルネックはアプリではありません。思いついてから書き留めるまでの「ずれ」です。入力速度は、たいていの人で1分あたり40語くらい。話す速度は1分あたり145語くらい。これは小さな差ではありません。アイデアを丸ごと捕まえるか、キーボードまでの旅を生き延びた半分だけを捕まえるか、その違いです。
ディクテーションは、この「ずれ」を二つの面で埋めます。一つは純粋な速さ — ひと段落のノートが、1分の入力ではなく15秒の発話で済みます。もう一つはもっと静かで、こちらの方が大事です。手がふさがっているときでも記録できるのです。ホワイトボードの前に立っているとき、犬の散歩中、子どもを寝かしつけた後の片づけをしているとき — その日唯一のいいアイデアがようやく降りてくる瞬間。座ってノートを取る必要はありません。ただ、それを口にすればいいのです。
それから手そのもののこともあります。午後3時には手首が疲れているなら、ノートを口述するのは、これ以上キーを打つ山を積み上げずに作業を続ける方法になります。これを医学的な何かのように飾るつもりはありません — あくまで生産性の話です。キーを打つ回数は減り、ノートは同じ。長い記録作業のあと、手がなんともないというだけで、十分な理由になります。
ホットキーを押して話せば、テキストがノートに落ちる
これが仕組みのすべてで、いい意味で退屈です。ホットキーを押して話し、離すと、文字起こしされたテキストが、フォーカスのあるテキスト欄のカーソル位置に貼り付けられます。Whisper はキーを離したあとも少しだけ「しっぽ」を待つので、最後の言葉が切れません。OS のカーソル位置に貼り付けるので、Notion のブロックも、Obsidian のノートも、Apple Notes のカードも、すべてただの「テキストボックス」です。同じキー、同じ動き、どのアプリでも。
ここが、ランディングページが過剰に複雑にしてしまう部分です。ノートアプリに入れるプラグインも、貼り付ける API トークンも、世話を焼く同期ジョブもありません。カーソルがノートの中にあって、話せば、言葉がノートに現れます。話している間は小さなカプセルが表示され、ちゃんと聞いていることが分かります:
ホットキーは、最初にきちんと決めておく価値のある唯一のものです。Windows では Ctrl+Space、Mac では Command+Option — 話しながら押し続ける、修飾キーだけのプッシュ・トゥ・トークです。どちらも、すでに使っている何かとぶつかるなら設定で変更できます。(うちの下の娘がかつて、お絵かきアプリでホットキーが「効かない」と言ってきたことがありました。あれはバグではなく競合で、それで私は、普通の人はホットキーの競合が何なのかすら知らないのだと学びました。だから今では、どのホットキーもカスタマイズできます。)もしあなたがWindows でのディクテーションやMac でのディクテーションを設定したことがあるなら、これは同じ体に染みついた動きを、すべてのアプリに一度に向けたものです。
2分でセットアップ (Windows でも Mac でも)
必要なのは、Apple Silicon の Mac か Windows 10 以降の PC、使えるマイク、そして開いたノートアプリ — どれでも構いません。ローカルのパイプライン一式は、サインインしたアカウントならどれでも無料で、サインアップ時に支払い方法を聞かれることもありません。手順は次のとおりです。
ステップ1 — Whisper をインストールしてサインイン。
ダウンロードページから入手し、インストールして、無料アカウントを作成します。カードは不要。ローカルの文字起こしパイプライン一式がすぐに使えるようになります。
アプリのトレイアイコンが現れ、セットアップウィザードがモデルの選択を促してきたら、うまくいった合図です。
ステップ2 — 文字起こしの経路を選ぶ。
アプリが代わりに選んでくれることはありません。三つから選びます: クラウド (OpenAI、自分のキーを持ち込み)、ローカル Parakeet、ローカル Whisper。プライベートなノートなら、まずはローカルから — これは二つ先のセクションで詳しく説明します。
モデルのダウンロードが完了し、準備完了として表示されたら、うまくいった合図です。
ステップ3 — ホットキーを確認する。
Windows の初期設定は Ctrl+Space、Mac は Command+Option を押し続けるプッシュ・トゥ・トークです。Mac では、求められたらアクセシビリティの許可を与えてください。これがないと、カーソル位置への貼り付けが他のアプリに届きません。
テスト録音がどれかのテキスト欄に貼り付けられたら、うまくいった合図です。
ステップ4 — ノートにカーソルを置いて話す。
使っているノートアプリを開き、ノートをクリックし、ホットキーを押し続け、一文を話して、離します。文字起こしされたテキストがカーソルのある場所に現れます。
話した一文がテキストとしてノートに収まっていたら、うまくいった合図です。
時間がかかるのはモデルのダウンロードで、セットアップそのものではありません。それ以外は上の四つのステップだけです。動き出してしまえば、どのノートアプリにも考えを記録することが、入力作業ではなく、話す作業に変わります。
Notion、Obsidian、Apple Notes、OneNote — どれも同じホットキー
システム全体のホットキーがアプリごとの機能に勝つ理由は、もう覚え直さなくていいからです。独自のディクテーションを持つ数少ないノートアプリも、そのアプリの中でしか動かず、しかも大半はデスクトップにそれすら備えていません。カーソル位置に貼り付けるホットキーが一つあれば、今朝どのアプリを開いたかに関わらず、流れはまったく同じです。
Notion では、どれかのブロックかデータベースのフィールドをクリックし、キーを押し続けて話せば — テキストがブロックに落ちます。Obsidian では、ノートにカーソルを置けば、入力したのと同じように言葉がマークダウンに収まります。Apple Notes も OneNote も普通のテキスト領域なので、カーソルがそこで文字起こしを受け止めます。どんなエディタで開いたプレーンな .txt ファイルでさえ動きます。カーソル位置に貼り付けるツールにとって、テキストファイルは凝ったエディタと何ら変わらないからです。アプリごとの手順については、同じ流れをNotion へのディクテーションとObsidian へのディクテーションでも解説しています。
ここには、無料で手に入る生産性の一手が隠れています。たいていの人のノートは、二つか三つのアプリに分かれています — 仕事のノートは一つに、個人のものは別に、素早いメモはまた別に。アプリごとのツールなら、各アプリが音声に対応している必要があり、毎回ボタンを切り替えることになります。ホットキーなら、同じ動作がそのすべてを満たし、メールやチャットアプリも満たします。なぜなら音声入力は本当のところノートアプリの話ではないからです — カーソルの話なのです。私は1時間に40回くらいアプリを切り替えますが、覚えておくべき40種類のディクテーションボタンなど欲しくありません。
ローカルかクラウドか: プライベートなノートにはどのモード
ノートには、まずローカルモードを試してください。ノートアプリに入れるものの多くは、まさに他人のサーバーには絶対に置きたくない類のものです — 形になりきっていないアイデア、給料の数字、書きにくいメールの下書き、ある人についての考え。それをすべてローカルのノートファイルに置いておきながら、そこへ届けるために音声をクラウド経由で流すのは、奇妙な選択でしょう。Mac が Apple Silicon なら、あるいは PC がここ数年のものなら、ローカルは日々のノート記録を文句なくこなし、クラウドは初期設定ではなく非常口になります。
三つの経路がどう違うのか、ここで示します。アプリが選ばせる以上、うまく選んでほしいので:
- ローカル Parakeet — NVIDIA の TDT エンジンで、およそ 600 MB、ローカルでは最速の選択肢 — CPU 上の Whisper より5〜10倍速い。英語に加えて他のヨーロッパ言語24種、合計25言語に対応。英語への翻訳機能はありません。英語か別のヨーロッパ言語でノートを取るなら、これが手早く、完全にオフラインの選択肢です。
- ローカル Whisper — 同じマシンでは Parakeet より遅いものの、多言語ビルドは99言語をカバーし、英語への翻訳もできます。英語専用ビルドは英語専用で、99言語ではありません。中国語、日本語、韓国語、あるいは翻訳作業を選ぶならこちら — Parakeet にはできない仕事です。標準の英語モデルはおよそ 480 MB。
- クラウド (OpenAI、BYOK) — 最高の精度とウェブアクセス。自分の OpenAI キーを使い、料金は OpenAI から直接請求されます。文字起こしは初期設定で gpt-4o-mini-transcribe 上で動きます。インターネットが必要なので、唯一マシンの外に出る経路です。クラウドの機能は Whisper Pro の一部です。
退屈な真実ですが、たいていの人がノートに入れる類の文章なら、ローカルで十分です。どちらのローカルエンジンも、サーバーには何も送らずに完全にあなたのマシン上で動きます。ノートがプライベートなら、それこそが肝心な点です。クラウドが出番を得るのは、難しい録音で最高水準の精度が欲しいときや、文の途中でモデルにウェブから事実を引っ張ってきてほしいとき。日々のノート習慣には、まずローカルから始め、ローカルでは物足りなくなったときだけクラウドに手を伸ばしてください。
話して吐き出した頭の中を、整ったノートに変える
そのままのディクテーションは、ひとつながりの文として出てきます。「えっとローンチのために三つまず価格ページ次にベータリストにメール三つ目は印刷屋に電話するのを思い出させて」と言えば、それがどんな音声エンジンも渡してくる、句読点のない壁です。話して吐き出した頭の中は、作るのは速く、読むのは醜い。それを整えるところで、経路が分かれます。
Windows の音声入力は話すそばから句読点を加え、macOS のディクテーションは「カンマ」や「ピリオド」と言えば基本的な句読点を扱います。もっと重めの整理 — 「えーと」を取り除き、ひとつながりの文を直し、話した段落を実際に残しておきたいものに変える — には、Whisper が AI のひと手間を走らせられます。起動フレーズ「Hey whisper」と言えば、テキストが落ちる前に整えられます。ローカルモデルなら Ollama を通して動き、クラウドモードでは初期設定で gpt-5-mini です。
えっとローンチのために三つまず価格ページ次にベータリストにメール三つ目は印刷屋に電話するのを思い出させてえっと金曜までに
ローンチのために三つ。まず、価格ページ。次に、ベータリストにメール。三つ目に、金曜までに印刷屋へ電話するのを思い出させること。
ここで正直な限界を。ディクテーションが与えてくれるのは言葉です — きれいで、句読点の付いた言葉。ノートアプリの構造は与えてくれません。整理のひと手間は、ひとつながりの文を整った一文に変えられますが、Notion のトグルを作ったり、Obsidian の箇条書きをインデントしたり、OneNote のチェックボックスにチェックを入れたり、見出しを適用したりはしません。それは各アプリ自身のショートカットがやることです。一文を口述したら、Tab を押して入れ子にし、構造が欲しければ # や - を打つ — いつもどおりに。「リストを作って、と言えばそのまま整形されるのを見ていて」と約束する者は、火曜の現実ではなくデモを売っています。言葉は声で素早く落とし、ノートはすでに知っているキーで形を整えましょう。
この「話してから整える」流れは、ノート取りをはるかに超えて役立ちます — 一つのホットキーでどんなアプリにもきれいな文章を口述することができるので、長いノートは、打ち込む一段落ではなく、話す数文になります。
ノートにディクテーションツールを使わない方がいいとき

ときには専用のディクテーションツールが間違った答えで、そうでないふりをするのは不誠実です。よく出てくるケースが二つあり、どちらでも私は別の方を勧めます。
一つ目は、後で文字起こしするために会議や講義を録音すること。それは別の仕事です。ディクテーションは、あなたが話すことをリアルタイムでカーソル位置に打ち込みます。隅に座って複数人の90分の会話を捉え、後で話者ラベル付きの文字起こしを渡してくれるわけではありません。それには、そのために作られた文字起こしツールが要ります — 複数話者対応、会議後の要約、ぜんぶ込み。部屋を録音するのにディクテーションのホットキーに手を伸ばさないでください。形が違います。二つ目は、スマホでの素早い記録。Whisper はデスクトップ専用で、Windows と macOS のみ。だから、列に並んでいて何か思いついたなら、スマホのキーボードに付いているマイクが、もうどのノートアプリにも無料で口述してくれます。それを使ってください。スマホで作った一行の記録のために、デスクトップツールを入れろなどとは言いません。
それに、デスクトップ上での短いノートなら、標準機能で十分です。Windows では、Windows キー + H でカーソルのある場所に音声入力が開き、自分で句読点を打ってくれます — 難点は、Microsoft のサーバーを経由し、インターネットが要ること。つまりオフラインではありません。Mac では、ディクテーションがどのテキスト欄でも動き、システム設定のキーボードでセットアップでき、Apple Silicon なら一般的な文章はデバイス上で処理できます。標準機能がつらくなり始めたら、システム全体のツールに手を伸ばしてください: 長いノート、多言語での記録、Windows でのオフラインのプライバシー、あるいは、どのノートアプリでも同じように振る舞う一つのホットキーが欲しいとき。その線を下回るなら、無料のものを使ってください。
ディクテーションの大半が一つの特定のアプリに収まるなら、Obsidian へのディクテーションに絞った手順が、ローカルファースト型の単一マークダウンアプリについて、同じ「カーソルこそが連携」の理屈を解説しています。
さらに詳しく
どのノートアプリも、素晴らしいマイクボタンを作る必要はありません。カーソルこそが連携だからです。ノートに話しかけ、テキストを得て、すでに知っているショートカットで形を整える。このガイドの大半も、どのボックスかを気にしないツールでテキストボックスに口述し、それをまとめて自分のノートに貼り付けました。唯一やってくれなかったのは、ノートを私の代わりに取ることくらいで、それはたぶん、その方がいいのでしょう。
次のノートを、話して取ろう
ホットキーを押し続け、話して、離す。文字起こしされたテキストが、カーソルのあるノートに落ちます — Notion、Obsidian、Apple Notes、OneNote、プレーンテキスト、そしてそのほかのどのアプリにも。
サインインしたアカウントならローカルモードが無料。始めるのにカードは不要です。



