Denys Medvediev

ガイド

音声入力 Roam Research で

Roam Research にはディクテーション機能が組み込まれていません。解決策はシステム全体で使えるツールです。ホットキーを押して話せば、書き起こしたテキストがカーソル位置に貼り付けられ、Roam のどのブロックでも使えます。短いメモなら OS のディクテーションも役立ちます。

最終更新: 2026年6月

暗いデスクのノートパソコンのそばに開いたノートとペン。ネットワーク型のノート術とディクテーションを思わせる

Roam Research での音声入力は、Roam そのものではなく、システム全体で使えるツールを通して実現します。Roam Research にはディクテーション機能が組み込まれていません。解決策は Whisper のようなツールです。ホットキーを押して話せば、書き起こしたテキストがカーソル位置に貼り付けられ、Roam のどのブロックでも使えます。短いメモなら OS 自身のディクテーションも役立ちます。

私は Roam で毎日のデイリーノートをつけています。リンクで思考をつなぐという発想が、アイデアの捉え方を本当に変えてくれたからです。すべてのブロックがノードであり、すべての [[page]] は後から手繰り寄せられる糸になります。ずっと欲しかったのは、ブロックに入力する代わりに、思いついたことをそのまま話して書き込むことでした。その設定を探しました。そんな設定はありません。Roam にはマイクのボタンがなく、かなり掘り下げて調べた結果、隠れているわけでもないと確信しています。

人々は「Roam Research の音声入力」を検索し、アプリ内に何も見つからず、トグルを見落としたのだと思い込みます。見落としてなどいません。そのトグルは最初から作られていないのです。良い知らせは、解決策はおよそ2分で済み、望むなら完全にオフラインで動き、おまけに開くほかのすべてのアプリでも使えることです。

このキーワードの周りを回りくどく扱うほとんどのページが、はっきりとは言わないことがあります。Roam のブロックは単なるテキストボックスで、Gmail や検索バーと同じものです。カーソル位置に貼り付けるディクテーションは、そのカーソルがどのアプリにあるかを気にしません。

だから本当の問題は「Roam で音声入力をどうやってオンにするか」ではありません。そんなスイッチはないのです。問題は「Roam の上でどのディクテーションツールを動かすか」であり、その答えは、無料で組み込み済みのものが欲しいのか、それともどこでも同じように動く1つのオフラインのホットキーが欲しいのかによります。そのすべてを順に説明し、2分でセットアップし、専用ツールを使わなくていい場面もお伝えします。

Roam Research にディクテーション機能は組み込まれている?

キーボードのそばで紙のノートに書き込む手。入力とディクテーションを対比している

いいえ。Roam Research には、音声でブロックに書き込むための音声テキスト変換、ディクテーション、音声入力の機能が組み込まれていません。ブロックにマイクのボタンはなく、音声コマンドもなく、隠れた設定もありません。Roam は入力されたテキストを受け取ります。ディクテーションのトグルを探してメニューをくまなく見てきたなら、もうやめて大丈夫です。そこにはないのです。

実際に存在するのは、説明に「音声」と書かれた Roam Depot の拡張機能と Live AI Assistant がいくつかあることで、ここで人は迷い込みます。それらは、すでに録音した音声ファイル — 会議、インタビュー、/upload でアップロードしたクリップ — を後からテキストに書き起こすもので、たいていは自分のキーで OpenAI Whisper API を呼び出します。便利ではありますが、ライブのディクテーションではありません。今日のデイリーノートにカーソルを置いて話し、言葉が現れるのを見ることはできません。それらは録音を処理するのであって、考えながら入力してくれるわけではありません。この2つを混同すると午後がまるごと潰れます。その午後は避けてほしいのです。

モバイルの話は別物で、間違ったデバイスで追いかけないように一文だけ書く価値があります。スマートフォンから音声テキスト変換のメモをグラフに送り込むコンパニオンのキャプチャアプリは存在しますが、それはスマートフォンの機能で、スマートフォンならどのみちキーボードのマイクを使うだけです。ほとんどの人が実際に過ごすデスクトップのグラフでは、Roam の上に乗るツールが必要です。誠実に分けられるカテゴリがいくつかあり、このガイドの残りでそれらを扱います。

ホットキーを押して話せば、テキストがブロックに着地する

これが仕組みのすべてで、いい意味で退屈です。ホットキーを押し、話し、離すと、書き起こしたテキストがカーソル位置 — フォーカスのあるテキストフィールド — に貼り付けられます。Whisper はキーを離した後に少しだけ余韻を保つので、最後の言葉が切れることはありません。OS のカーソル位置に貼り付けるため、Roam のブロックは単なる「どこかのテキストボックス」です。ブラウザ版でもデスクトップのラッパーでも、動きは同じで、Roam にすらわからない違いはありません。

そこがランディングページが過度に複雑にしてしまう部分です。Roam に入れる拡張機能も、貼り付ける API トークンも、見守る同期ジョブもありません。ブロックにカーソルがあり、話すと、言葉がブロックに現れます。話している間は小さなカプセルが表示されるので、聞いていることがわかります。

Cancel
録音オーバーレイ: 話している間に表示される小さなカプセル。Whisper が聞いていることがわかります。

ホットキーは、最初にきちんと押さえておく価値のある唯一の点です。Windows では Ctrl+Space、Mac では Command+Option で、話しながら押し続ける修飾キーのみのプッシュ・トゥ・トークです。どちらもすでに使っている何かとぶつかる場合は設定で変更できます。(下の娘がかつて、お絵かきアプリでホットキーが「効かない」と言ってきたことがあります。それはバグではなく競合でした。それで私は、普通の人はホットキーの競合とは何かさえまったく知らないのだと学びました。だから今はすべてのホットキーをカスタマイズできるようにしてあります。)もし以前に Mac でディクテーション を設定したことがあるなら、これは別のアプリに向けた同じ筋肉の記憶です。

2分でセットアップ (Windows または Mac)

必要なのは、Apple Silicon の Mac か Windows 10 以降の PC、動作するマイク、そしてブラウザで開いた Roam です。ローカルのパイプライン全体は、サインイン済みのどのアカウントでも無料で、サインアップ時に支払い方法を尋ねられることはありません。手順は次のとおりです。

ステップ1 — Whisper をインストールしてサインインする。

ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。カードは不要です。ローカルの書き起こしパイプライン全体がすぐに開きます。

アプリのトレイアイコンが現れ、セットアップウィザードがモデルの選択を促したら、うまくいったとわかります。

ステップ2 — 書き起こしの方式を選ぶ。

アプリが代わりに選んでくれることはありません。3つから選びます。クラウド (OpenAI、自分のキーを使う)、ローカル Parakeet、ローカル Whisper です。プライベートなデイリーノートには、まずローカルから始めてください。詳しくは2セクション下で。

モデルのダウンロードが完了し、準備完了と表示されたら、うまくいったとわかります。

ステップ3 — ホットキーを確認する。

Windows の既定は Ctrl+Space、Mac は押し続けるプッシュ・トゥ・トークの Command+Option です。Mac では、求められたらアクセシビリティの権限を許可してください。これがないと、カーソル位置への貼り付けがブラウザに届きません。

テスト録音が任意のテキストフィールドに貼り付けられたら、うまくいったとわかります。

ステップ4 — Roam のブロックにカーソルを置いて話す。

グラフを開き、ブロックをクリックし、ホットキーを押し続け、一文を話して、離します。書き起こしたテキストがカーソルのある場所、つまりブロックに現れます。

話した一文がテキストとして Roam のブロックに収まっていたら、うまくいったとわかります。

Whisper
設定画面を開いた本物の Whisper デスクトップアプリ。書き起こしと AI のパネルが表示されています。

時間がかかるのはモデルのダウンロードであって、セットアップではありません。それ以外は上の4ステップだけです。いったん動き出せば、思いついたことをグラフに書き留める行為は、入力の作業ではなく、話す作業になります。

Windows での音声入力 · Mac で

Roam の拡張機能 vs. システム全体のホットキー

このキーワードで上位に出るほとんどのページは、Roam Depot の拡張機能 — Live AI Assistant、Otter のインポーター、名前に「音声」が付いた何か — を勧めてきます。それらは良いツールですが、共通する構造的な落とし穴が1つあります。それらは、すでに録音した音声 — 会議のファイル、Otter のセッション、ブロックにアップロードしたクリップ — を書き起こすのであって、今まさに編集しているブロックへのライブの発話ではありません。録音し、それから書き起こし、それから結果を整えます。それはディクテーションではなく、書き起こしのワークフローです。それらは「1時間分の音声がある」という課題を解いているのであって、「この一文をデイリーノートに話して書きたい」ではありません。

システム全体のホットキーは、それをまるごと回避します。どのウィンドウが所有していようと OS のカーソル位置に貼り付けるので、Roam のブロックを埋める同じキーが、Gmail の作成欄も、Slack のメッセージも、そして コミットメッセージ も埋めます。1つのツールで、すべてのテキストフィールド、Windows でも Mac でも。アプリを切り替えても学び直すことは何もなく、何かが Roam だと知っている必要もありません。統合しているのはカーソルです。

書き起こしたい録音がほとんど — 通話、講義、すでに録ったボイスメモ — なら、ファイルに対して Whisper を呼び出す Depot の拡張機能が正しい形で、見てみる価値があります。本当にやりたいことが、新しいブロックに向かって声に出して考えること、それもライブで、になった瞬間、システム全体の方式が勝ちます。私は1時間におよそ40回もアプリを切り替えるので、覚えるべきディクテーションのボタンを40個も持ちたくない。だから1つのホットキーに手を伸ばします。

ローカルかクラウドか: プライベートなグラフにはどのモードか

Roam なら、まずローカルモードを試してください。グラフには、ろ過されていないものが溜まっていきます — 半分できかけのアイデア、会議の振り返り、他人のサーバーには絶対に置きたくない日記の一節。ブロックを公開する前に二度考えるようなものなら、それを書くために声をクラウド経由で流すことにもおそらく二度考えるはずです。Mac が Apple Silicon か、PC がここ数年のものなら、ローカルは日々のディクテーションを文句なくこなし、クラウドは既定ではなく非常口になります。

3つの方式がどう違うかを示します。アプリが選ばせる以上、うまく選んでほしいからです。

  • ローカル ParakeetNVIDIA の TDT エンジンで、およそ 600 MB、そして最速のローカルオプション — CPU 上で Whisper の5〜10倍速いです。英語に加えて他の24のヨーロッパ言語、合計25言語をカバーします。英語への翻訳はありません。英語か他のヨーロッパ言語で日記を書くなら、これが手早く完全にオフラインの選択肢です。
  • ローカル Whisper同じマシン上では Parakeet より遅いですが、多言語ビルドは99言語をカバーし、英語に翻訳できます。英語専用ビルドは英語専用で、99言語ではありません。中国語、日本語、韓国語、または Parakeet にはできない翻訳作業には、これを選んでください。既定の英語モデルはおよそ 480 MB です。
  • クラウド (OpenAI、BYOK)最高の精度とウェブアクセスがあり、自分の OpenAI キーを使い、OpenAI から直接請求されます。書き起こしは既定で gpt-4o-mini-transcribe で動きます。インターネットが必要なので、マシンの外に出る唯一の方式です。クラウドの領域は Whisper Pro の一部です。

退屈な真実は、ほとんどの人が Roam に入れる種類のテキストには、ローカルで十分だということです。どちらのローカルエンジンも、サーバーに何も送らず、完全にマシン上で動きます。クラウドが本領を発揮するのは、難しい録音で最高水準の精度が欲しいとき、または文の途中でモデルにウェブから事実を引っ張ってきてほしいときです。デイリーノートの習慣なら、ローカルから始めて、ローカルでは物足りないときだけクラウドに手を伸ばしてください。

句読点、ブロック、Roam の構文を声で

生のディクテーションは、つながりっぱなしの一文として出てきます。「オーケーじゃあアーキテクチャのドキュメントを見直してプロジェクトアルファのタグをつけて木曜にリマインドして」と話せば、それがどの音声エンジンも渡してくる句読点なしの壁です。それを整えるところで、方式が分かれます。

Windows の音声入力は話しながら句読点を加え、macOS のディクテーションは「comma」や「period」と言えば基本的な句読点を扱います。もっと重めの整え — 「えーと」を取り除き、つながりっぱなしを直し、話した段落をグラフに実際に残したいものに変える — には、Whisper が AI のパスを走らせられます。起動フレーズの「Hey whisper」と言えば、テキストは着地する前に整えられます。ローカルモデルではそれは Ollama を通して動き、クラウドモードでは既定で gpt-5-mini です。

Thinking...
生のまま

オーケーじゃあアーキテクチャのドキュメントを見直してプロジェクトアルファのタグをつけて木曜にリマインドしてえーとスタンドアップの前に

整えた後

オーケー、ではアーキテクチャのドキュメントを見直して、Project Alpha のタグをつけて、スタンドアップの前の木曜にリマインドしてください。

Roam 自身の構造 — ネストされたブロック、#tag と [[page]] のリンク、TODO のマーカー — については、正直な答えは、声がテキストを与え、Roam 自身の構文が構造を与える、ということです。一文をディクテーションし、それからいつものように Tab を打ってブロックをインデントし、# でタグを、[[ でページリンクを作ります。Roam のアウトライン構文を号令で生み出すディクテーションツールはありません。「ダブルブラケット プロジェクトアルファ と言えばリンクされるのを見て」と約束する人は、火曜日の日常ではなくデモを売っているのです。言葉は声で素早く書き留め、ブロックの形はすでに知っているキーで整えてください。

その同じ「話してから整える」流れは、グラフのはるか先でも効いてきます — その1つのホットキーで どのアプリにもきれいな文章をディクテーション できるので、長いブロックも、入力する段落の代わりに、話したいくつかの文になります。

Roam Research でディクテーションツールを使わなくていいとき

舗装路にチョークで描かれ、別々の方向を指す2つの矢印。ツールの選択を表している

ときには、正しいツールはすでにマシンにある無料のもので、そうでないふりをするのは不誠実でしょう。短いメモだけを Roam に落とすなら — 手早いデイリーノートの一行、二語のリマインダー — OS が無料でまかなってくれます。

Windows では、Windows キー + H を押すと、組み込みの音声入力バーがカーソルのある場所 — Roam のブロックを含む — どこにでも開きます。自分で句読点を打ち、短い区切りには十分です。落とし穴は、Microsoft のサーバーを経由しインターネット接続が必要なので、オフラインの選択肢ではないことです。グラフが半分プライベートな思考でいっぱいなときは、これがいつも以上に効いてきます。Mac では、ディクテーションを使えば、入力できる場所ならどこでも話してテキストを入れられます。システム設定のキーボードで設定し、Apple Silicon では一般的なテキストをデバイス上で処理できます。そして本当に持っているのが録音した音声 — 通話、講義 — なら、ファイルを書き起こす Roam Depot の拡張機能が、どんなライブのディクテーションツールよりも合います。

組み込みのものが痛みを生み始めたら、専用のシステム全体のツールに手を伸ばしてください。長いメモ、多言語の作業、Windows でのオフラインのプライバシー、または Roam でもメールでもエディタでも同じように動く1つのホットキーが欲しいとき。その基準より下なら、無料のものを使ってください。一行のリマインダーのためにアプリをインストールしろとは言いません。

同じトレードオフは、ほかの場所でもメモを取っているなら現れます — Obsidian へのディクテーション のロジックも同じです。そこでも、本当の統合はプラグインではなく、カーソルだからです。

さらに読む

Roam がマイクのボタンを出荷したことは一度もなく、これを書いた後では、これからも出さないだろうとかなり確信しています。出す必要がないのです。統合はカーソルだからです。ブロックに向かって話し、テキストを得て、すでに知っている [[ と # で形を整える。私はこのガイドのほとんどを、Roam ではないテキストボックスに、どのボックスか気にしないツールで口述し、それからまるごと自分のグラフに貼り付けました。それがこの手品のすべてです。

次の Roam のブロックで試してみてください

ホットキーを押し続け、話し、離す。書き起こしたテキストは、カーソルのあるブロックに — そしてほかのすべてのアプリにも — 着地します。

サインイン済みのどのアカウントでもローカルモードは無料。始めるのにカードは不要です。

Denys Medvediev の写真

Denys Medvediev

私はサポートメールを読む担当で、たぶんその返信もディクテーションで書いています。