Denys Medvediev

ガイド

音声を文字に Standard Notes で

Standard Notes のデスクトップ版には、もともと音声入力機能がありません。解決策は、システム全体で使えるツールです。ホットキーを押して話せば、文字起こしされた文章がどのノートでもカーソル位置に貼り付けられます。すべてをローカルで処理すれば、音声がマシンの外に出ることはありません。これこそ暗号化ノートアプリの本質です。

最終更新: 2026年6月

暗い机の上で、ノートパソコンのキーボードに置かれた閉じた南京錠。プライベートで暗号化されたメモ取りを連想させる

Standard Notes での音声入力は、アプリ自体ではなく、システム全体で使えるツールを通して実現します。Standard Notes のデスクトップエディタには音声入力機能が組み込まれていません。Whisper のようなツールがそれを解決します。ホットキーを押して話せば、文字起こしされた文章がどのノートでもカーソル位置に貼り付けられます。ローカルで動かせば、音声がマシンの外に出ることはありません。

私がプライベートなメモを Standard Notes に移したのには、たった一つの理由がありました。すべてをノートパソコンから出る前に暗号化してくれるうえ、それを信用するしかないという状態に置かれずに済むからです。唯一物足りなかったのは、ノートにタイプする代わりに話しかけられないことでした。そこで音声入力の設定を探しました。ありません。Standard Notes は意図的に、すっきりしたエディタとそれ以外はあまり多くを提供しない設計になっていて、しばらくあちこち探した結果、マイクボタンを私から隠しているわけではないと確信しました。

人々は「Standard Notes 音声入力」と検索し、アプリ内に何も見つからず、トグルを見落としたのだと思い込みます。違います。そのトグルは最初から作られていません。良い知らせは、解決策が2分ほどで済み、完全にオフラインで動かせて、これから説明するとおりに設定すれば、すでにノートを暗号化しているのと同じマシンに音声をとどめておけることです。

ここで、このキーワードの周りを回りくどく書いているページのほとんどがはっきり言わないことを述べます。Standard Notes のエディタは、Gmail や検索バーと同じく、ただのテキストボックスです。カーソル位置に貼り付ける音声入力は、カーソルがどのアプリにあるかを気にしません。

つまり、本当の問いは「Standard Notes で音声入力をどうやってオンにするか」ではありません。スイッチなどないのです。問いは「その上でどの音声入力ツールを動かすか、そしてそのツールはこっそり音声をサーバーに送っていないか」です。標準で暗号化されているノートアプリにとって、この後半は普段以上に重要です。選択肢を一通り見て、2分で1つ設定し、専用ツールをまったく使わないほうがよい場合もお伝えします。

Standard Notes に音声入力は組み込まれている?

静かな部屋でノートパソコンに向かって考えながら話す人物。話すこととタイプすることを対比している

いいえ。Standard Notes のデスクトップアプリには、音声でノートに書き込むための音声テキスト変換、音声入力、ディクテーション機能が組み込まれていません。エディタにマイクボタンはなく、音声コマンドもなく、隠れた設定項目もありません。これは見落としではありません。Standard Notes は意図的にミニマルを貫いていて、なんでも詰め込んだワークスペースではなく、ただの暗号化エディタです。設定を隅々まで探して音声入力のトグルを見つけようとしているなら、もうやめて大丈夫です。そこにはありません。

ここで、Standard Notes が何を中心に作られているかを知っておくと役立ちます。ノートの本文は、デバイスから出る前にエンドツーエンドで暗号化されます。これがすべての売りです。あとから追加するどんな音声入力も、定義上その境界の外側に存在します。それはあなたの発話を文字に変える別のツールであり、その文字をキーボードのようにエディタへ渡しているだけです。本当に重要な問いは、エディタがあなたの声を聞けるかどうかではありません。その「聞く役」が音声をマシンにとどめるのか、それともどこかへ送るのか、です。この点を頭に置いておいてください。このガイドの残り全体を方向づけます。

間違ったデバイスで追いかけないよう、一文だけ書いておきます。スマートフォンでは、これらは一切必要ありません。スマホのキーボードのマイクをタップして、他のテキスト欄と同じように Standard Notes のノートに口述すればいいのです。Whisper は Windows と macOS 向けのデスクトップツールなので、スマホではキーボードのマイクが実用的なルートです。ほとんどの人が実際に書き込むデスクトップアプリでは、Standard Notes の上に乗るツールが必要になります。そして、そのツールはプライバシーを念頭に置いて選びたいところです。

ホットキーを押して話せば、文字がノートに着地する

これが仕組みのすべてで、いい意味で退屈です。ホットキーを押して、話して、離すと、文字起こしされた文章が、フォーカスのあるテキスト欄のカーソル位置に貼り付けられます。Whisper はキーを離した後も少しのあいだ録音を続けるので、最後の言葉が切れることはありません。OS のカーソル位置に貼り付けるので、Standard Notes のエディタは単なる「どこかのテキストボックス」にすぎません。デスクトップアプリでも Web 版でも、動きは同じです。

ここが、ランディングページが必要以上に複雑にしてしまう部分です。Standard Notes にインストールする拡張機能も、アプリに貼り付ける API トークンも、面倒を見るべき同期処理もありません。カーソルをノートに置いて話せば、その言葉がノートに現れます。話している間は小さなカプセルが表示され、聞き取っているのがわかります。

Cancel
録音オーバーレイ。話している間に表示される小さなカプセルで、Whisper が聞き取っていることがわかります。

最初に正しく設定しておきたいのはホットキーだけです。Windows では Ctrl+Space、Mac では Command+Option で、話している間だけ押し続けるプッシュトゥトークの修飾キーのみの操作です。どちらも、すでに使っている操作と衝突する場合は設定で変更できます。(うちの下の娘が一度、お絵かきアプリでホットキーが「効かない」と言ったことがあります。バグではなく衝突でした。それで、普通の人はホットキーの衝突が何なのか見当もつかないのだと知りました。だから今では、すべてのホットキーをカスタマイズできるようにしています。)これまでに Windows で音声入力 を設定したことがあるなら、同じ操作感覚を別のアプリに向けるだけです。

2分でセットアップ(Windows でも Mac でも)

必要なのは、Apple Silicon の Mac か Windows 10 以降の PC、動作するマイク、そしてデスクトップアプリか Web 版で開いた Standard Notes です。ローカルのパイプライン全体は、サインインしたアカウントなら無料で使え、サインアップ時に支払い方法を求められることもありません。手順は次のとおりです。

ステップ1 — Whisper をインストールしてサインインする。

ダウンロードページからダウンロードしてインストールし、無料アカウントを作成します。カードは不要です。ローカルの文字起こしパイプライン全体がすぐに使えるようになります。

アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促してくれれば、うまくいった証拠です。

ステップ2 — ローカルの文字起こし方式を選ぶ。

アプリが勝手に選ぶことはありません。3つから選べます。Cloud(OpenAI、自分のキーを使用)、Local Parakeet、Local Whisper です。プライベートなノートには、2つのローカル方式のどちらかを選んでください。理由は2つ先のセクションで詳しく説明します。

モデルのダウンロードが完了し、準備完了と表示されれば、うまくいった証拠です。

ステップ3 — ホットキーを確認する。

Windows の初期設定は Ctrl+Space、Mac はプッシュトゥトークとして押し続ける Command+Option です。Mac では、求められたらアクセシビリティの権限を許可してください。これがないと、カーソル位置への貼り付けが他のアプリに届きません。

テスト録音が任意のテキスト欄に貼り付けられれば、うまくいった証拠です。

ステップ4 — Standard Notes のノートにカーソルを置いて話す。

ノートを開き、エディタをクリックして、ホットキーを押し続け、一文話して、離します。文字起こしされた文章が、ノートのカーソル位置に現れます。

話した一文が、Standard Notes のエディタにテキストとして収まっていれば、うまくいった証拠です。

Whisper
設定画面を開いた実際の Whisper デスクトップアプリ。Transcription パネルと AI パネルが開いています。

時間がかかるのはモデルのダウンロードであって、セットアップではありません。それ以外は上の4ステップがすべてです。動き出してしまえば、思いついたことを暗号化ノートに書き留めるのは、タイプする作業ではなく話す作業になります。そしてローカルモデルを選んでおけば、その思いつきがノートパソコンの外に出ることはありません。

ノートと同じくらい、あなたの声もプライベートに保つ

ここは Standard Notes ユーザーにとって最も重要なセクションなので、率直に書きます。エンドツーエンド暗号化されたノートアプリを選んだのなら、話した言葉をクラウドの文字起こしサービス経由でそのアプリに入れるのは、矛盾しています。ノートの本文はデバイスから出る前に暗号化されますが、その設定では声は暗号化されません。玄関に鍵をかけながら、その鍵を開ける自分の音声を、他人のサーバーに残しておくようなものです。

ローカルモードがそのすき間を埋めます。Parakeet とローカルの Whisper という2つのローカルエンジンは、どちらも純粋な Rust 製の文字起こしコアを通して、完全にあなたのマシン上で動きます。音声のアップロードも、API 呼び出しも、ベンダーのログに残るアカウント紐付きの文字起こしもありません。ネットワークケーブルを抜いても音声入力は動きます。これが、私が本当に信頼するテストです。テキストは Standard Notes 内のカーソル位置に着地し、あとは他のすべてと同じように暗号化されます。声もノートも、最初から最後まで同じマシンの上にとどまります。

この件について私は中立ではないので、ふんわり語るのではなく実例を示します。以前一緒に仕事をしたチームが、社内向けの「AI 音声入力」の試作品を外部の請負業者に作らせたことがありました。発話のたびにクラウド API を呼ぶ作りで、「賢いリトライ」のロジックが少々強引すぎたため、同じ朝会の録音を4回も文字起こししていました。四半期末、マネージャーがクラウドのコスト管理画面を開くと、5桁の請求額が表示されていました。CFO の結論は「プロンプトを最適化しよう」ではなく、「そもそも会議をサーバーに送るのにお金を払わなければいい」でした。個人のメモ習慣では、リスクは請求額ではなく原則のほうにあります。アプリの存在理由がまさに「あなたのデータはあなたのもの」であるなら、それに文章を流し込む音声入力も同じ一線を守るべきです。

ローカルかクラウドか:暗号化ノートにはどのモード

Standard Notes なら、私はローカルから始めて、クラウドは例外として扱います。あなたがここにいる理由はプライバシーで、2つのローカル方式ならサーバーに一切触れない音声入力が得られます。クラウドモードはいくつかの点で確かに優れていますが、マシンの外に出る唯一の方式なので、初期設定として使うのではなく、意図して選ぶべきものです。アプリが選択を求めてくる以上、しっかり選んでほしいので、3つの違いを次に示します。

  • Local ParakeetNVIDIA の TDT エンジンで、約600 MB、ローカルでは最速の選択肢です。CPU 上では Whisper の5〜10倍高速です。英語に加えて24のヨーロッパ言語、合計25言語に対応します。英語への翻訳機能はありません。ノートを英語や他のヨーロッパ言語で書くなら、これが手早く、完全にオフラインで使える選択です。
  • Local Whisper同じマシンでは Parakeet より遅いものの、多言語版は99言語に対応し、英語への翻訳もできます。英語専用版はあくまで英語専用で、99言語ではありません。中国語、日本語、韓国語、あるいは Parakeet にはできない翻訳作業には、こちらを選んでください。標準の英語モデルは約480 MB です。こちらも完全にオフラインで動きます。
  • Cloud(OpenAI、BYOK)最高の精度と Web アクセスが得られ、自分の OpenAI キーを使って OpenAI から直接課金されます。文字起こしは初期設定で gpt-4o-mini-transcribe で動きます。インターネットが必要なので、音声はマシンの外に出ます。ローカルの約束を破る唯一の方式です。Cloud の機能は Whisper Pro の一部です。

身も蓋もない事実ですが、多くの人が暗号化ノートに書くたぐいのテキスト、たとえば日記、まとまりきっていないアイデア、クラウドのドキュメントには絶対に貼り付けないパスワードのヒントなどには、ローカルで十分です。2つのローカルエンジンは、サーバーに何も送らず完全にあなたのマシンで動きます。これはまさに、Standard Notes がノートそのものについて結んでいる契約と同じです。クラウドが真価を発揮するのは、難しい録音で最高水準の精度がほしいとき、あるいは文の途中でモデルに Web から事実を引いてきてほしいときです。プライベートなノートでは、めったに望ましいトレードオフではありません。

特定のノートで本当にクラウド級の精度が必要なら、誠実なやり方は、その録音についてだけ音声がマシンの外に出ると承知したうえで意識的に選び、プライベートな内容にはローカルに戻すことです。アプリがトグルをワンクリックの距離に保っているのは、まさにあなたが行き詰まらないようにするためです。私はたいていの日、ほとんどのノートでは一度も触りません。

マシンの外に出さずに、句読点と整文を

生の音声入力は、だらだらと続いた一文として出てきます。「えっとそれでリカバリーコードを暗号化ノートに移してセキュリティのタグを付けて来月ローテーションするようリマインドして」と話すと、どの音声エンジンも、句読点のないこの壁のような文章をそのまま返してきます。これを整えるところで方式が分かれます。そしてプライバシーアプリにとっては、その整文がどこで行われるかも重要です。

Windows の音声入力は話しながら句読点を追加し、macOS の Dictation は「カンマ」や「ピリオド」と言えば基本的な句読点を処理します。もっとしっかり整えたいとき、つまり「えーと」を取り除き、だらだらした文を直し、話した段落を実際にノートに残したい形にするには、Whisper が AI による処理をかけられます。起動フレーズの「Hey whisper」と言えば、テキストが着地する前に整えられます。ローカルモデルでは、その処理はあなた自身のマシン上の Ollama を通して動くので、整文すらオフラインのままです。クラウドモードでは初期設定で gpt-5-mini が使われ、その場合はテキストが外部に送られます。

Thinking...
AI 整文処理の最中のオーバーレイ。整えられたテキストがカーソル位置に着地する直前の様子。
生のテキスト

えっとそれでリカバリーコードを暗号化ノートに移してセキュリティのタグを付けて来月更新の前にローテーションするようリマインドして

整えた後

それでは、リカバリーコードを暗号化ノートに移し、セキュリティのタグを付けて、更新の前である来月にローテーションするようリマインドしてください。

正しい期待値を設定しておきます。音声入力で手に入るのは言葉であって、Standard Notes 独自の構造ではありません。アプリのタグ、ノートのタイトル、エディタの選択は、これまでどおりキー操作とクリックで自分で設定します。文章を口述してから、いつものやり方でタグを追加したりノートの名前を変えたりしてください。アプリの整理機能を命令ひとつで呼び出せる音声入力ツールなどありません。「セキュリティのタグを付けてと言えば勝手にファイリングされる」とうたう人は、毎日使える機能ではなくデモを売っているのです。言葉は声で素早く書き出し、ノートの形はすでに知っている操作で整えましょう。

この「話してから整える」流れは、ノートの枠を越えてしっかり役立ちます。同じひとつのホットキーで どんなアプリにも整った文章を口述 できるので、長い書き込みも、タイプする一段落ではなく、話す数文で済むようになります。

Standard Notes で専用の音声入力ツールを使わないほうがよいとき

舗道に異なる方向を指すように描かれた2本の矢印。ツール選びを表している

ときには、すでにマシンにある無料のものが正解で、それを認めないのは不誠実です。Standard Notes に短い書き込みだけを放り込むなら、つまり一言メモや二語のリマインダーなら、OS がそれを無料でまかなってくれます。

Windows では、Windows キー + H を押すと、組み込みの音声入力バーがカーソルのある場所に開きます。Standard Notes のエディタも含めてです。句読点も自動で付け、短い入力には十分です。ただし、この読者層に向けて特に指摘しておきたい点が一つあります。Win+H はあなたの発話を Microsoft のサーバー経由で処理し、インターネット接続を必要とするので、オフラインの選択肢ではありません。データがデバイスにとどまることを前提とするノートアプリにとって、これは本物のミスマッチです。プライバシーが要点なら、ローカルの Whisper モデルのほうが一貫した選択です。Mac では、Dictation を使えばタイプできる場所ならどこでも話して文字を入力でき、システム設定のキーボードでセットアップします。Apple Silicon では一般的なテキストはデバイス上で処理でき、ローカルに保てます。どちらも短い断片には本当に優秀です。

組み込み機能が物足りなくなったら、専用のシステム全体ツールに手を伸ばしましょう。長いノート、多言語作業、整文がほしいとき、あるいは Standard Notes でもメールでもエディタでも同じように振る舞うひとつのホットキーがほしいとき、しかもすべてをオフラインに保ちたいとき、です。その基準に届かないなら、無料のもので済ませましょう。ただし Windows では「無料」が「Microsoft 経由」を意味するという一点だけは覚えておいてください。一行のリマインダーのためにアプリをインストールしろ、とは言いません。

同じトレードオフは、他の場所にもノートを残している場合に現れます。Notion に口述するときのロジックもまったく同じです。どちらのアプリでも、本当の連携ポイントは組み込み機能ではなくカーソルだからです。

さらに読む

Standard Notes はついぞマイクボタンを出しませんでしたし、ミニマルでプライベートであり続けようとどれほど努力しているかを思えば、これからも出さないだろうと私は思います。出す必要がないのです。なぜなら、連携の正体はカーソルだからです。ノートに話しかけて文字を得て、ローカルに保てば、音声は暗号化をしているのと同じマシンにとどまります。このガイドのほとんどを、私は Standard Notes ではないテキストボックスに、どのボックスかを気にせず一音節もサーバーに送らないツールで口述し、その全部を自分の暗号化ノートに貼り付けました。それがこの仕掛けのすべてです。

次の Standard Notes のノートで試してみる

ホットキーを押し続けて、話して、離す。文字起こしされた文章は、カーソルのあるノートに着地します。ローカルに保てば、それはあなたのマシンにとどまります。

サインインしたアカウントならローカルモードは無料。始めるのにカードは不要です。

Denys Medvediev の写真

Denys Medvediev

私はサポートメールを読んでいる本人で、たぶんその返信も口述で書いています。