チュートリアル
Evernoteの音声入力: ライブ入力と録音文字起こし
Evernote自体には、リアルタイムの音声入力エンジンはありません。デスクトップでは入力を担うのはmacOSの音声入力(ディクテーション)かWindowsの音声入力で、スマホではキーボードのマイクです。Evernote独自のAI Transcribeは、録音済みの音声を後から文字起こしします。このガイドでは、その2つの道筋をきっぱり分けて解説します。
最終更新:2026年6月

Evernoteの音声入力には、まったく異なる2つの仕組みがあり、多くの解説記事はそれを混同しています。Evernote自体にはリアルタイムの音声入力エンジンがなく、デスクトップでは入力を担うのはmacOSの音声入力(ディクテーション)かWindowsの音声入力、スマホではキーボードのマイクです。Evernote独自のAI Transcribeは、録音済みの音声を後から文字起こしします。
かつて私は「Evernoteの音声入力ボタン」を探して20分も費やした末に、そんなものは存在しないと認めました。隠し設定があるわけでもありません。デスクトップでタップするマイクはあなたのOSのものであり、Evernoteはそれが指し示す入力欄にすぎないのです。これはEvernoteへの批判ではありません。Evernoteはメモアプリであって、音声エンジンではないのですから。ただ、それはつまり、あなたが本当に求めているライブ音声入力の体験――話す、言葉が現れるのを見る、そのまま続ける――が、OSの提供する機能に完全に依存するということです。そしてデスクトップでは、それは止まっては始まりの繰り返しになります。
そこでこのガイドでは、問いを2つに分けます。考えながらノートにライブで音声入力したいなら、それは1つの道筋です。OS、あるいはホットキーを押している間だけ反応してカーソル位置に貼り付けるWhisperのようなシステム全体で使えるツールです。一方、すでに録音した会議やボイスメモがあって、それを文字に起こしたいなら、それはEvernote独自のAI Transcribeの出番で、その仕事は本当に得意です。ネット上の混乱の多くは、この2つを同じ機能として扱うことから生まれています。両者は別物です。
Evernoteの音声事情を、正直に

退屈ですが真実をお伝えします。Evernoteには、独自の常時稼働するライブ音声入力エンジンは搭載されていません。Evernoteのヘルプの文言自体が、あなたのデバイスに目を向けるよう案内しています――端末の音声認識を有効にして、それからマイクを使ってください、と。実際に仕事をしているのはOSなのです。
デスクトップでの「Evernoteの音声入力」とは、2つあるOSのツールのどちらかを指します。Macなら macOS の 音声入力(ディクテーション) で、これは短い区切りで文字起こしします――無音がしばらく続くと止まるので、その都度再開する必要があり、長文の音声入力は始まっては止まりの連続になります。Windowsなら音声入力(Win+H)またはVoice Accessで、無料の標準機能として、フォーカスされているEvernoteの入力欄に直接文字を打ち込みます。
モバイルでは、思っているよりもずっと単純です。iPhoneやAndroidで見かける「Evernoteの音声テキスト変換」は、キーボードの音声入力マイク――iOSキーボードのマイクやGboardのマイク――です。Evernoteは入力欄で、文字起こしはキーボードがやっています。
そしてもう1つ、これこそEvernote自身の機能というものがあります。音声録音とAI Transcribeです。これはライブ音声入力と最も混同されやすい部分なので、独立した節を設けるに値します。
Evernoteが実際に提供するもの:録音してから文字起こし
Evernoteには、本物の音声機能が確かにあります。ノートのエディターから、挿入(+)> 音声録音 を選ぶか、サイドバーの「…」メニューを使うか、/audio スラッシュコマンドを入力できます。入力しながら同時に録音することもでき、一時停止・再開・停止すると、そのクリップが添付ファイルとしてノートに保存されます。
クリップが保存されると「文字起こし」ボタンが表示され、Evernote AI Transcribe が文字起こしテキストをノートに落とし込みます。アップロードした音声・動画・画像ファイルもテキストに変換できます。上限は1録音あたり100 MBまたは60分です。
この流れをもう一度読んでください。そこにすべての要点があります。添付ファイルを録音し、それから文字起こしする。これが「録音してから文字起こし」です。話している間にカーソル位置に言葉が現れるのとは別物です。どちらも役に立ちます。ただ解決する問題が違います。録音したインタビューにはAI Transcribeが向いています。今まさに書いているノートにはライブ音声入力が向いています。
つまり残されたすき間は、デスクトップでのライブなカーソル音声入力です――OSが止まっては始まりのやり方で行い、Evernoteはまったく行わないもの。そのすき間を埋めるのが、システム全体で使えるホットキーです。
ホットキーでどんなEvernoteのノートにも音声入力する
ここでWhisperの出番です。WhisperはWindowsとmacOS向けのデスクトップアプリで、音声入力を1つのグローバルホットキーの後ろに置きます。キーを押しながら話し、離すと、クリックした入力欄ならどこでもテキストがカーソル位置に届きます。
デフォルトのホットキーはWindowsではCtrl+Space、macOSではCommand+Option――押している間だけ録音するプッシュ・トゥ・トークとして使い、離すと止まります。OSのレベルで動くので、SlackやGmail、エディターに貼り付けるのとまったく同じやり方でEvernoteのデスクトップアプリに貼り付けます。1つのホットキーで、あらゆるアプリに、アプリごとの設定は不要。Whisperはブラウザ拡張機能ではなくネイティブのデスクトップアプリなので、タブ内のEvernoteだけでなく、Evernoteのデスクトップアプリに音声入力できます。
正直な注意点を1つ。Whisperはフォーカスされている1つの入力欄に、一度に1つずつ貼り付けます――ノートのタイトルか本文か、カーソルがある場所にです。ノートのレイアウト全体を一度に埋めるわけではありません。言葉を入れたい場所をクリックして、それから話す。それだけです。
私が自分のツールに納得した決め手は「お弁当箱テスト」でした――タイプするには気恥ずかしい言い回しですが。ある火曜の夕方、子ども2人分のお弁当箱を準備しているところに、学校から8時までに返事が必要な許可証が届いたのです。片手でノートパソコンをつかみ、きゅうりを切る合間にホットキーを押して、そのままノートに音声入力しました――先生の名前のつづりを確認するために手を止めた部分も、下の子が「どうしてお月さまはときどきいないの」と聞いてきた部分も、ぜんぶ。ノートは書き上がり、お弁当箱もできあがりました。同じことが、以前は片手タイプで15分かかっていたのです。
この流れは、私の言葉を鵜呑みにしなくて大丈夫です。下の埋め込みは本物のデスクトップアプリです。言語を選び、設定を眺め、インストール後に手に入るものをそのまま確かめてください――登録不要、出荷される製品と一致するかどうか分からないスクリーンショットもなし。
ローカルモードとクラウドモードの両方で90以上の言語に対応し、多言語モデル系統では自動検出を含めて99以上に達します(英語専用モデルの各バリアントは、ただ1つの言語――英語――だけを扱い、ほかは何もしません)。Evernoteにノートを音声入力する大半の人にとって、言語数は決め手ではありません。EvernoteのOS音声入力もAI Transcribeも、多くの言語を扱えます。本当に効いてくる違いは、ライブで、システム全体で使えて、端末上で完結することです。
音声入力を自動で整える
生の話し言葉にはノイズが混じります。「えーと」、言い直し、うっかり声に出してしまった「カンマ」の部分。Whisperは生の文字起こしの上に、任意のAI整文パスをかけられます。そうすると、ノートに届く文章は、考えながら話した記録ではなく、書かれた文章として読めるようになります。
無料のローカル構成では、その整文はあなた自身のマシン上で動きます。Proでは、あなた自身のクラウドAPIキーを通して動き、ウェブからの回答も加わります。いずれにせよ任意です――オフにすれば、一字一句そのままの文字起こしが手に入ります。私はメールではオンに、一語一句正確に必要な引用ではオフにしています。
オフラインでプライベート:ノートはあなたのノートパソコンに留まる

1つだけ、はっきり旗を立てておきたい意見があります。クラウド専用の音声入力は、いつ文字起こしされてもおかしくないプライバシーの惨事です。あなたの給与のスプレッドシートも、子どもの学校へのメールも、下書き中のクライアント向けメモも――声でタイプしたかったというだけで、ベンダーのログを通過してよいものは1つもありません。
Whisperのローカルモードは完全にオフラインで動きます。文字起こしの間、インターネットは不要で、音声がマシンから出ることはありません。接続が必要なのは一度きりのモデルのダウンロードだけで、選ぶモデルによって140 MBから3 GBほどです。それ以降は、Evernoteのノートに音声入力するすべての言葉が、あなた自身のCPUで、ネットワーク通信ゼロで処理されます。
これが、Evernote AI Transcribeや、このテーマで挙がるクラウド文字起こしツールとの構造的な違いです――それらはあなたの音声をサーバーに送り、テキストにして返してきます。どのみち公開するポッドキャストなら、それで結構。けれど会議メモなら、私はローカルに留めます。端末上での高速な音声入力について、もっと広い視点での主張が読みたければ、声でもっと速くタイプする方法 にまとめてあります。
ローカルのパイプラインは、サインインしたユーザーには無料で、登録時にカードは不要です。クラウド機能はWhisper Proの後ろにあります――ここで私の挙げる数字を鵜呑みにするより、料金ページ で選択肢を見比べてください。
Whisperを使わず、EvernoteのAI Transcribeを使うべきとき

よくある1つの用途では、私はWhisperを使いません。あなたが実際に持っているのが録音――録った会議、ボイスメモ、スマホで収録した講義――で、それを文字に起こしたいなら、Evernote独自の AI Transcribe を使ってください。クリップをノートに録音する(またはファイルをアップロードする)、文字起こしを押す、するとEvernoteがテキストを落とし込みます。1録音あたり100 MBまたは60分までの音声を扱えます。これこそ「録音してから文字起こし」に適したツールであり、すでに使っているアプリの中にあります。
切り分けはすっきりしています。後から文字に起こしたい録音音声を、Evernoteの中で → AI Transcribe。ノートを書きながらライブで言葉が現れ、オフラインで、無料で、1つのホットキーがあらゆるアプリで効く → Whisper。あなたの本当のニーズが前者なら、2つ目のツールを入れる必要はありません。Evernoteがすでにカバーしてくれています。
Evernoteは音声入力エンジンを隠しているわけではありません。デスクトップではOSが止まっては始まりの区切りでライブの部分を担い、モバイルではキーボードが担い、AI Transcribeはすでに録音したものを扱います。どのネイティブ機能もきれいに埋めてくれないのが、今まさに書いているノートへの、ライブで、オフラインで、1つのホットキーで完結する音声入力です。それがすき間です。私はそのためのツールを作り、きゅうりを切る合間に許可証を音声入力しています。そしてそれは、ほかのあらゆるアプリでも効きます。Whisperの仕組みを見る、あるいは ダウンロード して、次のノートはタイプではなく音声入力してみてください。近いアプリについても、同じ方法で OneNoteの音声入力、Obsidianの音声入力、そして Macでの音声入力 をカバーできます。
次のEvernoteのノートを音声入力する
ノートをクリックして、キーを押し、話して、離す。文字起こしはカーソルのある場所に届きます――Evernoteでも、ほかのあらゆるアプリでも。
サインインしたアカウントなら、ローカルモードは無料。始めるのにカードは不要です。



