Denys Medvediev

ガイド

現代の 音声入力アプリ

音声入力アプリは、話した言葉をテキストに変換します。デスクトップ向けの優れたアプリはリアルタイムで動作します。ホットキーを押して話すと、すでに開いているアプリのカーソル位置にそのまま文字が入力されます。アップロードも、コピー&ペーストも、別ウィンドウも不要です。話すだけで、テキストが届きます。

最終更新:2026年6月

清潔な白いデスクに置かれたコンデンサーマイク、ノートパソコン、ヘッドホン。デスクトップ音声入力を想起させる構図。

音声入力アプリは、カーソル位置に話し言葉をテキストとして入力するツールです。このガイドでは、ホットキーを押して話すという基本動作の仕組み、OSに標準搭載されている無料のツール、専用アプリが真価を発揮する場面、主要アプリの率直な一言評価、そして専用アプリが不要なケースについて解説します。

この一文でカテゴリ全体を言い表せます。この記事の残りは、誰も教えてくれない部分です。実際の仕組み、PCに標準搭載されている音声入力ツールで十分な理由、そして専用アプリが必要になる瞬間について説明します。

最初に正直に言っておきます。私はこの種のアプリを自分で作っています。それが Whisper by Remskill です。どこに向いていて、どこに向いていないか、「OSの無料ツールを使うべき」という話も含めて、率直にお伝えします。

では、始めましょう。

ホットキーを押して話すと、カーソル位置に文字が届く

これがデスクトップ音声入力アプリの基本動作です。Windowsではデフォルトで Ctrl+Space を押します。これはカスタマイズ可能なプッシュ・トゥ・トーク ショートカットです。話し終えたらキーを離します。1秒ほどで、カーソルが点滅していた場所にそのままテキストが現れます。

Pasted
音声入力完了直後のオーバーレイ表示:録音された音声が文字に変換され、フォーカスがあったアプリのカーソル位置に直接入力されます。

「カーソル位置に、どのアプリでも」という部分が、本物の音声入力アプリと文字起こしウェブサービスを分ける点です。文字起こしツールは録音ファイルを受け取り、テキストの塊として返してきます。その後、自分でコピーしなければなりません。音声入力アプリはファイルを介しません。書いている場所がそのままテキストの届く場所になります。手紙を口述するのと、自分が読み上げた録音を後から文字起こしするのでは、まったく違います。

速度の差は、多くの人が思う以上に大きいです。一般的なタイピング速度は1分あたり約40語。話す速度は約145語です。つまり約3.5倍速い。1秒押すだけのツールが、午後の時間をまとめて節約してくれる理由がここにあります。たまったメール、会議のメモ、昼前に送る12本のセールスメール。

PCにはすでに搭載されている。それで十分なこともある

何かをインストールする前に知っておいてほしいことがあります。あなたのPCにはほぼ確実に音声入力ツールがすでに入っています。主要なOSはどちらも無料で提供しています。

Windows 11では、Windowsキー + H を押すと音声入力バーが表示されます。機能します。ただし一つ注意点があります。Azureのオンライン音声認識を使うため、インターネット接続が必要です。接続がなければ動きません。句読点の自動入力をオンにすることもできます。

Macでは、Apple Dictation がシステム設定のキーボード項目にあり、マイクキーまたは自分で設定したショートカットで起動できます。Appleの実装は、音声モデルをダウンロードすれば完全にオフラインで動作します。音声がデバイスの外に出ることはありません。対応言語は多く、Appleの機能対応ページによるとオンラインで54言語、オフラインで43言語に対応しています。ただし、カスタム語彙の登録、AI による文章の整形、使用する音声認識モデルの選択はできません。

正直なところ、短い・気軽な音声入力なら標準ツールで十分です。30語のメッセージ、クイック検索、一行の返信であれば、内蔵ツールは本当に使えます。無料で、すでに入っていて、メニューバーに4つ目のアイコンを追加しなくても母親にメッセージを送れます。それだけなら、このタブを閉じて Win+H かMacの音声入力キーを押してください。本気でそう思っています。

スマートフォンやタブレットでも音声入力を使うなら、デバイス別に合う音声入力アプリでプラットフォームごとに選び方を紹介しています。

専用音声入力アプリが真価を発揮する場面

では、標準ツールでは物足りなくなるのはいつでしょうか。主に3つの場面があります。1つ目は、本当の意味でのオフライン&プライバシー。Windowsの音声入力はクラウドが必要です。専用アプリなら全処理を自分のCPUで完結できるため、学校宛てのメールや作成中の契約書が外部に送信されることはありません。2つ目は、精度とコントロール:より大きなモデルを選んだり、誤認識されやすい固有名詞を登録したり、文章を自動で整形したりできます。3つ目は、標準ツールが静かに諦めている部分、つまりどのアプリでも常に同じように動作するという点です。

Whisper by Remskill が担うのはこの領域です。Windows と Apple Silicon 搭載の macOS 向けデスクトップアプリです。ローカル機能のパイプライン全体が、サインインするだけで無料で使えます。カード登録は不要です。ローカル音声認識エンジン、AIによる文章整形、履歴、カスタム語彙、最大3台のデバイス登録が含まれます。

Whisper
ローカルで動作する Whisper by Remskill。無料のローカルモデルでオフライン使用中でも、オプションのクラウドを使用中でも、ホットキー・オーバーレイ・設定は同じです。

エンジンは一つのデフォルトを押し付けられるのではなく、自分で選べます。ローカル Parakeet は最速の選択肢です。約600 MBで、CPUによる Whisper の処理と比べて5〜10倍高速。英語と24のヨーロッパ言語に対応しています。ローカル Whisper は処理が遅めですが、99言語に対応し、音声を英語に翻訳することもでき、カスタム語彙や細かな制御が可能です。最大モデルは約3 GBです。OpenAIの最新クラウドモデルとリアルタイムのウェブ回答が欲しい場合は、オプションのProクラウドサーフェスを使えます。自分のAPIキーを持ち込む形式で、Remskillは利益を取りません。3つの選択肢から、速度・言語・最新クラウド品質のどれを重視するかで選べます。

率直な意見:「AI音声入力」アプリの多くは、技術ではなく利益率で勝負している

一つだけ強い意見を持っていて、数字で裏付けます。過去2年で登場した音声入力アプリの多くは、内部的には同じものです。自分でも動かせる音声モデル、その上に乗ったきれいなUI、そしてコンピューティングコストとはほぼ無関係な月額料金。高い方のアプリは月額30ドル前後です。

プレゼン資料には「AIによる高精度な処理」と書いてあります。住宅ローンの審査書類にも同じことが書かれていそうです。その言葉はもう何も意味しません。クラウド専用アプリで実際に払っているのは、誰かがモデルを動かしてくれる利便性と、音声がノートPCの外に出るというプライバシーコストです。扱う内容がデリケートなら、それは利便性ではなくリスクです。

だから私は「無料のローカルが出発点であり、有料はその先の選択肢」という立場を変えません。ノートPCにはマイクもCPUもあります。1段落の音声入力のために、サーバーを経由する必要はありません。

他の音声入力アプリを率直に一言ずつ紹介する

選ぶ前に全体像を把握しておきましょう。名前を出す価値のあるアプリを、それぞれ一行で正直に評価します。

superwhisper成熟したクロスプラットフォームアプリ(Mac、Windows、iOS対応)。リアルタイム音声入力とファイルの文字起こしの両方に対応し、ローカルモデルでオフライン動作も可能。本当に優れた選択肢です。すでに使っていて満足しているなら、乗り換える理由はありません。

Apple Dictation無料で macOS に内蔵。モデルをダウンロードすれば完全にオフライン動作が可能。カスタム語彙もAI整形もありませんが、短い入力なら大半の人にはこれで十分です。

Windows Voice Typing(Win+H)無料で Windows 11 に内蔵。Win+H で起動しますが、Azure へのオンライン接続が必要。ネット環境があれば問題なし、機内では使えません。

Dragon(Nuance)業界の老舗。現在は Windows 専用のプロ向け製品(Dragon Professional v16)で、価格は要問い合わせ。ハンズフリーの音声コマンドでは今も最高クラスで、最大99%の精度を謳っています。PC全体を音声で操作したいなら、他とは別格の存在です。

Wispr Flow洗練されたクラウド型アプリで、先ほど指摘した月額30ドル前後の価格帯。マーケティングサイトは上手くできています。

いくつか省きました。リストを暗記する必要はありません。「音声入力アプリ」という言葉が、無料の内蔵ツールからオープンソース、洗練されたサブスクリプション、エンタープライズ向け音声コマンドスイートまでを覆い隠していることを知っていればいいのです。自分が実際に使う内容で選んでください。最初に目についたトップページで選ばないように。

「キーを一つ押すだけ」が思ったより難しい理由

短い話をします。それが私が細部にこだわる理由だからです。ある土曜日、7歳の娘にアプリを渡しました。デモは一回きり:押して、話して、離す、入力される。彼女は祖母に、抜けた歯のこと、歯の妖精の相場、ダンス教室のことを書いた90語のメールを、一度も質問せずに書き上げました。

2日後に娘が戻ってきました。「お絵かきアプリでホットキーが動かない」と。普通の人はホットキーの競合が何かを知りません。動かなくなった、とだけ感じます。その夜、ホットキーのカスタマイズ設定を追加しました。音声入力アプリは細部で成功するか失敗するかが決まります。予測できなかった競合、Windowsで一度起きた幽霊のようなキー離しイベントでハンドラーが1回の押下で6回発火し、数日と300msのデバウンスで解決した件。私は修士号を持っています。それでもデバウンスには頭を下げることになりました。

音声入力アプリが不要なとき

ほとんどの記事が飛ばすところなので、はっきり書きます。以下のどれかに当てはまるなら、専用の音声入力アプリは必要ありません。

  • 短くて気軽なものだけ話す。メッセージ、検索、一行の返信。内蔵ツールが無料で対応します。
  • 常時オンラインで、機密性の高い内容には触れない。その場合、クラウドの内蔵ツールや有料のクラウド専用アプリで十分です。ローカルのメリットはほとんどありません。
  • 一箇所、たとえば1つのブラウザタブ内でしか音声入力しない。その場合、ブラウザ拡張機能でシステム全体のアプリなしに対応できます。たとえば Voice In は、ブラウザ内でのみ動作するChrome拡張機能です。
  • テキスト入力だけでなく、PC全体をハンズフリーで操作したい。それは音声コマンドの領域であり、Dragon のほうが音声入力特化ツールよりも優れています。

専用アプリがコスパを発揮するのは、より長く、より頻繁に、よりプライベートに、複数言語で使う場面、つまり毎日ちゃんとした段落を音声入力していて、データをPCの外に出したくない段階からです。その手前なら、お金は使わなくていいです。無料のオプションをより詳しく比較したい場合は 無料の音声入力ソフトウェアガイド、より広い視点で見たい場合は 音声入力ソフトウェアの比較、特定のアプリから来た方には superwhisper の代替アプリの解説もあります。

一つだけ覚えてほしいこと

音声入力アプリとは「キーを押して話すと、入力中の場所に文字が現れる」ツールです。PCに内蔵されているものが、シンプルな機能を無料で提供しています。専用アプリが価値を持つのは、オフラインのプライバシー、本格的な多言語対応の精度、またはどのアプリでも同じ動作が必要なときです。不要なときは、使わなくて構いません。

Whisper by Remskill がローカルパイプライン全体を無料にしているのはまさにその理由からです。支払う前に、自分にとって必要なラインがどこにあるか確かめられるべきだと思うからです。オプションのクラウド Pro プランの料金は料金ページをご確認ください。7歳の娘は1回の土曜日でラインを見つけました。あなたはもっと早く見つかるはずです。

次の段落はタイピングではなく音声で入力してみる

Whisper by Remskill をダウンロードして、カード登録なしでアカウントを作成し、ホットキーを押して話してみてください。ローカルパイプライン全体が無料なので、支払う前に自分のラインを確かめられます。

ローカル音声入力は無料。カード登録不要。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読むのは私です。おそらく返信も音声入力で書いています。

参考資料