Denys Medvediev

ガイド

OpenAI Whisper を Windows で

OpenAI Whisper は MIT ライセンスで公開されている無料のオープンソース音声認識モデルです。Windows では通常、Python とコマンドラインを使って音声ファイルを文字起こしします。Whisper by Remskill はそのモデルをデスクトップアプリにまとめているので、代わりにあらゆるアプリへその場で話して入力できます。

最終更新: 2026年6月

机の上でコードエディタを表示している Windows ノートパソコン。すっきりとしたディクテーション作業環境を思わせる様子

OpenAI Whisper は MIT ライセンスで公開された無料のオープンソース音声認識モデルです。Windows では通常 Python とコマンドラインを使い、指定した音声ファイルを文字起こしします。Whisper by Remskill はそのモデルをデスクトップアプリにまとめているので、代わりにあらゆるアプリへその場で話して入力できます。

OpenAI Whisper は無料のオープンソースモデルです。買ったばかりの Windows マシンで公式版を動かすには、ファイルを文字起こしするのに Python、ffmpeg、そしてコマンドラインが必要になります。手元に音声ファイルがあるなら、Buzz や Whisper Desktop のような無料の GUI ツールで対応できます。話すだけで、その言葉があらゆるアプリのカーソル位置に流れ込んでいくのを見たいなら、Whisper by Remskill が同じモデルを、ビルド作業なし・無料のローカルプランつきでまとめています。

「OpenAI Whisper for Windows」が指しているもの

身も蓋もない話ですが、「OpenAI Whisper」は同じ名前をまとった2つの別物であり、検索結果は毎日この2つを混同しています。

1つ目はモデルです。Whisper は OpenAI が MIT ライセンスでオープンソース化した音声認識モデルで、コードも学習済みの重みも、どちらも無料でダウンロードして使えます。tiny、base、small、medium、large、turbo の6サイズで提供され、そのうち4つには英語専用の派生版があり、速度と精度を引き換えにできます。多言語に対応し、フラグを1つ指定すれば音声を英語へ翻訳することもできます。これは正真正銘すごいことで、しかも正真正銘無料です。

2つ目は、実際にそれを動かす方法です。公式の Whisper は Python パッケージです。pip でインストールし、その横で ffmpeg というコマンドラインツールもインストールし、それからターミナルで音声ファイルを渡してやります。「ターミナル」「pip」「ffmpeg」という言葉を聞いただけで、予定になかった土曜日がつぶれそうな予感がするなら、この記事がまさに扱おうとしている隔たりにたどり着いたということです。コマンドラインとは、クリックする代わりにコンピュータへ命令を打ち込むためのツールです。Windows ユーザーの多くは、わざわざそれを開いたことなど一度もありません。

つまり、誰かが「OpenAI Whisper for Windows」と Google に打ち込むとき、たいていは2つのうちどちらかの答えを求めています。すなわち、コンピュータサイエンスの学位なしに、この無料モデルで自分のファイルを文字起こしするにはどうすればいいのか。あるいは、ただ話して言葉が出てくればいいのだけれど、これでそれができるのか。これらは別々のニーズであり、求めている道具も違います。本記事では両方に答え、それぞれでどちらの道具が勝つのかを正直にお伝えします。

無料のモデルは素晴らしい。落とし穴はセットアップ。

ここが製品ページの省きがちなところです。モデルとしての Whisper はタダです。体験としての Whisper は、買ったばかりの Windows マシンでは、午後がまるごと1つ消える代償を払うことになります。

公式の OpenAI Whisper を動かすには、Python をインストールし、次に Whisper パッケージをインストールし、さらに ffmpeg をインストールして Windows がそれを見つけられるようにし、それからターミナルを開いてファイルごとにコマンドを実行します。ここに開発者にとって難しいことは何もありません。けれど、その他すべての人にとっては、これがまるごと壁になります。ライター、弁護士、学生、営業職、そして私の母も。3回目のデモでようやくディクテーションを試すと言ってくれた母ですが、「ffmpeg を PATH に追加して」という言葉が出てくるデモなら、間違いなく1回も承知しなかったでしょう。

もっと優しい入り口もあり、知っておく価値があります。Whisper.cpp は同じモデルの素直な C/C++ 移植版で、MIT ライセンス、高速、CPU だけで動き、Python はいっさい不要です。とはいえ、結局はソースからビルドするか、コマンドラインから動かすことになります。これはコンパイラを楽しめる人々にまっすぐ狙いを定めた、美しいエンジニアリングの結晶です。この記事の残りは、そうではない人々のためのものです。

代わりにコマンドライン版 Whisper(あるいはファイル文字起こし)が欲しいとき

ここからは、あなたを別の場所へ案内します。これが正直な部分だからです。

もし実際に手元にあるのが音声ファイル(録音したインタビュー、ポッドキャストの1エピソード、保存しておいた Teams 通話、ボイスメモ)なら、私たちのアプリはお門違いの道具です。ミスマッチを売りつけるより、はっきりそう申し上げたい。私たちが手がけているのはライブのディクテーションです。あなたが話すと、その言葉がカーソル位置に流れ込みます。すでにあるファイルを受け取って文字起こしするわけではありません。仕事の種類が違うのです。

その仕事のためには、3つの無料ツールが本当に優秀で、まさにそのために作られています。

  • Buzz は OpenAI の Whisper を動力源として、音声ファイルをオフラインで文字起こし・翻訳します。MIT ライセンスで、Windows でも動きます。ターミナルではなくボタンのある本物のウィンドウが欲しいなら、ここから始めてください。
  • Whisper Desktop(Const-me) は Windows の GUI アプリです。解凍して WhisperDesktop.exe を実行し、ファイルを指定すると、DirectCompute 経由で GPU を使って文字起こしします。MPL-2.0 ライセンスで、そこそこのグラフィックカードがあれば高速です。
  • whisper.cpp は、コマンドラインに抵抗がなく、Python なしで純粋な速さが欲しい人向けの、無駄をそぎ落とした選択肢です。

これは体裁を取り繕うために言っているわけではありません。自社のものでないときに正しい道具を案内すること、それこそが、本記事の残りを信じてもらえる理由のすべてです。ファイルがあるなら Buzz を使ってください。マイクと、頭の中に伝えたい一文があるなら、このまま読み進めてください。

Whisper by Remskill が Windows で実際にしてくれること

私たちは、同じオープンソースの Whisper モデルに、もう1つのエンジンを加え、それらを Windows アプリで包みました。だからビルドするものも、ターミナルに打ち込むものも、何ひとつありません。

インストールするアプリは1つ、約25 MBです。サインインします。ホットキーを押します。初期設定では Ctrl + Space で、自由に割り当て直せます。話します。指を離します。すると、いままで使っていたアプリのカーソル位置にテキストが現れます。Word でも、Outlook でも、ブラウザでも、Slack でも、コードエディタでも、検索ボックスでも。ファイルもターミナルも、そして GPU も不要です。ローカルの文字起こしはすべて CPU 上で動きます。

Whisper
稼働中の Whisper by Remskill アプリ — サイドバー、文字起こしパネル、そして AI 指示カード。これはスクリーンショットではなく、本物のインターフェースです。

内部では、3つの道から選べます。モデルをこちらで勝手に決めることはしないからです。

  • ローカル Whisper(8モデル) は、あなたがここへ探しに来たオープンソースの Whisper を、すぐ使える形で同梱したものです。英語に最適化された Base(約140 MB)から Medium(約1.5 GB)まで、加えて Large v3(約3 GB)までの多言語ビルドがあります。多言語ビルドは99言語をカバーし、英語への翻訳もできます。
  • Parakeet(NVIDIA TDT、約600 MB) は別のエンジンで、CPU 上では Whisper の5〜10倍高速、英語に加えて他の24のヨーロッパ言語をカバーします。英語への翻訳機能はありません。速さが欲しくて、主に英語で作業する人はこれを選んでください。
  • クラウド(OpenAI、BYOK) は、自分の OpenAI キーを持ち込んで、最高水準の精度とウェブ検索を使えるようにします。私たちは手数料を一切取りません。これが唯一の Pro 機能です。

ローカルのパイプライン(すべての Whisper モデル、Parakeet、Ollama による AI 整文、履歴、プリセット、カスタムホットキー、モデルのダウンロード)は、サインイン済みのすべてのユーザーに無料で、登録時にカードは不要です。クラウドの道は有料の Pro プランです。具体的な数字は料金ページでご覧いただけます。

本物の Windows ディクテーションアプリが pip install より難しいわけ

「Whisper を UI で包むだけ」と言う人が、誰も警告してくれないことがあります。

モデルは簡単な部分です。Windows でホットキーをまともに振る舞わせること、こちらはそうではありません。最初のバージョンのホットキー処理は、実際の1回のキー押下に対して、録音停止のコールバックを6回も発火させていました。Mac では完璧に動きました。クリーンな Windows 環境でも完璧に動きました。それが崩れたのは、実際のお客様のマシン、つまり言語入力方式(IME)が有効になっているマシン上でした。Windows ではこれが、予測できないタイミングで幻の Ctrl + Space リリースイベントを生み出すのです。何日もテレメトリと格闘し、まず効かなかった50msのデバウンス、それから300msのデバウンスでようやく収まりました。Windows の入力方式フレームワークについて、人が知るべき量をはるかに超えて学びました。しかも私は修士号を持っているのです。事情を説明したときの上の娘の判定はこうでした。「パパのメールがいつも遅いの、これが理由だね」

Pasted
出荷版のディクテーション完了オーバーレイ — 無料・完全ローカルのディクテーションが1回終わった、まさにその瞬間の見え方です。

それが、モデルと製品の違いです。無料の Whisper が与えてくれるのは、ファイルの文字起こしです。ディクテーションアプリは、あなたが別のことをしている最中に、本物のアプリのなかで、本物の Windows デスクトップを生き延びなければなりません。モデルはその戦いを目にすることはありません。私たちは目にしますし、最初の1週間ほどはその戦いに負けていました。

Windows 標準ツールだけで十分なとき

自社の製品を買わなくていいときを正直に伝えれば、ほかのことも信じてもらえるかもしれません。ですから言います。ときどき短いメモを口述するだけなら、ここにあるものは何ひとつ要らないかもしれません。Windows 11 には Win + H で開く音声入力ツールが標準で備わっています。無料で、数行ならこれで十分です。ただし、あなたの音声を自分のマシン上で処理するのではなく、Microsoft のオンライン音声認識へ送ります。Teams にさっと返信するくらいなら、それで十分です。

私たちのアプリが入れる価値を持ち始めるのは、本格的な文章(長いメール、準備書面、講義のまとめ、コードコメント、マーケティングのバリエーション)を書いていて、それを自分のマシン上に、99言語で、どこでも同じホットキーで、とどめておきたいと思うあたりからです。1日の作業が2行のチャットなら、もう十分です。1日の作業が文章を書くことなら、このアプリを手元に置いておいてください。

さらに読む

OpenAI Whisper は無料のオープンソースモデルで、Windows では通常、ファイルを文字起こしするのに Python、ffmpeg、そしてターミナルが必要になります。ファイルがあるなら、Buzz か Whisper Desktop が本物のウィンドウで無料でやってくれます。本当に欲しいのが、ただ話して、その言葉があらゆるアプリのカーソル位置に流れ込むのを見ることなら——ビルドもコマンドラインもなく、自分の CPU 上でローカルに動く形で——それが私たちの作ったものです。

無料版と有料版の全体像をもっと詳しく扱った記事は、Windows での音声文字起こしをご覧ください。2つのローカルエンジンのどちらを選ぶかについては、Whisper と Parakeet の比較をご覧ください。

1分ほどで最初の一文を口述してみましょう

Whisper by Remskill for Windows をダウンロードして、カード不要でサインインし、Ctrl + Space を押して話してください。ローカルのパイプラインは、使い続けるかぎりずっと無料です。

ローカルの文字起こしはずっと無料。登録時に支払い方法は不要です。有料機能はクラウドプランだけです。

Denys Medvediev の写真

Denys Medvediev

私はサポートメールを読んでいる本人です。たぶん、その返信もディクテーションで書いています。