ガイド
Whisper for Mac
「Whisper for Mac」と言うとき、それは2つのうちのどちらかを指します。1つは、Python とコマンドラインを通じて Mac 上で動かすオープンソースの OpenAI Whisper モデル。もう1つは、内部で Whisper を使っている Mac 用アプリです。多くの人が求めているのは後者です。ただ、本人がまだそれに気づいていないだけなのです。
最終更新: 2026年6月

Whisper for Mac は、1つの名前をまとった2つの別物です。モデル自体はオープンソースで無料ですが、公式の動かし方には Python とコマンドラインが必要で、しかも入力できるのはあなたのその場の発話ではなく、用意済みのファイルです。ホットキーを押すだけで、どんな Mac アプリにも自分の言葉がそのまま入力されてほしいなら、求めているのは Whisper by Remskill のような音声入力アプリです。そのローカル処理はサインインしたユーザーなら誰でも無料で使えます。
Whisper はモデルであって、Mac アプリではない
まず名前の話をはっきりさせておきましょう。検索結果ではこの2つがごちゃ混ぜになっているからです。
Whisper は OpenAI が公開しているオープンソースの音声認識モデルで、MIT ライセンスのもとで配布されています。モデルは無料。コードも無料。アカウントなしで重みをダウンロードして、自分のマシンで動かせます。この部分は、文字どおりの意味で本当に「Whisper for Mac」です。
問題は、それをどうやって動かすかです。公式の OpenAI Whisper は Python とコマンドラインのツールです。pip でインストールし、さらに ffmpeg というコマンドラインツールも必要で、その上で音声ファイルを指定します。録音を文字起こしするのです。audio.mp3、audio.wav、そういったものを扱います。あなたがその場で話した言葉を Mail や Slack に入力してくれるわけではありません。すでに手元にあるファイルをテキストに変えるだけです。
モデルのサイズは6種類(tiny、base、small、medium、large、turbo)あり、そのうち4つには速度と精度を引き換えにした英語専用版があります。Whisper は多言語対応で、フラグを1つ付けるだけで音声を英語に翻訳することもできます。よくできたモデルです。ただ、面白みのない真実を言えば、難しかったのは決してモデルそのものではありませんでした。それを Mac での実際の働き方に組み込むこと、そこが難所なのです。
Whisper を包む Mac ツールと、それぞれの用途
「Whisper for Mac」と検索する人の大半は、pip には触れたくありません。欲しいのはアプリです。優れたものがいくつかありますが、どれも互換性があるわけではありません。大きく2つの陣営に分かれます。
陣営その一: ファイルを文字起こしする
whisper.cpp は Whisper を素の C/C++ に移植したもので、MIT ライセンス。Apple Silicon では一級市民として扱われ、ARM NEON、Accelerate フレームワーク、Metal、Core ML で最適化されています。CPU だけで動き、ソースからビルドして、コマンドラインから操作します。ターミナルが苦にならず、生で速いローカルのファイル文字起こしが欲しいなら、これは申し分ありません。MacWhisper はその考え方をグラフィカルにしたものです。OpenAI Whisper と NVIDIA Parakeet を使い、データを一切マシンの外に出さずに、オンデバイスで音声・動画ファイルを文字起こしします。さらにシステム全体で使える音声入力機能も備えています。仕事が録音を書き起こすことなら、こちらの陣営が正解です。
陣営その二: その場の発話を入力する
これは音声入力(ディクテーション)です。ホットキーを押し、話すと、いま開いているどのアプリでもカーソルの位置にテキストが現れます。VoiceInk はここに属します。GPL-3.0 のオープンソースで、Parakeet v3 を含むローカルモデルを Apple Neural Engine 上で動かし、プッシュ・トゥ・トークのショートカットでカーソル位置に貼り付けます。動作には Apple Silicon と macOS 14.4 以降が必要です。superwhisper もここに属し、ライブの音声入力に加えてファイル文字起こしも備え、ローカルでもクラウドでも、Mac・Windows・iOS で使えます。
私が作っている Whisper by Remskill は陣営その二です。音声入力ファースト。何かをダウンロードする前に、自分がどちらの陣営にいるのかを知っておく価値があります。
Whisper by Remskill が Mac でやってくれること
私が作ったものを説明します。あとは他と見比べて判断してください。
これは音声入力アプリです。ホットキーを押して話すと、どのアプリでもカーソルの位置にテキストが入ります。Mail、Notes、Slack、コードエディター、今年の学校の許可証を書き込む欄、どこでも。Mac でのデフォルトのホットキーは Command と Option の同時押しで、自由に変更できます。文字起こしはすべてあなたの Mac 上で行われます。アップロードするファイルも、管理する録音もありません。
Python を動かす必要もありません。pip も、ffmpeg も、ターミナルも、GPU もなし。全体が純粋な Rust でできています。Whisper と Parakeet のエンジンは transcribe-rs というライブラリを通して動き、Python のサイドカーは同梱されていません。ローカルの文字起こしは CPU で動き、専用の GPU は不要。アプリのディスク容量はおよそ 25 MB です。
モデルそのものは、あなたが選びます。ローカルの Whisper なら、8つのモデル、99言語、英語への翻訳、カスタム語彙、ビームサイズの調整、ホットワードのバイアスが使えます。遅いですが、いちばん細かく制御できます。Parakeet は NVIDIA の TDT エンジンで、サイズはおよそ 600 MB。CPU 上では Whisper の5〜10倍速く動き、英語に加えて他のヨーロッパ言語24種をカバーしますが、英語への翻訳はありません。クラウドモードは3つめの道です。自分の OpenAI キーを持ち込めば、私たちは手数料を一切取りません。私はあえて、あなたの代わりに1つを選んだりはしません。違いはこちらで整理しています。Whisper と Parakeet の比較 詳しいバージョンが知りたい方はどうぞ。
ローカルの精度はおおむね95%から99%の間に収まります。ローカル処理一式は、サインインしたユーザーなら誰でも無料です。Whisper、Parakeet、Ollama によるオフライン AI 整文、文字起こし履歴、プリセット、ホットワード、ハードウェアアクセラレーション、モデルのダウンロード、そしてカスタムホットキー。サインアップ時に支払い方法は不要。最大3台のデバイスで使えます。有料プランの Whisper Pro が追加するのはクラウド面だけ。OpenAI のクラウド文字起こし、クラウド AI 整文、ウェブ検索です。料金については料金ページをご覧ください。ここで具体的な金額は挙げません。料金ページは変わるものですし、出どころから直接読んでいただくのがいちばんだからです。
正直に1つだけ制約を。私たちの Mac ビルドは Apple Silicon 専用で、M1 から M4 まで。Intel Mac をお使いなら、このアプリはあなた向けではありません。代わりに何がいいかは、このあとすぐにお伝えします。
実際の最初の音声入力がどんな感じになるか、お見せしましょう。ホットキーを押すと小さな録音インジケーターが現れ、話して、離すと、整えられたテキストがカーソルのあった場所にすっと落ちてきます。下にあるオーバーレイは、アプリが本当に表示しているもので、モックアップではありません。
セットアップは短くて済みます。アプリをダウンロードし、サインインし、モデルを1つだけ取得させます。いちばん小さいのは約 600 MB の Parakeet、あるいは多言語や翻訳が欲しいなら Whisper モデルを。ホットキーを選ぶか、Command と Option のままにしておきます。あとは Mail を開いて、ホットキーを押したまま、ひとこと話してみてください。それが導入のすべてです。うちの下の娘は、私に一度も追加の質問をせずにやってのけました。私が完全に信用している使いやすさのテストは、それだけです。スクリーンショットを1枚ずつ追いながら、3つのモデルの道すべてをたどる、もっと長い解説が読みたい方には、専用のガイドを書きました。Mac での音声入力です。
なぜ私は Mac でローカルにこだわるのか
この記事で1つだけ、私の強い意見を言わせてください。クラウド専用の音声入力は、プライバシーの惨事です。
上司の給与一覧の表計算、子どもの学校宛てのメール、電車の中で書いている法的な書面。声で入力したかったというだけの理由で、そのどれもがどこかのベンダーのサーバーを通っていいわけがありません。あなたの Mac には、すでにマイクと CPU があります。1段落の音声入力のために、途中にサーバーを挟む必要はないのです。ローカルエンジンを使えば、音声がマシンの外に出ることは一切ありません。それが私なら選ぶデフォルトであり、しかも無料です。
クラウドモードは、本当に最新の OpenAI モデルやウェブからの答えが欲しいときのために、自分のキーで使うものとして存在しています。それは非常口であって、正面玄関ではありません。
MacWhisper、VoiceInk、あるいは CLI のほうが良いとき
1つのアプリがあらゆる場面で勝つようなふりをしたら、私はガイド失格です。そうはなりません。ここからは、私があなたを他のツールへ送り出す場面です。
主に録音を文字起こしする場合
一日の中心が、ポッドキャストの回、インタビューの録音、会議の記録を文字起こしすることなら、欲しいのは音声入力アプリではなく、ファイル文字起こしツールです。MacWhisper はまさにそのために作られています。ファイルをドラッグして入れれば、オンデバイスでテキストが出てきます。それを使ってください。私たちはファイルのアップロードには対応していません。私たちが入力するのは、あなたのその場の発話です。
生で、スクリプトに組み込めて、無料で、しかもターミナルで暮らしている場合
それなら whisper.cpp が答えです。MIT ライセンスで、Apple Silicon 向けに最適化され、CPU だけで動き、好きなものにパイプでつなげます。ソースからビルドするのが楽しいタイプの人なら、どんな GUI よりもそこで幸せになれるはずです。
完全にオープンソースの音声入力が欲しくて、Apple Silicon を使っている場合
VoiceInk は GPL-3.0 で、一行ずつ読んで監査でき、私たちと同じようにカーソル位置に貼り付けます。しっかりした無料の選択肢です。私たちはマネージドなアプリで、アカウント、履歴、クラウドの BYOK、Windows サポートを備えていますが、オープンソースではありません。だからオープンソースであることが絶対条件なら、それはあなたの判断ですし、VoiceInk は良い選択です。
Intel Mac を使っている場合
私たちのアプリは動きません。オープンソースの whisper.cpp は Intel でもビルドして動かせますし、Apple 純正の組み込み Dictation は短いメモなら無料で使えます。どちらにしても、まだ買っていない Apple Silicon マシンを待つよりはずっとましです。
1つだけ覚えておくなら
モデルは無料で、オープンです。本当に大事な決め事は、その周りに何を巻きつけるか。ターミナルか、ファイル文字起こしの GUI か、それとも、いま目の前にしているものに、その場の発話を入力してくれるホットキーか。包み方を仕事に合わせること。そして Mac では、よほど Python が好きでないかぎり、Python のことは忘れてかまいません。Mac で Whisper を探しに来る人は3種類います。録音のフォルダを抱えている人、もう二度とタイピングしたくない人、そして、ただ名前が気に入っただけの人。そのうち2種類は、ここまで読むまで、間違った陣営にいたのです。
この記事のほとんどは、タイプではなく音声入力で書きました。それがふさわしい気がしたので。手でタイプした1段落だけ、誤字が多かったです。
さらに読む
あなたの Mac で試してみる
Whisper by Remskill をダウンロードして、サインインし、あなたの Mac で最初のひとことを音声入力してみてください。ローカルプランは無料で、クラウドがそもそも必要かどうかは、あとからゆっくり決められます。
ローカルの文字起こしはずっと無料。サインアップ時の支払い方法は不要。Apple Silicon 専用です。



