Denys Medvediev

ガイド

Whisper for Mac

「Whisper for Mac」と言うとき、それは2つのうちのどちらかを指します。1つは、Python とコマンドラインを通じて Mac 上で動かすオープンソースの OpenAI Whisper モデル。もう1つは、内部で Whisper を使っている Mac 用アプリです。多くの人が求めているのは後者です。ただ、本人がまだそれに気づいていないだけなのです。

最終更新: 2026年6月

机の上に置かれた MacBook とマイク。Mac での Whisper 音声入力を思わせる一枚

Whisper for Mac は、1つの名前をまとった2つの別物です。モデル自体はオープンソースで無料ですが、公式の動かし方には Python とコマンドラインが必要で、しかも入力できるのはあなたのその場の発話ではなく、用意済みのファイルです。ホットキーを押すだけで、どんな Mac アプリにも自分の言葉がそのまま入力されてほしいなら、求めているのは Whisper by Remskill のような音声入力アプリです。そのローカル処理はサインインしたユーザーなら誰でも無料で使えます。

Whisper はモデルであって、Mac アプリではない

まず名前の話をはっきりさせておきましょう。検索結果ではこの2つがごちゃ混ぜになっているからです。

Whisper は OpenAI が公開しているオープンソースの音声認識モデルで、MIT ライセンスのもとで配布されています。モデルは無料。コードも無料。アカウントなしで重みをダウンロードして、自分のマシンで動かせます。この部分は、文字どおりの意味で本当に「Whisper for Mac」です。

問題は、それをどうやって動かすかです。公式の OpenAI Whisper は Python とコマンドラインのツールです。pip でインストールし、さらに ffmpeg というコマンドラインツールも必要で、その上で音声ファイルを指定します。録音を文字起こしするのです。audio.mp3、audio.wav、そういったものを扱います。あなたがその場で話した言葉を Mail や Slack に入力してくれるわけではありません。すでに手元にあるファイルをテキストに変えるだけです。

モデルのサイズは6種類(tiny、base、small、medium、large、turbo)あり、そのうち4つには速度と精度を引き換えにした英語専用版があります。Whisper は多言語対応で、フラグを1つ付けるだけで音声を英語に翻訳することもできます。よくできたモデルです。ただ、面白みのない真実を言えば、難しかったのは決してモデルそのものではありませんでした。それを Mac での実際の働き方に組み込むこと、そこが難所なのです。

Whisper を包む Mac ツールと、それぞれの用途

「Whisper for Mac」と検索する人の大半は、pip には触れたくありません。欲しいのはアプリです。優れたものがいくつかありますが、どれも互換性があるわけではありません。大きく2つの陣営に分かれます。

陣営その一: ファイルを文字起こしする

whisper.cpp は Whisper を素の C/C++ に移植したもので、MIT ライセンス。Apple Silicon では一級市民として扱われ、ARM NEON、Accelerate フレームワーク、Metal、Core ML で最適化されています。CPU だけで動き、ソースからビルドして、コマンドラインから操作します。ターミナルが苦にならず、生で速いローカルのファイル文字起こしが欲しいなら、これは申し分ありません。MacWhisper はその考え方をグラフィカルにしたものです。OpenAI Whisper と NVIDIA Parakeet を使い、データを一切マシンの外に出さずに、オンデバイスで音声・動画ファイルを文字起こしします。さらにシステム全体で使える音声入力機能も備えています。仕事が録音を書き起こすことなら、こちらの陣営が正解です。

陣営その二: その場の発話を入力する

これは音声入力(ディクテーション)です。ホットキーを押し、話すと、いま開いているどのアプリでもカーソルの位置にテキストが現れます。VoiceInk はここに属します。GPL-3.0 のオープンソースで、Parakeet v3 を含むローカルモデルを Apple Neural Engine 上で動かし、プッシュ・トゥ・トークのショートカットでカーソル位置に貼り付けます。動作には Apple Silicon と macOS 14.4 以降が必要です。superwhisper もここに属し、ライブの音声入力に加えてファイル文字起こしも備え、ローカルでもクラウドでも、Mac・Windows・iOS で使えます。

私が作っている Whisper by Remskill は陣営その二です。音声入力ファースト。何かをダウンロードする前に、自分がどちらの陣営にいるのかを知っておく価値があります。

Whisper by Remskill が Mac でやってくれること

私が作ったものを説明します。あとは他と見比べて判断してください。

Whisper
実際に動く Whisper by Remskill アプリ — サイドバー、文字起こしパネル、AI 指示カード。これはスクリーンショットではなく、本物のインターフェースです。

これは音声入力アプリです。ホットキーを押して話すと、どのアプリでもカーソルの位置にテキストが入ります。Mail、Notes、Slack、コードエディター、今年の学校の許可証を書き込む欄、どこでも。Mac でのデフォルトのホットキーは Command と Option の同時押しで、自由に変更できます。文字起こしはすべてあなたの Mac 上で行われます。アップロードするファイルも、管理する録音もありません。

Python を動かす必要もありません。pip も、ffmpeg も、ターミナルも、GPU もなし。全体が純粋な Rust でできています。Whisper と Parakeet のエンジンは transcribe-rs というライブラリを通して動き、Python のサイドカーは同梱されていません。ローカルの文字起こしは CPU で動き、専用の GPU は不要。アプリのディスク容量はおよそ 25 MB です。

モデルそのものは、あなたが選びます。ローカルの Whisper なら、8つのモデル、99言語、英語への翻訳、カスタム語彙、ビームサイズの調整、ホットワードのバイアスが使えます。遅いですが、いちばん細かく制御できます。Parakeet は NVIDIA の TDT エンジンで、サイズはおよそ 600 MB。CPU 上では Whisper の5〜10倍速く動き、英語に加えて他のヨーロッパ言語24種をカバーしますが、英語への翻訳はありません。クラウドモードは3つめの道です。自分の OpenAI キーを持ち込めば、私たちは手数料を一切取りません。私はあえて、あなたの代わりに1つを選んだりはしません。違いはこちらで整理しています。Whisper と Parakeet の比較 詳しいバージョンが知りたい方はどうぞ。

ローカルの精度はおおむね95%から99%の間に収まります。ローカル処理一式は、サインインしたユーザーなら誰でも無料です。Whisper、Parakeet、Ollama によるオフライン AI 整文、文字起こし履歴、プリセット、ホットワード、ハードウェアアクセラレーション、モデルのダウンロード、そしてカスタムホットキー。サインアップ時に支払い方法は不要。最大3台のデバイスで使えます。有料プランの Whisper Pro が追加するのはクラウド面だけ。OpenAI のクラウド文字起こし、クラウド AI 整文、ウェブ検索です。料金については料金ページをご覧ください。ここで具体的な金額は挙げません。料金ページは変わるものですし、出どころから直接読んでいただくのがいちばんだからです。

正直に1つだけ制約を。私たちの Mac ビルドは Apple Silicon 専用で、M1 から M4 まで。Intel Mac をお使いなら、このアプリはあなた向けではありません。代わりに何がいいかは、このあとすぐにお伝えします。

実際の最初の音声入力がどんな感じになるか、お見せしましょう。ホットキーを押すと小さな録音インジケーターが現れ、話して、離すと、整えられたテキストがカーソルのあった場所にすっと落ちてきます。下にあるオーバーレイは、アプリが本当に表示しているもので、モックアップではありません。

Pasted
実際に出荷されている、音声入力後の「完了」オーバーレイ — 完全ローカルの音声入力が終わったその瞬間の、本物のアプリ UI です。

セットアップは短くて済みます。アプリをダウンロードし、サインインし、モデルを1つだけ取得させます。いちばん小さいのは約 600 MB の Parakeet、あるいは多言語や翻訳が欲しいなら Whisper モデルを。ホットキーを選ぶか、Command と Option のままにしておきます。あとは Mail を開いて、ホットキーを押したまま、ひとこと話してみてください。それが導入のすべてです。うちの下の娘は、私に一度も追加の質問をせずにやってのけました。私が完全に信用している使いやすさのテストは、それだけです。スクリーンショットを1枚ずつ追いながら、3つのモデルの道すべてをたどる、もっと長い解説が読みたい方には、専用のガイドを書きました。Mac での音声入力です。

なぜ私は Mac でローカルにこだわるのか

この記事で1つだけ、私の強い意見を言わせてください。クラウド専用の音声入力は、プライバシーの惨事です。

上司の給与一覧の表計算、子どもの学校宛てのメール、電車の中で書いている法的な書面。声で入力したかったというだけの理由で、そのどれもがどこかのベンダーのサーバーを通っていいわけがありません。あなたの Mac には、すでにマイクと CPU があります。1段落の音声入力のために、途中にサーバーを挟む必要はないのです。ローカルエンジンを使えば、音声がマシンの外に出ることは一切ありません。それが私なら選ぶデフォルトであり、しかも無料です。

クラウドモードは、本当に最新の OpenAI モデルやウェブからの答えが欲しいときのために、自分のキーで使うものとして存在しています。それは非常口であって、正面玄関ではありません。

MacWhisper、VoiceInk、あるいは CLI のほうが良いとき

1つのアプリがあらゆる場面で勝つようなふりをしたら、私はガイド失格です。そうはなりません。ここからは、私があなたを他のツールへ送り出す場面です。

主に録音を文字起こしする場合

一日の中心が、ポッドキャストの回、インタビューの録音、会議の記録を文字起こしすることなら、欲しいのは音声入力アプリではなく、ファイル文字起こしツールです。MacWhisper はまさにそのために作られています。ファイルをドラッグして入れれば、オンデバイスでテキストが出てきます。それを使ってください。私たちはファイルのアップロードには対応していません。私たちが入力するのは、あなたのその場の発話です。

生で、スクリプトに組み込めて、無料で、しかもターミナルで暮らしている場合

それなら whisper.cpp が答えです。MIT ライセンスで、Apple Silicon 向けに最適化され、CPU だけで動き、好きなものにパイプでつなげます。ソースからビルドするのが楽しいタイプの人なら、どんな GUI よりもそこで幸せになれるはずです。

完全にオープンソースの音声入力が欲しくて、Apple Silicon を使っている場合

VoiceInk は GPL-3.0 で、一行ずつ読んで監査でき、私たちと同じようにカーソル位置に貼り付けます。しっかりした無料の選択肢です。私たちはマネージドなアプリで、アカウント、履歴、クラウドの BYOK、Windows サポートを備えていますが、オープンソースではありません。だからオープンソースであることが絶対条件なら、それはあなたの判断ですし、VoiceInk は良い選択です。

Intel Mac を使っている場合

私たちのアプリは動きません。オープンソースの whisper.cpp は Intel でもビルドして動かせますし、Apple 純正の組み込み Dictation は短いメモなら無料で使えます。どちらにしても、まだ買っていない Apple Silicon マシンを待つよりはずっとましです。

1つだけ覚えておくなら

モデルは無料で、オープンです。本当に大事な決め事は、その周りに何を巻きつけるか。ターミナルか、ファイル文字起こしの GUI か、それとも、いま目の前にしているものに、その場の発話を入力してくれるホットキーか。包み方を仕事に合わせること。そして Mac では、よほど Python が好きでないかぎり、Python のことは忘れてかまいません。Mac で Whisper を探しに来る人は3種類います。録音のフォルダを抱えている人、もう二度とタイピングしたくない人、そして、ただ名前が気に入っただけの人。そのうち2種類は、ここまで読むまで、間違った陣営にいたのです。

この記事のほとんどは、タイプではなく音声入力で書きました。それがふさわしい気がしたので。手でタイプした1段落だけ、誤字が多かったです。

さらに読む

あなたの Mac で試してみる

Whisper by Remskill をダウンロードして、サインインし、あなたの Mac で最初のひとことを音声入力してみてください。ローカルプランは無料で、クラウドがそもそも必要かどうかは、あとからゆっくり決められます。

ローカルの文字起こしはずっと無料。サインアップ時の支払い方法は不要。Apple Silicon 専用です。

Denys Medvediev の写真

Denys Medvediev

私はうちのサポートメールを読んでいる本人です。たいていは、返信を音声入力しながら。