Denys Medvediev

解説

Whisperは 無料で使える?

はい — OpenAIのWhisperはMITライセンスのオープンソースなので、モデルは無料でダウンロードでき、商用利用も可能です。ただし、実際に動かすには環境構築と自前のハードウェアが必要です。手軽な無料の方法は、デスクトップアプリを使ってWhisperをローカルで実行することです。

最終更新: 2026年6月

ラップトップのキーボードの上に置かれた開いた南京錠。オープンソースと無料ソフトウェアを象徴しています

Whisperは無料です。OpenAIはコードもモデルの重みも、寛容なMITライセンスで公開しています。誰でも無料でダウンロードし、実行し、商用利用することさえできます。唯一の落とし穴はセットアップです。自分でWhisperを動かすにはPython、ffmpeg、そして自前のハードウェアが必要になります。デスクトップアプリを使えば、その手間をまるごとスキップできます。

「Whisperは無料?」と聞く人は、どこかに落とし穴があると思っています。2026年において、本当に良いものが完全に無料であることはほとんどないからです。でも前置きより先に結論を言います。はい、無料です。OpenAIはWhisperをMITライセンスで公開しました。コードもモデルの重みも両方。MITライセンスはソフトウェアライセンスの中でも最も寛容な部類に入ります。ダウンロードして、動かして、改変して、自分のプロダクトに組み込んで、そのプロダクトでお金を稼いでも、OpenAIは1セントも、クレジット表記さえも求めません。

これが見出しの内容であり、事実です。ただ見出しが語らない部分があります。「モデルが無料」と「モデルを使うことが無料」は同じ意味ではありません。モデルはファイルです。そのファイルを画面に表示されるテキストに変えるには、環境構築、コマンドライン操作への慣れ、そして計算をこなせるパソコンが必要です。これは隠されているわけではありません。ただ手間がかかる。そしてその手間こそが、オープンソース版の本当の代償です。

多くのページがごちゃ混ぜにしているポイントがあります。この話には「ふたつのWhisper」が登場します。ひとつは、OpenAIがGitHubで公開したオープンソースモデル。無料、MIT、自分で動かせます。もうひとつは、OpenAIがホストする文字起こしAPI。同じモデルファミリーを使っていますが、分単位で課金されます。名前は同じ、請求書は全然違います。

つまり「Whisperは無料?」という問いには、正直に言えば三つの答えがあります。モデル自体は? 無料、以上。自分で動かす場合は? お金はかかりませんが、セットアップと自前のハードウェアというコストがかかります。誰かにホストしてもらう場合は? OpenAIのAPIでも有料アプリのクラウドプランでも、お金がかかります。このガイドでは三つすべてを説明し、手軽な無料の方法を示しながら、本当に無料でないところには正直にお伝えします。

Whisperとは何か

マイクの隣に表示された音声波形。音声がテキストに変換される様子を表しています

WhisperはOpenAIが2022年末に公開した音声認識モデルです。音声を渡すと、テキストを返してくれます。性能は高く、大量の多言語音声で訓練されているため、アクセント、背景ノイズ、数十の言語を、かつて私たちが苦労させられた音声認識ソフトよりずっとうまく扱えます。他の言語の音声を英語テキストに翻訳することもでき、古いツールでは到底できなかった芸当です。

重要なのは「モデル」という言葉です。Whisperはダブルクリックで起動するアプリではありません。頭脳です。学習済みの重みファイルと、それを動かすコードのセット。単体ではウィンドウも、ボタンも、マイク接続もありません。エンジンであって、車ではないのです。有名なプロダクトの多くが、実はWhisperにUIを被せただけのものです。それ自体は問題ありませんが、中身のエンジンはどれも同じ無料の部品だということは知っておく価値があります。

この区別こそが、この質問をわかりにくくしている理由です。「Whisperは月$30かかる」という人は、モデルのことを言っているのではなく、モデルをラップして有料にしたアプリの話をしています。「Whisperは無料」という人は、OpenAIが公開したエンジンのことを指しています。どちらも同時に正しい。ただし対象が違う。だからこそ、あなたはストレートな答えを探してここに来たのでしょう。

はい、MITライセンスで本当に無料です

これは「無料」と書いておいて期限付きトライアルだったり、アップグレードを促してくるようなマーケティング上の無料ではありません。OpenAIはWhisperのコードとモデルの重みをMITライセンスで公開しています。MITライセンスは広く知られた寛容なオープンソースライセンスで、商用を含むあらゆる利用、コピー、改変、配布を認めています。条件はひとつだけ、著作権表示を残すことです。料金なし、ロイヤリティなし、シート課金なし、許可申請も不要です。

実際のところ、個人利用でダウンロードしても、業務で使っても、販売するプロダクトに組み込んでも、クライアントのポッドキャストを文字起こししても、OpenAIへの支払いは一切不要です。学習済みモデルの重み、つまり生産コストの高い訓練済み部分も無料です。コードだけでなく。これを信じられない人が多いのも無理はありません。企業は通常、学習済みの重みを公開しないからです。でもOpenAIはここで公開しました。

Cancel
Whisperをローカルで動かしている様子。話している間は録音オーバーレイが表示され、バックグラウンドで分単位のメーターが動くことはありません。

後で誤解されないよう、正直なひとことを添えておきます。「MITで無料」はライセンスの話であって、運用コストがゼロという意味ではありません。電気代はかかります。パソコンもただではありません。あなたの時間も無料ではない。でもソフトウェアとモデル、つまり企業なら通常サブスクリプション料金を取る部分は、本当に、永続的に、注釈なしで無料です。(ライセンスを読んで「何か見落としたかな」とダブルチェックしたくなるレベルの無料です。見落としていません。)

落とし穴は「自分で動かすこと」

ここで無料版の代償が現れます。お金ではなく時間で払うことになります。Whisperを生のオープンソースとして動かすにはコマンドラインを使います。標準的なインストールはPythonパッケージ経由なので、まずPythonを正しくセットアップする必要があります。さらにWhisperにはffmpegという別の音声ツールも必要で、システムパスに通しておかなければなりません。機種によってはトークナイザーの依存関係をビルドするためにRustも必要です。開発者にとっては特別なことではありませんが、それ以外の人にとっては半日仕事です。

そしてハードウェアの問題もあります。Whisperは重い計算をします。大きくて精度の高いモデルほど、計算量も増えます。普通のCPUだと、大型モデルは音声クリップよりも文字起こしに時間がかかることがあります。速度を求めるなら、ほとんどのノートパソコンには搭載されていない、そこそこのGPUが必要です。無料版の本当のコストはお金ではなく、管理が必要なPython環境、ファイルごとに手動で実行するコマンド、そして待たせないだけのパソコンです。(開発者でない人が「5分でWhisperをセットアップ」というブログ記事を試すのを見たことがあります。5分ではありませんでした。土曜日まるまるかかって、最後は私への電話でした。)

そしてもうひとつ、生のコマンドライン版にないもの。リアルタイムの口述入力です。コマンドライン版のWhisperは、すでに録音されたファイルを文字起こしします。バックグラウンドで待機して、ホットキーを押したらカーソル位置にテキストを貼り付ける、という使い方はできません。多くの人が実際に求めているのはそれなのに。そのためにはモデルのラッパーが必要です。朗報は、最良のラッパーも無料だということ。それが次のセクションです。

手軽な無料の方法: アプリでWhisperを使う

オープンソースモデルの「無料」はそのままに、「自分で動かす」手間をまるごとスキップできます。それがWhisper by Remskillを作った理由です。Pythonも、ffmpegも、コマンドラインも不要で、同じオープンソースのWhisperモデルをあなたのマシン上でローカル実行します。ローカル機能全体は、サインインしたアカウントであれば無料で使えます。登録時にお支払い情報は不要です。オープンソースのエンジンをオープンソースの宿題なしで使えます。セットアップはこうです。

ステップ1 — アプリをインストールしてサインイン。

ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。クレジットカード不要。ローカル文字起こしパイプラインはすぐに使えます。Pythonもffmpegも何も必要ありません。

トレイアイコンが表示され、セットアップウィザードがモデル選択を促したら成功です。

ステップ2 — ローカルモデルを選ぶ。

アプリが勝手に選ぶことはありません。ローカルでは、Whisper(8モデル、99言語、英語翻訳対応)かParakeet(高速、英語と24のヨーロッパ言語)を選べます。モデルは一度だけダウンロードされ、以降はすべてあなたのマシン上で動きます。

モデルのダウンロードが完了し「準備完了」と表示されたら成功です。

ステップ3 — ホットキーを確認する。

WindowsのデフォルトはCtrl+Space、Macはオプションキー+コマンドキーを押し続けるプッシュ・トゥ・トーク方式です。Macではアクセシビリティの許可を求められたら付与してください。許可しないと、カーソル位置へのテキスト貼り付けが他のアプリに届きません。

テスト録音が任意のテキストフィールドに貼り付けられたら成功です。

ステップ4 — カーソルを置いて話す。

メール、ドキュメント、検索バーなど、任意のテキストボックスをクリックし、ホットキーを押しながら一文話して、離す。カーソルのある場所に、Whisperがあなたのマシン上で無料で文字起こしした内容が表示されます。

話した文章がテキストとしてフィールドに入力されていれば成功です。

Whisper
Whisper by Remskillのデスクトップアプリ設定画面。文字起こしとAIのパネルが開いています。

時間がかかるのは一度きりのモデルダウンロードだけで、セットアップの儀式は不要です。それが終わると、かつてはPython環境とファイルごとのコマンドが必要だったオープンソースモデルが、トレイに常駐してキーを押すだけでテキストを貼り付けてくれます。WindowsMacでの口述入力の選択肢を検討しているなら、これがWhisperをプロジェクトではなくアプリとして使える方法です。

ローカルWhisperは無料、クラウドが有料

「無料かどうか」という問いに、ここで一本の線を引く必要があります。Whisperをローカルで動かすのは無料です。自分のマシン、自分のCPU、サーバーなし、分単位の請求なし。有料なのはクラウド部分です。OpenAIのホスト型文字起こしAPIは分単位で課金し、アプリのクラウドプランはそのコストを転嫁します。私たちのアプリでは、ローカル機能全体が無料で、クラウド機能だけがWhisper Proの範囲です。三つの選択肢の違いを整理します。選ぶのはあなたです。

  • ローカルParakeet — 無料NVIDIAのTDTエンジンを使用。約600MBで、最速のローカルオプションです。CPUでWhisperの5〜10倍の速さ。英語と24の欧州言語、合計25言語に対応。英語への翻訳機能はなし。主に英語を使い、普通のハードウェアでスピードを重視するなら、これが手軽で完全オフライン、無料の選択肢です。
  • ローカルWhisper — 無料本物のオープンソースWhisperモデルを、あなたのマシン上で無料で実行します。多言語版は99言語をカバーし、英語への翻訳も可能。英語専用版は英語のみ対応。同じハードウェアではParakeetより遅いですが、中国語、日本語、韓国語や翻訳作業には最適です。英語デフォルトモデルは約480MB。
  • クラウド(OpenAI、BYOK)— 分単位の有料最高精度とライブWebアクセスを提供します。自分のOpenAIキーを使い、OpenAIに直接課金される仕組みで、文字起こしはデフォルトでgpt-4o-mini-transcribeで動作します。費用はOpenAIが分単位で請求し、私たちへの支払いはありません。インターネット接続が必要です。クラウド機能はWhisper Proにのみ含まれます。

正直なところ、日常的な口述入力のほとんどにはローカルWhisperかParakeetで十分で、どこまでも無料の経路です。どちらもあなたのマシン上で完全に動作し、サーバーに何も送りません。クラウドが分単位のコストに見合うのは、難しい録音でトップクラスの精度を求めるときや、会話の途中でモデルにWebから情報を取ってきてほしいときだけです。「Whisperは無料?」という問いに厳密に答えるなら、重要なのはローカルが無料だということ。まずそこから始めてください。

モデル、精度、そして文字起こしの整形

無料のモデルはひとつではなく、ファミリーです。どれを選ぶかが精度の本当のカギになります。小さなモデルは速くて軽い。大型の多言語モデルは最も精度が高く、最も重い。オープンソースのコマンドライン版ではモデルサイズを自分で選び、その速度を受け入れます。アプリではリストから選ぶだけで、モデルは一度ダウンロードされます。より重要なポイントはこれです。精度はモデルとマイクから来るのであって、課金額からではありません。$20のUSBマイクは、どんなアップグレードよりも文字起こしの質を上げます。

どのモデルを使っても、生の口述入力はそのまま流れ出てきます。「そうつまりモデルはMITで無料なんだけど自分で動かすにはpythonとffmpegが必要で」という感じで、句読点なしの壁として音声エンジンが返してきます。それを整形するのは別の作業です。Whisper by RemskillはトランスクリプトにAIを通すことができます。「Hey whisper」という起動フレーズを言えば、テキストが確定する前に強化されます。フィラーワードが除去され、句読点が修正されます。ローカルモデルではOllamaを通じて無料で動作します。クラウドモードではデフォルトでgpt-5-miniです。

Thinking...
生テキスト

okay so the model is free under mit but running it yourself needs python and ffmpeg and um a decent computer otherwise its slow

整形済み

Okay, so the model is free under MIT, but running it yourself needs Python and ffmpeg, and a decent computer — otherwise it's slow.

精度の問いには、無料のレバーが二本と有料のレバーが一本あります。無料のレバーは、ハードウェアに合ったモデルを選ぶことと、そこそこのマイクでクリーンな音声を入力すること。有料のレバーは、ローカルの品質に物足りなさを感じたときに最新のホスト型モデルを使えるクラウド文字起こしです。大半の口述入力では、無料のレバーで十分です。「完璧なトランスクリプト、労力ゼロ」と約束する人は正直ではありません。モデルは無料ですが、良い入力がやはり仕事の大部分をこなします。

この「話して整形する」流れはここだけでなくどこでも使えます。ひとつのホットキーでどんなアプリにもきれいな文章を口述入力できるので、長いメッセージが少しの発話で完成します。

Whisperの有料版が本当に意味をなす場面

二つの選択肢を天秤にかけている様子。無料で十分な場合と有料が合理的な場合を示しています

この記事全体が「無料です」という内容なので、正直なもう半分もお伝えする義務があります。有料が正解の場面はあり、そうでないふりをするのは回答ではなく売り込みになってしまいます。無料のローカル版で事足りるなら、それで行ってタブを閉じてください。ほとんどの人はここで終わりです。でも有料プランが本当に価値を持つ状況もいくつかあります。

クラウドにお金を払う価値があるのは、難しい録音で精度がお金より大切な場面です。強いなまりのあるインタビュー、騒がしいフィールドレコーディング、一語の誤りが問題になる法的なトランスクリプトなど。OpenAIのホスト型モデルは困難な素材でローカルを上回り、あなたはその差のために分単位でOpenAIに支払います。また、アシスタントに会話の途中でWebから情報をリアルタイムで取得させたいときにも価値があります。ローカルモデルはオフラインではできないことです。そして、管理されていない端末、Pythonもモデルもインストールできないロックされた業務用ノートパソコンでどうしても使いたいなら、ホスト型サービスが唯一の選択肢かもしれません。これらのケース以外では、無料のローカル版は劣ったバージョンではありません。同じオープンソースモデルが、同じ仕事を、無料でやっているだけです。

無料のルートが不満になったときに有料へ手を伸ばせばいい。難しい音声でのトップ精度、ライブWebルックアップ、ローカルで何も動かせないマシン。そのラインを下回る場合、自分のハードウェアで動かす無料モデルが正解です。OpenAIがすでに無料で公開したものに対してお金を払わせたくはありません。無料版は存在し、機能し、中身のエンジンは同じです。

無料でローカルWhisperを使いたい理由がプライバシー、つまり自分の音声を他人のサーバーに送りたくないからなら、完全オフラインの音声テキスト変換についての記事を続けて読む価値があります。自分のマシンでモデルを動かすことが、まさにそれを実現するからです。

まとめます。Whisperは無料ですか? モデルは本当に、MITライセンスで、あなたが動かせる形で無料です。無料で使うとは、コマンドラインで半日かけるか、その半日を代わりにこなしてくれたアプリを使うかのどちらかです。有料になるのはクラウドだけ、日常の口述入力には必ずしも必要ではないホスティングのためです。この記事の大半は、テキストボックスに向かって話しながら書きました。無料のローカルモデルが聞き取り、ラップトップは一度も一文の文字起こしのためにクレジットカードを求めてきませんでした。それがすべての答えであり、こんなにすっきり言える問いはなかなかありません。

セットアップなしで無料のWhisperを使う

ホットキーを押して、話して、離す。オープンソースモデルがあなたのマシン上で無料で文字起こしし、カーソルのある場所にテキストを貼り付けます。

サインインしたアカウントなら無料のローカルモード。開始にカードは不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読むのは私です。返信はたいてい口述入力で書いています。

関連リソース