解説
Whisperを ローカルで動かす方法
自分のマシンで Whisper を動かす方法は、大きく分けて2つあります。PythonとコマンドラインによるDeveloper向けの方法と、ターミナルなしで動かしてくれるデスクトップアプリを使う方法です。どちらも音声データはあなたのコンピューター上に留まります。それぞれの手順と、どちらを選ぶべきかを解説します。
最終更新: 2026年6月

Whisperをローカルで動かすとは、クラウドサーバーではなく自分のマシン上で音声をテキストに変換することです。方法は2つあります。PythonとpipとffmpegでOpenAIのオープンソース版Whisperをインストールしてコマンドラインから実行するか、Whisper by Remskillのようなデスクトップアプリを使ってターミナルなしでカーソル位置にディクテーションするかです。どちらも音声データはデバイス上に留まります。
Whisper は OpenAI のオープンソース音声認識モデルです。MITライセンスで公開されており、「Whisperをローカルで動かす方法」がこれほど検索される理由は、実際に自分のハードウェア上で無料で動作するからです。APIキーも不要、分単位の課金もなく、音声データがノートパソコンの外に出ることもありません。これは本当に得な話で、GitHubの公式プロジェクトからすべて手に入ります。
問題は「動かす」の意味です。公式の方法はコマンドラインツールです。Pythonをインストールし、`pip install openai-whisper` を実行し、ffmpegをインストールし、ターミナルで音声ファイルを指定する。録音ファイルをまとめてバッチ処理したいなら完璧な方法です。でも、メールに話しかけてその言葉を文字にしたかっただけなら、少し違います。これは2つの別の用途です。両方を正直に解説します。
ほとんどの記事が素通りする分岐点がここにあります。「Whisperをローカルで動かす」とは、聞く人によってまったく異なる意味を持ちます。開発者なら「モデルをディスクに置いてスクリプトからファイルをテキスト化する」こと。ライターや営業担当者なら「タイピングをやめて、使っているアプリで声を文字に変える」ことです。
本当の問いは「Whisperのインストール方法」だけではありません。「自分が求めているのはバッチ処理やスクリプト用のCLIか、カーソル位置にディクテーションするホットキーか」という問いです。前者は公式OpenAIプロジェクトで、その用途に最適です。後者はコマンドラインなしで同じモデル群を動かすデスクトップアプリです。両方セットアップし、ハードウェアの要件を示したうえで、どちらを選ぶべきかをはっきり伝えます。
「Whisperをローカルで動かす」が実際に意味すること

Whisperをローカルで動かすとは、テキスト変換がどこかのサーバーではなく、自分のコンピューターのプロセッサー上で行われることです。音声を入力すると、モデルがテキストに変換し、何もマシンの外に出ません。それが魅力です。上司の給与スプレッドシートを読み上げた内容も、子供の学校へのメールも、録音した顧客との通話も、声でタイピングしたいという理由でベンダーのログに残ることはありません。私にとってはローカル優先か、そもそもやらないかのどちらかです。その考えには番号を付けて後ほど触れます。
Whisper 自体はただのモデルです。OpenAI がトレーニングし、MITライセンスでウェイトを公開したため、誰でも無料でダウンロードして実行できます。モデルサイズは複数あり、パラメーター数3,900万の tiny から15億5,000万の large モデルまで、精度とハードウェアの負荷のバランスで選びます。ターミナルから実行しても、アプリ内で実行しても、モデルは同じです。変わるのはその周りのラッパーだけです。
そしてラッパーこそが本質的な問いです。2種類あり、どちらも正規のものです。公式OpenAIコマンドラインツール:無料でスクリプト対応、Pythonベース、ファイルのテキスト化用に設計されています。そして、同じモデルを通常のウィンドウの裏で動かすデスクトップアプリ:コマンドを入力する代わりにキーを押して話すだけです。正直なところ、このキーワードで検索する人の多くはどちらかを求めているのに、まだどちらを選ぶべきか分かっていません。次の2つのセクションがその2つの方法です。
開発者向けルート:Python、pip、ffmpeg
ターミナルに慣れているなら、公式プロジェクトが最もすっきりした答えで、本当に無料です。必要なものは3つ:Python(プロジェクトは3.8〜3.11を対象)、Whisperパッケージ本体、そして音声ファイルの読み込みに Whisper が使う音声ツールの ffmpeg です。インストールは2コマンドで済みます。`pip install -U openai-whisper` でパッケージとPyTorch依存関係を取得します。次にffmpegをOSに応じてインストール——Macなら `brew install ffmpeg`、Windowsなら `choco install ffmpeg` または `scoop install ffmpeg`、Ubuntuなら `sudo apt install ffmpeg` です。
インストールしたら、ファイルに対して実行します。`whisper audio.mp3 --model turbo` で録音をテキスト化し、結果を書き出します。`--language Japanese` を追加すると自動検出をスキップし、`--task translate` で日本語以外の録音を英語として出力できます。これが基本です。ファイルを入力してテキストを得るツールで、その用途に優れています。夜間にボイスメモのフォルダを指定しておけば、見ていなくてもすべて処理してくれます。
ハードウェアの現実が期待に水を差す部分です。公式モデルサイズは tiny(パラメーター39M)、base(74M)、small(244M)、medium(769M)、large(1.55B)、turbo(809M)です。それぞれが必要とするVRAMが実態を教えてくれます:tiny で約1GB、small で約2GB、medium で約5GB、large モデルで約10GB。これらの数字はGPU向けのものです。小さいモデルならCPUでも動きますが、大きいモデルを快適に動かすには専用GPUが必要です。「ノートパソコンで large を動かすだけ」とダイアグラムを描いたことがありましたが、内蔵グラフィックスでは亀のようにしか動きませんでした。ダイアグラムは2コミット目で必ず裏切ります。CPUでも最終的には処理が終わりますが、薄型ノートパソコンで large モデルは火曜の午後の計画には向いていません。
ターミナルなしのルート:デスクトップアプリでWhisperを使う
コマンドプロンプトを一切見たくないなら、こちらがもう一つの正直な方法です。Whisper by Remskill は Windows 10以降と Apple Silicon Mac 向けのデスクトップアプリで、Whisperをローカルで動かしてくれます——モデルはアプリ内でダウンロードされ、pip も ffmpeg も Python も不要です。もう一つのローカルエンジンである Parakeet も動きます。ローカルパイプライン全体がサインイン済みアカウントなら無料で、サインアップ時に支払い情報は不要です。手順はこちらです。
ステップ1 — Whisperをインストールしてサインインする。
ダウンロードページからダウンロードし、インストールして、無料アカウントを作成します。カード不要。ローカルテキスト変換パイプラインがすぐに使えます。
アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促したら成功です。
ステップ2 — テキスト変換の方式を選んでモデルをダウンロードする。
アプリが自動で選ぶことはありません。3つの選択肢があります:Cloud(OpenAI、自分のキーを使用)、ローカル Parakeet、ローカル Whisper。自分のマシンで動かすなら、2つのローカルエンジンのどちらかを選んでアプリ内でモデルをダウンロードします。
モデルのダウンロードが完了し、準備完了と表示されたら成功です。
ステップ3 — ホットキーを確認する。
Windowsのデフォルトは Ctrl+Space、Macは Command+Option を押し続けるプッシュトゥトークです。Macでは、求められたときにアクセシビリティ権限を許可してください。これがないと、カーソル位置へのペーストが他のアプリに届きません。
テスト録音が任意のテキストフィールドにペーストされたら成功です。
ステップ4 — カーソルをどこかに置いて話す。
メール、ドキュメント、チャットボックスなど任意のテキストフィールドをクリックし、ホットキーを押し続けて一文話し、離します。テキストがカーソル位置に現れます。
話した文章がテキストフィールドにテキストとして表示されたら成功です。
CLIと同様に、時間がかかるのはモデルのダウンロードだけです——ウェイトはウェイトです。それ以外は上の4ステップで完了します。違いは、あなたとモデルの間にターミナルがないことと、ファイル入力・テキスト出力の代わりに、カーソルがある場所にディクテーションするホットキーが使えることです。内側では同じ Whisper、上に載っているのは別の用途です。
モデルの選び方と必要なハードウェア
どちらの方法でもモデルを選ぶ必要があり、選択は同じトレードオフに帰着します:大きいモデルほど精度が高く遅く、小さいモデルほど速くて軽い。公式CLIでは large モデルが約10GBのVRAMを必要とし、small は約2GBなので、グラフィックカードが上限を決めます。デスクトップアプリでは、Whisperモデルは英語専用と多言語対応に分かれ、デフォルトの英語モデルがディスク上で約480MB、最大の多言語モデルが約3GBです。多言語ビルドは99言語をカバーし、英語への翻訳もできます。英語専用ビルドは英語のみです。
アプリのもう一つのローカルエンジンは、多くの人にとってハードウェアの問題を回避してくれるので知っておく価値があります。Parakeet は NVIDIA の TDT モデルで、約600MBです。CPUではWhisperより5〜10倍速く動きます。英語と24の他のヨーロッパ言語、合計25言語をカバーしますが、英語への翻訳機能はありません。主に英語で話していて高性能なGPUを持っていないなら、Parakeet が高速ローカルの選択肢です。中国語、日本語、韓国語、または翻訳が必要なら、それは Whisper の多言語領域であり Parakeet には対応できません。話している間、小さなカプセルが聞いていることを示します:
精度向上のために最も効果があるのは、より大きなモデルではありません。20ドルのUSBマイクの方が、モデルを2段階上げるよりもテキスト変換の質を上げてくれます——ノートパソコン内蔵マイクの粗い音声を重いモデルに食わせるより、クリアな音声の方が勝ります。まずマイクにお金をかけて、それからモデルの心配をしてください。これが私が自信を持って書ける唯一のハードウェアアドバイスです。
ローカルかクラウドか:用途に合った選び方
マシンが Apple Silicon か、ここ数年以内のPCなら、まずローカルを試してください。クラウドはデフォルトではなく、逃げ道です。ただしデスクトップアプリは3つの方法から選ぶ必要があり、正しく選んでほしいので、それぞれの違いを説明します。
アプリが選択を求めるので、3つの方法の違いを説明します:
- ローカル Parakeet — NVIDIAのTDTエンジン、約600MB、最速のローカルオプション——CPUでWhisperより5〜10倍高速。英語と24の他のヨーロッパ言語、合計25言語をカバー。英語への翻訳なし。英語または他のヨーロッパ言語でディクテーションし、GPUなしで速度を求めるなら、これが完全オフラインの選択肢です。
- ローカル Whisper — 同じマシンでは Parakeet より遅いですが、多言語ビルドは99言語をカバーし、英語に翻訳できます。英語専用ビルドは英語のみで、99言語には対応しません。中国語、日本語、韓国語、または翻訳作業には Whisper を選んでください。Parakeet にはできません。デフォルトの英語モデルは約480MB、最大の多言語モデルは約3GBです。
- クラウド(OpenAI、BYOK) — 最高の精度とウェブアクセス。自分のOpenAIキーを使用し、OpenAIに直接課金されます。テキスト変換はデフォルトで gpt-4o-mini-transcribe で実行されます。インターネットが必要なので、マシンの外に出る唯一の方法です。クラウド機能は Whisper Pro の一部です。
正直に言えば、日常のディクテーションにはローカルで十分であり、両方のローカルエンジンはサーバーに何も送らずマシン上で完全に動作します。クラウドが真価を発揮するのは、難しい録音で最高の精度が必要なとき、または会話の途中でモデルにウェブから情報を引き出させたいときです。どちらの方法でWhisperをローカルで動かしていても——CLIでもアプリでも——プライバシーの話は同じです:音声データはそこに留まります。オフラインであることがここに来た唯一の理由なら、オフライン音声テキスト変換でさらに詳しく解説しています。
精度、句読点、生テキストのクリーンアップ
Whisperを何で動かしていても、生のディクテーションはつながった文章として出力されます。「スタンドアップの録音をテキスト化してランチ前にチームに要約を送ってそれとマネージャーをCCに入れて」と話すと、句読点のない塊を任意の音声エンジンが渡してきます。公式CLIはそのテキストを出力してそこで止まります——クリーンアップはスクリプトか手動でやるのはあなたの仕事です。後で出力を処理するバッチ変換には問題ありません。
デスクトップアプリはテキストが届く前にクリーンアップ処理を行えます。起動フレーズ「Hey whisper」と言うと、AIが余計な言葉を取り除き、文章のつながりを修正し、句読点を追加します。ローカルモデルではマシン上の Ollama を通じて実行され、クラウドモードではデフォルトで gpt-5-mini が使われます。生とクリーン済みの違いは、編集が必要なテキストとそのまま送れるテキストの違いです:
okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager
Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.
精度自体は主にモデルとマイクの問題であり、マイクについては既に述べました。モデル面では、大きい多言語Whisperビルドは99言語にわたって優秀であり、クラウドモードは本当に難しい録音に対してOpenAIの最高精度のテキスト変換を追加します。ただしクリアな音声と普通の話し方なら、小さいモデルでも十分で、弱いハードウェアで最大モデルを追い求めても、おそらく気づかない精度の違いのために出力が遅くなるだけです。仕様書の自慢のためではなく、用途に合ったモデルを選んでください。
一日中タイピングの代わりに話すことが目標なら、同じ「話してクリーンアップ」のフローが、ターミナルを一度も開かずにWindowsで声をテキストに変換することを可能にします。これがCLI不要ルートの本質です。
コマンドラインが正しい選択肢になるとき

ターミナルが本当に優れたツールである場面があり、アプリを売るためにそれを隠すのは不誠実です。公式OpenAI CLIは無料でMITライセンスであり、デスクトップアプリが担わない仕事——スクリプトから大量のファイルをテキスト化すること——のために作られています。それがあなたの仕事なら、アプリはスキップしてください。
コマンドラインを選ぶべき場面:録音フォルダを夜間にまとめて処理したいとき、Whisperを大きなPythonパイプラインや自分が管理するサーバー内で使いたいとき、GUIが公開していない特定のモデルフラグが必要なとき、あるいは単純に常にターミナルで作業していて別のウィンドウを開きたくないとき。LinuxはデスクトップアプリがサポートしていないためCLIが正解です。CLIはPythonとffmpegが動くどこでも使えます。それはアプリへの批判ではなく、単に問題の形が違うということです。
デスクトップアプリを選ぶべき場面:ファイル処理ではなくディクテーションが仕事のとき——メール、ドキュメント、チャットに話しかけて、1つのキーでカーソル位置に言葉を出したいとき。CLIは別のプログラムのカーソル位置にペーストすることができません。それは元々CLIの仕事ではなかったのです。正直な分け方はこうです——ファイルとスクリプティングにはターミナル、タイピングの代わりに話すにはアプリ。どちらが欲しいか明確になれば、ほとんどの人は即座にどちら側かが分かります。
同じオンデバイス・クラウドなしの論理は、Macでセットアップする場合にも当てはまります。MacでVoice to Textのウォークスルーでは、Apple Silicon側を解説しています。ホットキーが必要とするアクセシビリティ権限についても説明しています。
自分のマシンでWhisperを動かすことは、今のソフトウェア界隈で最も得な取引の一つです——OpenAIが無償で提供したモデル、大手クラウドツールが静かに呼び出しているのと同じもの、あなたのディスクに何も払わずに乗っています。本当の決断は、どのラッパーが自分の仕事に合うかだけです。ファイルをこなす必要があるときはCLIを使い、残りの95%の時間はアプリを使います。1時間に大まかに40回プログラムを切り替えるので、その度にコマンドを打ちたくないからです。このガイドの大半はホットキーで、ターミナルではないテキストボックスに、同じノートパソコン上で動くモデルを使ってディクテーションしました。
ターミナルなしでWhisperをローカルで動かす
ホットキーを押して、話して、離す。モデルはあなたのマシン上で動き、テキストはカーソルのある場所に出力されます——Python、pip、ffmpegは不要。
サインイン済みアカウントなら無料でローカルモード利用可能。開始にカードは不要。



