Denys Medvediev

解説

NVIDIAの Parakeet モデル

ParakeetはNVIDIAが公開した音声認識モデルです。現行バージョンのparakeet-tdt-0.6b-v3は約600 MBで、オフラインで動作し、CPUでWhisperより5〜10倍高速です。その仕組みと性能比較をまとめました。

最終更新:2026年6月

プロセッサチップ上に広がる青い音声波形の抽象画像。デバイス上での音声認識を表しています

NVIDIA Parakeet モデルは、FastConformerエンコーダーとToken-and-Duration Transducerデコーダーで構成されたオープンな音声認識モデルです。現行リリースのparakeet-tdt-0.6b-v3は約6億パラメーターを持ち、英語を含む25のヨーロッパ言語を認識し、CPUでWhisperより5〜10倍高速に動作します。ただし、英語への翻訳機能はありません。

「Parakeet(インコ)」という名前から鳥を連想する人が多いですが、実際には音声認識モデルです。NVIDIAが開発し、寛大なライセンスのもとで公開されており、日常のディクテーションに使う上で重要なバージョンはparakeet-tdt-0.6b-v3と呼ばれています。「0.6b」はパラメーター数を示し、約6億個です。ディスク容量は約600 MB。ノートPCに収まる小ささで、サーバーへの通信は一切不要です。

地味な理由でこのモデルに関心があります。私たちがWhisperに搭載しているからです。ParakeetはWhisper内のローカルエンジンの一つで、OpenAIのWhisperモデルと並んで使えます。「どちらを選べばいい?なぜインコはこんなに速いの?」という質問を最もよく受けます。そこでこの記事では、Parakeetの正体、デコーダーがなぜ速いのか、そしてWhisperを選ぶべき場面を率直に説明します。

モデルカードの専門用語が覆い隠していることをはっきり言います。Parakeetは音声書き起こしモデルであり、それだけです。音声を聞いて文字に変換します。句読点や大文字化も自動で行います。要約はしません。英語への翻訳もしません。ホットワードも受け付けません。できることを、ただ高速にやり遂げます。

だから「Parakeet対Whisper、どちらが勝つか」という問いの立て方は的外れです。正しくは「それぞれ何のために使うか」です。Parakeetは英語とヨーロッパ言語に特化した高速モデルで、完全オフラインで動きます。Whisperは99言語対応・英語翻訳機能あり・細かい制御が可能ですが、同じマシンでは遅くなります。速度の理由を説明し、対応言語リストをそのままお伝えし、2分でParakeetを無料・ローカルで動かす方法をご紹介します。

Parakeet モデルの正体

発光するプロセッサを搭載した回路基板のクローズアップ。デバイス上のローカル音声認識を表しています

Parakeetは、NVIDIAがリリースした自動音声認識モデルのファミリーです。私たちが採用し、多くの人が指すのはparakeet-tdt-0.6b-v3で、2025年8月にCC-BY-4.0ライセンスのもとで公開されました。「0.6b」は6億パラメーターを意味します。ダウンロードサイズは約600 MBです。Whisper内ではONNXモデルとして、私たちのピュアRust製書き起こし層「transcribe-rs」を通じて動作します。Pythonランタイムも別プロセスも不要です。

その役割は限定的で、その点に正直です。Parakeetは音声を受け取り、自動句読点・大文字化つきのテキストを返します。必要に応じて単語レベルのタイムスタンプも取得できます。話している言語は自動検出されます。何を話しているかを事前に設定する必要はありません。できないことも同様に重要です。英語への翻訳なし、カスタム語彙のバイアスなし、「この単語を優先して」というホットワードリストなし。書き起こすだけです。それがすべてです。

名前にある「TDT」が興味深いポイントで、モデルが単に小さいだけでなく高速である理由です。TDTはToken-and-Duration Transducerの略です。エンコーダーはFastConformerで、現代の多くの音声モデルが使うConformerアーキテクチャをNVIDIAが効率化したものです。この組み合わせ——高速なエンコーダーと賢いデコーダー——が数字の裏にある工学的工夫であり、それだけで一つのセクションを設けて説明する価値があります。

Token-and-Duration Transducer が速い理由

従来のトランスデューサーモデルは、音声を細かいフレーム単位で一つずつ処理し、各フレームで「新しい音素がここにあるかどうか」を問い続けます。答えはほとんどの場合「ない」——空白を出力して一フレーム進んでまた同じ問いを繰り返します。この空白出力ループが処理の大半を占め、時間を浪費します。文章を一ピクセルずつ読んでいるようなものです。

Token-and-Duration Transducerはその問いを変えます。次のトークンを予測するだけでなく、「次のトークンまで何フレームスキップするか」も同時に予測します。長い母音や無音の区間があれば、フレームごとに処理するのではなく一気にジャンプします。デコーディングのステップ数が減り、結果は同じ。この「持続時間予測」こそが「TDT」という名前が指すトリックであり、速度の源です。

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。Whisperがリスニング中であることを知らせます。

ユーザーの視点では、そのような仕組みは見えません。ホットキーを押し、話し、離す——テキストがカーソル位置に現れます。上のカプセル型オーバーレイだけが、リスニング中に表示されるものです。デコーダーの数学は見えない配管です。しかし、Parakeetが音声の一塊を処理し終わった頃、同等のWhisperモデルはまだ空白を処理しています。CPUではその差が「即座」と「待つ」の違いになります。

Parakeet 対 Whisper——マーケティング抜きで

対決のように扱われることがありますが、そうではありません。形の異なる2つのツールです。私たちのアプリでは両方をインストールしたまま、録音ごとに切り替えることができます。シンプルな整理をするなら:Parakeetは速度とオフラインのシンプルさに最適化し、Whisperはカバレッジと制御性に最適化しています。

Parakeetは高速です——NVIDIAの公称値でも私たちの実測でも、CPUでWhisperより5〜10倍速い。25言語(すべてヨーロッパ言語、英語を含む)をカバーし、句読点と大文字化は自動です。代わりに諦めているもの:他言語から英語への翻訳不可、ホットワードやカスタム語彙バイアスなし、中国語・日本語・韓国語・アラビア語・ヒンディー語といった非ヨーロッパ言語は対象外です(Whisperの多言語ビルドはこれらを難なく処理します)。

OpenAIの多言語ビルドであるWhisperは99言語に対応し、任意の言語を英語に翻訳できます。また、Parakeetにはないパラメーターも公開しています:ビームサイズ、初期プロンプト、固有名詞や専門用語のためのホットワードバイアス。その代償は同じハードウェアでの処理時間であり、大きいモデルはより多くのRAMを消費します。シンプルな目安は明確です。英語や他のヨーロッパ言語で今すぐ結果が欲しければ、Parakeet。翻訳が必要、非ヨーロッパ言語を使う、または細かい制御が必要であれば、Whisper。面白くない真実は、両方試した人のほとんどが両方を使い続けることです。

実際の数値:速度と25言語

都市を光の軌跡でつなぐ発光する世界地図。多くの言語と高速処理を表しています

まず速度から。それがParakeetをアプリに組み込んだ理由だからです。NVIDIAの公称値はCPUでWhisperより5〜10倍速く、私たちの実測とも一致しています。公開されているOpen ASR Leaderboardでは、このモデルはリアルタイム係数で数千という値を記録しています——つまり高性能GPUがあれば、音声が再生されるよりはるかに速く書き起こせます。そのGPUは手元にないでしょう。それでも、普通のノートPC CPUでも、持続時間をスキップするデコーダーのおかげで短いディクテーションが遅延なく即座に感じられます。

次は言語リストを正確にお伝えします。Parakeet v3は25言語(すべてヨーロッパ言語)を処理し、英語はその一つです。英語プラス24言語であり、99言語ではありません。英語・フランス語・ドイツ語・スペイン語・イタリア語・ポルトガル語・オランダ語・ポーランド語から始まり、北欧諸語・バルト語経由でロシア語・ウクライナ語まで網羅しています。話している言語は自動検出されます。もし「Parakeetは99言語に対応」と言うモデルページや掲示板があれば、WhisperとParakeetを混同しています。Parakeetは25言語、そしてそれを高速にこなします。

もう2つ、つまずきやすい制限をはっきり伝えておきます。Parakeetには英語への翻訳モードがありません——話した言語のまま書き起こして終わりです。ホットワードも受け付けないため、珍しい製品名や固有名詞が多いディクテーションには事前登録できません。どちらも欠点ではなく、高速・特化型モデルの境界線です。(標準的なクリーン音声ベンチマークでの精度はワードエラーレート2%未満と本当に優秀ですが、「精度が高い」と「独自の専門用語に対応できる」は別の約束です。)

2分でParakeetを無料・ローカルで試す

NVIDIAアカウント、Pythonのインストール、GPUは必要ありません。必要なのはApple SiliconのMacまたはWindows 10以降のPC、動作するマイク、そして数分間だけです。ローカルパイプライン全体(Parakeetを含む)は、ログインしたアカウントなら無料で利用でき、サインアップ時にカード情報は不要です。手順は以下のとおりです。

ステップ1 — Whisper をインストールしてサインイン。

ダウンロードページからダウンロードしてインストールし、無料アカウントを作成してください。カード不要です。ローカル書き起こしパイプライン全体がすぐに使えるようになります。

アプリのトレイアイコンが表示され、セットアップウィザードでモデル選択が提案されたら成功です。

ステップ2 — Local Parakeet を選択。

アプリはCloud、Local Parakeet、Local Whisperの3つのパスを提示しますが、自動的に選ぶことはしません。Local Parakeetを選び、約600 MBのモデルを一度ダウンロードしてください。

Parakeetのダウンロードが完了し、準備完了と表示されたら成功です。

ステップ3 — ホットキーを確認。

WindowsのデフォルトはCtrl+Space、MacはCommand+Optionを押し続けるプッシュ・トゥ・トークです。Macではプロンプトが表示されたらアクセシビリティ権限を許可してください。許可しないと、カーソル位置へのペーストが他のアプリに届きません。

テスト録音が任意のテキストフィールドにペーストされたら成功です。

ステップ4 — カーソルを置いて話す。

任意のテキストボックス(メール、ドキュメント、チャットなど)をクリックし、ホットキーを押しながら一文話して離してください。Parakeetが書き起こし、カーソル位置にテキストが表示されます。

話した文章が離した直後にテキストとしてフィールドに表示されたら成功です。

Whisper
実際のWhisperデスクトップアプリの設定画面。Parakeetを選択できる書き起こしパネルが表示されています。

遅いのはモデルの最初のダウンロードだけです。それ以降は上記の4ステップだけで、Parakeetが一度ディスクに保存されればサーバーへの通信は一切ありません——音声も書き起こし結果もあなたのマシン上に留まります。過去にWindowsでのディクテーションMacでのディクテーションを設定したことがあれば、同じ流れです。エンジンがより速くなっているだけです。

精度、話しっぱなし、テキストの整え方

どのエンジンでも、Parakeetを含め、生の書き起こしは話しっぱなしの状態で出力されます。「そうそうスタンドアップを10時に変更してパラキートのドラフトをファイルしてマルコにpingして」と話すと、句読点なしのひとかたまりがそのまま出てきます。Parakeetは独自に句読点と大文字化を追加する点で多くのモデルより優れていますが、「えーと」を削除したり、散漫な考えをきれいな文章に整形したりはしません。

そこでAIパスが力を発揮します。「Hey whisper」というアクティベーションフレーズを言うと、書き起こしテキストが貼り付けられる前に整形されます——フィラーワード削除、話しっぱなし分割、話し言葉が実際に送れるものに変わります。ローカル設定ではあなたのマシン上のOllamaを通じて動作し、クラウドモードではデフォルトでgpt-5-miniが使われます。Parakeetが聞き取り、AIが整えます。

Thinking...
Raw

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

Cleaned

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

精度そのものについて言えば、Parakeetはクリーンな英語でかなり優秀です——標準ベンチマークでワードエラーレート2%未満であり、Whisperの近くにあり、それ以下ではありません。誰もマーケティングしない正直な注意点があります。どのモデルも音声の質が悪ければ改善できません。$20のUSBマイクの方が、エンジンを変えるよりもはるかに書き起こし精度を上げます。私自身も、一週間ずっとモデルを責め続けた結果、文字化けの原因がノートPCの内蔵マイクが食洗機の音を拾っていたと気づくまで気づきませんでした。

話してから整えるこの習慣は、一つのアプリを超えて役立ちます——メールやドキュメント全体を声で書くことが一つのホットキーでできるので、長い段落もキーボードで打つ代わりに数文話すだけで済みます。

Whisper を選ぶべき場面

舗装路に書かれた2本の矢印が異なる方向を指している。ツール選択を示しています

Parakeetがすべての答えであるかのように伝えては、あなたへの誠実さを欠くことになります。高速な選択肢ですが、万能ではありません。Whisperのモデルを選ぶべき明確なケース、またはすでにマシンに入っている無料のディクテーションを使うべきケースがあります。

次のいずれかに当てはまる場合はWhisperを選んでください。Parakeetの25言語以外の言語(中国語、日本語、韓国語、アラビア語、ヒンディー語、その他の非ヨーロッパ言語)が必要な場合——Parakeetは単純にカバーしていません。英語への翻訳が必要な場合——Parakeetにはそのモードがありません。または、専門用語や珍しい固有名詞が多く、ホットワードバイアスで固定したい場合——それはWhisperのみが提供する機能です。これらの用途では、Whisperの多言語ビルドと99言語対応が正しいツールです。同じノートPCでは遅くなりますが。

そして時には、適切なツールが私たちのアプリではない場合もあります。テキストフィールドに20語のメモを入れるだけであれば、OSにすでに無料の機能があります。WindowsキーとHでVoice Typingがカーソルのある場所で開きます(インターネット接続が必要なのでオフラインではありません)。Macでは、システム設定→キーボードのDictation機能がApple Silicon上でオンデバイス処理されます。速度、オフラインプライバシー、AIによる整形が本当に必要になる閾値以下なら、無料のものを使ってください。一行のリマインダーのためにエンジンをインストールするよう勧めるつもりはありません。

特にAppleマシンでの設定を選んでいる場合、Parakeet、Whisper、Appleの音声認識の間のトレードオフはMacのための最良の音声認識オプションに詳しく書かれており、Macの視点から同じ速度とカバレッジの選択を説明しています。

Parakeetは、インコという名の600 MBのモデルです。ヨーロッパの音声をテキストに変換する——それだけを、高速に、あなたのマシン上でこなし、それ以上を装おうとしません。すべてのツールが何でもできると主張する時代に、その潔さがどこか安心感を与えます。私はParakeetをローカルで動かしながらこの解説の乱雑な下書きを口述し、AIパスに話しっぱなしを整理させ、Parakeetで問題なく処理できたウクライナ語の引用文を翻訳したくてWhisperモデルに切り替えました。2つのエンジン、1つのホットキー、サーバーなし。両方を持つ意味はそこにあります。

自分のマシンでParakeetを試す

ホットキーを押し、話し、離す。Parakeetがローカルで書き起こし、テキストがカーソル位置に表示されます——開いているすべてのアプリで。

ログインしたアカウントならローカルモード無料。開始にカード不要。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読む担当者です。たいていは返信を口述しています。

参考資料