Erklärartikel
Das NVIDIA Parakeet-Modell
Parakeet ist NVIDIAs offenes Speech-to-Text-Modell. Der aktuelle Build, parakeet-tdt-0.6b-v3, ist rund 600 MB groß, läuft offline und ist auf einem CPU 5 bis 10 Mal schneller als Whisper. Was dahintersteckt und wie der Vergleich aussieht.
Zuletzt aktualisiert: Juni 2026

Das NVIDIA Parakeet-Modell ist ein offenes Speech-to-Text-Modell, das auf einem FastConformer-Encoder und einem Token-and-Duration-Transducer-Decoder basiert. Die aktuelle Version, parakeet-tdt-0.6b-v3, hat rund 600 Millionen Parameter, transkribiert 25 europäische Sprachen einschließlich Englisch und ist auf einem CPU 5 bis 10 Mal schneller als Whisper. Eine Übersetzung ins Englische ist nicht möglich.
Die meisten Leute stoßen auf das Wort "Parakeet", erwarten einen Vogel und landen bei einem Speech-to-Text-Modell. Es stammt von NVIDIA, steht unter einer offenen Lizenz, und die Version, die für die alltägliche Diktierfunktion zählt, heißt parakeet-tdt-0.6b-v3. Die "0.6b" steht für die Parameteranzahl — rund 600 Millionen. Auf der Festplatte belegt es etwa 600 MB. Das ist klein genug, um dauerhaft auf dem Laptop zu wohnen, ohne je einen Server anzufragen.
Ich beschäftige mich damit aus einem nüchternen Grund: Wir liefern es aus. Parakeet ist eine der lokalen Engines innerhalb von Whisper, direkt neben den Whisper-Modellen von OpenAI, und die häufigste Frage, die ich bekomme, lautet: "Welches nehme ich, und warum ist der Vogel so schnell?" Das hier ist die ehrliche Antwort — was Parakeet wirklich ist, warum sein Decoder so flott arbeitet und an welchem Punkt ich stattdessen zu Whisper greifen würde.
Das ist das, was der Fachjargon auf den Modellkarten verschleiert. Parakeet ist ein Transkriptionsmodell — und ausschließlich das. Es hört Audio und schreibt die Wörter auf, inklusive Interpunktion und Großschreibung. Es fasst nicht zusammen, übersetzt nicht ins Englische und kennt keine Hotwords. Was es tut, tut es sehr schnell.
Die sinnvolle Frage ist also nicht "Parakeet gegen Whisper — wer gewinnt?", sondern "Wofür ist das jeweilige Modell da?" Parakeet ist die schnelle Wahl für Englisch und europäische Sprachen, vollständig offline. Whisper ist die Wahl für 99 Sprachen, Übersetzung ins Englische und feingranulare Steuerung — auf derselben Hardware langsamer. Ich erkläre die Geschwindigkeit, nenne die Sprachenliste ohne Umschweife und zeige, wie man Parakeet kostenlos und lokal in etwa zwei Minuten zum Laufen bringt.
Was das Parakeet-Modell wirklich ist

Parakeet ist eine Familie automatischer Spracherkennungsmodelle, die von NVIDIA veröffentlicht wurden. Das Modell, das wir ausliefern und das die meisten Leute meinen, ist parakeet-tdt-0.6b-v3, erschienen im August 2025 unter der CC-BY-4.0-Lizenz. "0.6b" entspricht 600 Millionen Parametern. Der Download ist rund 600 MB groß. In Whisper wird es als ONNX-Modell über transcribe-rs ausgeführt — unsere reine Rust-Transkriptionsschicht — ohne Python-Runtime und ohne separaten Prozess, den man im Blick behalten muss.
Seine Aufgabe ist klar umrissen, und das Modell ist ehrlich darüber. Parakeet nimmt Audio entgegen und gibt Text zurück — mit automatischer Interpunktion und Großschreibung sowie Zeitstempeln auf Wortebene, wenn gewünscht. Die Sprache erkennt es selbst; man muss nichts angeben. Was es nicht tut, ist mindestens genauso wichtig: keine Übersetzung ins Englische, kein Biasing für eigenen Wortschatz, keine Hotword-Liste zum Priorisieren bestimmter Begriffe. Es transkribiert. Das ist der gesamte Leistungsumfang.
Das "TDT" im Namen ist der interessante Teil — und der Grund, warum das Modell schnell ist und nicht nur klein. TDT steht für Token-and-Duration Transducer. Der Encoder ist ein FastConformer, NVIDIAs effiziente Variante der Conformer-Architektur, die die meisten modernen Sprachmodelle verwenden. Dieses Zusammenspiel — schneller Encoder, cleverer Decoder — ist die technische Grundlage hinter den Schlagzahlen, und es lohnt sich, dem einen eigenen Abschnitt zu widmen.
Warum ein Token-and-Duration Transducer so schnell ist
Ältere Transducer-Modelle arbeiten sich Frame für Frame durch das Audio und fragen an jedem Punkt: "Ist hier ein neues Wortfragment, oder nicht?" Meistens lautet die Antwort "nicht" — sie geben ein Leerzeichen aus, rücken einen Frame weiter und fragen erneut. Diese Schleife aus Leerzeichen-Ausgaben ist der Großteil der Arbeit und der verschwendeten Zeit. Das ist das Sprachmodell-Äquivalent davon, einen Satz Pixel für Pixel zu lesen.
Ein Token-and-Duration Transducer stellt eine andere Frage. Statt nur das nächste Token vorherzusagen, sagt er auch vorher, wie viele Frames bis zum nächsten übersprungen werden können. Bei einem langen Vokal oder einer Pause überspringt das Modell diese Strecke in einem einzigen Schritt, anstatt Frame für Frame durchzuarbeiten. Weniger Dekodierungsschritte, gleicher Text als Ausgabe. Diese Dauervorhersage ist der Trick, auf den der Name "TDT" hinweist — und das ist die Quelle der Geschwindigkeit.
Am Schreibtisch merkt man davon nichts. Man hält die Taste gedrückt, spricht, lässt los — und der Text erscheint am Cursor. Die kleine Kapsel oben ist alles, was man während des Zuhörens sieht. Die Decoder-Mathematik bleibt im Verborgenen. Aber sie erklärt, warum Parakeet ein Audiostück fertig hat, während ein vergleichbares Whisper-Modell noch durch die Leerzeichen arbeitet — auf einem CPU ist dieser Unterschied der zwischen "sofort" und "kurz warten".
Parakeet vs. Whisper, ohne Marketingsprache
Manche behandeln das wie einen Boxkampf. Ist es nicht. Es sind zwei Werkzeuge mit unterschiedlichem Anwendungsprofil, und in unserer App kann man beide installiert lassen und je nach Aufnahme wechseln. Am klarsten lässt es sich so fassen: Parakeet optimiert für Geschwindigkeit und Einfachheit offline; Whisper optimiert für Abdeckung und Kontrolle.
Parakeet ist schneller — 5 bis 10 Mal schneller als Whisper auf einem CPU, laut NVIDIAs eigenen Angaben und unseren eigenen Tests. Es deckt 25 Sprachen ab, alle europäisch, darunter Englisch. Interpunktion und Großschreibung sind gratis dabei. Was es aufgibt: Es kann andere Sprachen nicht ins Englische übersetzen, kennt kein Hotword- oder eigenes Vokabular-Biasing und unterstützt die Dutzenden nicht-europäischen Sprachen nicht — Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi — die Whispers mehrsprachige Builds mühelos verarbeiten.
Whisper erreicht in OpenAIs mehrsprachigen Builds 99 Sprachen und übersetzt jede davon ins Englische. Außerdem bietet es die Stellschrauben, die Parakeet nicht hat: Beam-Size, einen Anfangsprompt, Hotword-Biasing für Namen und Fachbegriffe. Der Preis ist Rechenzeit auf derselben Hardware, und größere Modelle brauchen mehr RAM. Die Faustregel ist einfach: Wer Englisch oder eine andere europäische Sprache spricht und schnelle Ergebnisse will, nimmt Parakeet. Wer Übersetzung, eine nicht-europäische Sprache oder Feinsteuerung braucht, nimmt Whisper. Die unspektakuläre Wahrheit ist, dass die meisten, die beide ausprobieren, am Ende beide behalten.
Die echten Zahlen: Geschwindigkeit und 25 Sprachen

Beginnen wir mit der Geschwindigkeit, denn sie ist der Grund, warum Parakeet überhaupt in unserer App ist. NVIDIAs Angabe lautet 5 bis 10 Mal schneller als Whisper auf einem CPU — das deckt sich mit dem, was wir sehen. Auf dem öffentlichen Open ASR Leaderboard erzielt das Modell einen Echtzeit-Faktor im Tausenderbereich, was bedeutet: Mit einer fetten GPU kann es Audio weit schneller transkribieren, als es abgespielt wird. Die GPU wird man nicht haben. Aber selbst auf einem normalen Laptop-CPU sorgt der Frame-überspringende Decoder dafür, dass kurze Diktate sich sofort anfühlen statt träge.
Jetzt zur Sprachenliste, klar formuliert, damit man nicht in eine Falle tappt. Parakeet v3 unterstützt 25 Sprachen, alle europäisch, darunter Englisch — also Englisch plus 24 weitere, nicht 99. Die Auswahl reicht von den naheliegenden (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch) über die nordischen und baltischen Sprachen bis hin zu Russisch und Ukrainisch. Die Sprache wird automatisch erkannt. Wer behauptet, Parakeet unterstütze 99 Sprachen, verwechselt es mit Whisper. Es sind 25, und die verarbeitet es schnell.
Zwei weitere Einschränkungen sind es wert, sie klar auszusprechen, weil sie die häufigsten Stolpersteine sind. Parakeet hat keinen Übersetzungsmodus ins Englische — es transkribiert, was man gesagt hat, in der Sprache, in der man es gesagt hat, Punkt. Und es akzeptiert keine Hotwords: Wer viele ungewöhnliche Produktnamen oder Eigennamen diktiert, kann diese nicht vorab eingeben. Beides ist kein Fehler; es sind einfach die Grenzen eines schnellen, fokussierten Modells. (Die Genauigkeit bei sauberem Englisch ist wirklich gut — auf dem Standard-Benchmark liegt die Wortfehlerrate unter 2%. Aber "gut" und "anpassbar für spezifischen Fachjargon" sind unterschiedliche Versprechen.)
Parakeet kostenlos, lokal, in zwei Minuten
Dafür braucht man keinen NVIDIA-Account, keine Python-Installation und keine GPU. Man braucht einen Mac mit Apple Silicon oder einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und ein paar Minuten. Die gesamte lokale Pipeline — Parakeet inbegriffen — ist für jeden angemeldeten Account kostenlos, ohne Zahlungsmittel bei der Registrierung. So läuft es ab.
Schritt 1 — Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte nötig. Die gesamte lokale Transkriptions-Pipeline ist sofort verfügbar.
Es hat funktioniert, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent die Modellauswahl anbietet.
Schritt 2 — Lokales Parakeet auswählen.
Die App bietet drei Wege an, ohne eine Vorauswahl zu treffen: Cloud, Local Parakeet, Local Whisper. Local Parakeet wählen und das rund 600 MB große Modell einmalig herunterladen lassen.
Es hat funktioniert, wenn Parakeet den Download abschließt und als bereit angezeigt wird.
Schritt 3 — Tastenkombination bestätigen.
Unter Windows ist Ctrl+Space voreingestellt, auf dem Mac Command+Option als Push-to-Talk. Auf dem Mac beim entsprechenden Hinweis die Bedienungshilfen-Berechtigung erteilen; ohne sie kann das Einfügen am Cursor andere Apps nicht erreichen.
Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 — Cursor irgendwo hinsetzen und sprechen.
In ein beliebiges Textfeld klicken — eine E-Mail, ein Dokument, einen Chat —, die Taste gedrückt halten, einen Satz sprechen, loslassen. Parakeet transkribiert ihn, und der Text erscheint dort, wo der Cursor steht.
Es hat funktioniert, wenn der gesprochene Satz kurz nach dem Loslassen als Text im Feld steht.
Der langsame Teil ist dieser eine Modell-Download. Alles danach sind die vier Schritte oben, und sobald Parakeet auf der Festplatte ist, meldet es sich nie nach Hause — Audio und Transkription bleiben auf dem eigenen Rechner. Wer schon einmal Diktierfunktion unter Windows oder auf dem Mac eingerichtet hat, kennt denselben Ablauf — nur mit einer schnelleren Engine darunter.
Genauigkeit, Endlostext und Nachbearbeitung
Rohes Diktat aus jeder Engine, Parakeet eingeschlossen, kommt als ein einziger Endlostext heraus. Man sagt "okay also standup auf zehn verschieben parakeet entwurf einreichen und marco anschreiben" — und genau das, ohne Satzzeichen, landet auf dem Bildschirm. Parakeet fügt zwar eigene Interpunktion und Großschreibung hinzu, was schon mehr ist als viele Modelle tun, aber es entfernt keine Füllwörter und bringt keinen mäandernden Gedanken in Form.
Genau da kommt ein KI-Durchlauf ins Spiel. Den Aktivierungsausdruck "Hey whisper" sprechen, und der transkribierte Text wird aufgewertet, bevor er landet — Füllwörter entfernt, Endlossätze aufgebrochen, das Gesprochene in etwas verwandelt, das man tatsächlich abschicken würde. Lokal läuft das über Ollama auf dem eigenen Rechner; im Cloud-Modus standardmäßig über gpt-5-mini. Parakeet hört zu, die Verbesserung räumt auf.
okay also standup auf zehn verschieben parakeet entwurf einreichen und marco um anschreiben vor dem mittagessen
Okay, also den Standup auf zehn verschieben, den Parakeet-Entwurf einreichen und Marco vor dem Mittagessen anschreiben.
Was die Genauigkeit betrifft: Parakeet ist bei sauberem Englisch wirklich stark — Wortfehlerrate unter 2% auf dem Standard-Benchmark, auf Augenhöhe mit Whisper, nicht darunter. Der ehrliche Vorbehalt, den niemand vermarktet: Kein Modell rettet schlechtes Audio. Ein 20-Euro-USB-Mikrofon tut mehr für die Transkriptionsgenauigkeit als jeder Modellwechsel. Das habe ich auf die harte Tour gelernt, nachdem ich eine Woche lang das Modell für verzerrte Aufnahmen verantwortlich gemacht hatte — die in Wirklichkeit das eingebaute Laptop-Mikrofon verursachte, das den Geschirrspüler aufzeichnete.
Diese Gewohnheit — sprechen, dann bereinigen — zahlt sich weit über eine einzelne App hinaus aus: Man kann ganze E-Mails und Dokumente per Sprache tippen mit einer einzigen Taste, sodass ein langer Absatz zu ein paar gesprochenen Sätzen wird, statt mühsam auf der Tastatur getippt zu werden.
Wann man lieber Whisper statt Parakeet nimmt

Es wäre nicht fair, Parakeet als Antwort auf alles zu verkaufen. Es ist die schnelle Wahl, nicht die universelle — und es gibt klare Fälle, in denen ich stattdessen zu einem der Whisper-Modelle greifen würde, oder zur kostenlosen Diktierfunktion, die bereits auf dem Rechner vorhanden ist.
Whisper statt Parakeet wählen, wenn eines der Folgenden zutrifft: Man braucht eine Sprache außerhalb von Parakeets 25 — Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi, alles Nicht-Europäische —, denn Parakeet unterstützt diese schlicht nicht. Man braucht Übersetzung ins Englische, die Parakeet gar nicht anbietet. Oder man diktiert viel Fachsprache, ungewöhnliche Namen oder Produktbezeichnungen und möchte Hotword-Biasing, um diese zu priorisieren — eine Funktion, die nur Whisper bietet. Für all das sind Whispers mehrsprachige Builds mit 99-Sprachen-Abdeckung das richtige Werkzeug, auch wenn sie auf derselben Hardware langsamer laufen.
Und manchmal ist das richtige Werkzeug gar nicht unseres. Wer nur gelegentlich eine kurze Notiz in ein Textfeld diktiert, bekommt das vom Betriebssystem bereits kostenlos: Windows-Taste + H öffnet Voice Typing überall dort, wo der Cursor steht (erfordert Internet, also nicht offline), und auf dem Mac tippt Diktat unter Systemeinstellungen → Tastatur überall, verarbeitet auf dem Gerät auf Apple Silicon. Unterhalb der Schwelle, ab der Geschwindigkeit, Offline-Datenschutz oder ein sauberer KI-Durchlauf wirklich relevant werden, sollte man das Kostenlose nutzen. Für eine einzeilige Erinnerung empfehle ich nicht, eine Engine zu installieren.
Wer speziell auf einem Apple-Rechner die beste Lösung sucht, findet den Vergleich zwischen Parakeet, Whisper und Apples eigener Diktierfunktion in den besten Speech-to-Text-Optionen für Mac, das dieselbe Abwägung zwischen Geschwindigkeit und Abdeckung aus der Mac-Perspektive durchgeht.
Parakeet ist ein 600-MB-Modell, das nach einem Vogel benannt ist und eine Sache tut — europäische Sprache schnell und lokal in Text umwandeln — und nicht vorgibt, mehr zu können. Ich finde diese Bescheidenheit seltsam beruhigend in einem Jahr, in dem jedes Werkzeug behauptet, alles zu können. Den unordentlichen Erstentwurf dieses Erklärartikels habe ich mit Parakeet lokal diktiert, dann den KI-Durchlauf die Endlossätze bereinigen lassen und anschließend für ein zitiertes Satzteil auf Ukrainisch zu einem Whisper-Modell gewechselt — das Parakeet zwar gut transkribiert hätte, das ich aber übersetzen wollte. Zwei Engines, eine Taste, keine Server. Das ist der Sinn davon, beide zu haben.
Parakeet auf dem eigenen Rechner ausprobieren
Taste halten, sprechen, loslassen. Parakeet transkribiert lokal und der Text erscheint am Cursor — in jeder App.
Lokaler Modus kostenlos für jeden angemeldeten Account. Zum Starten keine Karte erforderlich.



