Door Denys Medvediev

Uitleg

Het NVIDIA Parakeet-model

Parakeet is NVIDIA's open spraak-naar-tekst-model. De huidige versie, parakeet-tdt-0.6b-v3, is ongeveer 600 MB, werkt offline en is 5 tot 10 keer sneller dan Whisper op een CPU. Dit is wat het is en hoe het zich verhoudt.

Laatst bijgewerkt: juni 2026

Abstracte blauwe audiogolfvorm over een processorchip, die spraakherkenning op het apparaat oproept

Het NVIDIA Parakeet-model is een open spraak-naar-tekst-model gebouwd op een FastConformer-encoder en een Token-and-Duration Transducer-decoder. De huidige versie, parakeet-tdt-0.6b-v3, heeft ongeveer 600 miljoen parameters, transcribeert 25 Europese talen waaronder Nederlands, en is 5 tot 10 keer sneller dan Whisper op een CPU. Het vertaalt niet naar het Engels.

De meeste mensen horen het woord "Parakeet" en denken aan een vogel. Ze vertrekken met een spraak-naar-tekst-model. Het is van NVIDIA, het is open onder een ruime licentie, en de versie die voor dagelijks dicteren telt heet parakeet-tdt-0.6b-v3. De "0.6b" staat voor het aantal parameters — zo'n 600 miljoen. Op schijf neemt het rond de 600 MB in beslag. Klein genoeg om op je laptop te leven en nooit een server te bellen.

Ik ben hier om een simpele reden in geïnteresseerd: wij leveren het. Parakeet is een van de lokale engines in Whisper, pal naast OpenAI's Whisper-modellen, en de vraag die ik het vaakst krijg is "welke moet ik kiezen, en waarom is die vogel zo snel." Dit is het eerlijke antwoord — wat Parakeet eigenlijk is, hoe de decoder het snel maakt, en precies waar ik je doorstuur naar Whisper.

Dit is wat het modeljargon begraven houdt. Parakeet is een transcriptiemodel en alleen een transcriptiemodel. Het luistert naar audio en schrijft de woorden op, inclusief leestekens en hoofdletters. Het vat niet samen, het vertaalt niet naar het Engels, en het accepteert geen hotwoorden. Wat het doet, doet het heel snel.

De nuttige vraag is dus niet "Parakeet vs Whisper, wie wint." Het is "waarvoor is elk bedoeld." Parakeet is de snelle keuze voor Engels en Europese talen die volledig offline werkt. Whisper is de keuze voor 99 talen, vertalen naar het Engels en fijne afstemming — en is trager op hetzelfde apparaat. Ik leg de snelheid uit, geef je de taallijst recht voor zijn raap, en laat je zien hoe je Parakeet gratis lokaal gebruikt in ongeveer twee minuten.

Wat het Parakeet-model eigenlijk is

Close-up van een printplaat met een gloeiende processor, die lokale transcriptie op het apparaat symboliseert

Parakeet is een familie van automatische spraakherkenningsmodellen uitgebracht door NVIDIA. De versie die wij leveren, en de versie die de meeste mensen bedoelen, is parakeet-tdt-0.6b-v3, uitgebracht in augustus 2025 onder de CC-BY-4.0-licentie. "0.6b" staat voor 600 miljoen parameters. De download is ruwweg 600 MB. In Whisper komt het binnen als een ONNX-model dat via transcribe-rs wordt uitgevoerd — onze pure-Rust-transcriptielaag — wat betekent: geen Python-runtime en geen apart proces om in de gaten te houden.

De taak is beperkt en dat wordt eerlijk toegegeven. Parakeet neemt audio en geeft tekst terug met automatische leestekens en hoofdletters, plus tijdstempels op woordniveau als je dat wilt. Het detecteert de taal automatisch — je hoeft niet aan te geven wat je spreekt. Wat het niet doet is net zo belangrijk: geen vertaling naar het Engels, geen aanpassing van het vocabulaire, geen lijst met te versterken hotwoorden. Het transcribeert. Dat is de hele afspraak.

Het "TDT" in de naam is het interessante stuk, en het verklaart waarom het model snel is en niet alleen klein. TDT staat voor Token-and-Duration Transducer. De encoder is een FastConformer — NVIDIA's efficiënte variant van de Conformer-architectuur die de meeste moderne spraakmodellen gebruiken. Die combinatie — snelle encoder, slimme decoder — zit achter het kopgetal, en verdient een eigen sectie.

Hoe een Token-and-Duration Transducer snel wordt

Oudere transducer-modellen lopen frame voor frame door de audio en vragen bij elk frame: "is er hier een nieuw woorddeel, of niet." Meestal is het antwoord "niet" — ze geven een leeg signaal, schuiven één frame op, en vragen opnieuw. Die lege lus is het grootste deel van het werk en de verspilde tijd. Het is het spraakmodel-equivalent van een zin pixel voor pixel lezen.

Een Token-and-Duration Transducer stelt een andere vraag. In plaats van alleen het volgende token te voorspellen, voorspelt het ook hoeveel frames er overgeslagen kunnen worden voor het volgende token. Bij een lange klinker of een pauze springt het model er in één stap overheen in plaats van frame voor frame te malen. Minder decoderingstappen, dezelfde uitvoer. Dat duurvoorspelling is de truc waar de naam "TDT" op wijst, en het is de bron van de snelheid.

Cancel
De opname-overlay: een kleine capsule die verschijnt terwijl je spreekt, zodat je weet dat Whisper luistert.

Vanuit jouw stoel merk je daar niets van. Je houdt een sneltoets ingedrukt, je praat, je laat los, en de tekst verschijnt bij je cursor — de overlay-capsule hierboven is het enige wat je ziet terwijl het luistert. De wiskundige werking van de decoder is verborgen loodgieterswerk. Maar het is de reden dat Parakeet een stuk audio verwerkt terwijl een vergelijkbaar Whisper-model nog bezig is met de lege frames, en op een CPU is dat verschil het verschil tussen "meteen" en "even wachten."

Parakeet vs. Whisper, zonder de marketingtaal

Mensen behandelen dit als een gevecht. Dat is het niet. Het zijn twee tools met verschillende eigenschappen, en in onze app kun je beide geïnstalleerd houden en per opname wisselen. De eenvoudigste manier om het te onthouden: Parakeet is geoptimaliseerd voor snelheid en offline eenvoud; Whisper is geoptimaliseerd voor taaldekking en controle.

Parakeet is sneller — 5 tot 10 keer sneller dan Whisper op een CPU, volgens NVIDIA's eigen opgave en onze eigen tests. Het ondersteunt 25 talen, allemaal Europees, waaronder Nederlands. Het voegt automatisch leestekens en hoofdletters toe. Wat het opgeeft: het kan andere talen niet naar het Engels vertalen, het heeft geen hotwoord- of vocabulairebiasing, en het raakt geen tientallen niet-Europese talen aan — Chinees, Japans, Koreaans, Arabisch, Hindi — die Whisper's meertalige versies moeiteloos aan.

Whisper, in OpenAI's meertalige versies, bereikt 99 talen en kan ze allemaal naar het Engels vertalen. Het biedt ook de knoppen die Parakeet niet heeft: beam-grootte, een beginprompt, hotwoord-biasing voor namen en vakjargon. De prijs is meer verwerkingstijd op dezelfde hardware, en grotere modellen vergen meer RAM. De vuistregel is eenvoudig: spreek je Nederlands of een andere Europese taal en wil je het nu, dan is Parakeet de keuze. Heb je vertaling nodig, een niet-Europese taal, of fijne controle, dan kies je Whisper. De nuchtere waarheid is dat de meeste mensen die beide uitproberen, beide houden.

De echte cijfers: snelheid en 25 talen

Een gloeiende wereldkaart met lichtstrepen die steden verbinden, die vele talen en snelle verwerking oproept

Begin met snelheid, want dat is de reden dat Parakeet überhaupt in onze app zit. NVIDIA's opgegeven getal is 5 tot 10 keer sneller dan Whisper op een CPU, en dat klopt met wat wij zien. Op het publieke Open ASR Leaderboard boekt het model een real-time factor in de duizenden — wat betekent dat het audio veel sneller kan transcriberen dan de afspeeltijd wanneer het een krachtige GPU heeft. Die GPU heb jij niet. Maar zelfs op een gewone laptop-CPU zorgt de duuroverspringende decoder ervoor dat een korte dictatie direct aanvoelt in plaats van traag.

Dan de taallijst, precies verwoord zodat je niet voor verrassingen staat. Parakeet v3 ondersteunt 25 talen, allemaal Europees, met Engels als een ervan — dus Engels plus 24 andere, niet 99. De reeks loopt van de voor de hand liggende (Engels, Frans, Duits, Spaans, Italiaans, Portugees, Nederlands, Pools) via de Noord- en Baltische landen naar Russisch en Oekraïens. Het detecteert automatisch welke taal je spreekt. Als een modelpagina of forum beweert dat Parakeet 99 talen ondersteunt, wordt het verward met Whisper. Het doet 25, en dat doet het snel.

Nog twee beperkingen die het noemen waard zijn, omdat dit degene zijn waar mensen op struikelen. Parakeet heeft geen vertaalmodus naar het Engels — het transcribeert wat je zei in de taal die je sprak, punt. En het accepteert geen hotwoorden, dus als je dictaat vol staat met ongebruikelijke productnamen of achternamen, kun je die niet vooraf invoeren. Geen van beide is een fout; het zijn gewoon de grenzen van een snel, gefocust model. (De nauwkeurigheid op gewoon Nederlands is oprecht goed — op de standaard benchmark voor heldere spraak zit het onder de 2% woordfoutpercentage — maar "goed" en "instelbaar voor jouw specifieke jargon" zijn verschillende beloften.)

Parakeet gratis en lokaal uitvoeren in twee minuten

Je hebt geen NVIDIA-account, Python-installatie of GPU nodig om dit uit te proberen. Je hebt een Mac op Apple Silicon of een Windows 10-of-nieuwer-pc, een werkende microfoon en een paar minuten nodig. De hele lokale pipeline — inclusief Parakeet — is gratis voor elk ingelogd account, zonder betaalmethode bij aanmelding. Dit is de volgorde.

Stap 1 — Installeer Whisper en meld je aan.

Download via de downloadpagina, installeer het en maak een gratis account aan. Geen creditcard. De hele lokale transcriptiepipeline is meteen beschikbaar.

Je weet dat het werkt wanneer het tray-icoon van de app verschijnt en de installatiewizard aanbiedt een model te kiezen.

Stap 2 — Kies Local Parakeet.

De app biedt drie paden en kiest niet voor jou: Cloud, Local Parakeet, Local Whisper. Kies Local Parakeet en laat het model van ongeveer 600 MB eenmalig downloaden.

Je weet dat het werkt wanneer Parakeet klaar is met downloaden en als gereed wordt weergegeven.

Stap 3 — Bevestig je sneltoets.

Windows gebruikt standaard Ctrl+Space, Mac gebruikt Command+Option als push-to-talk. Op Mac verleen je de toegankelijkheidstoestemming wanneer gevraagd; zonder die toestemming kan het plakken bij de cursor andere apps niet bereiken.

Je weet dat het werkt wanneer een testopname in elk tekstveld wordt geplakt.

Stap 4 — Zet je cursor ergens en praat.

Klik in een tekstvak — een e-mail, een document, een chat — houd de sneltoets ingedrukt, spreek een zin, laat los. Parakeet transcribeert het en de tekst verschijnt bij de cursor.

Je weet dat het werkt wanneer je gesproken zin als tekst in het veld staat, een tel nadat je loslaat.

Whisper
De echte Whisper-desktopapp op het instellingenscherm, met het Transcriptie-paneel waar je Parakeet kiest.

Het trage deel is die ene modeldownload. Alles daarna zijn de vier stappen hierboven, en zodra Parakeet op schijf staat, belt het nooit meer naar huis — de audio en de transcriptie blijven op jouw apparaat. Als je ooit dicteren op Windows of op Mac hebt ingesteld, is dit dezelfde werkwijze met een snellere engine eronder.

Nauwkeurigheid, aaneengeregen tekst en opschonen

Ruwe dictatie van welke engine dan ook, inclusief Parakeet, komt er uit als één lange woordenstroom. Je zegt "oké dus verplaats de standup naar tien sla het parakeet-concept op en ping marco," en dat is de onleesbare muur die je krijgt. Parakeet voegt wel eigen leestekens en hoofdletters toe, meer dan veel modellen doen, maar het gaat geen "uh's" weghalen of een onsamenhangend verhaal omvormen tot een nette zin.

Dat is waar een AI-stap zijn waarde bewijst. Zeg de activeringsfraze "Hey whisper" en de getranscribeerde tekst wordt verbeterd voor hij wordt geplakt — opvulwoorden verwijderd, aaneengeregen zinnen gesplitst, het gesproken geheel omgezet in iets dat je daadwerkelijk kunt versturen. Op een lokale installatie gaat dat via Ollama op jouw eigen apparaat; in cloudmodus is het standaard gpt-5-mini. Parakeet luistert, de verbetering ruimt op.

Thinking...
Ruw

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

Opgeschoond

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

Wat de nauwkeurigheid betreft: Parakeet is oprecht sterk op helder gesproken taal — onder de 2% woordfoutpercentage op de standaard benchmark, wat in de buurt van Whisper ligt, niet eronder. De eerlijke kanttekening is de een die niemand in de reclame zet: geen enkel model repareert slechte audio. Een USB-microfoon van $20 doet meer voor je transcriptienauwkeurigheid dan van model wisselen ooit zal doen. Ik heb dat de harde weg geleerd, nadat ik een week lang het model de schuld gaf van verstoorde opnames die afkomstig bleken te zijn van de ingebouwde microfoon van mijn laptop die de vaatwasser oppikte.

Dezelfde gewoonte van spreken-dan-opschonen loont ver buiten één app — je kunt hele e-mails en documenten met je stem typen met één sneltoets, zodat een lange alinea een paar gesproken zinnen wordt in plaats van iets dat je op het toetsenbord uittypt.

Wanneer je Whisper kiest in plaats van Parakeet

Twee met krijt op straatstenen getekende pijlen die verschillende richtingen op wijzen, als illustratie van een gereedschapskeuze

Ik zou je tekortdoen als ik Parakeet als het antwoord op alles zou verkopen. Het is de snelle keuze, niet de universele, en er zijn duidelijke gevallen waarbij ik naar een van de Whisper-modellen zou grijpen — of naar de gratis dictatie die al op je apparaat zit.

Kies Whisper boven Parakeet als een van de volgende situaties van toepassing is. Je hebt een taal nodig die buiten Parakeet's 25 valt — Chinees, Japans, Koreaans, Arabisch, Hindi, alles niet-Europees — want Parakeet ondersteunt die eenvoudigweg niet. Je hebt vertaling naar het Engels nodig, waarvoor Parakeet geen modus heeft. Of je dicteert veel vakjargon, ongebruikelijke namen of producttermen en wilt hotwoord-biasing om ze vast te leggen, wat alleen Whisper biedt. Voor elk van die gevallen zijn Whisper's meertalige versies met hun 99-taalbereik het juiste gereedschap, ook al werken ze trager op dezelfde laptop.

En soms is het juiste gereedschap helemaal niet het onze. Als je alleen maar een korte notitie in een tekstveld tikt, doet je besturingssysteem dat al gratis: Windows-toets + H opent Spraaktypen waar je cursor ook staat (dit vereist internet, dus het is niet offline), en op een Mac typt Dictatie onder Systeeminstellingen → Toetsenbord overal waar je kunt, verwerkt op het apparaat op Apple Silicon. Onder de drempel waar snelheid, offline privacy of een nette AI-stap er echt toe doen, gebruik je wat gratis is. Ik ga je niet vertellen een engine te installeren voor een herinnering van één regel.

Als je specifiek een instelling kiest op een Apple-apparaat, worden de afwegingen tussen Parakeet, Whisper en Apple's eigen dictatie uiteengezet in de beste spraak-naar-tekst-opties voor Mac, die dezelfde afweging van snelheid versus taaldekking vanuit Mac-perspectief doorloopt.

Parakeet is een 600 MB-model vernoemd naar een vogel dat één ding doet — Europese spraak snel naar tekst omzetten, op je eigen apparaat — en weigert te doen alsof het meer kan. Ik vind die bescheidenheid merkwaardig geruststellend in een jaar waarin elk gereedschap beweert alles te kunnen. Ik dicteerde de rommelige eerste versie van deze uitleg met Parakeet lokaal actief, liet de AI-stap de aaneengeregen tekst opschonen, en schakelde vervolgens over naar een Whisper-model voor één geciteerde zin in het Oekraïens die Parakeet prima aankon maar die ik wilde vertalen. Twee engines, één sneltoets, geen servers. Dat is het hele punt van het hebben van beide.

Probeer Parakeet op je eigen apparaat

Houd de sneltoets ingedrukt, praat, laat los. Parakeet transcribeert het lokaal en de tekst verschijnt bij je cursor — in elke app die je opent.

Gratis lokale modus voor elk ingelogd account. Geen creditcard nodig om te beginnen.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze support-e-mail leest — hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen