Forklaring
NVIDIA's Parakeet-model
Parakeet er NVIDIA's åbne tale-til-tekst-model. Den aktuelle version, parakeet-tdt-0.6b-v3, fylder ca. 600 MB, kører offline og er 5 til 10 gange hurtigere end Whisper på en CPU. Her er hvad den er, og hvordan den klarer sig.
Sidst opdateret: juni 2026

NVIDIA Parakeet-modellen er en åben tale-til-tekst-model bygget på en FastConformer-encoder og en Token-and-Duration Transducer-decoder. Den aktuelle udgivelse, parakeet-tdt-0.6b-v3, har ca. 600 millioner parametre, transskriberer 25 europæiske sprog inkl. engelsk og kører 5 til 10 gange hurtigere end Whisper på en CPU. Den oversætter ikke til engelsk.
De fleste forbinder ordet "Parakeet" med en fugl — og ender med en tale-til-tekst-model. Det er NVIDIA's, den er open source under en åben licens, og den version, der har betydning for hverdagsdiktering, hedder parakeet-tdt-0.6b-v3. "0.6b" er parameterantallet — ca. 600 millioner. På disken fylder den omtrent 600 MB. Det er småt nok til at bo på din bærbare og aldrig ringe til en server.
Jeg interesserer mig for det af en meget prosaisk grund: vi leverer den. Parakeet er en af de lokale motorer i Whisper, side om side med OpenAI's Whisper-modeller, og det spørgsmål, jeg får mest, er "hvilken skal jeg vælge, og hvorfor er fuglen så hurtig." Så her er den klare version — hvad Parakeet faktisk er, hvordan dens decoder gør den hurtig, og præcis hvornår jeg ville anbefale Whisper i stedet.
Her er det, som modelkortenes fagsprog gemmer. Parakeet er en transskriptionsmodel og kun en transskriptionsmodel. Den lytter til lyd og skriver ordene ned — med tegnsætning og store begyndelsesbogstaver inkluderet. Den opsummerer ikke, den oversætter ikke til engelsk, og den accepterer ikke søgeord. Det, den gør, gør den meget hurtigt.
Den nyttige ramme er altså ikke "Parakeet mod Whisper — hvem vinder." Det er "hvad er hver enkelt til." Parakeet er det hurtige valg til engelsk og europæiske sprog, der kører fuldt offline. Whisper er valget med 99 sprog, oversættelse til engelsk og finere kontrol — men langsommere på den samme maskine. Jeg forklarer hastigheden, giver dig sproglisten direkte og viser dig, hvordan du kører Parakeet gratis, lokalt, på ca. to minutter.
Hvad Parakeet-modellen faktisk er

Parakeet er en familie af automatiske talegenkendelsesmodeller udgivet af NVIDIA. Den, vi leverer — og den, de fleste mener — er parakeet-tdt-0.6b-v3, udgivet i august 2025 under CC-BY-4.0-licensen. "0.6b" er 600 millioner parametre. Downloaden er ca. 600 MB. Inden i Whisper ankommer den som en ONNX-model kørt via transcribe-rs, vores rene Rust-transskriptionslag — det betyder ingen Python-runtime og ingen separat proces at holde øje med.
Dens opgave er afgrænset, og den er ærlig om det. Parakeet tager lyd og returnerer tekst med automatisk tegnsætning og store begyndelsesbogstaver samt tidsstempler på ordniveau, hvis du beder om det. Den registrerer sproget selv — du behøver ikke fortælle den, hvad du taler. Det, den ikke gør, er lige så vigtigt: ingen oversættelse til engelsk, ingen bias mod brugerdefinerede søgeord, ingen "fremhæv disse ord"-liste. Den transskriberer. Det er hele kontrakten.
"TDT" i navnet er det interessante, og det er grunden til, at modellen er hurtig frem for blot lille. TDT står for Token-and-Duration Transducer. Encoderen er en FastConformer — NVIDIA's effektive udgave af den Conformer-arkitektur, de fleste moderne talemodeller bruger. Kombinationen — hurtig encoder, smart decoder — er ingeniørkunsten bag overskriftstallet, og det fortjener sit eget afsnit.
Hvordan en Token-and-Duration Transducer er hurtig
Ældre transducer-modeller arbejder sig igennem lyd ét lille billede ad gangen og spørger ved hvert billede: "er der et nyt ordstykke her, eller ej." Det meste af tiden er svaret "nej" — de udsender et blankt symbol, rykker ét billede frem og spørger igen. Den loop med blanke symboler er det meste af arbejdet og det meste af den spildte tid. Det svarer til at læse en sætning én pixel ad gangen.
En Token-and-Duration Transducer stiller et andet spørgsmål. I stedet for kun at forudsige det næste token forudsiger den tokenet og hvor mange billeder, den skal springe over inden det næste. Når der er et stræk med én lang vokal eller en pause, hopper modellen hen over det i ét skridt frem for at male sig igennem billede for billede. Færre afkodningstrin, de samme ord ud. Den varighedsforudsigelse er tricket, "TDT"-navnet peger på — og det er der, hastigheden kommer fra.
Fra din stol ser du ingenting af det. Du holder en genvejstast, du taler, du slipper, og teksten lander ved din markør — overlay-kapslen ovenfor er det eneste, du ser, mens den lytter. Decoder-matematikken er skjult rørlægning. Men det er grunden til, at Parakeet er færdig med et lydstykke, mens en sammenlignelig Whisper-model stadig arbejder sig igennem de blanke symboler — og på en CPU er den forskel det, der adskiller "øjeblikkeligt" fra "vent lidt."
Parakeet vs. Whisper — uden marketingsspindet
Folk behandler det som en burekamp. Det er det ikke. De er to værktøjer med forskellige former, og inden i vores app kan du have begge installeret og skifte fra optagelse til optagelse. Den klareste måde at holde det i hovedet: Parakeet optimerer for hastighed og offline-enkelhed; Whisper optimerer for dækning og kontrol.
Parakeet er hurtigere — 5 til 10 gange hurtigere end Whisper på en CPU, ifølge NVIDIA's egne tal og vores egne kørsler. Den dækker 25 sprog, alle europæiske, engelsk inkluderet. Den sætter tegn og store begyndelsesbogstaver gratis. Det, den giver afkald på: den kan ikke oversætte andre sprog til engelsk, den har ingen søgeordsbiasing eller brugerdefineret ordfortegnelse, og den rører ikke ved de snesevis af ikke-europæiske sprog — kinesisk, japansk, koreansk, arabisk, hindi — som Whisper's flersprogede versioner håndterer uden at blinke.
Whisper, i OpenAI's flersprogede versioner, når 99 sprog og oversætter alle til engelsk. Den eksponerer også knapperne, Parakeet ikke har: beam-størrelse, en indledende prompt, søgeordsbiasing for navne og fagtermer. Prisen er realtid på den samme hardware, og større modeller kræver mere RAM. Tommelfingerreglen er enkel: taler du engelsk eller et andet europæisk sprog og vil have det nu, er Parakeet valget. Har du brug for oversættelse, et ikke-europæisk sprog eller finere kontrol, er Whisper det rigtige — selv om det kører langsommere på den samme bærbare. Den kedelige sandhed er, at de fleste, der prøver begge, ender med at beholde begge.
De rigtige tal: hastighed og 25 sprog

Start med hastighed, for det er grunden til, at Parakeet overhovedet er i vores app. NVIDIA's officielle tal er 5 til 10 gange hurtigere end Whisper på en CPU, og det stemmer med det, vi ser. På det offentlige Open ASR Leaderboard poster modellen en realtidsfaktor i tusinderne — den kan altså transskribere langt hurtigere end lyden afspilles, når den får en kraftig GPU. Den GPU har du ikke. Men selv på en almindelig bærbar CPU holder den varighedsspring-decoder en kort diktering til at føles øjeblikkelig frem for træg.
Nu sproglisten, præcist formuleret så du ikke brænder fingrene. Parakeet v3 håndterer 25 sprog, alle europæiske, med engelsk som et af dem — altså engelsk plus 24 andre, ikke 99. Sættet spænder fra de oplagte (engelsk, fransk, tysk, spansk, italiensk, portugisisk, hollandsk, polsk) over de nordiske og baltiske sprog til russisk og ukrainsk. Den registrerer automatisk, hvilket sprog du taler. Hævder en modelside eller et forum, at Parakeet klarer 99 sprog, forveksler de den med Whisper. Den klarer 25 — og gør det hurtigt.
To yderligere begrænsninger er værd at sige højt, for det er dem, folk snubler over. Parakeet har ingen oversæt-til-engelsk-tilstand — den transskriberer det, du sagde, på det sprog, du sagde det, punktum. Og den tager ingen søgeord, så hvis din diktering er fuld af usædvanlige produktnavne eller efternavne, kan du ikke fodre dem ind på forhånd. Ingen af delene er fejl; de er bare kanterne på en hurtig, fokuseret model. (Nøjagtigheden på almindeligt engelsk er genuint god — på standardbenchmarket for ren tale ligger den under 2% ordFejlrate — men "god" og "justerbar til dit særlige fagsprog" er to forskellige løfter.)
Kør Parakeet gratis, lokalt, på to minutter
Du behøver ikke en NVIDIA-konto, en Python-installation eller en GPU for at prøve dette. Du skal bruge en Mac på Apple Silicon eller en Windows 10-eller-nyere PC, en fungerende mikrofon og nogle minutter. Hele det lokale pipeline — Parakeet inkluderet — er gratis for enhver logget ind konto, uden betalingskort ved tilmelding. Her er rækkefølgen.
Trin 1 — Installer Whisper og log ind.
Download fra downloadsiden, installer og opret en gratis konto. Intet kort. Hele det lokale transskriptionspipeline åbner med det samme.
Du ved, det virkede, når appens bakkeikon dukker op, og installationsguiden tilbyder at vælge en model.
Trin 2 — Vælg Lokal Parakeet.
Appen præsenterer tre veje og vælger ikke for dig: Cloud, Lokal Parakeet, Lokal Whisper. Vælg Lokal Parakeet og lad den ca. 600 MB store model downloade én gang.
Du ved, det virkede, når Parakeet er færdig med at downloade og vises som klar.
Trin 3 — Bekræft din genvejstast.
Windows bruger som standard Ctrl+Space, Mac bruger Command+Option holdt nede som push-to-talk. På Mac: giv Tilgængeligheds-tilladelsen, når du bliver bedt om det — uden den kan indsæt-ved-markøren ikke nå andre apps.
Du ved, det virkede, når en testoptagelse indsættes i et vilkårligt tekstfelt.
Trin 4 — Placer markøren et sted og tal.
Klik i et tekstfelt — en e-mail, et dokument, en chat — hold genvejstasten, sig en sætning, slip. Parakeet transskriberer den, og teksten vises, hvor markøren er.
Du ved, det virkede, når din talte sætning sidder i feltet som tekst, et øjeblik efter du slipper.
Den langsomme del er den ene modeldownload. Alt derefter er de fire trin ovenfor, og når Parakeet er på disken, ringer den aldrig hjem — lyden og transskriptionen forbliver begge på din maskine. Har du nogensinde sat diktering op på Windows eller på Mac, er dette samme flow med en hurtigere motor under motorhjelmen.
Nøjagtighed, lange sætningsstrenge og oprydning i teksten
Rå diktering fra en hvilken som helst motor — Parakeet inkluderet — kommer ud som en lang sætningsstreng. Du siger "okay så flyt standupmødet til ti arkivér parakeet-udkastet og ping marco," og det er den tegnsætningsfrie mur, du får. Parakeet tilføjer sin egen tegnsætning og store begyndelsesbogstaver, hvilket er mere end mange modeller gør, men den fjerner ikke dine "øhm'er" og omformer ikke en løs tanke til en ren linje.
Det er her et AI-gennemløb tjener sig selv ind. Sig aktiveringsfrasen "Hey whisper", og den transskriberede tekst forbedres, inden den lander — fyldord fjernet, lange sætningsstrenge opdelt, det talte rod vendt til noget, du faktisk ville sende. På en lokal opsætning kører det via Ollama på din egen maskine; i cloud-tilstand er det gpt-5-mini som standard. Parakeet lytter, forbedringen rydder op.
okay så flyt standupmødet til ti arkivér parakeet-udkastet og ping marco øhm inden frokost
Okay, flyt standupmødet til ti, arkivér Parakeet-udkastet, og ping Marco inden frokost.
Hvad angår selve nøjagtigheden er Parakeet genuint stærk på rent engelsk — under 2% ordFejlrate på standardbenchmarket, altså i samme liga som Whisper, ikke et skridt under det. Det ærlige forbehold er det, ingen markedsfører: ingen model retter dårlig lyd. En USB-mikrofon til 150 kr. gør mere for din transskriptionsnøjagtighed end at skifte motor nogensinde vil. Det lærte jeg på den kedelige måde, efter at have givet modellen skylden i en uge for forvrængte optagelser, der i virkeligheden skyldtes min bærbares indbyggede mikrofon, der optog opvaskemaskinen.
Den samme vane — tal, rens bagefter — betaler sig godt langt ud over én app — du kan skrive hele e-mails og dokumenter med stemmen med den ene genvejstast, så et langt afsnit bliver til et par talte sætninger i stedet for noget, du slider ud på tastaturet.
Hvornår du skal vælge Whisper frem for Parakeet

Jeg ville gøre dig en bjørnetjeneste, hvis jeg solgte Parakeet som svaret på alt. Det er det hurtige valg, ikke det universelle, og der er klare tilfælde, hvor jeg ville gribe forbi det og tage en Whisper-model — eller den gratis diktering, der allerede er på din maskine.
Vælg Whisper frem for Parakeet, når et af disse er sandt. Du har brug for et sprog uden for Parakeet's 25 — kinesisk, japansk, koreansk, arabisk, hindi, noget ikke-europæisk — fordi Parakeet simpelthen ikke dækker dem. Du har brug for oversæt-til-engelsk, som Parakeet ikke har nogen tilstand til. Eller du dikterer tungt fagsprog, usædvanlige navne eller produkttermer og vil have søgeordsbiasing til at låse dem fast — noget kun Whisper tilbyder. For alle disse tilfælde er Whisper's flersprogede versioner med deres 99-sprogs rækkevidde det rigtige valg — selv om de kører langsommere på den samme bærbare.
Og nogle gange er det rigtige værktøj slet ikke vores. Bruger du kun til at droppe en 20-ords note i et tekstfelt, har dit styresystem allerede det gratis: Windows-tast + H åbner Stemmeskrivning, uanset hvor markøren er (det kræver internet, så det er ikke offline), og på Mac skriver Diktering under Systemindstillinger → Tastatur alt, hvad du kan, behandlet på enheden på Apple Silicon. Under den tærskel, hvor hastighed, offline-privatliv eller et rent AI-gennemløb faktisk betyder noget, kan du bruge det, der er gratis. Jeg vil ikke bede dig om at installere en motor til en enkelt-linje-påmindelse.
Hvis du vælger en opsætning på en Apple-maskine specifikt, er afvejningerne mellem Parakeet, Whisper og Apples egen diktering beskrevet i de bedste tale-til-tekst-muligheder til Mac, som gennemgår det samme hastigheds-kontra-dækning-spørgsmål fra Mac-siden.
Parakeet er en 600 MB-model opkaldt efter en fugl, der gør én ting — omdanner europæisk tale til tekst, hurtigt, på din egen maskine — og nægter at lade som om, den gør mere. Den tilbageholdenhed finder jeg mærkværdigt beroligende i et år, hvor ethvert værktøj hævder at gøre alt. Jeg dikterede det rodet første udkast til denne forklaring med Parakeet kørende lokalt, lod derefter AI-gennemløbet rydde op i sætningsstrengene, og skiftede til en Whisper-model for én citeret linje på ukrainsk, som Parakeet håndterede fint, men som jeg gerne ville have oversat. To motorer, én genvejstast, ingen servere. Det er hele pointen med at have begge.
Prøv Parakeet på din egen maskine
Hold genvejstasten, tal, slip. Parakeet transskriberer lokalt, og teksten lander ved din markør — i alle apps, du åbner.
Gratis lokal tilstand for enhver logget ind konto. Intet kort kræves for at komme i gang.



