Av Denys Medvediev

Forklaring

NVIDIAs Parakeet-modell

Parakeet er NVIDIAs åpne tale-til-tekst-modell. Den gjeldende versjonen, parakeet-tdt-0.6b-v3, er omtrent 600 MB, kjører uten internett og er 5 til 10 ganger raskere enn Whisper på CPU. Her er hva det er og hvordan det holder seg.

Sist oppdatert: juni 2026

Abstrakt blå lydbølge over en prosessorbrikke, som symboliserer talegjenkjenning på enheten

NVIDIA Parakeet-modellen er en åpen tale-til-tekst-modell bygget på en FastConformer-enkoder og en Token-and-Duration Transducer-dekoder. Den gjeldende versjonen, parakeet-tdt-0.6b-v3, har omtrent 600 millioner parametere, transkriberer 25 europeiske språk inkludert engelsk, og kjører 5 til 10 ganger raskere enn Whisper på CPU. Den oversetter ikke til engelsk.

De fleste møter ordet «Parakeet» og forventer en fugl, men ender opp med en tale-til-tekst-modell. Den er fra NVIDIA, den er åpen under en liberal lisens, og versjonen som betyr noe for hverdagsdiktering heter parakeet-tdt-0.6b-v3. «0.6b» er antall parametere — omtrent 600 millioner. På disk er det rundt 600 MB. Lite nok til å bo på laptopen din uten å ringe en server.

Jeg bryr meg om dette av en lite glamorøs grunn: vi leverer det. Parakeet er én av de lokale motorene inne i Whisper, rett ved siden av OpenAIs Whisper-modeller, og spørsmålet jeg får oftest er «hvilken, og hvorfor er fuglen så rask». Så dette er den rette versjonen — hva Parakeet faktisk er, hvordan dekoderen gjør den rask, og nøyaktig der jeg ville henvist deg til Whisper i stedet.

Her er det modelkortsjargongen begraverer. Parakeet er en transkripsionsmodell og bare en transkripsionsmodell. Den lytter til lyd og skriver ned ordene, med tegnsetting og stor forbokstav inkludert. Den oppsummerer ikke, den oversetter ikke til engelsk, og den bruker ikke stikkord. Det den gjør, gjør den veldig raskt.

Så den nyttige måten å se det på er ikke «Parakeet mot Whisper, hvem vinner». Det er «hva er hver av dem til». Parakeet er det raske engelske- og europeiske valget som kjører helt uten nett. Whisper er 99-språks-, oversett-til-engelsk-, finkontroll-valget som er tregere på samme maskin. Jeg skal forklare farten, gi deg språklisten rett ut, og vise deg hvordan du kjører Parakeet gratis, lokalt, på omtrent to minutter.

Hva Parakeet-modellen faktisk er

Nærbilde av et kretskort med glødende prosessor, som symboliserer lokal transkripsjon på enheten

Parakeet er en familie av automatiske talegjenkjenningsmodeller utgitt av NVIDIA. Den vi leverer, og den de fleste mener, er parakeet-tdt-0.6b-v3, utgitt i august 2025 under CC-BY-4.0-lisensen. «0.6b» er 600 millioner parametere. Nedlastingen er omtrent 600 MB. Inne i Whisper kommer den som en ONNX-modell som kjøres gjennom transcribe-rs, vårt rene Rust-transkripsjonslag, noe som betyr ingen Python-kjøretid og ingen separat prosess å passe på.

Jobben dens er smal og den er ærlig om det. Parakeet tar lyd og returnerer tekst med automatisk tegnsetting og stor forbokstav, pluss tidsstempler på ordnivå hvis du ber om det. Den oppdager språket selv — du trenger ikke si hva du snakker. Det den ikke gjør er like viktig: ingen oversettelse til engelsk, ingen tilpasset vokabularbiasing, ingen «boost disse ordene»-stikkordliste. Den transkriberer. Det er hele kontrakten.

«TDT» i navnet er den interessante biten, og det er derfor modellen er rask snarere enn bare liten. TDT står for Token-and-Duration Transducer. Enkoderen er en FastConformer, som er NVIDIAs effektive versjon av Conformer-arkitekturen som de fleste moderne talemodeller bruker. Kombinasjonen — rask enkoder, smart dekoder — er teknikken bak overskriftstallet, og det er verdt et eget avsnitt.

Hvordan en Token-and-Duration Transducer går raskt

Eldre transduser-modeller går gjennom lyd én liten ramme om gangen og spør ved hver ramme: «er det et nytt ordstykke her, eller ikke». Mesteparten av tiden er svaret «ikke» — de sender ut et tomt tegn, skyver frem én ramme og spør igjen. Den tomtegnssløyfen er det meste av arbeidet og det meste av bortkastet tid. Det er talemodellens ekvivalent av å lese en setning ett piksel om gangen.

En Token-and-Duration Transducer endrer spørsmålet. I stedet for bare å forutsi neste token, forutsier den tokenet og hvor mange rammer som skal hoppes over før neste. Når det er en lang vokal eller en pause, hopper modellen over den i ett enkelt steg i stedet for å male ramme for ramme. Færre dekodingstrinn, samme ord ut. Den varighetsprediksjonenener trikset «TDT»-navnet peker på, og det er der farten kommer fra.

Cancel
Opptaksoverlegget: en liten kapsel som vises mens du snakker, slik at du vet at Whisper lytter.

Fra stolen din vises ingenting av dette. Du holder en hurtigtast, du snakker, du slipper, og teksten lander ved markøren — kapseloverlegget ovenfor er det eneste du ser mens det lytter. Dekodingsmatematikken er skjult rørleggerarbeid. Men det er grunnen til at Parakeet er ferdig med en lydbit mens en sammenlignbar Whisper-modell fortsatt tygger på de tomme rammene, og på CPU er det gapet forskjellen mellom «øyeblikkelig» og «vent på det».

Parakeet mot Whisper, uten markedsføringen

Folk behandler dette som en burakamp. Det er det ikke. De er to verktøy med forskjellige former, og inne i appen vår kan du ha begge installert og bytte per opptak. Den enkleste måten å huske det på: Parakeet optimaliserer for hastighet og frakoblet enkelhet; Whisper optimaliserer for dekning og kontroll.

Parakeet er raskere — 5 til 10 ganger raskere enn Whisper på CPU, ifølge NVIDIAs egne tall og våre egne kjøringer. Den dekker 25 språk, alle europeiske, engelsk blant dem. Den setter inn tegnsetting og stor forbokstav gratis. Det den gir opp: den kan ikke oversette andre språk til engelsk, den har ingen hurtigord- eller tilpasset-vokabular-biasing, og den berører ikke de dusinvis av ikke-europeiske språk — kinesisk, japansk, koreansk, arabisk, hindi — som Whispers flerspråklige versjoner håndterer uten å blunke.

Whisper, i OpenAIs flerspråklige versjoner, når 99 språk og vil oversette alle til engelsk. Den eksponerer også knappene Parakeet ikke har: strålebredde, en innledende prompt, hurtigordbiasing for navn og fagsjargong. Kostnaden er faktisk tid på samme maskin, og større modeller betyr mer RAM. Så tommelfingerregelen er enkel: snakker du engelsk eller et annet europeisk språk og vil ha det nå, velg Parakeet. Trenger du oversettelse, et ikke-europeisk språk eller finere kontroll, velg Whisper. Den kjedelige sannheten er at de fleste som prøver begge ender opp med å beholde begge.

De virkelige tallene: hastighet og 25 språk

Et glødende verdenskart med lysspor som kobler byer, som symboliserer mange språk og rask behandling

Start med hastighet, fordi det er grunnen til at Parakeet i det hele tatt finnes i appen vår. NVIDIAs oppgitte tall er 5 til 10 ganger raskere enn Whisper på CPU, og det stemmer med det vi ser. På den offentlige Open ASR Leaderboard poster modellen en sanntidsfaktor i tusener — noe som betyr at den kan transkribere langt raskere enn lyden spilles av når den får en kraftig GPU. Den GPU-en har du ikke. Men selv på en vanlig bærbar PC-CPU holder varightsdekodeken en kort diktering til å føles øyeblikkelig snarere enn treg.

Nå språklisten, presist angitt slik at du ikke blir skuffet. Parakeet v3 håndterer 25 språk, alle europeiske, med engelsk som ett av dem — altså engelsk pluss 24 andre, ikke 99. Settet strekker seg fra de åpenbare (engelsk, fransk, tysk, spansk, italiensk, portugisisk, nederlandsk, polsk) gjennom de nordiske og baltiske til russisk og ukrainsk. Det oppdager automatisk hvilket du snakker. Hvis en modellside eller et forum sier at Parakeet gjør 99 språk, forveksler de den med Whisper. Den gjør 25, og gjør dem raskt.

To begrensninger til som er verdt å si høyt, fordi det er dem folk snubler over. Parakeet har ingen oversett-til-engelsk-modus — den transkriberer uansett hva du sa på det språket du sa det, punktum. Og den godtar ingen hurtigord, så hvis dikteringen din er full av uvanlige produktnavn eller etternavn, kan du ikke mate dem inn på forhånd. Ingen av delene er en feil; de er bare kantene på en rask, fokusert modell. (Nøyaktigheten på vanlig engelsk er genuint god — på standardbenchmarken for ren tale er den under 2% ordfeilrate — men «god» og «tilpasningsdyktig for ditt rare fagspråk» er forskjellige løfter.)

Kjør Parakeet gratis, lokalt, på to minutter

Du trenger ikke en NVIDIA-konto, Python installert eller en GPU for å prøve dette. Du trenger en Mac på Apple Silicon eller en Windows 10 eller nyere PC, en fungerende mikrofon og noen minutter. Hele den lokale pipelinen — Parakeet inkludert — er gratis for enhver innlogget konto, uten at betalingsmetode kreves ved registrering. Her er fremgangsmåten.

Steg 1 — Installer Whisper og logg inn.

Last ned fra nedlastingssiden, installer og opprett en gratis konto. Ingen kort. Hele den lokale transkripsjonspipelinen åpner seg umiddelbart.

Du vet at det fungerte når appens systemstatusikonet vises og oppsettveiviseren tilbyr å velge en modell.

Steg 2 — Velg lokal Parakeet.

Appen presenterer tre veier og velger ikke for deg: Sky, lokal Parakeet, lokal Whisper. Velg lokal Parakeet og la den omtrent 600 MB store modellen laste ned én gang.

Du vet at det fungerte når Parakeet er ferdig nedlastet og vises som klar.

Steg 3 — Bekreft hurtigtasten.

Windows bruker Ctrl+Space som standard, Mac bruker Command+Option holdt inne som trykk-for-å-snakke. På Mac, gi Tilgjengelighets-tillatelsen når du blir bedt om det; uten den kan ikke lim-inn-ved-markøren nå andre apper.

Du vet at det fungerte når et testopptak limes inn i et tekstfelt.

Steg 4 — Plasser markøren et sted og snakk.

Klikk i et tekstfelt — en e-post, et dokument, en chat — hold hurtigtasten, si en setning, slipp. Parakeet transkriberer det og teksten vises der markøren er.

Du vet at det fungerte når den talte setningen sitter i feltet som tekst, et øyeblikk etter at du slapp.

Whisper
Den virkelige Whisper-skrivebordsappen på innstillingsskjermen, med Transkripsjon-panelet der du velger Parakeet.

Den trege delen er den ene modellnedlastingen. Alt etter det er de fire stegene ovenfor, og når Parakeet er på disk ringer den aldri hjem — lyden og transkripsjonen forblir begge på maskinen din. Hvis du noen gang har satt opp diktering på Windows eller på Mac, er dette den samme flyten med en raskere motor under.

Nøyaktighet, løpende tekst og opprydding

Rå diktering fra enhver motor, Parakeet inkludert, kommer ut som én lang strøm. Du sier «greit så flytt standopen til ti arkiver parakeet-utkastet og ping marco», og det er den uinterpungerte veggen du får. Parakeet legger til sin egen tegnsetting og store forbokstaver, som er mer enn mange modeller gjør, men den kommer ikke til å fjerne «ehm»-ene dine eller omforme en rotete tanke til en ren linje.

Det er her et AI-pass tjener sin plass. Si aktiveringsfrasen «Hey whisper» og den transkriberte teksten forbedres før den lander — fyllord fjernet, løpende setninger delt opp, det talte rotet gjort til noe du faktisk ville sendt. På et lokalt oppsett kjøres det gjennom Ollama på din egen maskin; i skymodus er det gpt-5-mini som standard. Parakeet lytter, forbedringen rydder opp.

Thinking...

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

Renset

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

Når det gjelder selve nøyaktigheten er Parakeet genuint sterk på ren engelsk — under 2% ordfeilrate på standardbenchmarken, som er i Whispers nabolag, ikke et skritt under. Det ærlige forbeholdet er det ingen markedsfører: ingen modell fikser dårlig lyd. En $20 USB-mikrofon gjør mer for transkripsjonsnøyaktigheten din enn å bytte motor noen gang vil gjøre. Det lærte jeg på den kjedelige måten, etter å ha skyldt på modellen i en uke med forvrengte opptak som viste seg å skyldes den innebygde mikrofonen på laptopen min som fanget opp oppvaskmaskinen.

Den samme snakk-deretter-rydd-vanen lønner seg langt utover én app — du kan skrive hele e-poster og dokumenter med stemmen ved å bruke én hurtigtast, slik at et langt avsnitt blir noen talte setninger i stedet for noe du maler ut på tastaturet.

Når du bør velge Whisper i stedet for Parakeet

To piler med kritt på fortau som peker i ulike retninger, som illustrerer et verktøyvalg

Jeg ville gjort deg en bjørnetjeneste om jeg solgte Parakeet som svaret på alt. Det er det raske valget, ikke det universelle, og det er klare tilfeller der jeg ville grepet forbi det for en av Whisper-modellene — eller for den gratis dikteringen som allerede finnes på maskinen din.

Velg Whisper fremfor Parakeet når noen av disse stemmer. Du trenger et språk utenfor Parakeets 25 — kinesisk, japansk, koreansk, arabisk, hindi, alt ikke-europeisk — fordi Parakeet rett og slett ikke dekker dem. Du trenger oversett-til-engelsk, som Parakeet ikke har noen modus for. Eller du dikterer tung fagsjargong, uvanlige navn eller produktbetegnelser og vil ha hurtigordbiasing for å låse dem fast, noe bare Whisper tilbyr. For noen av disse er Whispers flerspråklige versjoner og deres 99-språklige rekkevidde det rette verktøyet, selv om de kjører tregere på samme bærbare.

Og noen ganger er det rette verktøyet ikke vårt i det hele tatt. Hvis du bare noen gang slipper et notat på 20 ord i et tekstfelt, gjør operativsystemet ditt det gratis: Windows-tast + H åpner talediktering der markøren er (det trenger internett, så det er ikke frakoblet), og på Mac skriver Diktering under Systeminnstillinger → Tastatur overalt du kan, behandlet på enheten på Apple Silicon. Under terskelen der hastighet, frakoblet personvern eller et rent AI-pass faktisk betyr noe, bruk det som er gratis. Jeg kommer ikke til å be deg installere en motor for en enlinjes påminnelse.

Hvis du velger oppsett på en Apple-maskin spesifikt, er avveiningene mellom Parakeet, Whisper og Apples egen diktering gjennomgått i de beste tale-til-tekst-alternativene for Mac, som tar den samme hastighet-kontra-dekning-vurderingen fra Mac-siden.

Parakeet er en 600 MB-modell oppkalt etter en fugl som gjør én ting — gjøre europeisk tale om til tekst, raskt, på din egen maskin — og nekter å late som om den gjør mer. Jeg finner den tilbakeholdenheten merkelig beroligende i et år der hvert verktøy hevder å gjøre alt. Jeg dikterte det rotete første utkastet av denne forklaringen med Parakeet kjørende lokalt, lot deretter AI-passet rydde opp i de løpende setningene, og byttet så til en Whisper-modell for én sitert linje på ukrainsk som Parakeet håndterte fint men som jeg ville oversette. To motorer, én hurtigtast, ingen servere. Det er hele poenget med å ha begge.

Prøv Parakeet på din egen maskin

Hold hurtigtasten, snakk, slipp. Parakeet transkriberer det lokalt og teksten lander ved markøren — i alle apper du åpner.

Gratis lokal modus for enhver innlogget konto. Ingen kort kreves for å starte.

Foto av Denys Medvediev

Denys Medvediev

Jeg er den som leser støtte-e-posten vår, høyst sannsynlig ved å diktere svarene.

Videre lesning