Förklaring
NVIDIA:s Parakeet-modell
Parakeet är NVIDIA:s öppna tal-till-text-modell. Den aktuella versionen, parakeet-tdt-0.6b-v3, är ungefär 600 MB, fungerar offline och är 5 till 10 gånger snabbare än Whisper på en CPU. Här är vad den är och hur den mäter sig.
Senast uppdaterad: juni 2026

NVIDIA:s Parakeet-modell är en öppen tal-till-text-modell byggd på en FastConformer-kodare och en Token-and-Duration Transducer-avkodare. Den aktuella versionen, parakeet-tdt-0.6b-v3, har ungefär 600 miljoner parametrar, transkriberar 25 europeiska språk inklusive engelska och är 5 till 10 gånger snabbare än Whisper på en CPU. Den översätter inte till engelska.
De flesta som stöter på ordet "Parakeet" förväntar sig en fågel men slutar med en tal-till-text-modell. Den är från NVIDIA, den är öppen under en tillåtande licens, och versionen som spelar roll för vardaglig diktering heter parakeet-tdt-0.6b-v3. "0.6b" är parameterantalet — ungefär 600 miljoner. På disk tar den upp runt 600 MB. Det är tillräckligt litet för att bo på din bärbara dator utan att någonsin behöva kontakta en server.
Jag bryr mig om det här av en oansenlig anledning: vi levererar den. Parakeet är en av de lokala motorerna i Whisper, precis bredvid OpenAI:s Whisper-modeller, och den fråga jag får mest är "vilken ska man välja, och varför är fågeln så snabb." Så här är den raka versionen — vad Parakeet faktiskt är, hur dess avkodare gör den snabb, och exakt var jag skulle peka dig mot Whisper i stället.
Här är det som modellkortets fackspråk begravde. Parakeet är en transkriptionsmodell och bara det. Den lyssnar på ljud och skriver ner orden, med interpunktion och versaler inkluderat. Den sammanfattar inte, den översätter inte till engelska och den tar inte emot nyckelord. Det den gör, gör den mycket snabbt.
Den användbara infallsvinkeln är alltså inte "Parakeet vs Whisper, vem vinner." Det är "vad är var och en till för." Parakeet är det snabba valet för engelska och europeiska språk och fungerar helt offline. Whisper är valet för 99 språk, översättning till engelska och finkontroll — och är långsammare på samma maskin. Jag förklarar hastigheten, ger dig språklistan rakt upp, och visar hur du kör Parakeet gratis, lokalt, på ungefär två minuter.
Vad Parakeet-modellen faktiskt är

Parakeet är en familj av automatiska taligenkänningsmodeller släppta av NVIDIA. Den vi levererar, och den de flesta menar, är parakeet-tdt-0.6b-v3, släppt i augusti 2025 under CC-BY-4.0-licensen. "0.6b" är 600 miljoner parametrar. Nedladdningen är ungefär 600 MB. I Whisper anländer den som en ONNX-modell som körs via transcribe-rs, vårt rena Rust-transkriptionslager, vilket innebär ingen Python-runtime och ingen separat process att hålla koll på.
Dess uppgift är smal och den är ärlig om det. Parakeet tar emot ljud och returnerar text med automatisk interpunktion och versaler, plus tidsstämplar på ordnivå om du vill ha det. Den identifierar språket på egen hand — du behöver inte tala om för den vad du pratar. Det den inte gör är lika viktigt: ingen översättning till engelska, ingen anpassad vokabulärbiasning, ingen lista med nyckelord att "lyfta fram." Den transkriberar. Det är hela kontraktet.
"TDT" i namnet är den intressanta delen, och det är därför modellen är snabb snarare än bara liten. TDT står för Token-and-Duration Transducer. Kodaren är en FastConformer, vilket är NVIDIA:s effektiva tolkning av Conformer-arkitekturen som de flesta moderna talmodeller använder. Kombinationen — snabb kodare, smart avkodare — är tekniken bakom rubriktalet, och det är värt ett eget avsnitt.
Hur en Token-and-Duration Transducer går snabbt
Äldre transduktormodeller går igenom ljud ett litet bildrutor i taget och frågar vid varje bildruta: "finns det en ny ordbit här, eller inte." Svaret är för det mesta "inte" — de sänder ut ett tomt tecken, kliver ett steg framåt och frågar igen. Den tomtteckensemitterande slingan är merparten av arbetet och merparten av den bortkastade tiden. Det är talmodellens motsvarighet till att läsa en mening en pixel i taget.
En Token-and-Duration Transducer ändrar frågan. I stället för att bara förutsäga nästa token förutsäger den token och hur många bildrutor som ska hoppas över innan nästa. När det finns ett långt vokalljud eller en paus hoppar modellen över det i ett enda steg i stället för att mala sig igenom det bildruta för bildruta. Färre avkodningssteg, samma ord ut. Den varaktighetsprediktionen är knepet som "TDT"-namnet pekar på, och det är därifrån hastigheten kommer.
Från din stol syns inget av det. Du håller en snabbtangent, pratar, släpper, och texten hamnar vid din markör — kapseln ovan är det enda du ser medan den lyssnar. Avkodarens matematik är dold rörmokeri. Men det är därför Parakeet hinner klart med ett ljudavsnitt medan en jämförbar Whisper-modell fortfarande tuggar på de tomma bildrutorana, och på en CPU är det skillnaden mellan "ögonblickligt" och "vänta lite."
Parakeet vs. Whisper, utan marknadsföringen
Folk behandlar det här som en burmatch. Det är det inte. De är två verktyg med olika form, och inne i vår app kan du ha båda installerade och byta per inspelning. Det enklaste sättet att hålla isär dem: Parakeet optimerar för hastighet och offlineenkelhet; Whisper optimerar för täckning och kontroll.
Parakeet är snabbare — 5 till 10 gånger snabbare än Whisper på en CPU, enligt NVIDIA:s egna siffror och våra egna körningar. Den täcker 25 språk, alla europeiska, engelska bland dem. Den lägger till interpunktion och versaler automatiskt. Vad den ger upp: den kan inte översätta andra språk till engelska, den saknar nyckelords- eller vokabulärbiasning, och den hanterar inte de dussintals icke-europeiska språken — kinesiska, japanska, koreanska, arabiska, hindi — som Whispers flerspråkiga versioner hanterar utan att blinka.
Whisper, i OpenAI:s flerspråkiga versioner, når 99 språk och kan översätta vilket som helst av dem till engelska. Den exponerar också inställningar som Parakeet saknar: strålbredd, en initialprompt, nyckelordsbiasning för namn och facktermer. Kostnaden är tid på klockan med samma hårdvara, och större modeller kräver mer RAM. Tumregeln är enkel: pratar du engelska eller ett annat europeiskt språk och vill ha det nu, välj Parakeet. Behöver du översättning, ett icke-europeiskt språk eller finkontroll, välj Whisper. Den tråkiga sanningen är att de flesta som provar båda behåller båda.
De verkliga siffrorna: hastighet och 25 språk

Börja med hastigheten, för det är den som gör att Parakeet finns i vår app överhuvudtaget. NVIDIA:s uppgivna siffra är 5 till 10 gånger snabbare än Whisper på en CPU, och det stämmer med vad vi ser. På den offentliga Open ASR Leaderboard har modellen en realtidsfaktor i tusental — vilket innebär att den kan transkribera långt snabbare än ljudet spelas upp när den får en kraftfull GPU. Du kommer troligtvis inte ha den GPU:n. Men även på en vanlig bärbar dators CPU håller varaktighetshoppande avkodaren en kort diktering känslig som ögonblicklig snarare än trög.
Nu till språklistan, angiven precist så att du inte blir besviken. Parakeet v3 hanterar 25 språk, alla europeiska, med engelska som ett av dem — alltså engelska plus 24 andra, inte 99. Listan sträcker sig från de uppenbara (engelska, franska, tyska, spanska, italienska, portugisiska, holländska, polska) genom de nordiska och baltiska till ryska och ukrainska. Den identifierar automatiskt vilket du talar. Om en modellsida eller ett forum påstår att Parakeet klarar 99 språk förväxlas den med Whisper. Den klarar 25, och det gör den snabbt.
Ytterligare två begränsningar värda att nämna, för de är de som folk snavar på. Parakeet saknar läge för översättning till engelska — den transkriberar det du sade på det språk du sade det, punkt slut. Och den tar inte emot nyckelord, så om din diktering är full av ovanliga produktnamn eller efternamn kan du inte mata in dem i förväg. Inget av det är en brist; det är bara gränserna för en snabb, fokuserad modell. (Noggrannheten på ren engelska är genuint god — på standardriktmärket för ren tal ligger den under 2% ordfelfrekvens — men "god" och "justerbar för din konstiga jargong" är olika löften.)
Kör Parakeet gratis, lokalt, på två minuter
Du behöver inget NVIDIA-konto, ingen Python-installation och ingen GPU för att prova det här. Du behöver en Mac med Apple Silicon eller en Windows 10 eller nyare PC, en fungerande mikrofon och några minuter. Hela det lokala pipeline:t — Parakeet inkluderat — är gratis för alla inloggade konton, utan att en betalningsmetod krävs vid registrering. Här är sekvensen.
Steg 1 — Installera Whisper och logga in.
Ladda ner från nedladdningssidan, installera och skapa ett gratis konto. Inget kort. Hela det lokala transkriptionspipelinet öppnas direkt.
Du vet att det fungerade när appens ikon i aktivitetsfältet dyker upp och installationsguiden erbjuder dig att välja en modell.
Steg 2 — Välj Lokal Parakeet.
Appen presenterar tre vägar och väljer inte åt dig: Cloud, Local Parakeet, Local Whisper. Välj Local Parakeet och låt den ungefär 600 MB stora modellen laddas ned en gång.
Du vet att det fungerade när Parakeet är klar med nedladdningen och visas som redo.
Steg 3 — Bekräfta din snabbtangent.
Windows använder som standard Ctrl+Space, Mac använder Command+Option hållet som push-to-talk. På Mac, bevilja Tillgänglighet-behörigheten när du uppmanas; utan den kan inklistringen vid markören inte nå andra appar.
Du vet att det fungerade när en testinspelning klistras in i ett textfält.
Steg 4 — Placera markören var som helst och prata.
Klicka i ett textfält — ett mejl, ett dokument, en chatt — håll snabbtangenten, säg en mening, släpp. Parakeet transkriberar och texten visas där markören är.
Du vet att det fungerade när din talade mening sitter i fältet som text, ett ögonblick efter att du släppte.
Det långsamma momentet är den enda modellnedladdningen. Allt efter det är de fyra stegen ovan, och när Parakeet väl finns på disk kontaktar den aldrig en server — ljudet och transkriptionen stannar båda på din maskin. Om du någonsin har konfigurerat diktering på Windows eller på Mac är det här samma flöde med en snabbare motor under huven.
Noggrannhet, löpande text och att städa upp
Rå diktering från vilken motor som helst, Parakeet inkluderad, kommer ut som en obruten textmassa. Du säger "okej så flytta standupen till tio lämna in parakeetutkastet och pinga marco," och det är den ouppdelade väggen du får. Parakeet lägger visserligen till sin egen interpunktion och versaler, vilket är mer än vad många modeller gör, men den kommer inte att ta bort dina "öh" eller forma ett virrig tanke till en ren mening.
Det är där ett AI-pass visar sitt värde. Säg aktiveringsfrasen "Hey whisper" och den transkriberade texten förbättras innan den landar — utfyllnadsord tas bort, långa meningar delas upp, det talade röret förvandlas till något du faktiskt skulle skicka. I en lokal installation körs det via Ollama på din egen maskin; i molnläge är det gpt-5-mini som standard. Parakeet lyssnar, förbättringen städar.
okay so move the standup to ten file the parakeet draft and ping marco um before lunch
Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.
Vad gäller noggrannhet i sig är Parakeet genuint stark på ren engelska — under 2% ordfelfrekvens på standardriktmärket, vilket är i Whispers grannskapet, inte ett steg under. Den ärliga reservationen är den ingen marknadsför: ingen modell fixar dåligt ljud. En USB-mikrofon för $20 gör mer för din transkriptionsnoggrannhet än att byta motor någonsin kommer att göra. Det lärde jag mig på det tråkiga sättet, efter att ha skyllts på modellen i en vecka för förvanskade inspelningar som visade sig bero på min bärbara dators inbyggda mikrofon som fångade upp diskmaskinen.
Samma vana att tala och sedan städa lönar sig långt bortom en app — du kan skriva hela mejl och dokument med rösten med en enda snabbtangent, så ett långt stycke blir några talade meningar i stället för något du maler ut på tangentbordet.
När du ska välja Whisper i stället för Parakeet

Jag skulle göra dig en björntjänst om jag sålde Parakeet som svaret på allt. Det är det snabba valet, inte det universella, och det finns tydliga fall där jag skulle ta till en av Whisper-modellerna — eller den gratis diktering som redan finns på din maskin.
Välj Whisper framför Parakeet när något av det här stämmer. Du behöver ett språk utanför Parakeets 25 — kinesiska, japanska, koreanska, arabiska, hindi, något icke-europeiskt — för Parakeet täcker dem helt enkelt inte. Du behöver översättning till engelska, vilket Parakeet saknar läge för. Eller du dikterar tung jargong, ovanliga namn eller produkttermer och vill ha nyckelordsbiasning för att låsa dem på plats, vilket bara Whisper exponerar. För något av det är Whispers flerspråkiga versioner med sin räckvidd på 99 språk rätt verktyg, även om de kör långsammare på samma bärbara.
Och ibland är rätt verktyg inte alls vårt. Om du bara skriver en 20-ords anteckning i ett textfält gör ditt operativsystem redan det gratis: Windows-tangenten + H öppnar Röstskrivning var din markör än är (det kräver internet, så det är inte offline), och på Mac skriver Diktering under Systeminställningar → Tangentbord var som helst, bearbetad lokalt på Apple Silicon. Under tröskeln där hastighet, offlineintegritet eller ett rent AI-pass faktiskt spelar roll, använd det som är gratis. Jag tänker inte uppmana dig att installera en motor för en enrads påminnelse.
Om du väljer en konfiguration på en Apple-maskin specifikt, är avvägningarna mellan Parakeet, Whisper och Apples egna diktering utlagda i de bästa tal-till-text-alternativen för Mac, som går igenom samma hastighets-kontra-täckningsavvägning från Mac-sidan.
Parakeet är en 600 MB-modell uppkallad efter en fågel som gör en sak — omvandlar europeiskt tal till text, snabbt, på din egen maskin — och vägrar låtsas att den gör mer. Jag finner den återhållsamheten märkligt lugnande ett år då varje verktyg påstår sig göra allt. Jag dikterade det röriga första utkastet till den här förklaringen med Parakeet körandes lokalt, lät sedan AI-passet städa upp de långa meningarna, och bytte sedan till en Whisper-modell för en citerad mening på ukrainska som Parakeet hanterade fint men som jag ville översätta. Två motorer, en snabbtangent, inga servrar. Det är hela poängen med att ha båda.
Prova Parakeet på din egen maskin
Håll snabbtangenten, prata, släpp. Parakeet transkriberar det lokalt och texten hamnar vid din markör — i varje app du öppnar.
Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att komma igång.



