Selitys
NVIDIA:n Parakeet-malli
Parakeet on NVIDIA:n avoin puheentunnistusmalli. Nykyinen versio, parakeet-tdt-0.6b-v3, on kooltaan noin 600 Mt, toimii ilman internetyhteyttä ja on 5–10 kertaa nopeampi kuin Whisper suorittimella. Tässä on tietoa siitä, mitä se on ja miten se vertautuu muihin.
Viimeksi päivitetty: kesäkuu 2026

NVIDIA Parakeet on avoin puheentunnistusmalli, joka perustuu FastConformer-enkooderiin ja Token-and-Duration Transducer -dekooderiin. Nykyinen julkaisu, parakeet-tdt-0.6b-v3, sisältää noin 600 miljoonaa parametria, tunnistaa 25 eurooppalaista kieltä englanti mukaan lukien ja toimii 5–10 kertaa nopeammin kuin Whisper suorittimella. Se ei käännä puhetta englanniksi.
Useimmat ihmiset törmäävät sanaan "Parakeet" odottaen lintua ja löytävät puheentunnistusmallin. Se on NVIDIA:n kehittämä, julkaistu sallivalla lisenssillä, ja arkikäyttöön tärkeä versio on nimeltään parakeet-tdt-0.6b-v3. "0.6b" viittaa parametrien määrään – noin 600 miljoonaa. Levyllä se vie noin 600 Mt. Se on riittävän pieni asuakseen kannettavallasi ilman palvelinyhteyttä.
Minulle tämä on tärkeää tavallisesta syystä: me toimitamme sen. Parakeet on yksi Whisper-sovelluksen paikallisista moottoreista, aivan OpenAI:n Whisper-mallien vieressä. Yleisin kysymykseni on: "kumpi, ja miksi lintu on niin nopea?" Tässä on suora vastaus – mitä Parakeet todella on, miten sen dekooder tekee siitä nopean ja missä kohtaa suosittelisin Whisperia sen sijaan.
Tässä on se, minkä mallikorttien jargon hautaa. Parakeet on litterointimalli ja ainoastaan litterointimalli. Se kuuntelee ääntä ja kirjoittaa sanat muistiin – välimerkit ja isot alkukirjaimet mukaan lukien. Se ei tee yhteenvetoja, ei käännä englanniksi eikä tue avainsanoja. Sen tekemä asia, se tekee erittäin nopeasti.
Käyttökelpoinen viitekehys ei siis ole "Parakeet vai Whisper – kumpi voittaa". Se on "mihin kumpikin sopii". Parakeet on nopea englannin- ja eurooppalaisten kielten valinta, joka toimii täysin offline-tilassa. Whisper on 99 kielen, englanninkäännökset ja hienosäädön valinta, joka on hitaampi samalla laitteella. Selitän nopeuden, kerron kieliluettelon suoraan ja näytän, miten Parakeet toimii ilmaiseksi paikallisesti noin kahdessa minuutissa.
Mitä Parakeet-malli todella on

Parakeet on NVIDIA:n julkaisema automaattisten puheentunnistusmallien perhe. Meillä käytössä oleva – ja se, jota useimmat ihmiset tarkoittavat – on parakeet-tdt-0.6b-v3, julkaistu elokuussa 2025 CC-BY-4.0-lisenssillä. "0.6b" tarkoittaa 600 miljoonaa parametria. Lataus on noin 600 Mt. Whisper-sovelluksessa se toimii ONNX-mallina transcribe-rs:n kautta, joka on puhdas Rust-litterointikerros – ei Python-suoritusympäristöä, ei erillistä prosessia valvottavaksi.
Sen tehtävä on rajattu, ja se on siitä rehellinen. Parakeet ottaa ääntä ja palauttaa tekstiä automaattisella välimerkityksellä ja isoilla alkukirjaimilla, sekä sana-tason aikaleimoin pyydettäessä. Se tunnistaa kielen automaattisesti – sinun ei tarvitse kertoa, mitä puhut. Mitä se ei tee, on yhtä tärkeää: ei käännöksiä englanniksi, ei mukautetun sanaston painotusta, ei "nosta nämä sanat" -avainsanaluetteloa. Se litteroi. Siinä koko sopimus.
Nimen "TDT" on kiinnostava osa, ja se selittää mallin nopeuden pelkkää pienuutta paremmin. TDT tarkoittaa Token-and-Duration Transducer. Enkooderi on FastConformer, joka on NVIDIA:n tehokas toteutus Conformer-arkkitehtuurista, jota useimmat modernit puhemallit käyttävät. Nopean enkooderin ja älykkään dekoودerin yhdistelmä on se tekniikka, joka seisoo otsikonumeron takana – ja se ansaitsee oman osionsa.
Miten Token-and-Duration Transducer saavuttaa nopeuden
Vanhemmat transducer-mallit käyvät ääntä läpi pieni kehys kerrallaan ja kysyvät jokaisessa kohdassa: "onko tässä uusi sanaosa vai ei." Useimmiten vastaus on "ei" – ne lähettävät tyhjän symbolin, siirtyvät yhden kehyksen eteenpäin ja kysyvät uudelleen. Tämä tyhjän symbolin lähetyssilmukka on suurin osa työmäärästä ja tuhlatusta ajasta. Se on kuin lukisi lausetta pikseli kerrallaan.
Token-and-Duration Transducer muuttaa kysymystä. Sen sijaan, että vain ennustettaisiin seuraava token, malli ennustaa tokenin ja sen, kuinka monta kehystä hypätä yli ennen seuraavaa. Kun on pitkä vokaali tai tauko, malli hyppää sen yli yhdellä askeleella eikä jauha kehys kerrallaan. Vähemmän dekoodausaskeleita, samat sanat ulos. Tämä keston ennustaminen on se temppu, johon "TDT" viittaa, ja siitä nopeus tulee.
Tuoliltasi katsottuna tämä ei näy mitenkään. Pidät pikanäppäintä, puhut, vapautat, ja teksti ilmestyy kursorisi kohtaan – ylhäällä näkyvä kapseli on ainoa asia, jonka näet sen kuunnellessa. Dekooderimatematiikka on piilotettua putkistoa. Mutta se selittää, miksi Parakeet viimeistelee äänikimpun sillä aikaa, kun vertailukelpoinen Whisper-malli vielä käy läpi tyhjiä symboleja, ja suorittimella tämä ero on "välitön" ja "odota" välinen ero.
Parakeet vs. Whisper ilman markkinointia
Ihmiset kohtelevat tätä kuin häkkitaistelua. Se ei ole sitä. Ne ovat kaksi eri muotoista työkalua, ja sovelluksessamme voit pitää molemmat asennettuna ja vaihtaa niiden välillä nauhoituskohtaisesti. Helpoin tapa hahmottaa asia: Parakeet optimoi nopeuden ja offline-yksinkertaisuuden suhteen; Whisper optimoi kattavuuden ja hallinnan suhteen.
Parakeet on nopeampi – 5–10 kertaa nopeampi kuin Whisper suorittimella, sekä NVIDIA:n oman ilmoituksen että omien mittaustemme mukaan. Se kattaa 25 kieltä, kaikki eurooppalaisia, englanti mukaan lukien. Se lisää välimerkit ja isot alkukirjaimet automaattisesti. Mitä se menettää: se ei pysty kääntämään muita kieliä englanniksi, sillä ei ole avainsana- tai mukautetun sanaston painotusta, eikä se kata kymmeniä ei-eurooppalaisia kieliä – kiina, japani, korea, arabia, hindi – joita Whisper-monikielinen versio käsittelee vaivatta.
Whisper, OpenAI:n monikielisissä versioissa, yltää 99 kieleen ja kääntää ne kaikki englanniksi. Se tarjoaa myös säädöt, joita Parakeet ei tarjoa: beam-koko, alkukehote, avainsanapainotus nimille ja ammattisanastolle. Hintana on pidempi aika samalla laitteistolla, ja isommat mallit vaativat enemmän RAM-muistia. Nyrkkisääntö on yksinkertainen: jos puhut englantia tai muuta eurooppalaista kieltä ja haluat tuloksen heti, valitse Parakeet. Jos tarvitset käännöksen, ei-eurooppalaisen kielen tai tarkan hallinnan, valitse Whisper. Tylsä totuus on, että useimmat jotka kokeilevat molempia, pitävät molemmat käytössä.
Todelliset luvut: nopeus ja 25 kieltä

Aloitetaan nopeudesta, koska se on syy Parakeetin olemassaoloon sovelluksessamme. NVIDIA:n ilmoittama luku on 5–10 kertaa nopeampi kuin Whisper suorittimella, ja se vastaa omia havaintojamme. Julkisessa Open ASR Leaderboard -tulostaulussa malli saavuttaa reaaliaikakerroinluvun tuhansissa – tarkoittaen, että se voi litteroida huomattavasti nopeammin kuin ääni toistuu, kun käytössä on tehokas GPU. Sinulla ei ole sitä GPU:ta. Mutta jopa tavallisella kannettavan suorittimella keston ennustava dekooder pitää lyhyen dictaation tuntumassa välittömältä eikä hitaalta.
Nyt kieliluettelo, tarkkaan ilmoitettuna, jotta et petä itseäsi. Parakeet v3 tukee 25 kieltä, kaikki eurooppalaisia, englanti yhtenä niistä – joten englanti plus 24 muuta, ei 99. Luettelo ulottuu selkeistä (englanti, ranska, saksa, espanja, italia, portugali, hollanti, puola) Pohjoismaihin ja Baltian maihin sekä venäjään ja ukrainaan. Se tunnistaa kielen automaattisesti. Jos joku mallisivu tai foorumi väittää Parakeetin tukevan 99 kieltä, se sekoittaa sen Whisperiin. Se tukee 25 kieltä, ja tekee sen nopeasti.
Kaksi rajoitusta lisää, jotka kannattaa sanoa ääneen, koska ne ovat ne, joihin ihmiset törmäävät. Parakeetilla ei ole käännöstä englantiin -tilaa – se litteroi kaiken sen kielen mukaan, jolla puhuit, piste. Eikä se ota avainsanoja, joten jos dictaatiosi sisältää paljon epätavallisia tuotenimiä tai sukunimiä, et voi syöttää niitä etukäteen. Kumpikaan ei ole puute; ne ovat vain nopean, fokusoidun mallin reunat. (Tarkkuus tavallisella englannilla on aidosti hyvä – standardibenchmarkissa se on alle 2 %:n sanavirhetasolla – mutta "hyvä" ja "säädettävissä erikoisjargonillesi" ovat eri lupauksia.)
Kokeile Parakeetia ilmaiseksi, paikallisesti, kahdessa minuutissa
Et tarvitse NVIDIA-tiliä, Python-asennusta tai GPU:ta kokeillaksesi tätä. Tarvitset Macin Apple Siliconilla tai Windows 10 -tai uudemman tietokoneen, toimivan mikrofonin ja muutaman minuutin. Koko paikallinen putkisto – Parakeet mukaan lukien – on ilmainen kaikille kirjautuneille käyttäjille, eikä maksutapaa pyydetä rekisteröitymisen yhteydessä. Tässä on järjestys.
Vaihe 1 – Asenna Whisper ja kirjaudu sisään.
Lataa lataussivulta, asenna ja luo ilmainen tili. Ei korttia. Koko paikallinen litterointiputkisto avautuu heti.
Tiedät sen toimivan, kun sovelluksen kuvake ilmestyy ilmaisinalueelle ja asennusohjattu tarjoaa mallin valintaa.
Vaihe 2 – Valitse paikallinen Parakeet.
Sovellus tarjoaa kolme polkua eikä valitse puolestasi: Cloud, paikallinen Parakeet, paikallinen Whisper. Valitse paikallinen Parakeet ja anna noin 600 Mt:n mallin ladata kerran.
Tiedät sen toimivan, kun Parakeet on latautunut ja näkyy valmiina.
Vaihe 3 – Vahvista pikanäppäimesi.
Windowsissa oletuspikanäppäin on Ctrl+Space, Macissa Command+Option pidettynä paina-puhua-tilassa. Macilla myönnä Helppokäyttöisyys-lupa pyydettäessä; ilman sitä liitä-kursoriin-kohtaan-toiminto ei tavoita muita sovelluksia.
Tiedät sen toimivan, kun testinauhoitus liitetään mihin tahansa tekstikenttään.
Vaihe 4 – Aseta kursori mihin tahansa ja puhu.
Napsauta mihin tahansa tekstikenttään – sähköpostiin, asiakirjaan, chattiin – pidä pikanäppäintä, sano lause, vapauta. Parakeet litteroi sen ja teksti ilmestyy kursorin kohtaan.
Tiedät sen toimivan, kun puhuttu lauseesi on kentässä tekstinä hetken kuluttua siitä, kun vapautat.
Hidas osa on tämä yksi mallin lataus. Kaikki sen jälkeen on neljä vaihetta yllä, ja kun Parakeet on levyllä, se ei enää ota yhteyttä palvelimeen – ääni ja litterointi pysyvät koneellasi. Jos olet joskus ottanut käyttöön dictaation Windowsissa tai Macilla, tämä on sama virtaus nopeammalla moottorilla alla.
Tarkkuus, pitkät lauseet ja tekstin siistiminen
Raakadictaatio mistä tahansa moottorista, Parakeet mukaan lukien, tulee pitkänä lausevirranana. Sanot "okei niin siirrä päivystys kymmeneen tallenna parakeet-luonnos ja pingaa marcoa" ja saat sen välimerkittömänä seinänä. Parakeet lisää omat välimerkit ja isot alkukirjaimet, mikä on enemmän kuin monet mallit tekevät, mutta se ei poista täytesanoja eikä muokkaa sekavaa ajatusta siistiksi lauseeksi.
Siinä AI-käsittely osoittaa arvonsa. Sano aktivointilause "Hey whisper" ja litteroitu teksti parannetaan ennen kuin se ilmestyy – täytesanat poistetaan, pitkät lauseet jaetaan, puhuttu sekasotku muuttuu joksikin, jonka haluaisit oikeasti lähettää. Paikallisessa asetuksessa tämä kulkee Ollaman kautta omalla koneellasi; pilvitilassa oletuksena on gpt-5-mini. Parakeet hoitaa kuuntelun, parannus hoitaa siistimisen.
okei niin siirrä päivystys kymmeneen tallenna parakeet-luonnos ja pingaa marcoa öm ennen lounasta
Okei, joten siirrä päivystys kymmeneen, tallenna Parakeet-luonnos ja pingaa Marco ennen lounasta.
Tarkkuuden suhteen Parakeet on aidosti vahva puhtaalla englannilla – alle 2 %:n sanavirhetaso standardibenchmarkissa, mikä on Whisperin tasolla, ei askel sen alla. Rehellinen varoitus on se, jota kukaan ei markkinoi: mikään malli ei korjaa huonoa ääntä. 20 euron USB-mikrofoni parantaa litterointitarkkuuttasi enemmän kuin moottorin vaihtaminen ikinä tekee. Opin tämän tylsällä tavalla vietettyäni viikon syyttäen mallia epäselväksi osoittautuneista nauhoituksista, joiden syy oli kannettavani sisäänrakennettu mikrofoni, joka poimi astianpesukoneen ääntä.
Sama puhu-sitten-siisti-tapa tuottaa tulosta kauas yhden sovelluksen ulkopuolelle – voit kirjoittaa kokonaisia sähköposteja ja asiakirjoja äänelläsi yhdellä pikanäppäimellä, joten pitkä kappale muuttuu muutamaksi puhutuksi lauseeksi näppäimistöllä painamisen sijaan.
Milloin valita Whisper Parakeetin sijaan

Tekisin sinulle karhunpalveluksen, jos myisin Parakeetin vastauksena kaikkeen. Se on nopea valinta, ei universaali, ja on selkeitä tilanteita, joissa kurkottaisin sen ohi kohti jotakin Whisper-malleista – tai laitteesi jo valmiina olevaa ilmaisdictaatiota.
Valitse Whisper Parakeetin sijaan, kun jokin näistä pitää paikkansa. Tarvitset kielen Parakeetin 25 eurooppalaisen kielen ulkopuolelta – kiina, japani, korea, arabia, hindi, mikä tahansa ei-eurooppalainen – koska Parakeet ei yksinkertaisesti kata niitä. Tarvitset käännöksen englanniksi, johon Parakeetilla ei ole tilaa. Tai dictaatiosi sisältää paljon erikoisjargonia, epätavallisia nimiä tai tuotenimityksiä ja haluat avainsanapainotuksen lukitsemaan ne, minkä vain Whisper tarjoaa. Missä tahansa näistä tilanteista Whisperin monikieliset versiot ja niiden 99 kielen kattavuus ovat oikea työkalu, vaikka ne ajavatkin hitaammin samalla kannettavalla.
Ja joskus oikea työkalu ei ole meidän lainkaan. Jos kirjoitat vain 20 sanan muistiinpanon tekstikenttään, käyttöjärjestelmäsi tekee sen jo ilmaiseksi: Windows-näppäin + H avaa Voice Typing -toiminnon missä tahansa kursori on (se vaatii internet-yhteyden, joten se ei toimi offline-tilassa), ja Macilla Dictation Järjestelmäasetuksissa → Näppäimistö kirjoittaa kaikkialle missä voit, prosessointiin Apple Siliconilla laitteella. Alle kynnyksen, jossa nopeus, offline-yksityisyys tai siisti AI-käsittely todella merkitsevät, käytä ilmaista. En aio käskeä sinua asentamaan moottoria yhden rivin muistutusviestiä varten.
Jos valitset asetusta nimenomaan Apple-laitteelle, Parakeetin, Whisperin ja Applen oman dictaation väliset kompromissit on käyty läpi artikkelissa parhaat tekstintunnistusvaihtoehdot Macille, joka käy läpi saman nopeus-kattavuus-valinnan Mac-puolelta.
Parakeet on 600 Mt:n malli, joka on nimetty linnun mukaan ja tekee yhden asian – muuntaa eurooppalaisen puheen tekstiksi, nopeasti, omalla koneellasi – eikä teeskentele tekevänsä enemmän. Pidän tuota pidättyvyyttä outona lohdutuksena vuonna, jolloin jokainen työkalu väittää tekevänsä kaiken. Dictasin tämän selityksen sekavan ensimmäisen luonnoksen Parakeetin avulla paikallisesti, annoin sitten AI-käsittelyn siistiä pitkät lauseet, ja vaihdoin sitten Whisper-malliin yhtä ukrainankielistä lainattua lausetta varten, jonka Parakeet tosin käsitteli hienosti mutta halusin kääntää. Kaksi moottoria, yksi pikanäppäin, ei palvelimia. Siinä on koko pointti siitä, miksi molemmat ovat käytössä.
Kokeile Parakeetia omalla koneellasi
Pidä pikanäppäintä, puhu, vapauta. Parakeet litteroi paikallisesti ja teksti ilmestyy kursorisi kohtaan – jokaisessa sovelluksessa, jonka avaat.
Ilmainen paikallinen tila kaikille kirjautuneille käyttäjille. Korttia ei tarvita aloittaaksesi.



