Kirjoittaja: Denys Medvediev

Selitys

Mitä Whisper-mallia minun kannattaa käyttää

Yhtä ainoaa oikeaa Whisper-mallia ei ole — oikea valinta riippuu siitä, arvostatko eniten nopeutta, tarkkuutta, kieltä vai levytilaa. Tämä opas yhdistää jokaisen mukana toimitettavan mallin käyttötarkoitukseen, jotta voit valita noin minuutissa, ja kertoo, milloin kannattaa jättää Whisper väliin ja ottaa sen sijaan Parakeet.

Päivitetty viimeksi: kesäkuu 2026

Useita nimettyjä vipukytkimiä tummalla paneelilla, jotka kuvastavat valintaa eri vaihtoehtojen välillä

Paras Whisper-malli riippuu työstä: valitse pieni englannin malli arkiseen englanninkieliseen saneluun, monikielinen malli muille kielille, suuri malli huippututkkuuteen tai Turbo nopeuteen lähellä suuren mallin laatua. Pääosin englanninkieliseen nopeuteen Parakeet voittaa Whisperin. Sovellus esittelee ne kaikki ja antaa käyttäjän valita.

Saan tämän kysymyksen useammin kuin minkään muun, yleensä muodossa "latasin sovelluksen, minkä mallin nyt valitsen." Se on aiheellinen kysymys, ja rehellinen ensimmäinen vastaus on, ettei ole yhtä mallia, joka voittaa. On malli, joka voittaa juuri sinun koneellasi, kielelläsi ja sen suhteen, kuinka paljon välität ylimääräisen puolen sekunnin odottelusta. Siksi sovellus ei valitse puolestasi. Se näyttää vaihtoehdot ja jättäytyy syrjään.

Se kuulostaa kiertelyltä, kunnes näet erot. Pienin englannin malli on noin 140 Mt ja pyörii vuoden 2016 kannettavalla. Paras monikielinen on noin 3 Gt ja haluaa 16 Gt RAM-muistia. Näiden kahden välissä asuu kuusi muuta vaihtoehtoa sekä erillinen moottori nimeltä Parakeet. Valitse väärin, niin joko odotat liian kauan tai litteroit väärällä kielellä. Valitse oikein, niin unohdat koko mallin olemassaolon — ja juuri se on tavoite.

Tässä on kehys, joka saa koko listan loksahtamaan paikoilleen. Jokainen malli on kompromissi neljän asian välillä: nopeus, tarkkuus, kuinka montaa kieltä se osaa ja kuinka paljon levytilaa ja RAM-muistia se syö. Kaikkia neljää ei voi maksimoida. 3 gigan malli on tarkempi ja osaa enemmän kieliä, mutta se on hitaampi eikä mahdu 8 gigan koneeseen. 140 megan malli on välitön, mutta osaa vain englantia ja vain jossain määrin.

Oikea kysymys ei siis ole "mikä malli on paras." Se on "minkä kompromissin haluan." Kun tiedät, oletko pelkkää englantia sanelija vaatimattomalla kannettavalla, yhdeksää kieltä työstävä kääntäjä vai joku, joka haluaa vain nopeimman paikallisen vaihtoehdon, valinta tulee itsestään. Käyn läpi pelkän englannin mallit, monikieliset, sen missä Parakeet voittaa ne kaikki, ja yhden rivin suosituksen, jos et halua lukea loppua.

Aloita yhdellä kysymyksellä: mistä välität eniten?

Säänpieksemä puinen opaste, jonka nuolet osoittavat useaan eri suuntaan kirkasta taivasta vasten

Ennen mitään mallin nimeä vastaa yhteen kysymykseen: mikä näistä on sinulle juuri nyt tärkeintä — nopeus, tarkkuus, kielten kattavuus vai levytila? Voit valita vain yhden ensisijaiseksi, koska mallit käyvät kauppaa keskenään. Useimmat tätä murehtivat eivät ole päättäneet, mitä optimoivat, ja siksi lista näyttää lamaannuttavalta. Ei se ole. Se on neljä lyhyttä vastausta kahdeksassa nimessä.

Jos haluat nopeutta ja puhut englantia, päädyt pieneen englannin malliin tai todennäköisemmin Parakeetiin. Jos tarvitset jotakin muuta kieltä kuin englantia, olet monikielisessä perheessä, halusit tai et. Jos haluat tarkimman litteroinnin, jonka voit paikallisesti saada, ja sinulla on siihen RAM-muistia, se on suuri malli. Ja jos levytila on tiukassa, pienin malli on ystäväsi ja 3 gigan malli on pois pelistä. Siinä on koko päätöspuu, ja loppu tästä oppaasta vain täyttää nimet.

Yhden asian sovellus tekee tarkoituksella: se ei koskaan pakota oletusta päällesi. Ei ole "suositeltu"-merkkiä työntämässä sinua kohti mallia, joka sattuu saamaan meidät näyttämään hyvältä jossakin testissä. Näet Pilven, näet Parakeetin, näet kahdeksan Whisper-mallia jaettuna pelkkään englantiin ja monikielisiin, ja valitset. Jos olet aiemmin ottanut käyttöön puheesta tekstiksi Windowsissa tai Macilla, tämä on sama näkymä eri kysymykseen suunnattuna.

Pelkän englannin mallit, pikkukannettavasta huippututkkuuteen

Jos sanelet vain englanniksi, pelkän englannin mallit ovat tehokkain valinta — ne pudottavat monikielisen koneiston pois ja käyttävät sen budjetin englantiin. Niitä on neljä, ja ne asettuvat siististi riviin "vanhasta kannettavasta" "parhaaseen englantiin, jota voit paikallisesti pyörittää." Painat pikanäppäintä, puhut, vapautat, ja litterointi liimautuu kursorin kohdalle riippumatta siitä, minkä niistä valitsit; ainoa ero on nopeus ja se, kuinka usein se osuu hankalaan sanaan. Pieni kapseli ilmestyy puhuessasi, jotta tiedät sen kuuntelevan:

Cancel
Äänityksen näkymä: pieni kapseli, joka ilmestyy puhuessasi, jotta tiedät Whisperin kuuntelevan.

Pienin on Base, noin 140 Mt. Se on se, jonka valitset vuoden 2016 kannettavaan tai 8 gigan koneeseen, jossa haluat sanelun, joka vain toimii ilman murehtimista RAM-muistista. Sen yläpuolella on Small noin 480 megalla, tasapainoinen englannin vaihtoehto — hitaampi kuin Parakeet, mutta se tukee käännä-englanniksi-toimintoa ja hakusanapainotusta, joita Parakeet ei tue. Sitten Medium noin 1,5 gigalla, joka haluaa 16 Gt RAM-muistia ja antaa perheen parhaan tavallisen englannin tarkkuuden. (Julkisessa testissä englannin Medium-malli yltää noin 3 prosentin sanavirheasteeseen puhtaalla äänellä; Small on lähempänä 5:tä. Tosielämän luvut riippuvat paljon enemmän mikrofonistasi kuin siitä, minkä näistä valitset.)

Neljäs hämmentää ihmisiä, joten sanon sen suoraan. Turbo, joka on distil-large-v3-malli, on myös noin 1,5 Gt ja sitä kuvataan 6× nopeammaksi kuin suuri malli, 99 prosentilla sen tarkkuudesta. Se kuulostaa ilmaiselta lounaalta, ja englannin osalta se lähes onkin — se on valinta, kun haluat lähes parhaan englannin tarkkuuden ilman täyden suuren mallin nopeussakkoa. Mutta "pelkkä englanti" -merkintä pitää paikkansa: nämä neljä osaavat englantia ja vain englantia. Sillä hetkellä, kun tarvitset toista kieltä, olet poistunut tästä perheestä kokonaan — ja siitä kertoo seuraava osio.

Monikieliset mallit, niille muille 98 kielelle

Sillä hetkellä, kun äänesi ei ole englantia, haluat monikielisen mallin. Whisperin monikieliset versiot kattavat 99 kieltä automaattisella tunnistuksella, ja ne ovat ainoa paikallinen tapa, joka voi kääntää puheen englanniksi samalla kun se litteroi. Pelkän englannin mallit eivät pysty siihen, eikä myöskään Parakeet. Joten jos sanelet ukrainaksi, kirjoitat muistiinpanon japaniksi tai haluat espanjankielisen äänityksen tulostuvan englanninkielisenä tekstinä, tämä perhe on vastaus, piste.

Näitäkin on neljä, ja ne peilaavat pelkän englannin kokoja. Small, noin 480 Mt, on nopea monikielinen lähtötaso — yleinen oletusmalli, jonka sovellus toimittaa mukana, koska se on turvallisin ensimmäinen arvaus, kun kukaan ei vielä tiedä kieltäsi. Medium, noin 1,5 Gt, vaihtaa nopeutta huomattavasti parempaan laatuun. Large v3, noin 3 Gt, on paras tarkkuus, jonka voit paikallisesti saada, ja oikea valinta ammattimaiseen monikieliseen työhön — kunhan sinulla on 16 Gt RAM-muistia sitä ruokkimaan. Ja Large v3 Turbo, noin 1,62 Gt, on nopea monikielinen taso — suuresta mallista suurin osa laatua murto-osalla odotuksesta.

Sananen kielten lukumäärästä, koska markkinointiin sopiva luku ja todellinen luku eroavat sen mukaan, mitä tarkoitat. Monikieliset mallit kattavat aidosti 99 kieltä; pelkän englannin mallit kattavat täsmälleen yhden. Jos puhut enimmäkseen englantia ja osut silloin tällöin toiseen eurooppalaiseen kieleen, sinulla on näistä nopeampi vaihtoehto, ja se on Parakeet — joka on seuraava ymmärrettävä asia, koska se on malli, jonka ihmiset useimmiten valitsevat vahingossa tai jättävät vahingossa väliin.

Milloin Parakeet voittaa Whisperin, ja milloin ei

Liike-epäterävyydessä juokseva juoksija radalla, mikä viittaa nopeuteen ja etumatkaan

Parakeet ei ole lainkaan Whisper-malli — se on NVIDIA:n TDT-moottori, noin 600 Mt, ja se on nopein paikallinen vaihtoehto, jonka sovellus toimittaa, ja sitä kuvataan 5–10 kertaa nopeammaksi kuin Whisper prosessorilla. Jos sinulla on vanhempi tai kannettavan luokan prosessori ilman ylimääräistä näytönohjainta, tuo nopeusero on ero välittömältä tuntuvan sanelun ja odottamaan jättävän sanelun välillä. Arkiseen englanninkieliseen työhön Parakeet on se, johon tartun ensimmäisenä.

Se kattaa englannin sekä 24 muuta eurooppalaista kieltä — 25 yhteensä — joten monille eurooppalaisille käyttäjille se riittää hyvin. Mitä se tarkoituksella ei tee, on pelkät Whisperin jutut: ei käännä-englanniksi-toimintoa, ei hakusanapainotusta, ei mukautetun sanaston kehotetta. Jos työsi on yksikielistä englantia (tai jotakin noista 24 eurooppalaisesta kielestä) ja haluat sen vain nopeasti, Parakeet voittaa ja kysymys on selvä. Lisää siitä on Parakeet-mallin erittelyssä, jos haluat koko kuvan.

Whisper voittaa sillä hetkellä, kun astut tuon laatikon ulkopuolelle. Tarvitsetko kiinaa, japania tai koreaa? Monikielinen Whisper, koska Parakeet ei niitä puhu. Pitääkö äänitys kääntää englanniksi? Whisper monikielisenä, ainoa paikallinen tapa, joka sen tekee. Haluatko ohjata mallia tuotenimien tai ammattisanaston listaa kohti, jotta se lakkaa silppuamasta niitä? Whisper, hakusanojen kautta. Nyrkkisääntö: Parakeet englannin nopeuteen, Whisper kieliin, kääntämiseen ja hallintaan. Sovellus toimittaa molemmat mukana, koska kumpikaan ei ole oikea vastaus kaikille.

Koko, nopeus ja tarkkuus: miten kompromissi todella toimii

Auttaa nähdä nuo kolme voimaa rinnakkain, koska jokainen malli on vain eri piste samalla kolmiolla. Suuremmat tiedostot ovat tarkempia ja hitaampia; pienemmät tiedostot ovat nopeampia ja kevyempiä RAM-muistille; ja erikoismoottorit taivuttavat käyrää. Tässä on rehellinen versio jokaisesta voimasta, koska sovellus pakottaa sinut valitsemaan ja haluan mieluummin, että valitset tietäen hinnan.

Kolme tapaa lukea valikoimaa sen mukaan, mikä sinua puristaa:

  • Jos nopeus on ongelmatartu ensin Parakeetiin — noin 600 Mt ja 5–10 kertaa nopeampi kuin Whisper prosessorilla. Ilman näytönohjainta olevassa koneessa mikään paikallinen ei tavoita sitä arkisessa englannissa. Hinta on, ettei ole käännä-englanniksi-toimintoa eikä hakusanoja.
  • Jos tarkkuus tai kieli on ongelmamene suuremmaksi Whisper-perheessä. Large v3 noin 3 gigalla on paras paikallinen tarkkuus ja kattaa 99 kieltä, mutta se haluaa 16 Gt RAM-muistia. Turbo-versiot antavat sinulle suurimman osan siitä laadusta paljon vähemmällä odotuksella. Small ja Medium ovat järkevä keskitie.
  • Jos levytila tai RAM on ongelmapysy pienenä (Base noin 140 megalla) tai jätä paikallinen kokonaan väliin ja käytä Pilvi-tilaa, joka pyörii millä tahansa laitteistolla, koska se on vain verkkokutsu OpenAI:lle omalla avaimellasi. Pilvi on osa Whisper Prota ja tarvitsee internetin.

Tylsä totuus on, että useimmille ihmisille tuoreella koneella ero keskikokoisten mallien välillä on pienempi kuin ero, jonka mikrofonisi tekee. 20 dollarin USB-mikrofoni tekee tarkkuudelle enemmän kuin hyppy Smallista Largeen — julkiset Whisper-testit tukevat tätä, ja olen nähnyt sen toteutuvan omalla työpöydälläni useammin kuin kerran. Älä siis murehdi Mediumia vastaan Large ensimmäisenä päivänä. Valitse jokin, joka mahtuu RAM-muistiisi, ala sanella, ja päivitä mallia myöhemmin, jos jokin sana tulee jatkuvasti väärin. Malli, jonka oikeasti pidät, on se, joka on tarpeeksi nopea, jotta unohdat sen olevan siellä.

Kokeile yhtä, vaihda sitten kahdella klikkauksella, jos se on väärä

Tässä se osa, joka ottaa paineet pois koko päätöksestä: et ole naimisissa ensiksi valitsemasi mallin kanssa. Vaihtaminen on kaksi klikkausta Asetuksissa, ja ainoa todellinen kustannus on lataus sille mallille, johon siirryt. Oikea strategia ei siis ole tutkia tuntia — se on tehdä järkevä ensimmäinen arvaus, sanella sillä päivän ajan ja vaihtaa, jos se ärsyttää sinua. Koko paikallinen putki on ilmainen kaikille kirjautuneille tileille, eikä maksutapaa kysytä rekisteröitymisen yhteydessä, joten muutaman mallin kokeilu ei maksa sinulle muuta kuin levytilaa.

Vaihe 1 — Avaa Asetukset ja etsi Litterointi-paneeli.

Siellä mallilista asuu, jaettuna pelkkään englantiin ja monikielisiin, Parakeet ja Pilvi rinnalla. Mitään ei ole valittu valmiiksi "parhaaksi."

Tiedät olevasi oikeassa paikassa, kun näet mallilistan, jossa koot ovat kunkin nimen vieressä.

Vaihe 2 — Tee ensimmäinen arvauksesi yllä olevan osion pohjalta.

Englantia ja haluat nopeutta: Parakeet. Englantia ja haluat tarkkuutta: Small tai Medium englanti. Muut kielet: monikielinen malli. RAM tiukassa: Base.

Tiedät sen toimineen, kun malli on latautunut loppuun ja näkyy valmiina.

Vaihe 3 — Sanele sillä päivän ajan.

Käytä sitä oikeaan työhön, ei testilauseeseen. Opit enemmän yhdestä iltapäivästä todellisia muistiinpanoja kuin mistään testikaaviosta.

Tiedät sen olevan oikea malli, kun lakkaat huomaamasta sitä ja vain puhut.

Vaihe 4 — Vaihda, jos se on väärä.

Liian hidas, valitse jokin pienempi tai Parakeet. Kieli puuttuu tai sanat silppuuntuvat, mene monikieliseen tai suurempaan. Kaksi klikkausta, yksi lataus, valmis.

Tiedät sen toimineen, kun uusi malli latautuu ja seuraava äänityksesi käyttää sitä.

Whisper
Aito Whisper-työpöytäsovellus asetusnäkymässä, jossa on Litterointi-paneeli, jossa valitset ja vaihdat malleja.

Ihmiset kohtelevat tätä kuin yhdensuuntaista ovea, eikä se ole sellainen. Ensimmäinen koskaan pyörittämäni malli ei ollut se, jonka pidin; aloitin monikielisellä mallilla tottumuksesta, tajusin sanelevani englanniksi koko päivän, ja siirryin Parakeetiin nopeuden vuoksi. Vei kaksi klikkausta ja kahvikupillisen verran latausta. Kohtele ensimmäistä valintaasi luonnoksena.

Pikasuositus, jos hyppäsit loppuun

Jos et lue muuta, tässä se on. Englantia, haluat sen nopeasti, vaatimaton kone: Parakeet. Englantia, haluat parhaan paikallisen tarkkuuden: Medium-englanninmalli tai Turbo, jos haluat sen tarkkuuden ilman odotusta. Toinen kieli, tai tarvitset kääntämistä: monikielinen malli — Small aluksi, Large v3, jos tarkkuus ratkaisee ja sinulla on 16 Gt RAM-muistia. Levytila tai RAM tiukassa: Base. Haluat huippuluokan tarkkuuden verkkoyhteydellä, ja oman OpenAI-avaimesi käyttö sopii: Pilvi. Siinä koko kartta.

Valitsetpa minkä tahansa, raaka litterointi tulee ulos yhtenä putkena, ja se pätee jokaiseen puhemoottoriin, ei vain meidän. Sanot "okei aseta palaverimalli mediumiin ja muistuta testaamaan se large myöhemmin," ja juuri tuon välimerkittömän muurin saat takaisin. Whisper voi ajaa tekoälypuhdistuksen korjaamaan välimerkit ja karsimaan täytesanat ennen kuin teksti laskeutuu — sano aktivointilause "Hey whisper", niin se siistii ensin. Paikallisella mallilla se kulkee Ollaman kautta; pilvitilassa se on oletuksena gpt-5-mini.

Thinking...
Parantelunäkymä: valinnainen tekoälyajo puhdistaa välimerkit ja täytesanat ennen kuin teksti laskeutuu.
Raaka

okei aseta palaverimalli mediumiin ja muistuta testaamaan se large myöhemmin öö ehkä parakeet niihin nopeisiin juttuihin

Siistitty

Okei, aseta palaverimalli Mediumiin ja muistuta testaamaan se Large myöhemmin — ehkä Parakeet niihin nopeisiin juttuihin.

Yksi rehellinen varaus, joka kuuluu jokaisen "minkä mallin" -oppaan loppuun: jos kaikki, mitä koskaan teet, on pudottaa 30 sanan muistiinpano tekstikenttään, et ehkä tarvitse mallia lainkaan. Windowsissa sisäänrakennettu Voice Typing -palkki avautuu näppäimillä Windows key + H siellä, missä kursorisi on — se lisää välimerkit itse ja on ilmainen, joskin se reitittyy Microsoftin palvelimien kautta ja tarvitsee internetin. Macilla Dictation Järjestelmäasetuksissa tekee saman, ja Apple Siliconilla yleistä tekstiä voidaan käsitellä laitteessa. Kynnyksen alapuolella, jossa tarkkuus ja pituus alkavat haitata, käytä sitä, mikä koneessasi jo on. Me alamme olla latauksen arvoisia, kun teet oikeaa volyymia, haluat offline-yksityisyyttä tai tarvitset kielen ja hallinnan, jota sisäänrakennetut eivät tarjoa. En aio kehottaa sinua asentamaan sovellusta saneluun ostoslistaa.

"Paras" Whisper-malli on se, jota lakkaat ajattelemasta. Valitse kompromissi, josta välität, tee ensimmäinen arvaus ja vaihda kahdella klikkauksella, jos se ärsyttää. Olen toimittanut järjestelmiä, joissa arkkitehtuurikaavio oli väärin jo toiseen committiin mennessä, joten minulla on terve kunnioitus "kokeile vain ja säädä" -periaatetta kohtaan. Mallivalintasi on pienemmän panoksen asia kuin se, ja paljon helpompi perua. Aloita jostakin. Lataus on hidas osa; päättämisen ei pitäisi olla.

Valitse malli ja ala puhua

Tee ensimmäinen arvaus, sanele päivän ajan, vaihda kahdella klikkauksella, jos se on väärä. Sovellus näyttää sinulle jokaisen vaihtoehdon ja antaa sinun valita.

Ilmainen paikallinen tila kaikille kirjautuneille tileille. Korttia ei tarvita aloittamiseen.

Valokuva Denys Medvedievistä

Denys Medvediev

Olen se, joka lukee tukisähköpostimme, mitä todennäköisimmin sanelemalla vastaukset.

Lisälukemista