Kirjoittaja: Denys Medvediev

Selitys

Kuinka tarkka Whisper oikeasti on

Whisper on erittäin tarkka selkeällä englanninkielisellä äänellä ja vahva myös tärkeimmissä kielissä, muttei täydellinen. Suurin yksittäinen vaikuttava tekijä on mikrofoni ja hiljainen huone — ei valitsemasi malli. Tekoälykierros siistii välimerkit ja täytesanat jälkikäteen.

Päivitetty viimeksi: kesäkuu 2026

Sininen ääniaalto tummalla näytöllä kuvaamassa puheen tarkkuuden mittausta litteroinnissa

Whisper on riittävän tarkka arkipäivän sanelua ja ammatillisia muistiinpanoja varten. Medium-mallin sanavirheprosentti on noin 3 % puhtaalla luetulla englannilla. Tarkkuus heikkenee aksenttien, taustamelun, erikoisalojen sanaston ja päällekkäisten puhujien myötä. Suurin parannus, jonka useimmat voivat tehdä, on parempi mikrofoni ja hiljainen huone — ei suurempi malli.

"Kuinka tarkka Whisper on" on yksi niistä kysymyksistä, joihin on sekä rehellinen vastaus että markkinointivastaus — eivätkä ne ole sama asia. Markkinointivastaus kuuluu: "hämmästyttävän tarkka, alan paras." Rehellinen vastaus on: "erittäin hyvä puhtaassa äänitteessä, selvästi heikompi huonossa — ja ero johtuu pääosin mikrofonistasi." Olen itse nähnyt saman mallin litteroivan lauseen täydellisesti $20 USB-mikrofonilla ja sotkeva sen kannettavan tietokoneen mikrofonilla meluisessa keittiössä.

Tämä ei siis ole suorituskykyvertailutaulukkokirjoitus. Se on vastaus, jonka antaisin kaverille, joka kysyy, voiko puheella kirjoittamiseen luottaa oikeassa työssä. Lyhyesti: kyllä, tietyin varauksin joihin voit itse vaikuttaa. Pitkä versio alla — mukaan lukien se yksi luku, joka oikeasti merkitsee, ja kolme asiaa, jotka hiljalleen tuhoavat tarkkuuden riippumatta mallin laadusta.

Useimmat "Whisperin tarkkuus" -sivut ohittavat tämän asian. Tarkkuus ei ole yksi luku. Se on luku, joka muuttuu mallin koon, puhutun kielen ja — enemmän kuin kumpikaan näistä — sisään tulevan äänen laadun myötä. Pieni malli puhtaassa äänitteessä päihittää suuren mallin vaimeassa äänitteessä joka kerta.

Tutkijat mittaavat tätä sanavirheprosentilla, jota merkitään yleensä lyhenteellä WER. Se on prosenttiosuus sanoista, jotka järjestelmä tunnistaa väärin. Whisperin julkaistu WER puhtaalla englannilla on alhainen. Sinun WER-lukusi tiistai-iltapäivänä astianpesukone käynnissä on toinen juttu. Selitän mitä luku tarkoittaa, mitä Whisper oikeasti saavuttaa, mikä sitä heikentää ja mikä on se tylsä halpa ratkaisu, joka auttaa enemmän kuin mikään mallin päivitys.

Mitä "tarkkuus" oikeasti tarkoittaa: sanavirheprosentti

Lähikuva äänieditorin aaltomuodosta tummalla näytöllä kuvaamassa virheiden mittausta puheessa

Kun ihmiset sanovat litterointijärjestelmän olevan "95 % tarkka", he tarkoittavat lähes aina sanavirheprosenttia eli WER:iä. Se on yksinkertaisin rehellinen mittari: otetaan tunnettu teksti, annetaan järjestelmän litteroida se ja lasketaan väärin menneet sanat. 5 % WER tarkoittaa, että viisi sanaa sadasta meni pieleen — korvaus, poisto tai sana jota ei sanottu. Alempi on parempi. Nolla olisi täydellinen, eikä mikään realistinen järjestelmä pääse nollaan.

Tämä viimeinen kohta on tärkeä, joten sanon sen suoraan. Mikään puheentunnistusjärjestelmä ei ole täydellinen, ja jokainen tuote joka väittää muuta pyöristää numeroita esityskalvoja varten. Ihmiset eivät ole täydellisiä litteroijia myöskään — ammattimaiset ihmislitteroijat päätyvät noin 4 % WER:iin puhtaalla äänellä ja heikommin vaikeissa äänitteissä. Joten kun luet, että Whisper tekee "3 % WER", se on suunnilleen ihmistasolla kyseisenlaisessa äänessä — ei taikuutta. Se on työkalu, joka on oikeassa useimmiten ja väärässä joskus, kuten jokainen työkalu.

Yksi vivahde lisää, joka kannattaa miettiä hetki. WER laskee jokaisen sanan tasavertaisena, mikä ei vastaa sitä, miten virheet oikeasti tuntuvat. Whisperin kuultua "heidän" "heihin" sijaan on yhden sanan virhe, joka tuskin rekisteröityy. Asiakkaan nimen tai lääkeannoksen kuuleminen väärin on myös yhden sanan virhe, joka pilaa lauseen. Otsikkoluku kertoo asioiden yleisen suunnan; se ei kerro selvisivätkö ne sanat, joilla on merkitystä. Siksi loppuluku ei koskaan mene pois muodista, olipa WER kuinka alhainen tahansa.

Kuinka tarkka Whisper on käytännössä

Puhtaalla, luetulla englannilla Whisper on aidosti vahva. Julkisesti dokumentoidut vertailutestit asettavat medium-mallin noin 3 % sanavirheprosenttiin standardilla puhtaan puheen testisarjalla ja pienemmin mallin noin 5 %:iin. Käytännön kielellä: hyvässä äänitteessä selkeästi puhuvalta henkilöltä voi odottaa yhtä tai kahta väärää sanaa muutamaa lausetta kohti — yleensä homofoni tai irtonainen pilkku, ei sotkettua merkitystä. Sähköpostien, muistiinpanojen ja luonnosten saneluun se on reilusti kynnyksen yli, jossa se säästää aikaa sen sijaan että kuluttaisi sitä.

Sovelluksen toimintaperiaate on sama riippumatta siitä miten tarkka ajoitus osoittautuu. Painat pikanäppäintä, puhut, vapautat ja litteraatti liimautuu kohdistimesi kohtaan missä tahansa sovelluksessa, jolla on kohdistus. Pieni kapseli ilmestyy puhuessasi, jotta tiedät sen kuuntelevan. Mitä näet kapselissa on live-äänitys — tarkkuuskysymys ratkeaa puolen sekunnin aikana vapautuksesi jälkeen, kun malli muuntaa äänen tekstiksi.

Cancel
Tallennuskapseli: pieni elementti, joka ilmestyy puhuessasi, jotta tiedät Whisperin kuuntelevan.

Rehellinen varoitus on heti hyvän luvun vieressä. Nämä vertailuluvut ovat puhtaasta luetusta puheesta laboratoriossa. Sinun keittiösi, aksenttisi, tapasi jättää lauseet kesken — mitään niistä ei ole testisarjassa. Vertailutesti kertoo katon. Tämän oppaan loppuosa kertoo kuinka lähelle kattoa oikeasti pääset ja mitkä vipuvarsista sen ratkaisevat. Spoileri: suurin niistä ei ole malli.

Mikä oikeasti liikuttaa lukua ylös tai alas

Kolme asiaa muovaavat tosielämän tarkkuuttasi paljon enemmän kuin mallin nimi: ääni, kieli ja sanat itse. Äänenlaatu on ensimmäinen ylivoimaisesti. Kannettavan sisäänrakennettu mikrofoni, joka poimii huoneen kaiun, tuulettimen ja lapsen kysymyksen siitä miksi kuu on joskus poissa, antaa mille tahansa mallille vaikeamman tehtävän kuin podcastmikrofoni hiljaisessa huoneessa. Sama malli, sama lause voi mennä lähes täydellisestä selvästi väärään pelkästään äänitteen perusteella. Tämä on se vipu, jota lähes kukaan ei säädä ja joka maksaa eniten takaisin.

Kieli on toinen vipu. Whisperin monikieliset versiot kattavat 99 kieltä, mutta kattavuus ei ole tasainen. Englanti on parhaiten tuettu, suuret eurooppalaiset ja aasialaiset kielet ovat vahvoja, ja vähäresurssisissa kielissä — niissä joissa on vähemmän harjoitusdataa internetissä — on enemmän virheitä. Englanninkielinen käännös on vain monikielisessä Whisperissä; vain englantia tukevat versiot eivät tee sitä, eivätkä Paraketin 25 kieltä myöskään. Joten "tukee 99 kieltä" pitää paikkansa, mutta se ei tarkoita, että kaikki 99 kieltä ovat yhtä tarkkoja. Testaa omaa kieltäsi omilla äänitteillä ennen kuin luotat siihen tärkeissä asioissa.

Kolmas vipu on sisältö. Aksentit siirtävät lukua — Whisper käsittelee laajan valikoiman valmiiksi ilman erillistä "harjoittelua", mutta vahva aksentti teknisessä ammattisanastossa on pahin tapaus mille tahansa järjestelmälle. Alakohtainen sanasto kaataa sen myös: epätavalliset tuotenimet, lääketieteelliset tai juridiset termit, sukunimet joita se ei ole koskaan nähnyt. Päällekkäiset puhujat ovat aito kova raja — Whisper on rakennettu yhdelle äänelle kerrallaan, joten kaksi yhtä aikaa puhuvaa ihmistä tuottaa sotkun. Paikallisessa Whisperissä voit taistella takaisin mukautetulla sanastolla ja hotword-ohjauksella, ohjaten sitä kohti nimiä ja termejä, joita oikeasti käytät. Parakeet ei tarjoa hotwordeja, ja se on pätevä syy valita Whisper jos työssäsi on paljon erisnimiä.

Suurempi malli, parempi tarkkuus, vähemmän nopeutta

Tarkkuuden ja nopeuden välillä on aito kompromissi, ja sovellus tekee sen näkyväksi sen sijaan että piilottaisi sen. Nyrkkisääntönä: mitä suurempi Whisper-malli, sitä tarkempi ja hitaampi se on. Vain englantia tukeva Small-malli on noin 480 MB ja nopea; Medium on noin 1,5 GB ja tarkempi; monikielinen Large v3 on noin 3 GB ja paras tarjolla oleva tarkkuus, mutta se haluaa 16 GB RAM:ia ja tuoreen koneen toimiakseen sujuvasti. Valitse suurin malli, jonka laitteistosi pyörittää mukavasti, ei suurin olemassa oleva.

Mielenkiintoinen poikkeus on Turbo. Whisperin Turbo-versio (distil-large-v3) on dokumentoitu noin 6 kertaa nopeammaksi kuin Large v3 säilyttäen noin 99 % sen tarkkuudesta. Se on se kultainen keskitie, johon monet päätyvät: lähes suurimman mallin laatu ilman odottelua. Se on noin 1,5 GB. Jos haluat vahvan tarkkuuden etkä halua tuijottaa latausikonia, Turbo on käytännöllinen välivaihtoehto.

Tässä on se osa, joka kehystää koko kompromissin uudelleen. Tarkkuusero pienen mallin ja suurimman välillä on todellinen mutta pienempi kuin arvaisi — muutama prosenttiyksikkö WER:issä puhtaalla äänellä. Tarkkuusero kannettavan mikrofonin ja kunnollisen USB-mikrofonin välillä samalla mallilla on suurempi. Joten ennen kuin lataat 3 GB metsästääksesi viimeistä tarkkuuspistettä, liitä parempi mikrofoni ja äänity hiljaisessa paikassa. Tylsä totuus on, että useimmat "malli meni pieleen" -valitukset ovat oikeasti "huone meni pieleen" -tapauksia.

Paikallinen vai pilvi: missä paras tarkkuus asuu

Sovellus ei valitse polkua puolestasi. Se esittää kolme ja antaa sinun valita sen perusteella, mitä haluat — nopeutta, kielien kattavuutta tai huipputarkkuutta. Tarkkuuden osalta, tässä on miten ne sijoittuvat, koska ero on todellinen ja ymmärtämisen arvoinen ennen kuin sitoudut äänitteeseen jollakin niistä.

Kolme polkua, järjestettynä sen mukaan miten tarkkuus oikeasti jakautuu:

  • Paikallinen ParakeetNVIDIA:n TDT-moottori, noin 600 MB, nopein paikallinen vaihtoehto 5–10 kertaa nopeampana kuin Whisper CPU:lla. Tarkkuus on hyvä — ei Large-v3-hyvä, mutta enemmän kuin riittävä arkipäivän englannin saneluun. Kattaa englannin ja 24 eurooppalaista kieltä, 25 yhteensä. Ei englanninkielistä käännöstä, ei hotwordeja. Valitse se kun nopeus on tärkeintä ja puhut pääosin englantia.
  • Paikallinen Whisperhitaampi kuin Parakeet samalla koneella, mutta monikieliset versiot yltävät 99 kieleen, kääntävät englantiin ja antavat sinun kallistua mukautetun sanaston ja hotwordien suuntaan — ne tarkkuuden hallintatyökalut, joilla on merkitystä erisnimiä ja ammattisanastoa varten. Suurin versio (Large v3) on tarkin paikallinen vaihtoehto. Valitse se monikieliseen työhön, käännöksiin tai tarkkaan hallintaan.
  • Pilvi (OpenAI, BYOK)parasta tarkkuutta ja verkkoyhteys omalla OpenAI-avaimellasi, laskutetaan suoraan OpenAI:n toimesta. Litterointi toimii oletuksena gpt-4o-mini-transcribe-mallilla. Se tarvitsee internetin, joten se on ainoa polku, jossa äänesi lähtee koneeltasi. Pilvipalvelu on osa Whisper Pro:ta.

Rehellinen järjestys raakaa tarkkuutta varten on suunnilleen: pilvi kärkeen, paikallinen Large v3 lähelle toiseksi, Parakeet kykenevänä kolmantena englanniksi. Mutta "huipputarkkuus" voittaa vain jos äänesi on tarpeeksi puhdas ansaitsemaan sen. Vaimeamman äänitteen syöttäminen pilvelle huoneen toiselta puolelta ei voita paikallista Whisperia puhtaalla äänitteellä. Useimmissa saneluissa molemmat paikalliset moottorit toimivat täysin koneellasi ilman, että mitään lähetetään palvelimelle, ja se riittää. Käytä pilveä kun sinulla on aidosti vaikea ääni tai tarvitset faktoja verkosta kesken lauseen.

Neljä tapaa parantaa omaa tarkkuuttasi

Whisperin katto on asetettu mallilla. Lattiasi on asetettu kaikella sen ympärillä, ja lattia on se missä useimmat ihmiset menettävät tarkkuuden. Hyvä uutinen on, että korjaukset ovat halpoja ja vievät muutaman minuutin. Tässä ne neljä tärkeintä, järjestyksessä sen mukaan kuinka paljon ne auttavat.

Vaihe 1 — Korjaa mikrofoni ensin.

20 dollarin USB-mikrofoni tekee enemmän tarkkuuden eteen kuin mikään mallin päivitys. Vie se lähelle, hieman sivuun suustasi jottei se poksahda, ja kauaksi kannettavan tuulettimesta. Tämä on yksittäisin paras muutos jonka voit tehdä.

Tiedät sen toimineen kun sama lause, joka tuli sekavana kannettavan mikrofonista, tulee puhtaana.

Vaihe 2 — Hiljennä huone.

Sulje ovi, keskeytä musiikki, odota astianpesukoneen kierroksen päättymistä. Taustamelut ja kaiku ovat se, mitä useimmat "malli on väärässä" -hetket oikeasti ovat. Hiljainen huone on ilmainen.

Tiedät sen toimineen kun täytesanat ja puoliksi kuullut lauseet lakkaavat ilmestymästä litterointiin.

Vaihe 3 — Sovita malli tehtävään.

Valitse suurin malli, jonka koneesi pyörittää mukavasti, tai Turbo lähes huipputarkkuuteen nopeudella. Nimille ja ammattisanastolle paikallisessa Whisperissä lisää mukautettu sanasto ja hotwordit, jotta se kallistuu käyttämiesi termien suuntaan.

Tiedät sen toimineen kun malli on latautunut, näkyy valmiina ja erisnimet alkavat osua oikein.

Vaihe 4 — Anna tekoälykierroksen siistia.

Raaka sanelu on juoksuun kirjoitettua täyteläistä puhetta. Whisper voi ajaa tekoälyn siistimiskierroksen, joka korjaa välimerkit, poistaa "öö:t" ja siistii lauseen ennen kuin se saapuu. Sano aktivointilause "Hey whisper" käynnistääksesi sen.

Tiedät sen toimineen kun liimautunut teksti luetaan kuin muokattu proosa, ei litteraatti.

Whisper
Oikea Whisper-työpöytäsovellus asetusruudulla, Litterointi- ja Tekoälypaneelit auki.

Tuo viimeinen vaihe on näkemisen arvoinen, koska se muuttaa mitä "tarkkuus" edes tarkoittaa tuotoksellesi. Litterointi voi olla sana sanalta täydellinen ja silti lukeutua juoksevaksi, koska niin ihmiset puhuvat. Siistimiskierros korjaa luettavuuden, jota WER ei koskaan mittaa. Paikallisessa mallissa se kulkee Ollaman kautta; pilvitilassa se on oletuksena gpt-5-mini. Tässä sama lause ennen ja jälkeen kierroksen:

Thinking...
Kapseli tekoälyn siistimiskierroksen aikana, ennen kuin siistiytynyt teksti saapuu kohdistimesi kohdalle.
Raaka

um so the accuracy mostly comes down to the mic not the model and like a quiet room helps more than people think

Siistiytynyt

The accuracy mostly comes down to the mic, not the model — and a quiet room helps more than people think.

Huomaa, että siistiminen ei muuttanut yhdenkään sanan merkitystä; se lisäsi välimerkit ja poisti täytesanat, joita raa'assa litteraatissa oli. Se on se osa, jota ihmiset sekoittavat tarkkuuteen ja heidän ei pitäisi. Mallin tehtävä on kuulla sinut oikein. Tekoälykierroksen tehtävä on saada oikeat sanat luettua hyvin. Kun mikrofoni ja huone ovat kunnossa, molemmat tehtävät helpottuvat. Jos haluat puhu-sitten-siisti-virtauksen missä tahansa sovelluksessa, sama pikanäppäin sanelee puhdasta proosaa mihin tahansa sovellukseen, ei vain yhteen.

Rehellinen tuomio Whisperin tarkkuudesta

Vaaka tummalla pinnalla kuvaamassa vahvuuksien ja rajoitusten rehellistä punnitsemista

Joten suora vastaus. Whisper on tarpeeksi tarkka, jotta siihen voi luottaa oikeassa työssä — sähköposteissa, muistiinpanoissa, luonnoksissa, kokousmuistioissa — puhtaalla äänellä hyvin tuetussa kielessä. Se ei ole täydellinen, eikä se koskaan väitä olevansa. Aksentit, taustamelut, raskas ammattisanasto ja päällekkäiset puhujat kaikki vetävät lukua alas, eikä mikään mallietu täysin pelasta huonoa äänitettä. Jos tulit tänne toivoen "100 % tarkkaa", rehellinen vastaus on, ettei mikään ole, ja jokainen joka myy sitä myy esityskalvoa.

Milloin ei kannata vaivautua tavoittelemaan Whisperin tasoa? Jos sanelet vain satunnaisen 30-sanaisen tekstin, käyttöjärjestelmäsi tekee tämän jo ilmaiseksi. Windowsissa paina Windows-näppäin + H avataksesi Äänityksen kirjoituksen missä tahansa kohdistimesi on — se lisää välimerkit itse, joskin se kulkee Microsoftin palvelinten kautta ja tarvitsee internetin, joten se ei ole offline. Macilla Sanelu Järjestelmäasetuksissa kirjoittaa mihin tahansa kenttään, ja Apple Siliconilla yleistä tekstiä voidaan käsitellä laitteella. Lyhyille purskauksille ne riittävät, enkä aio suositella asennettavaa mitään yhden rivin muistutusta varten. Erillinen työkalu ansaitsee paikkansa pidemmissä muistiinpanoissa, monikielisessä työssä, offline-yksityisyydessä ja tarkkuuden hallintatyökaluissa — hotwordit, mallin valinta, siistimiskierros — joita sisäänrakennetut eivät tarjoa.

Jos punnitset paikallisia moottoreita keskenään, tarkkuus-versus-nopeus-valinta on koko päätös, ja se käydään selväsanaisesti läpi mikä Whisper-malli kannattaa valita ja Parakeet-mallin katsauksessa. Useimmille ihmisille vastaus on epäloistava: keskikokoinen malli, kunnollinen mikrofoni, hiljainen huone ja siistimiskierros. Se yhdistelmä vie sinut vertailutestin hiuskarvan päähän äänitteillä, joita oikeasti tallennat.

Jos tarkkuus mietityttää siksi, että haluat välttää pilven kokonaan, kompromissit selitetään offline-puheentunnistuksessa — miten paikalliset mallit pärjäävät ilman verkkoyhteyttä.

Vietin alkuvaiheessa viikon vakuuttuneena, että mallin päivitys korjaisi litterointini, latasin 3 GB ja sain takaisin ehkä yhden prosenttiyksikön WER:issä. Sitten ostin $20 USB-mikrofonin ja siirryin pois keittiöpöydältä, ja litteraatit paranivat selvästi saman iltapäivän aikana. Malli ei koskaan ollut ongelma. Huone oli. Whisper on erittäin tarkka; näetkö sen riippuu siitä, mitä sille syötät.

Kuule se itse omalla äänelläsi

Lataa Whisper, liitä kunnollinen mikrofoni ja sanele kappale. Tarkkuutta on paljon helpompi arvioida omalla äänelläsi kuin jonkun muun vertailutestillä.

Ilmainen paikallinen tila kaikille sisäänkirjautuneille tileille. Korttia ei tarvita aloittamiseen.

Kuva Denys Medvedievistä

Denys Medvediev

Minä olen se, joka lukee tukisähköpostimme — todennäköisesti sanelun vastaukset.

Lisälukemista