Vianmääritys
Miksi saneluni on niin epätarkkaa?
Sanelu on yleensä epätarkkaa asetusten takia, ei siksi että ohjelmisto olisi rikki — huono mikrofoni, meluisa huone, väärä kieli tai väärä malli.
Viimeksi päivitetty: kesäkuu 2026

Sanelu on yleensä epätarkkaa asetusten takia, ei siksi että ohjelmisto olisi rikki. Suurimmat syylliset ovat huono mikrofoni, meluisa huone, väärä kieliasetus ja malli joka ei sovi koneeseesi. Puhdas ääni hiljaisessa huoneessa oikealla kielellä vie useimmat noin 95 prosentin tarkkuuteen — eli noin yksi väärä sana kahdestakymmenestä.
Näin kerran sukulaiseni heittävän kuulokkeet halki huoneen. Oli 1990-luvun loppu, kone oli Windows 98 -pöytäkone 64 megatavun muistilla ja ohjelmisto oli Dragon NaturallySpeaking. Harjoittelu kesti 45 minuuttia — luit ääneen listan sanoja "kalibroidaksesi" sen. Sitten se toimi, tavallaan, ehkä 70 prosentin tarkkuudella ja neljän sekunnin viiveellä lausetta kohti. Viisitoista minuuttia yhden joulukirjeen kappaleen sanelemiseen. Kuulokkeet selvisivät. Saneluyritys ei.
Nostan tämän esiin siksi, että kysymyksesi turhautuminen on vanhaa, mutta syy on muuttunut. Nykyaikainen sanelu ei tarvitse 45 minuutin kalibrointirituaalia. Kun se nykyään saa sanat väärin, se ei juuri koskaan johdu siitä että malli olisi tyhmä. Se johtuu siitä, että malliin saapuva ääni on huonompaa kuin luulet — ja yllättävän suuri osa tästä on korjattavissa alle minuutissa. Whisperin oma paikallisen tilan tarkkuus asettuu 95 ja 99 prosentin välille puhtaalla englanninkielisellä äänellä — mutta tuo luku olettaa muutamia asioita jotka eivät usein pidä paikkaansa.
Tämä on diagnoosi, ei korjauslista. Selvitämme mikä viidestä asiasta pilaa litterointisi, suunnilleen siinä järjestyksessä kuinka usein kukin on todellinen syy. Jos haluat syvällisen mikrofoni- ja erikoissanaohjeen, oppaamme väärät sanat kirjoittavan sanelun korjaamiseen hoitaa sen tontin. Tämä juttu auttaa sinua löytämään syyn ensin, jotta korjaat oikean asian.
Mikä tarkkuus on oikeasti realistista

Tässä on luku, jota kukaan ei laita markkinointisivulleen. Puheentunnistusta mitataan sanavirheasteella eli WER:llä — osuudella sanoista jotka järjestelmä saa väärin, kun lasketaan korvaukset, poistot ja lisäykset suhteessa siihen mitä todella sanoit. Pienempi on parempi. Nollan WER on täydellinen litterointi; sanatarkkuus on yksinkertaisesti yksi miinus WER.
Puhtaalla LibriSpeech-englanninkielisellä vertailuaineistolla Whisperin keskikokoinen englanninkielinen malli saa noin 3 prosentin WER:n — eli noin 97 prosentin tarkkuuden. Pieni englanninkielinen malli asettuu noin 5,1 prosentin WER:iin, noin 95 prosenttiin. Nämä ovat puhtaan äänen lukuja: hiljainen huone, hyvä mikrofoni, huolellinen lukija. Oikea elämä tuo melua, aksentteja, päällekkäistä puhetta ja ammattikieltä, ja jokainen niistä aivan oikeutetusti nostaa WER:iä.
Mikä siis on normaalia? Noin 95 prosenttia kunnollisella englanninkielisellä äänellä — yksi väärä sana kahdestakymmenestä. Se ei ole vika. Se on työkalu toimimassa juuri niin kuin on tarkoitettu. Jos istut 85 prosentissa meluisassa keittiössä kannettavan sisäänrakennetulla mikrofonilla, ohjelmisto ei ole rikki — olosuhteet ovat sen alapuolella mitä malli tarvitsee. Korjaus ovat olosuhteet, ei isompi malli. Aseta rima kohtaan "yksi pieni korjaus kappaletta kohti", niin suurin osa raivosta valuu pois kokemuksesta.
Viisi epäiltyä, todennäköisyysjärjestyksessä

Kun sanelu menee pieleen, syy on lähes aina yksi viidestä asiasta. Käy tämä lista läpi järjestyksessä. Kaksi ensimmäistä napsii suurimman osan tapauksista.
- Kieliasetus. Sinä puhut yhtä kieltä; työkalu kuuntelee toista, tai arvailee.
- Mikrofoni. Metrin päässä oleva kannettavan sisäänrakennettu mikrofoni kuulee huoneesi enemmän kuin suusi.
- Huone. Taustamelu, televisio, kaikuva keittiö — malli litteroi sen kaiken.
- Malli. Valitsit liian raskaan koneellesi, joten se on hidas tai tukehtuu.
- Odotus. Ääni on kunnossa ja työkalu on kunnossa; mittaat sataa prosenttia vasten, johon mikään ei yllä.
60 sekunnin itsetesti: sanele samat kaksi lausetta kolme kertaa — kerran hiljaisessa huoneessa lähellä mikrofonia, kerran huoneen toiselta laidalta, kerran musiikin soidessa. Jos tarkkuus heittelee rajusti näiden ottojen välillä, ongelmasi on ääni (epäillyt 2 ja 3), eikä mikään ohjelmistomuutos voita mikrofonin siirtämistä lähemmäs ja oven sulkemista. Jos se on huono jopa hiljaisessa lähiotossa, katso kieliasetusta ja mallia. Tuo yksi testi lajittelee useimmat ihmiset minuutissa.
Syy 1: väärä kieliasetus

Tämä on kymmenen sekunnin korjaus, jota kukaan ei tarkista ensin. Jos tiedät mitä kieltä puhut, valitse se nimenomaisesti asetuksista sen sijaan että jätät työkalun automaattiseen tunnistukseen. Kun asetat tietyn kielen, työkalu lakkaa arvailemasta mitä kieltä se kuulee ja käyttää kaiken energiansa sanojen oikein saamiseen — huomattavasti nopeampaa ja luotettavampaa.
Ristiriitojen ansat ovat todellisia. Whisperin monikieliset mallit kattavat 99 kieltä automaattisella tunnistuksella, mutta pelkän englannin mallit ovat lukittuja englantiin — syötä niille toista kieltä ja saat siansaksaa. Paikallinen Parakeet käsittelee englannin sekä 24 eurooppalaista kieltä eikä mitään tuon joukon ulkopuolista, joten japanin sanelu siihen ei koskaan toimi, oli mikrofonisi kuinka puhdas tahansa. Ja jos todella vaihdat kieltä kesken lauseen, haluat monikielisen Whisper-mallin automaattisella tunnistuksella, et pelkän englannin mallia. Sovita asetus suustasi tuleviin sanoihin, niin osa "epätarkkuudesta" katoaa ennen kuin kosket mihinkään muuhun.
Syy 2: mikrofonisi tekee enemmän vahinkoa kuin aksenttisi

Ihmiset syyttävät aksenttiaan. Lähes aina kyse on mikrofonista. Syytin omaani vuosikausia — kävi ilmi että ääneni oli kunnossa ja 0 dollarin kannettavan mikrofonini oli ongelma. Tässä on mielipide jota puolustan: "tekoäly" ei korjaa huonoa ääntä. 20 dollarin USB-mikrofoni tekee tarkkuudelle enemmän kuin mikään mallipäivitys — mikrofoni ja hiljainen huone ovat kaksi suurinta tarkkuusvipua, ennen sitä minkä mallin valitset. Käytä rahat laitteistoon ennen kuin käytät ne isompaan latauspakettiin.
Mekanismi on tylsä ja fyysinen. Kannettavan sisäänrakennettu mikrofoni istuu metrin tai enemmän päässä suustasi ja poimii pöydän, tuulettimen ja huoneen. Kuulokemikrofonin varsi tai 15 senttimetrin päässä oleva USB-mikrofoni kuulee äänesi eikä juuri muuta. Työkalu voi litteroida vain sen mikä siihen saapuu, ja sumea, kaukainen, meluisa signaali antaa sille vähemmän työstettävää — joten se arvailee, ja arvaukset ovat tapa jolla saat vääriä sanoja. En opeta tässä koko mikrofoni- ja sanasto-oppikirjaa uudelleen; syväluotaava juttumme aiheesta sanelu kirjoittaa väärät sanat kattaa mikrofonin sijoittelun, tulovahvistuksen ja mukautetun sanaston yksityiskohtaisesti. Tämän artikkelin pointti on kapeampi: jos kolmen oton testisi osoitti tarkkuuden romahtavan etäisyydellä, mikrofonisi on epäilty, ei äänesi.
Syy 3: huone, ei sanat

Mikrofoni ei voi olla kuulematta huonetta. Jos televisio on päällä, astianpesukone käy, avokonttori humisee takanasi tai lapset väittelevät lautapelin säännöistä kahden metrin päässä, malli litteroi sen energian äänesi rinnalla. Se ei tiedä mikä ääni on se jonka tarkoitit.
Korjaus on hävettävän kotikutoinen: sulje ovi, sammuta musiikki, siirry pois tuulettimen luota. Pehmeät pinnat auttavat — matolla ja verhoilla varustettu huone on mikrofonille ystävällisempi kuin laatoitettu keittiö paljaine seinineen, jossa äänesi pomppii ja saapuu kahdesti. Et tarvitse akustiikkavaahtoa. Tarvitset astianpesukoneen lopettamaan ohjelmansa. Olen sanellut koulun sähköposteja eväsleipiä tehdessäni ja malli pysyi hyvin mukana — mutta se johtuu siitä että keittiö oli hiljainen, ei siitä että ohjelmisto olisi taikuutta. Sillä hetkellä kun tehosekoitin käynnistyy, tarkkuus putoaa, eikä se ole vika jota raportoida.
Syy 4: malli on väärä laitteistollesi
Tätä kilpailijat kohtelevat mustana laatikkona, ja sillä on väliä. Isompi ei aina ole parempi. Valitse koneellesi liian raskas malli ja se pyörii hitaasti, jää jälkeen, ja kokemus tuntuu rikkinäiseltä vaikka tarkkuus paperilla olisikin kunnossa.
Whisper by Remskill ei valitse mallia puolestasi. Se esittää kolme polkua ja antaa sinun valita: Pilvitila omalla OpenAI-avaimellasi, paikallinen Parakeet tai paikallinen Whisper. Pilvitila pyörii millä tahansa laitteistolla, koska se on vain verkkokutsu. Paikallisesti matematiikka on kiinni muistista. 8 gigatavun koneella Parakeet (~600 Mt), Base-malli tai Small-malli pyörivät mukavasti, ja Medium-malli kärsii. Suurimmat Whisper-mallit — Large v3 noin 3 gigatavua, tai Turbo — haluavat 16 gigatavua tai enemmän ja hyötyvät eniten erillisestä näytönohjaimesta. Paras tarkkuus monikielisesti löytyy mallista Large v3, joka tukee 99 kieltä mutta tarvitsee tuon 16 gigatavun pelivaran.
Paina-ja-puhu-virtaus on sama riippumatta siitä minkä polun valitset — pidä pikanäppäintä pohjassa, puhu, päästä irti, ja teksti liimautuu kohdistimesi kohdalle. Oletuspikanäppäin on Ctrl+Space Windowsissa ja Command+Option-yhdistelmä macOS:llä, molemmat vaihdettavissa Asetuksista. Etkö ole varma mikä malli sopii kannettavaasi? Oppaamme oikean Whisper-mallin valintaan kartoittaa kunkin sen tarvitsemaan laitteistoon. Nyrkkisääntö: malli joka sopii ja pyörii nopeasti voittaa isomman joka pätkii.
Kun työkalu todella on ongelma, ja kun kyse on vain fysiikasta
Joskus olet tehnyt kaiken oikein — mikrofoni lähellä, hiljainen huone, oikea kieli, järkevä malli — ja se on silti väärässä yhden sanan viidestätoista. Se voi olla todellinen katto. Raskaat aksentit joita malli on nähnyt vähän, tiivis tekninen ammattikieli, kaksi ihmistä puhumassa päällekkäin, puhelimen kaiutin toisessa päässä — nämä aivan oikeutetusti nostavat WER:iä, eikä mikään asetus täysin korjaa niitä. Nimiä ja alan ammattikieltä varten paikallinen Whisper ja Pilvitila antavat sinun lisätä mukautettujen sanojen listan, joka ohjaa tunnistusta oikeaan kirjoitusasuun; Parakeet ei ota näitä vihjeitä vastaan. Mutta "se oppii ääneni sitä mukaa kun käytän sitä" on Dragon-aikakauden myytti — nykyaikainen puheentunnistus ei mukaudu yksilölliseen ääneesi ajan myötä, eikä mikään määrä toistoa harjoita sitä. Vipu on ääni ja asetukset, ei kärsivällisyys.
Milloin kannattaa ohittaa Whisper tähän
Jos kaikki mitä teet on naputella 20 sanan tekstiviesti tai nopea muistiinpano, älä lataa mitään. Käyttöjärjestelmäsi osaa jo sanella. Macilla Apple Dictation on sisäänrakennettu ja ilmainen — paina Mikrofoni-näppäintä tai pikanäppäintä, ja tuetuissa kokoonpanoissa se käsittelee laitteessa. Se pysähtyy itsestään 30 sekunnin hiljaisuuden jälkeen, joten se sopii lyhyisiin purkauksiin paremmin kuin pitkän tekstin kirjoittamiseen. Wordissa Microsoftin Dictate tekee saman mikrofonilla ja internetyhteydellä.
Tartu erilliseen työkaluun kun sanelet kokonaisia kappaleita, haluat sen toimivan offline-tilassa tai tarvitset tarkkuutta nimissä ja ammattikielessä jota sisäänrakennetut työkalut hapuilevat — koosteemme Apple Dictationin vaihtoehdoista käy läpi vaihtoehdot. Yhden rivin vastaukseen ilmainen sisäänrakennettu työkalu on oikea valinta.
Useimmiten vastaus kysymykseen "miksi saneluni on niin epätarkkaa" ei ole tunnustus äänestäsi. Se on metri etäisyyttä mikrofoniin ja astianpesukone jonka unohdit olevan päällä. Korjaa ääni, aseta oikea kieli, valitse malli jota kannettavasi jaksaa kantaa, ja arvioi sitä sitten 95:tä vasten, ei sataa. Sukulainen Dragon-kuulokkeineen taisteli vuotta 1999 vastaan. Sinä et taistele. Sinä taistelet enimmäkseen keittiötäsi vastaan.
Haluatko ottaa selvää minuutissa?
Lataa Whisper ja tee kolmen oton testi — tiedät minuutin sisällä onko kyse työkalusta, huoneesta vai pelkästä fysiikasta.



