Kirjoittaja: Denys Medvediev

Opas

Äänestä tekstiksi -muunnin, selitettynä

Ilmaiset verkkotyökalut, offline-työpöytäsovellukset ja oman avaimen pilvipalvelut muuttavat kaikki äänen tekstiksi. Tärkein valinta on se, missä äänesi käsitellään.

Päivitetty viimeksi: kesäkuu 2026

Lähikuva digitaalisesta äänikäyttöliittymästä, jossa hehkuva ääniaaltomuoto näkyy tummalla näytöllä

Äänestä tekstiksi -muunnin muuttaa nauhoituksen tai puhutun puheen muokattavaksi ja haettavaksi tekstiksi puheentunnistusmallin avulla. Tärkein valinta on se, missä ääni käsitellään: ilmaiset verkkotyökalut lähettävät tiedostot palvelimelle, kun taas Whisperin kaltainen työpöytäsovellus voi litteroida puheen kokonaan omalla tietokoneellasi, offline-tilassa, ja liittää tuloksen suoraan siihen, missä kursorisi on.

Useimmat ilmaiset äänestä tekstiksi -työkalut rajaavat sinut ensimmäisiin 10–30 litterointiminuuttiin, minkä jälkeen ne pyytävät korttia. Se on reilua. Palvelimet maksavat. Sitä ei vain sanota ääneen, että äänesi joutui ensin matkaamaan noille palvelimille. Lääkärin äänimuistio, hallituksen kokousnauhoitus, huoltajuusoikeudenkäynnin valmistelutiedosto: kaikki ladattuna toimittajalle, jota et ole koskaan tavannut.

Minulla on tästä mielipide, ja palaan siihen kohta.

Äänestä tekstiksi -muunnin tekee yhtä asiaa: se kuuntelee ääntä ja kirjoittaa sanat ylös. Kiinnostavat erot ovat siinä, miten se kuuntelee (malli), missä se kuuntelee (oma koneesi vai palvelin) ja mitä se tekstille sen jälkeen tekee (tiputtaa sen tiedostoon vai liittää sinne, missä jo kirjoitat). Tämän haun kolme parhaiten sijoittuvaa ilmaismuunninta ovat kaikki sitä lataa-tiedosto-ja-odota -lajia. Whisper by Remskill on toista maata. Se on saneluun keskittyvä, eli painat pikanäppäintä, puhut, ja teksti ilmestyy kursorin kohdalle missä tahansa sovelluksessa.

Tämä opas selittää, miten muuntimet toimivat, käy läpi kolmivaiheisen polun nauhoitetulle tiedostolle ja kertoo, milloin verkkomuunnin on oikea valinta ja milloin ei. Luettuani tukisähköpostiamme vuoden ajan voin kertoa, että suurin osa siitä tulee ihmisiltä, jotka valitsivat pilvityökalun äänelle, jonka ei olisi koskaan pitänyt lähteä heidän kannettavaltaan.

Äänestä tekstiksi -muunnin muuttaa nauhoitukset muokattaviksi sanoiksi

Whisper
Oikea Whisper-sovellus — klikkaile asetuksia ja näe, miten paikallinen ja pilvilitterointi on määritetty.

Konepellin alla jokainen muunnin pyörittää samaa asiaa: puheentunnistusmallia. Se ottaa äänesi aaltomuodon ja ennustaa sanat, pala kerrallaan. Malli on se, missä tarkkuus asuu. Suuri avoin malli monen näistä työkaluista takana on OpenAI:n Whisper, joka tukee monikielisissä varianteissaan 99 kieltä. Sama OpenAI Speech-to-Text API tarjoaa whisper-1:n sekä uudemmat gpt-4o-transcribe- ja gpt-4o-mini-transcribe-mallit.

Tuloksena on tavallista, muokattavaa tekstiä. Voit korjata nimen, hakea lauseen, pudottaa sen sähköpostiin. Siinä on koko juju. Ääntä on vaikea silmäillä, tekstiä helppo. Whisper tuottaa saman muokattavan tekstin, mutta sen sijaan että se ojentaisi sinulle ladattavan tiedoston, se voi liittää tekstin suoraan siihen sovellukseen, jossa olet. Yllä upotettu sovellus on oikea työpöytäsovelluksen käyttöliittymä, ei mallikuva.

Se, minkä mallin valitset, on tarkkuuspäätös, ja avoin Whisper-malli ja Google Cloud Speech-to-Text päätyvät eri kohtiin; Whisper vs Google Speech-to-Text -vertailumme asettaa nämä kaksi moottoria rinnakkain tarkkuuden, kielikattavuuden ja sen suhteen, minne äänesi menee.

Näin muunnat äänitiedoston tekstiksi kolmessa vaiheessa

Nauhoitetulle tiedostolle polku on lyhyt. Ilmaiset verkkomuuntimet pukevat sen sanoiksi näin: lataa, klikkaa, lataa alas.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Tyypillinen verkkomuunnin: pudota tiedosto, odota latausta, lataa litterointi alas.
1

Valitse, missä se ajetaan. Pilvimuuntimet vaativat, että lataat tiedoston niiden palvelimelle. Whisper ajaa litteroinnin omalla koneellasi paikallistilassa, joten tiedosto ei koskaan lähde tietokoneeltasi.

2

Valitse malli kielellesi. Pelkät englanninkieliset tiedostot ovat nopeimpia pienemmällä mallilla. Monikielinen tai sekakielinen ääni tarvitsee monikielisen mallin, joka kattaa 99 kieltä.

3

Ota teksti ja muokkaa sitä. Litterointi palaa tavallisena tekstinä. Korjaa kirjoitusvirheet, joita malli aina tekee erisnimissä, niin olet valmis.

CancelTranscribing
Whisper litteroi nauhoitusta paikallisesti — tiedosto ei koskaan lähde koneeltasi.

Yksi tietämisen arvoinen koukku: pilvi-API:illa on kokorajat. OpenAI:n litterointipääte rajaa lataukset 25 megatavuun pyyntöä kohden. Pitkä WAV-muotoinen kokousnauhoitus ylittää sen nopeasti. Paikallisella käsittelyllä ei ole tällaista rajaa muuten kuin oman levysi ja kärsivällisyytesi puitteissa.

Nauhoitetut tiedostot vs reaaliaikainen sanelu: kumpaa tarvitset?

Tässä on kysymys, jonka useimmat muunninsivut ohittavat. Litteroitko jo olemassa olevaa tiedostoa vai yritätkö kirjoittaa jotain uutta äänelläsi?

Jos sinulla on nauhoitus (haastattelu, luento, podcast), tiedostomuunnin on oikea työkalu. Lataa se, ota litterointi, jatka eteenpäin. Kolme parasta ilmaistyökalua hoitavat tämän, päivittäisillä minuuttirajoilla ilmaisversiossa.

Cancel
Whisperin reaaliaikaisen nauhoituksen peittokuva — pidä pikanäppäintä pohjassa, puhu, vapauta.

Jos kirjoitat uutta sähköpostia, muistiinpanoa tai dokumenttia, et halua tiedostoa lainkaan. Haluat sanojen ilmestyvän sitä mukaa kuin puhut. Se on sanelua, ja se on eri mekanismi. Whisperillä pidät pikanäppäintä pohjassa, puhut ja vapautat. Windowsissa oletus on Ctrl+Space, ja macOS:ssä se on Command+Option-yhdistelmä, jota pidetään puhuessa pohjassa (pidä molempia, vapauta kumpi tahansa näppäin lopettaaksesi). Litteroitu teksti liittyy kursorisi kohdalle missä tahansa sovelluksessa. Ei latausta, ei lataamista alas, ei välilehtien vaihtoa. Yllä oleva peittokuva on se, mitä näet kun se kuuntelee.

Useimmat äänestä tekstiksi -muunninta etsivät haluavat ensimmäisen asian ja huomaavat haluavansa myös toisen. Nauhoitat vähemmän kuin kirjoitat. Käytin viime vuonna kaksi viikkoa parempaa tiedostomuunninta jahdaten, kun oikeasti tarvitsin vain sen, että lakkaisin näpyttelemästä vastauksia yhdellä sormella tyttäreni uimaharjoituksissa.

Paikallinen vs pilvi: missä äänesi käsitellään (ja miksi sillä on väliä)

Rivejä konesalin palvelinräkkejä aktiivisilla laitteilla, kuvaten pilvessä tapahtuvaa äänenkäsittelyä

Tärkein risteyskohta tulee tässä, ja juuri siitä ilmaistyökalut ovat hiljaisimpia. Verkkomuunnin käsittelee äänesi palvelimillaan. AudioConvert.ai sanoo poistavansa tiedostot 24 tunnin sisällä. HappyScribe ja NoteGPT lähettävät nekin pilveen. Se on tavanomaista, ja julkiselle podcastille se on ihan ok.

Nyt se lupaamani mielipide. Pelkästään pilvessä tehtävä äänenmuunnos on yksityisyyskatastrofi, joka odottaa litterointiaan. Eräällä tiimillä, jonka kanssa kerran työskentelin, oli alihankkija rakentamassa sisäistä saneluprototyyppiä, joka kutsui pilvi-tekoälyä jokaisesta lausahduksesta. Päällikkö avasi kustannuspaneelin neljänneksen lopussa ja löysi viisinumeroisen laskun, suurin osa siitä standup-nauhoitusten litteroinnista neljään kertaan, koska uudelleenyrityslogiikka oli liian aggressiivinen. Talousjohtajan vastaus oli lyhyt: tai sitten voisimme olla maksamatta siitä, että lataamme kokouksia, joista on jo muistiinpanot. Raha oli pieni ongelma. Suurempi oli se, että kvartaalien edestä sisäisiä puheluita asui nyt jonkun toisen palvelimilla.

Whisperin paikallistila vastaa siihen. Paikallistilassa kaikki ääni käsitellään tietokoneellasi, eikä mikään lähde laitteelta; kertaluonteisen mallin latauksen jälkeen (noin 140 megatavusta 3 gigatavuun mallista riippuen) se toimii täysin offline-tilassa. Laitteella ajetaan kahta moottoria: Whisper-mallit ja NVIDIA:n Parakeet, joka on 5–10 kertaa Whisperia nopeampi CPU:lla mutta kattaa vain englannin sekä 24 eurooppalaista kieltä, eikä siinä ole käännöstä englanniksi. Jos pidät pilvestä enemmän, Whisperissä on oman avaimen OpenAI-tila, joka käyttää gpt-4o-mini-transcribe- tai gpt-4o-transcribe-mallia (samat mallit jotka API tarjoaa), laskutus suoraan OpenAI:lta, ei katetta meiltä. Pointti on, että sinä valitset. Ilmaiset verkkotyökalut valitsevat puolestasi, ja vastaus on aina niiden palvelin. Lisää siitä, miten pysyä kokonaan poissa pilvestä, oppaassamme offline-puheentunnistuksesta.

Tarkkuuden valinta: mikä malli pärjää aksenttisi ja kielesi kanssa

Tarkkuus on enimmäkseen mallikysymys, ja malli on kielikysymys. Ilmaismuuntimet mainostavat suurilla luvuilla. AudioConvert.ai väittää jopa 99 % tarkkuutta selkeällä äänellä, HappyScribe sanoo jopa 96 %. Ne ovat toimittajien markkinointiväitteitä ilman julkaistua menetelmää, joten suhtaudu niihin esitteenä, ei vertailuarvona.

Tarkkuutta liikuttaa se, että sovitat mallin ääneesi. Whisperissä on 8 paikallista mallia, jaettuna pelkkiin englanninkielisiin ja monikielisiin. Pelkät englanninkieliset versiot (Base noin 140 megatavusta Mediumiin noin 1,5 gigatavuun) lukitsevat kielivalitsimen englantiin ja tekevät tuon yhden työn hyvin. Monikieliset versiot (Small, Medium, Large v3 noin 3 gigatavua sekä Large v3 Turbo) kattavat 99 kieltä automaattisella tunnistuksella. Sekaisin ukrainaa ja englantia samassa lauseessa? Se vaatii monikielisen mallin. Puhdas englanninkielinen äänimuistio? Englanninkielinen Base-malli on nopeampi ja kevyempi.

Whisper
Mallin ja kielen valitsin oikeassa Whisper-sovelluksessa — pelkät englanninkieliset ja monikieliset versiot rinnakkain.

Tylsä totuus, jota mikään mallisivu ei myönnä: halpa kaulukseen kiinnitettävä mikrofoni tekee tarkkuudelle enemmän kuin mikään mallipäivitys. Roskaa sisään, roskaa ulos. Mikään määrä tekoälyä ei korjaa nauhoitusta, joka on tehty käyvän astianpesukoneen vieressä. Käytin yhden viikonlopun mallin asetuksia virittäen siivotakseni omaa sotkuista ääntäni, ennen kuin tajusin että ongelma oli kannettavan mikrofoni 15 senttiä tuulettimen edessä. Minulla on maisterin tutkinto. Yllä oleva asetuspaneeli on se, missä valitset mallin ja kielen.

Milloin ohittaa verkkomuunnin (ja käyttää jotain muuta)

Siisti työpöytä, jossa on muistivihko, silmälasit ja kyniä, viitaten käsin tehtäviin muistiinpanovaihtoehtoihin

Verkkomuunnin on joskus parempi valinta, ja sanon sen sinulle mieluummin kuin annan sinun taistella väärän työkalun kanssa. Jos sinulla on yksi lyhyt nauhoitus (viiden minuutin haastattelupätkä, yksittäinen äänimuistio) etkä välitä siitä että se koskettaa palvelinta, HappyScriben kaltainen ilmaismuunnin antaa ensimmäiset 10 minuuttia ilmaiseksi ilman korttia. Avaa sivu, lataa, valmista. Työpöytäsovelluksen asentaminen sitä varten on ylimitoitettua.

Ohita verkkomuunnin, kun yksi kolmesta asiasta pitää paikkansa: ääni on arkaluonteista (lääketieteellistä, juridista, taloudellista), tiedosto on tarpeeksi suuri osuakseen 25 megatavun pilvirajaan, tai kirjoitat jotain uutta sen sijaan että litteroisit jotain vanhaa. Kaksi ensimmäistä tapausta haluavat paikallista käsittelyä. Kolmas haluaa sanelua, ei muunninta lainkaan. Kokoustyyliseen litterointiin, jossa on useita puhujia ja yhteenvetoja, sille kategorialle omistettu työkalu sopii paremmin kuin kumpikaan — se on eri työ, jota käsitellään litterointiohjelmistojen koonnissamme.

Mitä se maksaa

Whisper on ilmainen kaikille koko paikallisputken osalta (molemmat litterointimoottorit, tekoälyn tekstin siistiminen, historia ja mukautettava pikanäppäin) eikä rekisteröitymiseen tarvita maksutapaa. Oman avaimen pilvipinta on maksullinen Pro-taso, ja OpenAI laskuttaa sinua suoraan niistä todellisista minuuteista, jotka litteroit. Tämän haun ilmaiset verkkomuuntimet pyörivät freemium-minuuttirajalla: HappyScribe antaa 10 ilmaista minuuttia, AudioConvert.ai antaa 30 minuuttia päivässä. Whisper toimii tänään Windowsilla ja macOS:llä Apple Siliconilla. Tarkat tilauslukemat löytyvät kirjallisina hinnoittelusivulta.

Ilmaismuuntimet ovat hyviä siinä mitä tekevät — pudota tiedosto, odota, kopioi teksti ulos. Käytä yhtä siihen podcast-pätkään, jota et haittaa jakaa. Mutta ne nauhoitukset, joilla on eniten väliä, ovat yleensä niitä, joita haluaisit vähiten ladata, ja juuri silloin omalla kannettavallasi pyörivä muunnin lakkaa olemasta pelkkä kiva lisä.

Kokeile nauhoitusta, joka ei koskaan lähde koneeltasi

Nuorempi tyttäreni saneli viime lauantaina 90 sanan sähköpostin isoäidilleen ja kysyi minulta, minne sanat menivät. Eivät minnekään, sanoin. Ne jäivät juuri tähän. Se vastaus on koko syy siihen, miksi rakensin tämän.

Ilmainen koko paikallisputken osalta. Rekisteröitymiseen ei tarvita maksutapaa.

Kuva Denys Medvedievistä

Denys Medvediev

Olen se, joka lukee tukisähköpostimme, mitä todennäköisimmin saneleen vastaukset.

Lisälukemista