Opas
Äänestä tekstitykset: mikä toimii
Tekstityksen luomistyökalu muuntaa äänitiedoston ajoitetuksi SRT- tai VTT-tiedostoksi. Tässä oikea työnkulku, välineet jotka todella vievät tiedoston ulos, ja ilmainen offline-vaihtoehto joka ei koskaan lataa ääntäsi palvelimelle.
Päivitetty viimeksi: kesäkuu 2026

Tekstityksen luomistyökalu ottaa syötteenään äänitiedoston – MP3:n, WAV:n tai podcastin viennin – ja kirjoittaa ajoitetun tekstitystiedoston. Jokaisella tekstirivillä on alku- ja loppuaikaleima. Verkkotyökalut kuten VEED, Kapwing ja Descript tekevät tämän selaimessa. Ilmainen OpenAI Whisper -komentorivityökalu tekee saman offline-tilassa omalla koneellasi.
Käytin kerran neljäkymmentä minuuttia tekstittääkseni kymmenen minuutin podcast-pätkän käsin, pysäyttäen äänitteen kolmen sekunnin välein kirjoittaakseni ja arvatakseni aikaleimoja. Minulla on ylempi korkeakoulututkinto ohjelmistotekniikassa. Matematiikka on karu molemmissa tapauksissa. Käsin tekstittäminen vie moninkertaisen ajan äänitteeeseen nähden. Nykyaikainen tekstitystyökalu tekee saman työn suunnilleen tiedoston pituudessa – plus kahvitauon verran. Juttu, jota kukaan ei kerro etukäteen, on se, että oikea työkalu riippuu yhdestä kysymyksestä: tarvitsetko ladattavan ajoitetun tiedoston vai pelkät sanat?
"Tekstityksen luomistyökalu" viittaa kahteen aivan eri tehtävään, ja väärä valinta maksaa sinulle iltapäivän. Kenttä jakautuu selaintyökaluihin jotka vievät ajoitetut tiedostot ulos, ja offline-työkaluihin jotka tekevät saman ilmaiseksi – jos olet valmis avaamaan terminaalin. Tämä opas kattaa työnkulun toiminnan, mitkä työkalut tuottavat oikean .srt-tiedoston pelkästä äänestä, mitä SRT, VTT ja TXT tarkoittavat, ja missä tilanteessa diktointisovelluksemme kaltainen työkalu on väärä valinta. Oppaan luettuasi tiedät, mitä avata kulloisenkin lopputuloksen saavuttamiseksi. Suurin osa tukipostilaatikostamme lukemastani sekaannuksesta johtuu ihmisistä, jotka valitsivat kirjoitustyökalun silloin kun tarvitsivat tekstitystiedoston. Vuosi tuollaisia viestejä on suurin syy sille, miksi tämä artikkeli ylipäätään on olemassa.
Tarvitset aikaleimoja, et pelkkää tekstiä
Tekstitystiedosto ei ole litteraatti. Litteraatti on pelkkiä sanoja. Tekstitystiedosto on sanoja plus ajoitus. Jokainen tekstitysblokki sanoo: "näytä tämä rivi kello 00:01:04 ja 00:01:07 välillä." Juuri tuo ajoitus on koko juttu. Se antaa videosoittimelle mahdollisuuden näyttää oikeat sanat oikealla sekunnilla.
Useimmat "puheesta tekstiksi" -työkalut – oma sovelluksemme mukaan lukien – antavat sinulle vain sanoja eikä mitään muuta. Ne liittävät siistin kappaleen kursorin kohdalle ja pysähtyvät siihen. Tekstityksen luomistyökalun täytyy tehdä enemmän. Se jakaa puheen lyhyiksi tekstityskokoisten palasiksi, sovittaa jokaisen palasen ääniraitaan ja kirjoittaa kaiken ulos tiukassa tiedostomuodossa, jonka soitin pystyy lukemaan. Jos lopputuloksesi on tiedosto, jonka lataat YouTubeen, videoeditoriin tai kurssialustalle, tarvitset aikaleimoja. Jos lopputuloksesi on teksti dokumentissa, et tarvitse – eikä sinun pidä maksaa tekstitystyökalusta saadaksesi sen.
Tekstityksen luominen äänitiedostosta kolmessa vaiheessa

Työnkulku on käytännössä sama lähes kaikissa työkaluissa – oli kyse verkosta tai offline-käytöstä.
Lataa äänitiedosto tai osoita sen sijaintiin. Useimmat työkalut hyväksyvät MP3-, WAV-, M4A- ja FLAC-tiedostot – videota ei tarvita. VEED hyväksyy MP3:n, WAV:n, podcast-tallenteet, haastatteluäänitykset ja äänimuistiot. Jos ainoa lähteesi on video, työkalu erottaa äänen automaattisesti.
Anna sen litteroida ja ajoittaa puhe. Työkalu ajaa äänen puhemallin läpi, pilkkoo tuloksen tekstitysrivin pituisiksi pätkiksi ja leimaa jokaisen alku- ja loppuajalla. Käsin tehty versio vie moninkertaisen ajan äänitteeseen nähden. Koneversio vie suunnilleen tiedoston pituuden.
Tarkista ja vie tiedosto ulos. Lue litteraatti kertaalleen (mallien tuotos on hyvä, ei täydellinen), korjaa nimet jotka menivät pieleen, ja vie sitten ulos. Tässä vaiheessa valitset muodon: SRT, VTT tai pelkkä TXT.
Siinä se koko silmukka. Työkalujen väliset erot koskevat hintaa, kielten kattavuutta, minne äänesi menee ja onko kolmas vaihe ilmainen.
SRT vs VTT vs TXT: mitä tiedostoa tarvitset
Kolme muotoa ilmestyy jokaiseen vientivalikkoon, ja ihmiset nappaavat jatkuvasti väärän.
- SRT (SubRip) on oletustekstitystiedosto. Se on pelkkänä tekstinä tallennettu tiedosto numeroituine blokkeineen, joissa jokaisessa on aikakoodiväli ja pari tekstiriviä. YouTube, useimmat videoeditorit ja lähes kaikki soittimet lukevat sitä. Jos et tiedä, kumpaa valita, valitse SRT.
- VTT (WebVTT) on SRT:n verkkopikkuserkku. Sama idea, hieman erilainen syntaksi, lisäksi tuki muotoilulle ja sijoittelulle. Käytä VTT:tä silloin, kun verkkosivusto tai HTML5-videosoitin pyytää sitä nimeltä.
- TXT sisältää pelkät sanat ilman aikaleimoja. Tämä on muoto, jota haluat kirjoittaessasi artikkelia, syöttäessäsi yhteenvetoa tai lainatessasi haastattelua. Se on myös ainoa kolmesta muodosta, jonka yksinkertainen diktointityökalu pystyy antamaan sinulle.
Oma nyrkkisääntöni: SRT videoille, TXT dokumenteille, VTT kun verkkoalusta nimeää sen. Useimmat työkalut vievät kaikki kolme: VEED, Kapwing ja Descript.
Työkalut, jotka muuttavat äänen tekstitystiedostoiksi
Tässä missä kukin selaintyökalu sijaitsee – ominaisuusväitteet on poimittu suoraan kunkin työkalun omilta sivuilta.
- VEED on verkko- ja mobiilipohjainen automaattinen tekstitystyökalu, joka litteroi pelkästä äänitiedostosta ja antaa ladata tuloksen SRT-, VTT- tai TXT-muodossa. Käyttö on ilmaista aluksi. Tekstitystiedoston lataaminen ja pidempien videoiden tekstitys siirtävät sinut maksulliselle tasolle.
- Kapwing mainostaa "99 %:n tarkkuudella tuotettuja tekstityksiä sekunneissa". Tämä on Kapwingin oma markkinointiluku, ei riippumaton vertailutulos. Se ottaa minkä tahansa video- tai äänitiedoston, MP3 mukaan lukien, pystyy kääntämään tekstitykset yli 100 kielelle ja vie SRT-, VTT- ja TXT-tiedostot ulos. Ilmaistileillä saa enintään 10 minuuttia tekstityksiä ja vesileiman; Pro poistaa vesileiman.
- Descript luo tekstityksiä yli 22 kielellä, hyväksyy pelkät äänitiedostot ja vie pehmeät tekstitykset SRT- tai VTT-muodossa polkua Julkaise → Vie → Tekstitykset pitkin. Se toimii freemium-mallilla, jonka ilmainen taso kattaa yhden mediatunnin kuukaudessa.
Tässä miten nämä neljä vertautuvat toisiinsa osissa, jotka voit tarkistaa ennen sitoutumista. Ei tarkkuus- tai nopeuslukuja, koska kukaan ei ole ajanut niitä rinta rinnan samalla äänellä:
| Työkalu | Alusta | Paikallinen vai pilvi | Toimii offline | Hinnoittelumalli | Kielet | Paras käyttötarkoitus |
|---|---|---|---|---|---|---|
| VEED | Verkko, mobiili | Pilvi | Ei | Ilmainen aluksi, maksettu vientiä varten | Luettelee yli 40 vaihtoehtoa, kokonaismäärää ei ilmoitettu | Nopea selainprosessointi latauksella |
| Kapwing | Verkko | Pilvi | Ei | Ilmaistaso (vesileima), Pro | Kääntää yli 100 kielelle | Nopeat tekstitykset ja kääntäminen |
| Descript | Verkko | Pilvi | Ei | Freemium, yksi mediatunti ilmaiseksi | 22+ | Äänen ja tekstityksen muokkaus yhdessä |
| OpenAI Whisper CLI | Windows, macOS, Linux | Paikallinen | Kyllä | Ilmainen, avoimen lähdekoodin | 99 monikielinen, 1 .en-versioille | Ilmainen, yksityinen, ei latausta |
Kaikki kolme selaintyökalua lähettävät äänesi jonkun toisen palvelimelle. Markkinointipätkälle se sopii. Tallennetulle asiakaspuhelulle tai missä tahansa on palkkatietoja, lue eteenpäin.
Näiden työkalujen käyttöliittymä näyttää karkeasti tältä:
Lataa, klikkaa luo, valitse muoto, lataa alas. Tuo palkki – ei meidän – on se, miltä tekstityksen luomistyökalu näyttää.
Ilmainen ja offline: SRT-tiedoston luominen avoimen lähdekoodin Whisperillä

Jos et halua ladata mitään, OpenAI:n avoimen lähdekoodin Whisper-komentorivityökalu kirjoittaa tekstitystiedostot omalle koneellesi ilmaiseksi. Sen --output_format-lippu hyväksyy arvot txt, vtt, srt, tsv, json tai all, ja oletuksena on all. Siis yksi komento, whisper interview.mp3 --model turbo, tuottaa .srt-tiedoston offline-tilassa ilman tiliä ja ilman tiedoston lataamista palvelimelle.
Avoimen lähdekoodin Whisper on eri projekti kuin Whisper by Remskill – ja se kannattaa sanoa selvästi. Se on OpenAI:n komentorivimalli, joka ajaa omalla koneellasi ja tuottaa ajoitettuja tekstitystiedostoja. Se sisältää kuusi mallikokoa (tiny, base, small, medium, large ja turbo) sekä vain englanniksi toimivat versiot neljälle pienimmälle. Monikieliset mallit kattavat 99 kieltä; .en-versiot vain englannin.
Tässä mielipide, jonka takana seison: arkaluonteisen materiaalin kohdalla äänen ei pitäisi koskaan poistua kannettavalta. Tallennettu kehityskeskustelu, lääkärin diktoimat muistiinpanot, oikeudellinen kuuleminen – mikään näistä ei kuulu toimittajan käsittelylokeihin vain siksi, että tarvitsit aikaleimoja.
Seurasin kerran tiimin kasvattavan viisinkertaisen pilvi-AI-laskun yhden vuosineljänneksen aikana litteroimalla standup-tallenteita. Talousjohtajan reaktio seuraavassa katselmuksessa ei ollut "optimoidaan promptia". Se oli "miksi ylipäätään lähetämme kokousääntä palvelimelle". Kannettavassasi on jo prosessori ja mikrofoni. Yksityiselle materiaalille offline Whisper CLI on vastaus – eikä se maksa mitään.
On olemassa nopeampi paikallinen portti nimeltä whisper.cpp, Whisperin pelkkä C/C++-versio ilman riippuvuuksia, joka ajaa vain prosessorilla avoimen lisenssin alla. Ihmiset kertovat sen pystyvän kirjoittamaan myös tekstitystiedostoja, mutta suosittelisin virallista OpenAI Whisper CLI:tä varmennetulle .srt-polulle ja käyttäisin whisper.cpp:tä nopeusparannuksena kun olet ensin vakiinnuttanut perustyönkulun.
Milloin Whisper by Remskill on väärä työkalu tähän
Tässä kohta, jonka useimmat tuoteblogit ohittavat. Jos tehtäväsi on ladattava .srt- tai .vtt-tiedosto, sovelluksemme on väärä työkalu – ja kerron sen mieluummin nyt kuin tuhlaavasi lataukseen käytetyn ajan.
Whisper by Remskill on diktointilähtöinen. Pidät pikanäppäintä pohjassa (Ctrl+Space Windowsissa, Command+Option macOS:ssä), puhut, vapautat, ja litterointi liittyy kursorin kohdalle missä tahansa avoimessa sovelluksessa. Se ei pilko puhetta tekstityspalasiin, se ei sovita tekstiä ääniraitaan eikä se kirjoita ajoitettua tekstitystiedostoa. Syötä sille haastatteluääni ja saat siistin kappaleen – ei SRT:tä. Rakensin vientiValikon päässäni tusinaan kertaan ja jätin sitten toteuttamatta, koska ajoitetut tekstitykset ovat oma tuotteensa – ja huonosti tehtyinä ne eivät hyödytä ketään.
Käytä yllä olevia työkaluja tekstitystiedostoihin. Tartu meidän sovellukseemme viereiseen tehtävään: muunna oma puheesi tekstiksi juuri silloin kun tarvitset sitä. Sähköposti, luonnos, tekstitys jonka kirjoitat itse somepostaukseen. Se toimii kahdella puhtaalla Rust-moottorilla – OpenAI Whisper ja NVIDIA Parakeet – ilman Pythonia ja ilman latausta. Eri tehtävä, eri työkalu. Oikean valitseminen on tämän artikkelin koko pointti.
Ennen kuin avaat mitään, vastaa kysymykseen, joka ratkaisee kaiken: toimitatko tiedoston vai sanoja? Tiedosto tarkoittaa aikaleimoja, mikä tarkoittaa oikeaa tekstitystyökalua. VEED tai Kapwing nopeaan selainprosessointiin, Whisper CLI ilmaiseen ja yksityiseen. Sanat tarkoittavat litteraattia – ja se on eri työkalu. Rakensin diktointisovelluksen ja silti ohjaan sinut muualle silloin kun muualle on oikein mennä. Seitsemänvuotias tyttäreni kysyi viime viikolla, mitä teen töissä, ja rehellinen vastaus on, että autan ihmisiä lopettamaan kirjoittamisen – mikä hänen mielestään oli syvästi epäkiinnostava vastaus. Iltapäivä, jonka sinä säästät, on se jonka käytin tekstittääkseni tuon podcast-pätkän käsin, kolme sekuntia kerrallaan.
Haluatko mieluummin diktointipuolen?
Jos tehtäväsi on sanat kursorissa eikä tekstitystiedosto, Whisper muuntaa oman puheesi tekstiksi juuri silloin kun tarvitset sitä – täysin offline.
Ilmainen paikallinen diktointi kaikille kirjautuneille käyttäjille. Tekstitystiedostoihin käytä yllä olevia työkaluja.



