Av Denys Medvediev

Veiledning

Lyd til undertekster: det som faktisk fungerer

En undertekstgenerator fra lyd gjør om en lydfil til en tidfestet SRT- eller VTT-fil. Her er den reelle arbeidsflyten, verktøyene som faktisk eksporterer én, og det gratis frakoblede alternativet som aldri laster opp lyden din.

Sist oppdatert: juni 2026

Lydbølger vist på en skjerm, som illustrerer å gjøre om en lydfil til et undertekstspor

En undertekstgenerator fra lyd tar en lydfil – en MP3, en WAV eller en podcasteksport – og skriver en tidfestet undertekstfil. Hver tekstlinje har et start- og sluttidspunkt. Nettbaserte verktøy som VEED, Kapwing og Descript gjør dette i en nettleser. Det gratis OpenAI Whisper-kommandolinjeverktøyet gjør det frakoblet på din egen maskin.

Jeg brukte en gang førti minutter på å tekste et ti minutter langt podcastklipp for hånd, og pauset hvert tredje sekund for å skrive og gjette på tidskoder. Jeg har en mastergrad i programvareingeniørfaget. Regnestykket er brutalt uansett. Å tekste for hånd tar flere ganger så lang tid som selve lyden. En moderne undertekstgenerator gjør den samme jobben på omtrent filens lengde pluss en kopp kaffe. Det ingen forteller deg på forhånd, er at det rette verktøyet avhenger av ett spørsmål: trenger du en tidfestet fil du kan laste ned, eller er det bare ordene du er ute etter?

«Undertekstgenerator» brukes om to helt forskjellige jobber, og feil verktøy koster deg en ettermiddag. Feltet deler seg i nettleserverktøy som eksporterer tidfestede filer, og frakoblede verktøy som gjør det samme gratis hvis du er villig til å bruke terminalen. Denne guiden tar for seg hvordan arbeidsflyten fungerer, hvilke verktøy som faktisk lager en skikkelig .srt-fil fra lyd alene, hva SRT, VTT og TXT betyr, og hvor et dikteringsverktøy som vårt er feil valg. Når du er ferdig vet du hvilket verktøy du skal åpne for jobben din. Mesteparten av forvirringen jeg leser om i supportinnboksen vår, kommer fra folk som valgte et skrivehjelpeverktøy når de trengte en undertekstfil. Et år med slike meldinger er mye av grunnen til at denne artikkelen eksisterer.

Du trenger tidskoder, ikke bare tekst

En undertekstfil er ikke et transskript. Et transskript er ord. En undertekstfil er ord pluss timing. Hver tekstblokk sier «vis denne linjen fra 00:01:04 til 00:01:07». Den timingen er hele jobben. Den lar en videospiller vise de riktige ordene på skjermen til rett sekund.

De fleste «tale til tekst»-verktøy, inkludert vårt, gir deg bare ordene. De limer inn et rent avsnitt ved markøren din og stopper der. En undertekstgenerator fra lyd må gjøre mer. Den deler talen opp i korte tekstbiter i undertekststørrelse, justerer hver bit mot lydklokken og skriver det hele ut i et strengt filformat som en spiller kan lese. Hvis leveransen din er en fil du laster opp til YouTube, et videoredigeringsprogram eller en kursplattform, trenger du tidskodene. Hvis leveransen din er tekst i et dokument, trenger du det ikke, og du bør ikke betale for et undertekstverktøy for å få det.

Slik genererer du undertekster fra en lydfil i tre trinn

Bærbar datamaskin med lydredigeringsprogramvare og hodetelefoner på et skrivebord i et hjemmekontor

Arbeidsflyten er den samme på nesten alle verktøy, enten de er nettbaserte eller frakoblede.

1

Last opp eller pek på lydfilen. De fleste verktøy tar MP3, WAV, M4A og FLAC – ingen video kreves. VEED aksepterer MP3, WAV, podcastopptak, intervjulyd og talenotater. Hvis eneste kilde er en video, trekker verktøyet ut lyden for deg.

2

La det transkribere og time talen. Verktøyet kjører lyden gjennom en talemodell, deler resultatet opp i tekstlinjer av passende lengde og stempler hver enkelt med et start- og sluttidspunkt. Håndversjonen bruker mange ganger lydlengden. Maskinversjonen tar omtrent filens lengde.

3

Gjennomgå og eksporter filen. Les transskriptet én gang (modellresultatet er bra, ikke perfekt), fiks eventuelle navn den har fordreid, og eksporter deretter. Her velger du format: SRT, VTT eller ren TXT.

Det er hele løkken. Forskjellene mellom verktøy handler om pris, språkdekning, hvor lyden din havner og om trinn tre er gratis.

SRT vs VTT vs TXT: hvilken fil trenger du

Tre formater dukker opp i alle eksportmenyer, og folk velger stadig feil.

  • SRT (SubRip) er standard undertekstfil. Det er en ren tekstfil med nummererte blokker, hver med et tidskodeintervall og én eller to tekstlinjer. YouTube, de fleste videoredigeringsprogrammer og nesten alle spillere leser den. Hvis du er usikker på hva du skal velge, velg SRT.
  • VTT (WebVTT) er SRTs wetkusin. Samme idé, litt annen syntaks, pluss støtte for stil og posisjonering. Bruk VTT når et nettsted eller en HTML5-videospiller ber om det ved navn.
  • TXT er bare ordene, uten tidskoder. Dette er formatet du vil ha når du skriver en artikkel, lager et sammendrag eller siterer et intervju. Det er også det eneste av de tre et vanlig dikteringsverktøy kan gi deg.

Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en nettplattform spesifiserer det. De fleste verktøy eksporterer alle tre: VEED, Kapwing og Descript.

Verktøyene som gjør lyd om til undertekstfiler

Her er hva hvert nettleserverktøy tilbyr, basert på påstandene hentet direkte fra hvert verktøys egen side.

  • VEED er en nettbasert og mobil automatisk undertekstgenerator som transkriberer fra en lydfil og lar deg laste ned resultatet som SRT, VTT eller TXT. Det er gratis å komme i gang. Å laste ned undertekstfilen og tekste lengre videoer krever et betalt abonnement.
  • Kapwing reklamerer med «99 % nøyaktige undertekster, generert på sekunder». Det er Kapwings eget markedsføringstall, ikke en uavhengig benchmark. Det tar alle video- eller lydfiler, inkludert MP3, kan oversette undertekster til 100+ språk og eksporterer SRT, VTT og TXT. Gratis kontoer får opptil 10 minutters undertekster og et vannmerke; Pro fjerner vannmerket.
  • Descript genererer undertekster på 22+ språk, aksepterer lydfiler alene og eksporterer myke undertekster som SRT eller VTT via Publish, deretter Export, deretter Subtitles. Det kjører på en freemium-modell med et gratis nivå på én medietime i måneden.

Slik stiller disse fire seg mot hverandre på punkter du kan sjekke før du bestemmer deg. Ingen nøyaktighets- eller hastighetstall, siden ingen har testet dem mot hverandre på den samme lyden:

VerktøyPlattformLokalt eller skyFungerer frakobletPrismodellSpråkBest for
VEEDWeb, mobilSkyNeiGratis start, betalt for eksportLister 40+ alternativer, ingen oppgitt totalEn rask nettlesergjennomgang med nedlasting
KapwingWebSkyNeiGratisnivå (vannmerke), ProOversetter til 100+Raske tekster pluss oversettelse
DescriptWebSkyNeiFreemium, én medietime gratis22+Redigere lyd og tekster samtidig
OpenAI Whisper CLIWindows, macOS, LinuxLokaltJaGratis, åpen kildekode99 flerspråklig, 1 for .en-byggGratis, privat, ingen opplasting

Alle tre nettleserverktøy sender lyden din til noen andres server. For et markedsføringsklipp er det greit. For et innspilt kundemøte eller noe som inneholder lønnstall, er det verdt å lese videre.

Disse verktøyene deler en grensesnittform som omtrent ser slik ut:

interview-audio.mp3Auto-undertekst
SRTVTTTXTLast ned

Last opp, klikk generer, velg format, last ned. Den linjen – ikke vår – er det en undertekstgenerator fra lyd ser ut som.

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Kode på en dataskjerm i mørk modus, som fremkaller en kommandolinje-undertekstarbeidsflyt

Hvis du helst ikke vil laste opp noe, skriver OpenAIs åpen kildekode Whisper-kommandolinjeverktøy undertekstfiler på din egen maskin gratis. Flagget --output_format aksepterer txt, vtt, srt, tsv, json eller all, og bruker all som standard. Én kommando – whisper interview.mp3 --model turbo – produserer en .srt-fil frakoblet, uten konto og uten opplasting.

Åpen kildekode Whisper er et annet prosjekt enn Whisper by Remskill, og det er verdt å være tydelig på. Det er OpenAIs kommandolinjemodell som kjører på datamaskinen din og genererer tidfestede undertekstfiler. Den leveres i seks modellstørrelser (tiny, base, small, medium, large og turbo) med engelskspråklige varianter for de fire minste. De flerspråklige modellene dekker 99 språk; .en-variantene er bare engelsk.

Her er en mening jeg står bak: for alt sensitivt bør lyden aldri forlate den bærbare datamaskinen din. En innspilt medarbeidersamtale, legedikterte notater, et juridisk vitnemål – ingenting av det hører hjemme i en leverandørs behandlingslogger bare fordi du trengte tidskoder.

Jeg så en gang et team ruste opp en femtallsregning for sky-KI i ett kvartal ved å transkribere standupopptak. CFO-ens reaksjon i neste gjennomgang var ikke «la oss optimalisere prompten». Det var «hvorfor sender vi møtelyd til en server i det hele tatt». Den bærbare datamaskinen din har allerede en CPU og en mikrofon. For privat materiale er den frakoblede Whisper CLI svaret, og det koster ingenting.

Det finnes en raskere lokal port kalt whisper.cpp – et vanlig C/C++-bygg av Whisper uten avhengigheter som kjører bare på CPU under en åpen lisens. Folk rapporterer at den også kan skrive undertekstfiler, men jeg vil sende deg til den offisielle OpenAI Whisper CLI for den verifiserte .srt-banen og behandle whisper.cpp som hastighetsoppgraderingen når du er komfortabel.

Når Whisper by Remskill er feil verktøy for dette

Pasted
Whispers overlegg i fullstendig tilstand – det limer inn et rent avsnitt ved markøren din, ikke en tidfestet undertekstfil. Den blå widgeten sitter på toppen av alle apper.

Her er den delen de fleste produktblogger hopper over. Hvis jobben din er en nedlastbar .srt- eller .vtt-fil, er appen vår feil verktøy, og jeg foretrekker å fortelle deg det nå enn å kaste bort nedlastingen din.

Whisper by Remskill er dikterings-først. Du holder nede en hurtigtast (Ctrl+Space på Windows, Command+Option på macOS), snakker, slipper, og transskripsjonen limes inn ved markøren i den appen som er åpen. Den deler ikke tale opp i tekstblokker, justerer ikke tekst mot en lydklokke og skriver ikke en tidfestet undertekstfil. Mater den et intervju og du får et rent avsnitt, ikke en SRT. Jeg bygde eksportmenyen i hodet mitt et dusin ganger og sendte den likevel aldri, fordi tidfestede tekster er et eget produkt og å gjøre det dårlig hjelper ingen.

Bruk verktøyene ovenfor for undertekstfiler. Bruk appen vår til den tilstøtende jobben: å gjøre din egen tale om til tekst i det øyeblikket du trenger det. En e-post, et utkast, en bildetekst du skal skrive inn i et sosiale medier-innlegg for hånd. Den kjører på to rene Rust-motorer, OpenAI Whisper og NVIDIA Parakeet, uten Python og uten opplasting. Ulik jobb, ulikt verktøy. Å velge riktig er hele poenget med denne artikkelen.

Før du åpner noe som helst, svar på spørsmålet som avgjør alt: sender du fra deg en fil eller sender du fra deg ord? En fil betyr tidskoder, som betyr en skikkelig undertekstgenerator. VEED eller Kapwing for en rask nettlesergjennomgang, Whisper CLI for gratis og privat. Ord betyr et transskript, og det er et annet verktøy. Jeg bygde en dikteringsapp og sender deg likevel et annet sted når det er det rette valget. Sjuåringen min spurte meg forrige uke hva jeg lager på jobb, og det ærlige svaret er at jeg hjelper folk å slutte å skrive – noe hun syntes var dypt underwhelming. Ettermiddagen du sparer er den jeg brukte på å tekste det podcastklippet for hånd, tre sekunder av gangen.

Vil du ha dikteringsdelen i stedet?

Hvis jobben din er ord ved markøren, ikke en undertekstfil, gjør Whisper talen din om til tekst i det øyeblikket du trenger det – helt frakoblet.

Gratis lokal diktering for alle innloggede brukere. For undertekstfiler, bruk verktøyene ovenfor.

Bilde av Denys Medvediev

Denys Medvediev

Jeg er den som leser supporte-posten vår, høyst sannsynlig ved å diktere svarene.

Videre lesing