Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Av Denys Medvediev23. april 2026

Veiledning

Lyd til undertekster: det som faktisk fungerer

En undertekstgenerator fra lyd gjør om en lydfil til en tidfestet SRT- eller VTT-fil. Her er den reelle arbeidsflyten, verktøyene som faktisk eksporterer én, og det gratis frakoblede alternativet som aldri laster opp lyden din.

Sist oppdatert: juni 2026

Lydbølger vist på en skjerm, som illustrerer å gjøre om en lydfil til et undertekstspor

En undertekstgenerator fra lyd tar en lydfil – en MP3, en WAV eller en podcasteksport – og skriver en tidfestet undertekstfil. Hver tekstlinje har et start- og sluttidspunkt. Nettbaserte verktøy som VEED, Kapwing og Descript gjør dette i en nettleser. Det gratis OpenAI Whisper-kommandolinjeverktøyet gjør det frakoblet på din egen maskin.

Jeg brukte en gang førti minutter på å tekste et ti minutter langt podcastklipp for hånd, og pauset hvert tredje sekund for å skrive og gjette på tidskoder. Jeg har en mastergrad i programvareingeniørfaget. Regnestykket er brutalt uansett. Å tekste for hånd tar flere ganger så lang tid som selve lyden. En moderne undertekstgenerator gjør den samme jobben på omtrent filens lengde pluss en kopp kaffe. Det ingen forteller deg på forhånd, er at det rette verktøyet avhenger av ett spørsmål: trenger du en tidfestet fil du kan laste ned, eller er det bare ordene du er ute etter?

«Undertekstgenerator» brukes om to helt forskjellige jobber, og feil verktøy koster deg en ettermiddag. Feltet deler seg i nettleserverktøy som eksporterer tidfestede filer, og frakoblede verktøy som gjør det samme gratis hvis du er villig til å bruke terminalen. Denne guiden tar for seg hvordan arbeidsflyten fungerer, hvilke verktøy som faktisk lager en skikkelig .srt-fil fra lyd alene, hva SRT, VTT og TXT betyr, og hvor et dikteringsverktøy som vårt er feil valg. Når du er ferdig vet du hvilket verktøy du skal åpne for jobben din. Mesteparten av forvirringen jeg leser om i supportinnboksen vår, kommer fra folk som valgte et skrivehjelpeverktøy når de trengte en undertekstfil. Et år med slike meldinger er mye av grunnen til at denne artikkelen eksisterer.

Du trenger tidskoder, ikke bare tekst

En undertekstfil er ikke et transskript. Et transskript er ord. En undertekstfil er ord pluss timing. Hver tekstblokk sier «vis denne linjen fra 00:01:04 til 00:01:07». Den timingen er hele jobben. Den lar en videospiller vise de riktige ordene på skjermen til rett sekund.

De fleste «tale til tekst»-verktøy, inkludert vårt, gir deg bare ordene. De limer inn et rent avsnitt ved markøren din og stopper der. En undertekstgenerator fra lyd må gjøre mer. Den deler talen opp i korte tekstbiter i undertekststørrelse, justerer hver bit mot lydklokken og skriver det hele ut i et strengt filformat som en spiller kan lese. Hvis leveransen din er en fil du laster opp til YouTube, et videoredigeringsprogram eller en kursplattform, trenger du tidskodene. Hvis leveransen din er tekst i et dokument, trenger du det ikke, og du bør ikke betale for et undertekstverktøy for å få det.

Slik genererer du undertekster fra en lydfil i tre trinn

Bærbar datamaskin med lydredigeringsprogramvare og hodetelefoner på et skrivebord i et hjemmekontor

Arbeidsflyten er den samme på nesten alle verktøy, enten de er nettbaserte eller frakoblede.

Last opp eller pek på lydfilen. De fleste verktøy tar MP3, WAV, M4A og FLAC – ingen video kreves. VEED aksepterer MP3, WAV, podcastopptak, intervjulyd og talenotater. Hvis eneste kilde er en video, trekker verktøyet ut lyden for deg.

La det transkribere og time talen. Verktøyet kjører lyden gjennom en talemodell, deler resultatet opp i tekstlinjer av passende lengde og stempler hver enkelt med et start- og sluttidspunkt. Håndversjonen bruker mange ganger lydlengden. Maskinversjonen tar omtrent filens lengde.

Gjennomgå og eksporter filen. Les transskriptet én gang (modellresultatet er bra, ikke perfekt), fiks eventuelle navn den har fordreid, og eksporter deretter. Her velger du format: SRT, VTT eller ren TXT.

Det er hele løkken. Forskjellene mellom verktøy handler om pris, språkdekning, hvor lyden din havner og om trinn tre er gratis.

SRT vs VTT vs TXT: hvilken fil trenger du

Tre formater dukker opp i alle eksportmenyer, og folk velger stadig feil.

SRT (SubRip) er standard undertekstfil. Det er en ren tekstfil med nummererte blokker, hver med et tidskodeintervall og én eller to tekstlinjer. YouTube, de fleste videoredigeringsprogrammer og nesten alle spillere leser den. Hvis du er usikker på hva du skal velge, velg SRT.
VTT (WebVTT) er SRTs wetkusin. Samme idé, litt annen syntaks, pluss støtte for stil og posisjonering. Bruk VTT når et nettsted eller en HTML5-videospiller ber om det ved navn.
TXT er bare ordene, uten tidskoder. Dette er formatet du vil ha når du skriver en artikkel, lager et sammendrag eller siterer et intervju. Det er også det eneste av de tre et vanlig dikteringsverktøy kan gi deg.

Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en nettplattform spesifiserer det. De fleste verktøy eksporterer alle tre: VEED, Kapwing og Descript.

Verktøyene som gjør lyd om til undertekstfiler

Her er hva hvert nettleserverktøy tilbyr, basert på påstandene hentet direkte fra hvert verktøys egen side.

VEED er en nettbasert og mobil automatisk undertekstgenerator som transkriberer fra en lydfil og lar deg laste ned resultatet som SRT, VTT eller TXT. Det er gratis å komme i gang. Å laste ned undertekstfilen og tekste lengre videoer krever et betalt abonnement.
Kapwing reklamerer med «99 % nøyaktige undertekster, generert på sekunder». Det er Kapwings eget markedsføringstall, ikke en uavhengig benchmark. Det tar alle video- eller lydfiler, inkludert MP3, kan oversette undertekster til 100+ språk og eksporterer SRT, VTT og TXT. Gratis kontoer får opptil 10 minutters undertekster og et vannmerke; Pro fjerner vannmerket.
Descript genererer undertekster på 22+ språk, aksepterer lydfiler alene og eksporterer myke undertekster som SRT eller VTT via Publish, deretter Export, deretter Subtitles. Det kjører på en freemium-modell med et gratis nivå på én medietime i måneden.

Slik stiller disse fire seg mot hverandre på punkter du kan sjekke før du bestemmer deg. Ingen nøyaktighets- eller hastighetstall, siden ingen har testet dem mot hverandre på den samme lyden:

Verktøy	Plattform	Lokalt eller sky	Fungerer frakoblet	Prismodell	Språk	Best for
VEED	Web, mobil	Sky	Nei	Gratis start, betalt for eksport	Lister 40+ alternativer, ingen oppgitt total	En rask nettlesergjennomgang med nedlasting
Kapwing	Web	Sky	Nei	Gratisnivå (vannmerke), Pro	Oversetter til 100+	Raske tekster pluss oversettelse
Descript	Web	Sky	Nei	Freemium, én medietime gratis	22+	Redigere lyd og tekster samtidig
OpenAI Whisper CLI	Windows, macOS, Linux	Lokalt	Ja	Gratis, åpen kildekode	99 flerspråklig, 1 for .en-bygg	Gratis, privat, ingen opplasting

Alle tre nettleserverktøy sender lyden din til noen andres server. For et markedsføringsklipp er det greit. For et innspilt kundemøte eller noe som inneholder lønnstall, er det verdt å lese videre.

Disse verktøyene deler en grensesnittform som omtrent ser slik ut:

interview-audio.mp3Auto-undertekst

SRTVTTTXTLast ned

Last opp, klikk generer, velg format, last ned. Den linjen – ikke vår – er det en undertekstgenerator fra lyd ser ut som.

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Kode på en dataskjerm i mørk modus, som fremkaller en kommandolinje-undertekstarbeidsflyt

Hvis du helst ikke vil laste opp noe, skriver OpenAIs åpen kildekode Whisper-kommandolinjeverktøy undertekstfiler på din egen maskin gratis. Flagget --output_format aksepterer txt, vtt, srt, tsv, json eller all, og bruker all som standard. Én kommando – whisper interview.mp3 --model turbo – produserer en .srt-fil frakoblet, uten konto og uten opplasting.

Åpen kildekode Whisper er et annet prosjekt enn Whisper by Remskill, og det er verdt å være tydelig på. Det er OpenAIs kommandolinjemodell som kjører på datamaskinen din og genererer tidfestede undertekstfiler. Den leveres i seks modellstørrelser (tiny, base, small, medium, large og turbo) med engelskspråklige varianter for de fire minste. De flerspråklige modellene dekker 99 språk; .en-variantene er bare engelsk.

Her er en mening jeg står bak: for alt sensitivt bør lyden aldri forlate den bærbare datamaskinen din. En innspilt medarbeidersamtale, legedikterte notater, et juridisk vitnemål – ingenting av det hører hjemme i en leverandørs behandlingslogger bare fordi du trengte tidskoder.

Jeg så en gang et team ruste opp en femtallsregning for sky-KI i ett kvartal ved å transkribere standupopptak. CFO-ens reaksjon i neste gjennomgang var ikke «la oss optimalisere prompten». Det var «hvorfor sender vi møtelyd til en server i det hele tatt». Den bærbare datamaskinen din har allerede en CPU og en mikrofon. For privat materiale er den frakoblede Whisper CLI svaret, og det koster ingenting.

Det finnes en raskere lokal port kalt whisper.cpp – et vanlig C/C++-bygg av Whisper uten avhengigheter som kjører bare på CPU under en åpen lisens. Folk rapporterer at den også kan skrive undertekstfiler, men jeg vil sende deg til den offisielle OpenAI Whisper CLI for den verifiserte .srt-banen og behandle whisper.cpp som hastighetsoppgraderingen når du er komfortabel.

Når Whisper by Remskill er feil verktøy for dette

Pasted

Whispers overlegg i fullstendig tilstand – det limer inn et rent avsnitt ved markøren din, ikke en tidfestet undertekstfil. Den blå widgeten sitter på toppen av alle apper.

Her er den delen de fleste produktblogger hopper over. Hvis jobben din er en nedlastbar .srt- eller .vtt-fil, er appen vår feil verktøy, og jeg foretrekker å fortelle deg det nå enn å kaste bort nedlastingen din.

Whisper by Remskill er dikterings-først. Du holder nede en hurtigtast (Ctrl+Space på Windows, Command+Option på macOS), snakker, slipper, og transskripsjonen limes inn ved markøren i den appen som er åpen. Den deler ikke tale opp i tekstblokker, justerer ikke tekst mot en lydklokke og skriver ikke en tidfestet undertekstfil. Mater den et intervju og du får et rent avsnitt, ikke en SRT. Jeg bygde eksportmenyen i hodet mitt et dusin ganger og sendte den likevel aldri, fordi tidfestede tekster er et eget produkt og å gjøre det dårlig hjelper ingen.

Bruk verktøyene ovenfor for undertekstfiler. Bruk appen vår til den tilstøtende jobben: å gjøre din egen tale om til tekst i det øyeblikket du trenger det. En e-post, et utkast, en bildetekst du skal skrive inn i et sosiale medier-innlegg for hånd. Den kjører på to rene Rust-motorer, OpenAI Whisper og NVIDIA Parakeet, uten Python og uten opplasting. Ulik jobb, ulikt verktøy. Å velge riktig er hele poenget med denne artikkelen.

Før du åpner noe som helst, svar på spørsmålet som avgjør alt: sender du fra deg en fil eller sender du fra deg ord? En fil betyr tidskoder, som betyr en skikkelig undertekstgenerator. VEED eller Kapwing for en rask nettlesergjennomgang, Whisper CLI for gratis og privat. Ord betyr et transskript, og det er et annet verktøy. Jeg bygde en dikteringsapp og sender deg likevel et annet sted når det er det rette valget. Sjuåringen min spurte meg forrige uke hva jeg lager på jobb, og det ærlige svaret er at jeg hjelper folk å slutte å skrive – noe hun syntes var dypt underwhelming. Ettermiddagen du sparer er den jeg brukte på å tekste det podcastklippet for hånd, tre sekunder av gangen.

Vil du ha dikteringsdelen i stedet?

Hvis jobben din er ord ved markøren, ikke en undertekstfil, gjør Whisper talen din om til tekst i det øyeblikket du trenger det – helt frakoblet.

Se hvordan Whisper fungerer Se priser

Gratis lokal diktering for alle innloggede brukere. For undertekstfiler, bruk verktøyene ovenfor.

Denys Medvediev

Jeg er den som leser supporte-posten vår, høyst sannsynlig ved å diktere svarene.

Videre lesing

Vanlige spørsmål

Ja. VEED, Kapwing, Descript og den åpen kildekode Whisper CLI transkriberer alle fra en lydfil: MP3, WAV, M4A, FLAC. Inget videosspor er nødvendig; verktøyet timer talen selv.

Av Denys Medvediev23. april 2026

Veiledning

Lyd til undertekster: det som faktisk fungerer

Sist oppdatert: juni 2026

Du trenger tidskoder, ikke bare tekst

Slik genererer du undertekster fra en lydfil i tre trinn

Arbeidsflyten er den samme på nesten alle verktøy, enten de er nettbaserte eller frakoblede.

Det er hele løkken. Forskjellene mellom verktøy handler om pris, språkdekning, hvor lyden din havner og om trinn tre er gratis.

SRT vs VTT vs TXT: hvilken fil trenger du

Tre formater dukker opp i alle eksportmenyer, og folk velger stadig feil.

SRT (SubRip) er standard undertekstfil. Det er en ren tekstfil med nummererte blokker, hver med et tidskodeintervall og én eller to tekstlinjer. YouTube, de fleste videoredigeringsprogrammer og nesten alle spillere leser den. Hvis du er usikker på hva du skal velge, velg SRT.
VTT (WebVTT) er SRTs wetkusin. Samme idé, litt annen syntaks, pluss støtte for stil og posisjonering. Bruk VTT når et nettsted eller en HTML5-videospiller ber om det ved navn.
TXT er bare ordene, uten tidskoder. Dette er formatet du vil ha når du skriver en artikkel, lager et sammendrag eller siterer et intervju. Det er også det eneste av de tre et vanlig dikteringsverktøy kan gi deg.

Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en nettplattform spesifiserer det. De fleste verktøy eksporterer alle tre: VEED, Kapwing og Descript.

Verktøyene som gjør lyd om til undertekstfiler

Her er hva hvert nettleserverktøy tilbyr, basert på påstandene hentet direkte fra hvert verktøys egen side.

VEED er en nettbasert og mobil automatisk undertekstgenerator som transkriberer fra en lydfil og lar deg laste ned resultatet som SRT, VTT eller TXT. Det er gratis å komme i gang. Å laste ned undertekstfilen og tekste lengre videoer krever et betalt abonnement.
Kapwing reklamerer med «99 % nøyaktige undertekster, generert på sekunder». Det er Kapwings eget markedsføringstall, ikke en uavhengig benchmark. Det tar alle video- eller lydfiler, inkludert MP3, kan oversette undertekster til 100+ språk og eksporterer SRT, VTT og TXT. Gratis kontoer får opptil 10 minutters undertekster og et vannmerke; Pro fjerner vannmerket.
Descript genererer undertekster på 22+ språk, aksepterer lydfiler alene og eksporterer myke undertekster som SRT eller VTT via Publish, deretter Export, deretter Subtitles. Det kjører på en freemium-modell med et gratis nivå på én medietime i måneden.

Slik stiller disse fire seg mot hverandre på punkter du kan sjekke før du bestemmer deg. Ingen nøyaktighets- eller hastighetstall, siden ingen har testet dem mot hverandre på den samme lyden:

Verktøy	Plattform	Lokalt eller sky	Fungerer frakoblet	Prismodell	Språk	Best for
VEED	Web, mobil	Sky	Nei	Gratis start, betalt for eksport	Lister 40+ alternativer, ingen oppgitt total	En rask nettlesergjennomgang med nedlasting
Kapwing	Web	Sky	Nei	Gratisnivå (vannmerke), Pro	Oversetter til 100+	Raske tekster pluss oversettelse
Descript	Web	Sky	Nei	Freemium, én medietime gratis	22+	Redigere lyd og tekster samtidig
OpenAI Whisper CLI	Windows, macOS, Linux	Lokalt	Ja	Gratis, åpen kildekode	99 flerspråklig, 1 for .en-bygg	Gratis, privat, ingen opplasting

Disse verktøyene deler en grensesnittform som omtrent ser slik ut:

interview-audio.mp3Auto-undertekst

SRTVTTTXTLast ned

Last opp, klikk generer, velg format, last ned. Den linjen – ikke vår – er det en undertekstgenerator fra lyd ser ut som.

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Når Whisper by Remskill er feil verktøy for dette

Pasted

Whispers overlegg i fullstendig tilstand – det limer inn et rent avsnitt ved markøren din, ikke en tidfestet undertekstfil. Den blå widgeten sitter på toppen av alle apper.

Vil du ha dikteringsdelen i stedet?

Hvis jobben din er ord ved markøren, ikke en undertekstfil, gjør Whisper talen din om til tekst i det øyeblikket du trenger det – helt frakoblet.

Se hvordan Whisper fungerer Se priser

Gratis lokal diktering for alle innloggede brukere. For undertekstfiler, bruk verktøyene ovenfor.

Denys Medvediev

Jeg er den som leser supporte-posten vår, høyst sannsynlig ved å diktere svarene.

Lyd til undertekster: det som faktisk fungerer

Du trenger tidskoder, ikke bare tekst

Slik genererer du undertekster fra en lydfil i tre trinn

SRT vs VTT vs TXT: hvilken fil trenger du

Verktøyene som gjør lyd om til undertekstfiler

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Når Whisper by Remskill er feil verktøy for dette

Vil du ha dikteringsdelen i stedet?

Videre lesing

Vanlige spørsmål

Talediktering i Word

Hurtigtasten for taleskriving på alle operativsystemer

Alternativ til Google taleskriving: dikter hvor som helst

Lyd til undertekster: det som faktisk fungerer

Du trenger tidskoder, ikke bare tekst

Slik genererer du undertekster fra en lydfil i tre trinn

SRT vs VTT vs TXT: hvilken fil trenger du

Verktøyene som gjør lyd om til undertekstfiler

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Når Whisper by Remskill er feil verktøy for dette

Vil du ha dikteringsdelen i stedet?

Videre lesing

Vanlige spørsmål

Talediktering i Word

Hurtigtasten for taleskriving på alle operativsystemer

Alternativ til Google taleskriving: dikter hvor som helst

Lyd til undertekster: det som faktisk fungerer

Du trenger tidskoder, ikke bare tekst

Slik genererer du undertekster fra en lydfil i tre trinn

SRT vs VTT vs TXT: hvilken fil trenger du

Verktøyene som gjør lyd om til undertekstfiler

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Når Whisper by Remskill er feil verktøy for dette

Vil du ha dikteringsdelen i stedet?

Videre lesing

Vanlige spørsmål

Les videre

Talediktering i Word

Hurtigtasten for taleskriving på alle operativsystemer

Alternativ til Google taleskriving: dikter hvor som helst

Lyd til undertekster: det som faktisk fungerer

Du trenger tidskoder, ikke bare tekst

Slik genererer du undertekster fra en lydfil i tre trinn

SRT vs VTT vs TXT: hvilken fil trenger du

Verktøyene som gjør lyd om til undertekstfiler

Gratis og frakoblet: generere SRT med åpen kildekode Whisper

Når Whisper by Remskill er feil verktøy for dette

Vil du ha dikteringsdelen i stedet?

Videre lesing

Vanlige spørsmål

Les videre

Talediktering i Word

Hurtigtasten for taleskriving på alle operativsystemer

Alternativ til Google taleskriving: dikter hvor som helst