Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Af Denys Medvediev23. april 2026

Tutorial

Lyd til undertekster: hvad der virker

En undertekstgenerator fra lyd omdanner en lydfil til en tidsstemlet SRT eller VTT. Her er det reelle workflow, de værktøjer der faktisk eksporterer én, og den gratis offline-mulighed der aldrig uploader din lyd.

Sidst opdateret: juni 2026

Lydbølger vist på en skærm, der illustrerer omdannelsen af en lydfil til et undertekstsport

En undertekstgenerator fra lyd tager en lydfil – en MP3, en WAV eller en podcasteksport – og skriver en tidsstemlet undertekstfil. Hver tekstlinje har et start- og sluttidsstempel. Webværktøjer som VEED, Kapwing og Descript gør det i en browser. Det gratis open source-kommandolinjeværktøj OpenAI Whisper gør det offline på din egen maskine.

Jeg brugte engang fyrre minutter på at tekste et ti minutter langt podcastklip i hånden – jeg satte på pause hvert tredje sekund for at skrive og gætte på tidsstempler. Jeg har en kandidatgrad i softwareingeniørvidenskab. Matematikken er brutal uanset hvad. Manuel tekstning tager mange gange så lang tid som selve lyden. En moderne undertekstgenerator klarer det samme job på omtrent lydens længde plus en kop kaffe. Det, ingen fortæller dig på forhånd, er at det rigtige værktøj afhænger af ét spørgsmål: har du brug for en tidsstemlet fil du kan downloade, eller blot ordene?

"Undertekstgenerator" bruges til to vidt forskellige opgaver, og det forkerte værktøj kan koste dig en eftermiddag. Feltet deler sig i browserværktøjer der eksporterer tidsstemplede filer, og offline-værktøjer der gør det samme gratis – hvis du tør åbne en terminal. Denne guide dækker, hvordan arbejdsgangen fungerer, hvilke værktøjer der producerer en rigtig .srt-fil fra lyd alene, hvad SRT, VTT og TXT hver især betyder, og hvornår en dikteringsapp som vores er det forkerte valg. Når du er færdig, ved du, hvilket værktøj du skal åbne til dit leverance. Størstedelen af den forvirring jeg læser i vores support-indbakke stammer fra folk der valgte et skriveværktøj, da de havde brug for en undertekstfil. Et år med sådanne henvendelser er den største årsag til, at denne artikel overhovedet eksisterer.

Du har brug for tidsstempler, ikke bare tekst

En undertekstfil er ikke et transskript. Et transskript er ord. En undertekstfil er ord plus timing. Hvert undertekstblok siger: "vis denne linje fra 00:01:04 til 00:01:07." Den timing er hele pointen. Den lader en videoafspiller vise de rigtige ord på skærmen på det rigtige sekund.

De fleste "tale-til-tekst"-værktøjer, inklusiv vores, giver dig ord og intet andet. De indsætter et rent afsnit ved din markør og stopper der. En undertekstgenerator fra lyd skal gøre mere. Den opdeler talen i korte undertekststykker, justerer hvert stykke til lydurspunkter og skriver det hele ud i et strengt filformat, som en afspiller kan læse. Hvis dit leverance er en fil du uploader til YouTube, en videoeditor eller en kursusplatform, har du brug for tidsstemplerne. Hvis dit leverance er tekst i et dokument, har du ikke – og du bør ikke betale for et undertekstværktøj for at få det.

Sådan genererer du undertekster fra en lydfil i tre trin

Bærbar computer med lydredaktionssoftware og hovedtelefoner på et skrivebord i en hjemmearbejdsplads

Arbejdsgangen er den samme på næsten alle værktøjer, hvad enten de er webbaserede eller offline.

Upload eller peg på lydfilen. De fleste værktøjer accepterer MP3, WAV, M4A og FLAC – ingen video er påkrævet. VEED accepterer MP3, WAV, podcastoptagelser, interviewlyd og stemmenotater. Hvis din eneste kilde er en video, udtrækker værktøjet lyden for dig.

Lad det transskribere og tidsstemple talen. Værktøjet kører lyden gennem en talemodel, kapper resultatet i undertekststykker og stempler hvert med start- og sluttid. Den manuelle metode tager mange gange lydens længde. Maskinversionen tager omtrent filens længde.

Gennemgå og eksporter filen. Læs transskriptet én gang (modeloutput er godt, ikke perfekt), ret eventuelle navne den har ødelagt, og eksporter derefter. Her vælger du format: SRT, VTT eller ren TXT.

Det er hele løkken. Forskellene mellem værktøjerne handler om pris, sprogdækning, hvor din lyd ender, og om trin tre er gratis.

SRT vs VTT vs TXT: hvilken fil har du brug for

Tre formater dukker op i enhver eksportmenu, og folk vælger jævnligt det forkerte.

SRT (SubRip) er standardundertekstfilen. Det er en ren tekstfil med nummererede blokke, hver med et tidskodeinterval og en eller to tekstlinjer. YouTube, de fleste videoeditorer og næsten enhver afspiller kan læse den. Hvis du ikke ved, hvad du skal vælge, skal du vælge SRT.
VTT (WebVTT) er SRT's webfætter. Samme idé, lidt anderledes syntaks, plus understøttelse af stilisering og placering. Brug VTT, når et website eller en HTML5-videoafspiller beder om det ved navn.
TXT er ordene uden tidsstempler. Det er formatet du vil have, når du skriver en artikel, fodrer en opsummering eller citerer et interview. Det er også det eneste af de tre, et alment dikteringsværktøj kan give dig.

Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en webplatform nævner det ved navn. De fleste værktøjer eksporterer alle tre: VEED, Kapwing og Descript.

Værktøjerne der omdanner lyd til undertekstfiler

Her er, hvor hvert browserværktøj placerer sig, med funktionskrav taget direkte fra hvert værktøjs egen side.

VEED er en web- og mobilbaseret automatisk undertekstgenerator, der transskriberer fra en lydfil og lader dig downloade resultatet som SRT, VTT eller TXT. Det er gratis at starte. Download af undertekstfilen og tekstning af længere videoer kræver et betalt abonnement.
Kapwing reklamerer med "99% nøjagtige undertekster, genereret på sekunder." Det er Kapwings egne markedsføringstal, ikke en uafhængig benchmark. Det tager enhver video- eller lydfil, inklusiv MP3, kan oversætte undertekster til 100+ sprog og eksporterer SRT, VTT og TXT. Gratis konti får op til 10 minutters undertekster med vandmærke; Pro fjerner vandmærket.
Descript genererer undertekster på 22+ sprog, accepterer lydfiler og eksporterer bløde undertekster som SRT eller VTT via Publish, derefter Export, derefter Subtitles. Det kører på en freemium-model med én gratis medietime om måneden.

Sådan klarer de fire sig på de dele, du kan verificere, inden du forpligter dig. Ingen nøjagtigheds- eller hastighedstal, fordi ingen har testet dem side om side med den samme lyd:

Værktøj	Platform	Lokalt eller cloud	Virker offline	Prismodel	Sprog	Bedst til
VEED	Web, mobil	Cloud	Nej	Gratis start, betalt eksport	Angiver 40+ muligheder, intet samlet tal	Et hurtigt browsergennemløb med download
Kapwing	Web	Cloud	Nej	Gratis niveau (vandmærke), Pro	Oversætter til 100+	Hurtige undertekster plus oversættelse
Descript	Web	Cloud	Nej	Freemium, én gratis medietime	22+	Redigering af lyd og undertekster samlet
OpenAI Whisper CLI	Windows, macOS, Linux	Lokalt	Ja	Gratis, open source	99 flersprogede, 1 til .en builds	Gratis, privat, ingen upload

Alle tre browserværktøjer lægger din lyd på andres server. For et marketingklip er det fint. For et optaget klientopkald eller noget med et løntal i sig – læs videre.

Disse værktøjer deler en UI-form, der ser nogenlunde sådan ud:

interview-audio.mp3Auto undertekst

SRTVTTTXTDownload

Upload, klik generer, vælg et format, download. Den bar – ikke vores – er, hvad en undertekstgenerator fra lyd ser ud som.

Gratis og offline: generering af SRT med open source Whisper

Kode på en computerskærm i mørk tilstand, der antyder et kommandolinje-undertekst-workflow

Hvis du helst ikke vil uploade noget, skriver OpenAIs open source-kommandolinjeværktøj Whisper undertekstfiler på din egen maskine helt gratis. Dets --output_format-flag accepterer txt, vtt, srt, tsv, json eller all, og standardindstillingen er all. Så én kommando, whisper interview.mp3 --model turbo, producerer en .srt-fil offline uden konto og uden upload.

Open source Whisper er et andet projekt end Whisper by Remskill – det er værd at slå fast. Det er OpenAIs kommandolinjemodel, der kører på din computer og producerer tidsstemplede undertekstfiler. Den leveres i seks modelstørrelser (tiny, base, small, medium, large og turbo) med engelsksprogede varianter til de fire mindre. De flersprogede modeller dækker 99 sprog; .en-varianterne er kun til engelsk.

Her er den holdning, jeg vil stå inde for: for alt følsomt bør lyden aldrig forlade din bærbare. En optaget medarbejderudviklingssamtale, en læges dikterede noter, et retsligt afhøringsreferat – intet af det hører hjemme i en leverandørs behandlingslogger, bare fordi du havde brug for tidsstempler.

Jeg så engang et team bruge en femcifret cloud-AI-regning i ét kvartal på at transskribere standup-optagelser. CFO'ens reaktion i den næste gennemgang var ikke "lad os optimere prompten." Det var "hvorfor sender vi mødelyd til en server overhovedet." Din bærbare har allerede en CPU og en mikrofon. For privat materiale er den offline Whisper CLI svaret – og det koster ingenting.

Der er en hurtigere lokal port kaldet whisper.cpp, et ren C/C++-build af Whisper uden afhængigheder, der kører CPU-only under en åben licens. Folk rapporterer, at den også kan skrive undertekstfiler, men jeg vil pege dig hen til den officielle OpenAI Whisper CLI for den verificerede .srt-vej og behandle whisper.cpp som hastighedsopgraderingen, når du er komfortabel.

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Pasted

Whispers overlay i sin færdige tilstand – det indsætter et rent afsnit ved din markør, ikke en tidsstemlet undertekstfil. Den blå widget sidder oven på enhver app.

Her er den del, de fleste produktblogs springer over. Hvis din opgave er en downloadbar .srt- eller .vtt-fil, er vores app det forkerte værktøj, og jeg vil hellere fortælle dig det nu end spilde dit download.

Whisper by Remskill er diktering-først. Du holder en genvejstast (Ctrl+Space på Windows, Command+Option på macOS), taler, slipper, og transskriptionen indsættes ved din markør i den app, der er åben. Den opdeler ikke tale i undertekstblokke, den justerer ikke tekst til et lydur, og den skriver ikke en tidsstemlet undertekstfil. Giver du den et interview, får du et rent afsnit, ikke en SRT. Jeg byggede eksportmenuen i mit hoved et dusin gange og sendte den aldrig, fordi tidsstemplede undertekster er sit eget produkt – og at gøre det dårligt hjælper ingen.

Brug værktøjerne ovenfor til undertekstfiler. Grib vores app til den tilstødende opgave: at omdanne din tale til tekst i det øjeblik du har brug for den. En e-mail, et udkast, en billedtekst du selv vil skrive ind i et socialt opslag. Den kører på to rene Rust-motorer, OpenAI Whisper og NVIDIA Parakeet, uden Python og uden upload. Forskelligt job, forskelligt værktøj. At vælge det rigtige er hele pointen med denne artikel.

Inden du åbner noget som helst, så svar på det spørgsmål der afgør alt: sender du en fil eller sender du ord? En fil kræver tidsstempler, hvilket kræver en rigtig undertekstgenerator. VEED eller Kapwing til en hurtig browserrunde, Whisper CLI til gratis og privat. Ord kræver et transskript, og det er et andet værktøj. Jeg byggede en dikteringsapp, og jeg sender dig stadig videre, når videre er det rigtige valg. Min syv-årige spurgte mig i sidste uge, hvad jeg laver på arbejde, og det ærlige svar er, at jeg hjælper folk med at holde op med at skrive – hvilket hun fandt dybt skuffende. Den eftermiddag du sparer, er den jeg brugte på at tekste det podcastklip i hånden, tre sekunder ad gangen.

Vil du have dikteringsdelen i stedet?

Hvis din opgave er ord ved markøren, ikke en undertekstfil, omdanner Whisper din tale til tekst i det øjeblik du har brug for det – helt offline.

Se hvordan Whisper virker Se priser

Gratis lokal diktering til alle indloggede brugere. Til undertekstfiler, brug værktøjerne ovenfor.

Denys Medvediev

Jeg er den, der læser vores support-e-mail – sandsynligvis ved at diktere svarene.

Videre læsning

Ofte stillede spørgsmål

Ja. VEED, Kapwing, Descript og open source Whisper CLI transskriberer alle fra en lydfil: MP3, WAV, M4A, FLAC. Intet videospor er påkrævet; værktøjet tidsstempler talen på egen hånd.

Af Denys Medvediev23. april 2026

Tutorial

Lyd til undertekster: hvad der virker

Sidst opdateret: juni 2026

Du har brug for tidsstempler, ikke bare tekst

Sådan genererer du undertekster fra en lydfil i tre trin

Arbejdsgangen er den samme på næsten alle værktøjer, hvad enten de er webbaserede eller offline.

Det er hele løkken. Forskellene mellem værktøjerne handler om pris, sprogdækning, hvor din lyd ender, og om trin tre er gratis.

SRT vs VTT vs TXT: hvilken fil har du brug for

Tre formater dukker op i enhver eksportmenu, og folk vælger jævnligt det forkerte.

SRT (SubRip) er standardundertekstfilen. Det er en ren tekstfil med nummererede blokke, hver med et tidskodeinterval og en eller to tekstlinjer. YouTube, de fleste videoeditorer og næsten enhver afspiller kan læse den. Hvis du ikke ved, hvad du skal vælge, skal du vælge SRT.
VTT (WebVTT) er SRT's webfætter. Samme idé, lidt anderledes syntaks, plus understøttelse af stilisering og placering. Brug VTT, når et website eller en HTML5-videoafspiller beder om det ved navn.
TXT er ordene uden tidsstempler. Det er formatet du vil have, når du skriver en artikel, fodrer en opsummering eller citerer et interview. Det er også det eneste af de tre, et alment dikteringsværktøj kan give dig.

Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en webplatform nævner det ved navn. De fleste værktøjer eksporterer alle tre: VEED, Kapwing og Descript.

Værktøjerne der omdanner lyd til undertekstfiler

Her er, hvor hvert browserværktøj placerer sig, med funktionskrav taget direkte fra hvert værktøjs egen side.

VEED er en web- og mobilbaseret automatisk undertekstgenerator, der transskriberer fra en lydfil og lader dig downloade resultatet som SRT, VTT eller TXT. Det er gratis at starte. Download af undertekstfilen og tekstning af længere videoer kræver et betalt abonnement.
Kapwing reklamerer med "99% nøjagtige undertekster, genereret på sekunder." Det er Kapwings egne markedsføringstal, ikke en uafhængig benchmark. Det tager enhver video- eller lydfil, inklusiv MP3, kan oversætte undertekster til 100+ sprog og eksporterer SRT, VTT og TXT. Gratis konti får op til 10 minutters undertekster med vandmærke; Pro fjerner vandmærket.
Descript genererer undertekster på 22+ sprog, accepterer lydfiler og eksporterer bløde undertekster som SRT eller VTT via Publish, derefter Export, derefter Subtitles. Det kører på en freemium-model med én gratis medietime om måneden.

Sådan klarer de fire sig på de dele, du kan verificere, inden du forpligter dig. Ingen nøjagtigheds- eller hastighedstal, fordi ingen har testet dem side om side med den samme lyd:

Værktøj	Platform	Lokalt eller cloud	Virker offline	Prismodel	Sprog	Bedst til
VEED	Web, mobil	Cloud	Nej	Gratis start, betalt eksport	Angiver 40+ muligheder, intet samlet tal	Et hurtigt browsergennemløb med download
Kapwing	Web	Cloud	Nej	Gratis niveau (vandmærke), Pro	Oversætter til 100+	Hurtige undertekster plus oversættelse
Descript	Web	Cloud	Nej	Freemium, én gratis medietime	22+	Redigering af lyd og undertekster samlet
OpenAI Whisper CLI	Windows, macOS, Linux	Lokalt	Ja	Gratis, open source	99 flersprogede, 1 til .en builds	Gratis, privat, ingen upload

Alle tre browserværktøjer lægger din lyd på andres server. For et marketingklip er det fint. For et optaget klientopkald eller noget med et løntal i sig – læs videre.

Disse værktøjer deler en UI-form, der ser nogenlunde sådan ud:

interview-audio.mp3Auto undertekst

SRTVTTTXTDownload

Upload, klik generer, vælg et format, download. Den bar – ikke vores – er, hvad en undertekstgenerator fra lyd ser ud som.

Gratis og offline: generering af SRT med open source Whisper

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Pasted

Whispers overlay i sin færdige tilstand – det indsætter et rent afsnit ved din markør, ikke en tidsstemlet undertekstfil. Den blå widget sidder oven på enhver app.

Vil du have dikteringsdelen i stedet?

Hvis din opgave er ord ved markøren, ikke en undertekstfil, omdanner Whisper din tale til tekst i det øjeblik du har brug for det – helt offline.

Se hvordan Whisper virker Se priser

Gratis lokal diktering til alle indloggede brugere. Til undertekstfiler, brug værktøjerne ovenfor.

Denys Medvediev

Jeg er den, der læser vores support-e-mail – sandsynligvis ved at diktere svarene.

Lyd til undertekster: hvad der virker

Du har brug for tidsstempler, ikke bare tekst

Sådan genererer du undertekster fra en lydfil i tre trin

SRT vs VTT vs TXT: hvilken fil har du brug for

Værktøjerne der omdanner lyd til undertekstfiler

Gratis og offline: generering af SRT med open source Whisper

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Vil du have dikteringsdelen i stedet?

Videre læsning

Ofte stillede spørgsmål

Stemmeskrivning i Word

Genvejen til taleskrivning på alle styresystemer

Alternativ til Google stemmeindtastning: dikter hvor som helst

Lyd til undertekster: hvad der virker

Du har brug for tidsstempler, ikke bare tekst

Sådan genererer du undertekster fra en lydfil i tre trin

SRT vs VTT vs TXT: hvilken fil har du brug for

Værktøjerne der omdanner lyd til undertekstfiler

Gratis og offline: generering af SRT med open source Whisper

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Vil du have dikteringsdelen i stedet?

Videre læsning

Ofte stillede spørgsmål

Stemmeskrivning i Word

Genvejen til taleskrivning på alle styresystemer

Alternativ til Google stemmeindtastning: dikter hvor som helst

Lyd til undertekster: hvad der virker

Du har brug for tidsstempler, ikke bare tekst

Sådan genererer du undertekster fra en lydfil i tre trin

SRT vs VTT vs TXT: hvilken fil har du brug for

Værktøjerne der omdanner lyd til undertekstfiler

Gratis og offline: generering af SRT med open source Whisper

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Vil du have dikteringsdelen i stedet?

Videre læsning

Ofte stillede spørgsmål

Læs videre

Stemmeskrivning i Word

Genvejen til taleskrivning på alle styresystemer

Alternativ til Google stemmeindtastning: dikter hvor som helst

Lyd til undertekster: hvad der virker

Du har brug for tidsstempler, ikke bare tekst

Sådan genererer du undertekster fra en lydfil i tre trin

SRT vs VTT vs TXT: hvilken fil har du brug for

Værktøjerne der omdanner lyd til undertekstfiler

Gratis og offline: generering af SRT med open source Whisper

Hvornår Whisper by Remskill er det forkerte værktøj til dette

Vil du have dikteringsdelen i stedet?

Videre læsning

Ofte stillede spørgsmål

Læs videre

Stemmeskrivning i Word

Genvejen til taleskrivning på alle styresystemer

Alternativ til Google stemmeindtastning: dikter hvor som helst