Tutorial
Lyd til undertekster: hvad der virker
En undertekstgenerator fra lyd omdanner en lydfil til en tidsstemlet SRT eller VTT. Her er det reelle workflow, de værktøjer der faktisk eksporterer én, og den gratis offline-mulighed der aldrig uploader din lyd.
Sidst opdateret: juni 2026

En undertekstgenerator fra lyd tager en lydfil – en MP3, en WAV eller en podcasteksport – og skriver en tidsstemlet undertekstfil. Hver tekstlinje har et start- og sluttidsstempel. Webværktøjer som VEED, Kapwing og Descript gør det i en browser. Det gratis open source-kommandolinjeværktøj OpenAI Whisper gør det offline på din egen maskine.
Jeg brugte engang fyrre minutter på at tekste et ti minutter langt podcastklip i hånden – jeg satte på pause hvert tredje sekund for at skrive og gætte på tidsstempler. Jeg har en kandidatgrad i softwareingeniørvidenskab. Matematikken er brutal uanset hvad. Manuel tekstning tager mange gange så lang tid som selve lyden. En moderne undertekstgenerator klarer det samme job på omtrent lydens længde plus en kop kaffe. Det, ingen fortæller dig på forhånd, er at det rigtige værktøj afhænger af ét spørgsmål: har du brug for en tidsstemlet fil du kan downloade, eller blot ordene?
"Undertekstgenerator" bruges til to vidt forskellige opgaver, og det forkerte værktøj kan koste dig en eftermiddag. Feltet deler sig i browserværktøjer der eksporterer tidsstemplede filer, og offline-værktøjer der gør det samme gratis – hvis du tør åbne en terminal. Denne guide dækker, hvordan arbejdsgangen fungerer, hvilke værktøjer der producerer en rigtig .srt-fil fra lyd alene, hvad SRT, VTT og TXT hver især betyder, og hvornår en dikteringsapp som vores er det forkerte valg. Når du er færdig, ved du, hvilket værktøj du skal åbne til dit leverance. Størstedelen af den forvirring jeg læser i vores support-indbakke stammer fra folk der valgte et skriveværktøj, da de havde brug for en undertekstfil. Et år med sådanne henvendelser er den største årsag til, at denne artikel overhovedet eksisterer.
Du har brug for tidsstempler, ikke bare tekst
En undertekstfil er ikke et transskript. Et transskript er ord. En undertekstfil er ord plus timing. Hvert undertekstblok siger: "vis denne linje fra 00:01:04 til 00:01:07." Den timing er hele pointen. Den lader en videoafspiller vise de rigtige ord på skærmen på det rigtige sekund.
De fleste "tale-til-tekst"-værktøjer, inklusiv vores, giver dig ord og intet andet. De indsætter et rent afsnit ved din markør og stopper der. En undertekstgenerator fra lyd skal gøre mere. Den opdeler talen i korte undertekststykker, justerer hvert stykke til lydurspunkter og skriver det hele ud i et strengt filformat, som en afspiller kan læse. Hvis dit leverance er en fil du uploader til YouTube, en videoeditor eller en kursusplatform, har du brug for tidsstemplerne. Hvis dit leverance er tekst i et dokument, har du ikke – og du bør ikke betale for et undertekstværktøj for at få det.
Sådan genererer du undertekster fra en lydfil i tre trin

Arbejdsgangen er den samme på næsten alle værktøjer, hvad enten de er webbaserede eller offline.
Upload eller peg på lydfilen. De fleste værktøjer accepterer MP3, WAV, M4A og FLAC – ingen video er påkrævet. VEED accepterer MP3, WAV, podcastoptagelser, interviewlyd og stemmenotater. Hvis din eneste kilde er en video, udtrækker værktøjet lyden for dig.
Lad det transskribere og tidsstemple talen. Værktøjet kører lyden gennem en talemodel, kapper resultatet i undertekststykker og stempler hvert med start- og sluttid. Den manuelle metode tager mange gange lydens længde. Maskinversionen tager omtrent filens længde.
Gennemgå og eksporter filen. Læs transskriptet én gang (modeloutput er godt, ikke perfekt), ret eventuelle navne den har ødelagt, og eksporter derefter. Her vælger du format: SRT, VTT eller ren TXT.
Det er hele løkken. Forskellene mellem værktøjerne handler om pris, sprogdækning, hvor din lyd ender, og om trin tre er gratis.
SRT vs VTT vs TXT: hvilken fil har du brug for
Tre formater dukker op i enhver eksportmenu, og folk vælger jævnligt det forkerte.
- SRT (SubRip) er standardundertekstfilen. Det er en ren tekstfil med nummererede blokke, hver med et tidskodeinterval og en eller to tekstlinjer. YouTube, de fleste videoeditorer og næsten enhver afspiller kan læse den. Hvis du ikke ved, hvad du skal vælge, skal du vælge SRT.
- VTT (WebVTT) er SRT's webfætter. Samme idé, lidt anderledes syntaks, plus understøttelse af stilisering og placering. Brug VTT, når et website eller en HTML5-videoafspiller beder om det ved navn.
- TXT er ordene uden tidsstempler. Det er formatet du vil have, når du skriver en artikel, fodrer en opsummering eller citerer et interview. Det er også det eneste af de tre, et alment dikteringsværktøj kan give dig.
Min tommelfingerregel: SRT til video, TXT til dokumenter, VTT når en webplatform nævner det ved navn. De fleste værktøjer eksporterer alle tre: VEED, Kapwing og Descript.
Værktøjerne der omdanner lyd til undertekstfiler
Her er, hvor hvert browserværktøj placerer sig, med funktionskrav taget direkte fra hvert værktøjs egen side.
- VEED er en web- og mobilbaseret automatisk undertekstgenerator, der transskriberer fra en lydfil og lader dig downloade resultatet som SRT, VTT eller TXT. Det er gratis at starte. Download af undertekstfilen og tekstning af længere videoer kræver et betalt abonnement.
- Kapwing reklamerer med "99% nøjagtige undertekster, genereret på sekunder." Det er Kapwings egne markedsføringstal, ikke en uafhængig benchmark. Det tager enhver video- eller lydfil, inklusiv MP3, kan oversætte undertekster til 100+ sprog og eksporterer SRT, VTT og TXT. Gratis konti får op til 10 minutters undertekster med vandmærke; Pro fjerner vandmærket.
- Descript genererer undertekster på 22+ sprog, accepterer lydfiler og eksporterer bløde undertekster som SRT eller VTT via Publish, derefter Export, derefter Subtitles. Det kører på en freemium-model med én gratis medietime om måneden.
Sådan klarer de fire sig på de dele, du kan verificere, inden du forpligter dig. Ingen nøjagtigheds- eller hastighedstal, fordi ingen har testet dem side om side med den samme lyd:
| Værktøj | Platform | Lokalt eller cloud | Virker offline | Prismodel | Sprog | Bedst til |
|---|---|---|---|---|---|---|
| VEED | Web, mobil | Cloud | Nej | Gratis start, betalt eksport | Angiver 40+ muligheder, intet samlet tal | Et hurtigt browsergennemløb med download |
| Kapwing | Web | Cloud | Nej | Gratis niveau (vandmærke), Pro | Oversætter til 100+ | Hurtige undertekster plus oversættelse |
| Descript | Web | Cloud | Nej | Freemium, én gratis medietime | 22+ | Redigering af lyd og undertekster samlet |
| OpenAI Whisper CLI | Windows, macOS, Linux | Lokalt | Ja | Gratis, open source | 99 flersprogede, 1 til .en builds | Gratis, privat, ingen upload |
Alle tre browserværktøjer lægger din lyd på andres server. For et marketingklip er det fint. For et optaget klientopkald eller noget med et løntal i sig – læs videre.
Disse værktøjer deler en UI-form, der ser nogenlunde sådan ud:
Upload, klik generer, vælg et format, download. Den bar – ikke vores – er, hvad en undertekstgenerator fra lyd ser ud som.
Gratis og offline: generering af SRT med open source Whisper

Hvis du helst ikke vil uploade noget, skriver OpenAIs open source-kommandolinjeværktøj Whisper undertekstfiler på din egen maskine helt gratis. Dets --output_format-flag accepterer txt, vtt, srt, tsv, json eller all, og standardindstillingen er all. Så én kommando, whisper interview.mp3 --model turbo, producerer en .srt-fil offline uden konto og uden upload.
Open source Whisper er et andet projekt end Whisper by Remskill – det er værd at slå fast. Det er OpenAIs kommandolinjemodel, der kører på din computer og producerer tidsstemplede undertekstfiler. Den leveres i seks modelstørrelser (tiny, base, small, medium, large og turbo) med engelsksprogede varianter til de fire mindre. De flersprogede modeller dækker 99 sprog; .en-varianterne er kun til engelsk.
Her er den holdning, jeg vil stå inde for: for alt følsomt bør lyden aldrig forlade din bærbare. En optaget medarbejderudviklingssamtale, en læges dikterede noter, et retsligt afhøringsreferat – intet af det hører hjemme i en leverandørs behandlingslogger, bare fordi du havde brug for tidsstempler.
Jeg så engang et team bruge en femcifret cloud-AI-regning i ét kvartal på at transskribere standup-optagelser. CFO'ens reaktion i den næste gennemgang var ikke "lad os optimere prompten." Det var "hvorfor sender vi mødelyd til en server overhovedet." Din bærbare har allerede en CPU og en mikrofon. For privat materiale er den offline Whisper CLI svaret – og det koster ingenting.
Der er en hurtigere lokal port kaldet whisper.cpp, et ren C/C++-build af Whisper uden afhængigheder, der kører CPU-only under en åben licens. Folk rapporterer, at den også kan skrive undertekstfiler, men jeg vil pege dig hen til den officielle OpenAI Whisper CLI for den verificerede .srt-vej og behandle whisper.cpp som hastighedsopgraderingen, når du er komfortabel.
Hvornår Whisper by Remskill er det forkerte værktøj til dette
Her er den del, de fleste produktblogs springer over. Hvis din opgave er en downloadbar .srt- eller .vtt-fil, er vores app det forkerte værktøj, og jeg vil hellere fortælle dig det nu end spilde dit download.
Whisper by Remskill er diktering-først. Du holder en genvejstast (Ctrl+Space på Windows, Command+Option på macOS), taler, slipper, og transskriptionen indsættes ved din markør i den app, der er åben. Den opdeler ikke tale i undertekstblokke, den justerer ikke tekst til et lydur, og den skriver ikke en tidsstemlet undertekstfil. Giver du den et interview, får du et rent afsnit, ikke en SRT. Jeg byggede eksportmenuen i mit hoved et dusin gange og sendte den aldrig, fordi tidsstemplede undertekster er sit eget produkt – og at gøre det dårligt hjælper ingen.
Brug værktøjerne ovenfor til undertekstfiler. Grib vores app til den tilstødende opgave: at omdanne din tale til tekst i det øjeblik du har brug for den. En e-mail, et udkast, en billedtekst du selv vil skrive ind i et socialt opslag. Den kører på to rene Rust-motorer, OpenAI Whisper og NVIDIA Parakeet, uden Python og uden upload. Forskelligt job, forskelligt værktøj. At vælge det rigtige er hele pointen med denne artikel.
Inden du åbner noget som helst, så svar på det spørgsmål der afgør alt: sender du en fil eller sender du ord? En fil kræver tidsstempler, hvilket kræver en rigtig undertekstgenerator. VEED eller Kapwing til en hurtig browserrunde, Whisper CLI til gratis og privat. Ord kræver et transskript, og det er et andet værktøj. Jeg byggede en dikteringsapp, og jeg sender dig stadig videre, når videre er det rigtige valg. Min syv-årige spurgte mig i sidste uge, hvad jeg laver på arbejde, og det ærlige svar er, at jeg hjælper folk med at holde op med at skrive – hvilket hun fandt dybt skuffende. Den eftermiddag du sparer, er den jeg brugte på at tekste det podcastklip i hånden, tre sekunder ad gangen.
Vil du have dikteringsdelen i stedet?
Hvis din opgave er ord ved markøren, ikke en undertekstfil, omdanner Whisper din tale til tekst i det øjeblik du har brug for det – helt offline.
Gratis lokal diktering til alle indloggede brugere. Til undertekstfiler, brug værktøjerne ovenfor.



