Av Denys Medvediev

Handledning

Ljud till undertexter: det som faktiskt fungerar

En undertextgenerator från ljud omvandlar en ljudfil till en tidssynkroniserad SRT- eller VTT-fil. Här är det verkliga arbetsflödet, verktygen som faktiskt exporterar en sådan fil, och det kostnadsfria offlinealternativet som aldrig laddar upp ditt ljud.

Senast uppdaterad: juni 2026

Ljudvågor som visas på en skärm, som illustrerar hur en ljudfil omvandlas till ett undertextspår

En undertextgenerator från ljud tar en ljudfil – en MP3, en WAV eller en podcastexport – och skriver en tidssynkroniserad undertextfil. Varje textrad har en start- och sluttidsstämpel. Webbverktyg som VEED, Kapwing och Descript gör det i en webbläsare. Det kostnadsfria OpenAI Whisper-kommandoradsverktyget gör det offline på din egen dator.

Jag lade en gång fyrtio minuter på att texta ett tio minuter långt poddklipp för hand – pausade var tredje sekund för att skriva och gissa på tidsstämplar. Jag har en masterexamen i mjukvaruteknik. Det matematiska utfallet är lika brutalt oavsett hur man räknar. Att texta för hand tar mångdubbelt längre tid än själva ljudet. En modern undertextgenerator gör samma jobb på ungefär lika lång tid som filen – plus en kopp kaffe. Det ingen berättar i förväg är att rätt verktyg hänger på en enda fråga: behöver du en tidssynkroniserad fil att ladda ner, eller räcker det med ord?

"Undertextgenerator" används för två helt olika uppgifter, och fel verktyg kostar dig en eftermiddag. Området delas upp i webbläsarverktyg som exporterar tidssynkroniserade filer och offlineverktyg som gör samma sak gratis om du är beredd att öppna en terminal. Den här guiden beskriver hur arbetsflödet ser ut, vilka verktyg som faktiskt genererar en riktig .srt-fil från enbart ljud, vad SRT, VTT och TXT egentligen innebär, och när ett dikteringsverktyg som vårt är fel val. I slutet vet du vilket verktyg du ska öppna för din specifika leverans. Mycket av förvirringen jag läser i vår supportinkorg beror på att folk valde ett skrivverktyg när de behövde en undertextfil. Ett år av sådana meddelanden är den huvudsakliga anledningen till att den här artikeln existerar.

Du behöver tidsstämplar, inte bara text

En undertextfil är inte ett transkript. Ett transkript är ord. En undertextfil är ord plus tidsinformation. Varje undertextblock säger "visa den här raden från 00:01:04 till 00:01:07." Det är hela jobbet. Det gör att en videospelare kan visa rätt ord på skärmen vid rätt sekund.

De flesta verktyg för "röst till text" – vårt inkluderat – ger dig bara ord. De klistrar in ett rent stycke vid markören och stannar där. En undertextgenerator från ljud måste göra mer. Den delar upp talet i korta textblock, synkroniserar varje block med ljudets tidslinje och skriver allt i ett strikt filformat som en spelare kan läsa. Om din leverans är en fil du laddar upp till YouTube, en videoredigerare eller en kursplattform behöver du tidsstämplarna. Om din leverans är text i ett dokument behöver du dem inte – och du ska inte betala för ett undertextverktyg för att få det.

Så genererar du undertexter från en ljudfil i tre steg

Bärbar dator med ljudredigeringsprogram och hörlurar på ett skrivbord i en hemarbetsplats

Arbetsflödet är i princip detsamma i nästan alla verktyg, oavsett om de är webbaserade eller offline.

1

Ladda upp eller peka på ljudfilen. De flesta verktyg tar emot MP3, WAV, M4A och FLAC – ingen video krävs. VEED accepterar MP3, WAV, podcastinspelningar, intervjuljud och röstmemon. Om din enda källa är en video extraherar verktyget ljudet åt dig.

2

Låt det transkribera och tidssynkronisera talet. Verktyget kör ljudet genom en talmodell, delar resultatet i undertextlånga rader och stämplar varje rad med en start- och sluttid. Den manuella varianten äter mångdubbelt längre tid än själva ljudet. Maskinvarianten tar ungefär lika lång tid som filen.

3

Granska och exportera filen. Läs igenom transkriptet en gång (modellens utdata är bra, men inte perfekt), rätta till namn som blivit fel och exportera sedan. Här väljer du format: SRT, VTT eller vanlig TXT.

Det är hela flödet. Skillnaderna mellan verktygen handlar om pris, språkstöd, var ditt ljud hamnar och om steg tre är gratis.

SRT vs VTT vs TXT: vilken fil behöver du

Tre format dyker upp i varje exportmeny, och folk väljer fel hela tiden.

  • SRT (SubRip) är standardformatet för undertexter. Det är en vanlig textfil med numrerade block, vart och ett med ett tidskodintervall och en eller två textrader. YouTube, de flesta videoredigerare och nästan alla spelare läser det. Om du inte vet vilket du ska välja, välj SRT.
  • VTT (WebVTT) är SRT:s webbaserade kusin. Samma idé, lite annorlunda syntax, plus stöd för formatering och positionering. Använd VTT när en webbplats eller en HTML5-videospelare frågar efter det vid namn.
  • TXT är orden, utan tidsstämplar. Det är det format du vill ha när du skriver en artikel, matar en sammanfattning eller citerar en intervju. Det är också det enda av de tre som ett vanligt dikteringsverktyg kan ge dig.

Min tumregel: SRT för video, TXT för dokument, VTT när en webbplattform nämner det vid namn. De flesta verktyg exporterar alla tre: VEED, Kapwing och Descript.

Verktygen som omvandlar ljud till undertextfiler

Här är vad varje webbläsarverktyg erbjuder, med kapacitetspåståenden tagna direkt från respektive verktygs egna sidor.

  • VEED är en webb- och mobilbaserad automatisk undertextgenerator som transkriberar från en renodlad ljudfil och låter dig ladda ner resultatet som SRT, VTT eller TXT. Det är gratis att börja. Att ladda ner undertextfilen och texta längre videor kräver ett betalt abonnemang.
  • Kapwing marknadsför sig med "99 % exakta undertexter, genererade på sekunder." Det är Kapwings eget marknadsföringssiffra, inte ett oberoende riktmärke. Det tar vilken video- eller ljudfil som helst, inklusive MP3, kan översätta undertexter till 100+ språk och exporterar SRT, VTT och TXT. Gratiskonton får upp till 10 minuters undertexter och ett vattenmärke; Pro tar bort vattenmärket.
  • Descript genererar undertexter på 22+ språk, tar emot renodlade ljudfiler och exporterar mjuka undertexter som SRT eller VTT via Publish, sedan Export och sedan Subtitles. Det körs på en freemiummodell med en gratisnivå på en medietime i månaden.

Så här ser de fyra verktygen ut på de punkter du kan kontrollera innan du bestämmer dig. Inga noggrannhets- eller hastighetssiffror, eftersom ingen har jämfört dem huvud mot huvud med samma ljud:

VerktygPlattformLokalt eller molnetFungerar offlinePrismodellSpråkBäst för
VEEDWebb, mobilMolnetNejGratis start, betalt för exportListar 40+ alternativ, inget angivet totaltEn snabb webbläsargenomgång med nedladdning
KapwingWebbMolnetNejGratisnivå (vattenmärke), ProÖversätter till 100+Snabba undertexter plus översättning
DescriptWebbMolnetNejFreemium, en medietime gratis22+Redigera ljud och undertexter tillsammans
OpenAI Whisper CLIWindows, macOS, LinuxLokaltJaGratis, öppen källkod99 flerspråkiga, 1 för .en-byggenGratis, privat, ingen uppladdning

Alla tre webbläsarverktygen skickar ditt ljud till någon annans server. För ett marknadsföringsklipp är det helt okej. För ett inspelat kundsamtal eller något med lönesiffror i – läs vidare.

De verktygen delar ett gränssnittsmönster som ungefär ser ut så här:

interview-audio.mp3Auto subtitle
SRTVTTTXTLadda ner

Ladda upp, klicka på generera, välj ett format, ladda ner. Det gränssnittet – inte vårt – är vad en undertextgenerator från ljud ser ut som.

Gratis och offline: generera SRT med öppen källkod Whisper

Kod på en datorskärm i mörkt läge, som påminner om ett kommandoradsbaserat undertextflöde

Om du helst inte laddar upp något kan OpenAI:s Whisper-kommandoradsverktyg med öppen källkod skriva undertextfiler på din egen dator helt gratis. Flaggan --output_format accepterar txt, vtt, srt, tsv, json eller all och är som standard inställd på all. Ett enda kommando, whisper interview.mp3 --model turbo, producerar en .srt-fil offline utan konto och utan uppladdning.

Whisper med öppen källkod är ett annat projekt än Whisper by Remskill, och det är värt att vara tydlig med. Det är OpenAI:s kommandoradsmodell som kör på din dator och skriver tidssynkroniserade undertextfiler. Den levereras i sex modellstorlekar (tiny, base, small, medium, large och turbo) med engelskbaserade varianter för de fyra mindre. De flerspråkiga modellerna täcker 99 språk; .en-varianterna är engelska enbart.

Här är åsikten jag står bakom: för allt som är känsligt bör ljudet aldrig lämna din bärbara dator. En inspelad medarbetarsamtal, en läkares dikterade anteckningar, ett rättsligt vittnesförhör – inget av det hör hemma i en leverantörs behandlingsloggar bara för att du behövde tidsstämplar.

Jag såg en gång ett team dra på sig en femsifffrig molnfaktura under ett kvartal genom att transkribera standupinspelningar. CFO:ns reaktion i nästa genomgång var inte "låt oss optimera prompten." Det var "varför skickar vi överhuvudtaget mötesljud till en server?" Din bärbara dator har redan en processor och en mikrofon. För privat material är offline-Whisper CLI svaret, och det kostar ingenting.

Det finns en snabbare lokal port som heter whisper.cpp – en ren C/C++-byggnad av Whisper utan beroenden som kör enbart på CPU under en öppen licens. Folk rapporterar att den också kan skriva undertextfiler, men jag hänvisar dig till den officiella OpenAI Whisper CLI för den verifierade .srt-vägen och ser whisper.cpp som hastighetsupp­gradering när du väl är bekväm.

När Whisper by Remskill är fel verktyg för det här

Pasted
Whispers overlay i sitt färdiga läge – den klistrar in ett rent stycke vid markören, inte en tidssynkroniserad undertextfil. Den blå widgeten sitter ovanpå vilken app som helst.

Det här är den del de flesta produktbloggar hoppar över. Om ditt uppdrag är en nedladdningsbar .srt- eller .vtt-fil är vår app fel verktyg, och jag föredrar att säga det nu framför att du slösar bort en nedladdning.

Whisper by Remskill är i grunden ett dikteringsverktyg. Du håller ned en snabbtangent (Ctrl+Space på Windows, Command+Option på macOS), talar, släpper och transkriptionen klistras in vid markören i vilket program som helst som är öppet. Det delar inte upp tal i textblock, det synkroniserar inte text mot ett ljudur och det skriver inte en tidssynkroniserad undertextfil. Mata in en intervju så får du ett rent stycke – inte en SRT-fil. Jag byggde exportmenyn i huvudet ett dussin gånger och skickade den aldrig, för tidssynkroniserade undertexter är sin egen produkt och att göra det halvdant hjälper ingen.

Använd verktygen ovan för undertextfiler. Ta till vår app för det angränsande jobbet: att omvandla ditt eget tal till text i stunden du behöver det. Ett mejl, ett utkast, en bildtext du ska skriva in i ett inlägg för hand. Den körs på två rena Rust-motorer, OpenAI Whisper och NVIDIA Parakeet, utan Python och utan uppladdning. Olika uppdrag, olika verktyg. Att välja rätt är hela poängen med den här artikeln.

Innan du öppnar något, svara på frågan som avgör allt: levererar du en fil eller levererar du ord? En fil innebär tidsstämplar, vilket innebär en riktig undertextgenerator. VEED eller Kapwing för en snabb webbläsargenomgång, Whisper CLI för gratis och privat. Ord innebär ett transkript – och det är ett annat verktyg. Jag byggde ett dikteringsverktyg och skickar dig ändå till något annat när det passar bättre. Min sjuåring frågade mig förra veckan vad jag jobbar med, och det ärliga svaret är att jag hjälper folk att sluta skriva, vilket hon tyckte var djupt ointressant. Den eftermiddag du sparar är den jag lade på att texta det poddklippet för hand – tre sekunder i taget.

Vill du ha dikteringsdelen istället?

Om ditt uppdrag är ord vid markören – inte en undertextfil – omvandlar Whisper ditt tal till text i stunden du behöver det, helt offline.

Gratis lokal diktering för alla inloggade användare. För undertextfiler, använd verktygen ovan.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår support-e-post – troligen dikterar jag svaren.

Vidare läsning