Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Door Denys Medvediev23 april 2026

Tutorial

Audio naar ondertitels: wat werkt

Een ondertitelgenerator zet een geluidsbestand om in een getimed SRT- of VTT-bestand. Hier is de echte werkwijze, de tools die dat daadwerkelijk exporteren, en de gratis offline optie waarbij je audio nooit wordt geüpload.

Laatst bijgewerkt: juni 2026

Audiogolven op een scherm, als illustratie van het omzetten van een geluidsbestand naar een ondertiteltrack

Een ondertitelgenerator neemt een geluidsbestand — een MP3, een WAV of een podcastexport — en schrijft een getimed ondertitelbestand. Elke tekstzin draagt een begin- en eindtijdstempel. Webtools zoals VEED, Kapwing en Descript doen dit in de browser. De gratis OpenAI Whisper-commandoregeltool doet het offline op je eigen computer.

Ik heb ooit veertig minuten besteed aan het handmatig ondertitelen van een podcastfragment van tien minuten, waarbij ik elke drie seconden pauzeerde om te typen en tijdstempels te raden. Ik heb een master softwaretechniek. De rekensom is hoe dan ook genadeloos. Handmatig ondertitelen kost meerdere keren de lengte van de audio. Een moderne ondertitelgenerator doet hetzelfde werk in ongeveer de lengte van het bestand plus een kop koffie. Wat niemand je van tevoren vertelt: het juiste gereedschap hangt af van één vraag. Heb je een getimed bestand dat je kunt downloaden, of gewoon de woorden?

"Ondertitelgenerator" wordt gebruikt voor twee verschillende taken, en het verkeerde hulpmiddel kost je een middag. Het veld splits zich in browsertools die getimede bestanden exporteren, en offline tools die hetzelfde gratis doen als je een terminal aanraakt. Deze gids legt uit hoe de werkwijze verloopt, welke tools een echt .srt-bestand maken van alleen audio, wat SRT, VTT en TXT elk betekenen, en wanneer een dicteer-app zoals de onze de verkeerde keuze is. Aan het einde weet je welk hulpmiddel je moet openen voor jouw eindproduct. De meeste verwarring die ik lees in onze supportinbox komt van mensen die een typetool kozen terwijl ze een ondertitelbestand nodig hadden. Een jaar van die berichten is grotendeels de reden waarom dit artikel bestaat.

Je hebt tijdstempels nodig, niet alleen tekst

Een ondertitelbestand is geen transcript. Een transcript zijn woorden. Een ondertitelbestand zijn woorden plus timing. Elk ondertitelblok zegt: "toon deze zin van 00:01:04 tot 00:01:07." Die timing is het hele werk. Het laat een videospeler de juiste woorden op het juiste moment op het scherm zetten.

De meeste "spraak naar tekst"-tools, inclusief de onze, geven je woorden en niets anders. Ze plakken een nette alinea op je cursor en stoppen daar. Een ondertitelgenerator moet meer doen. Hij splitst de spraak in korte ondertitelstukjes, lijnt elk stukje uit op de audioklok, en schrijft het allemaal weg in een strikt bestandsformaat dat een speler kan lezen. Als jouw eindproduct een bestand is dat je uploadt naar YouTube, een videobewerker of een cursusplatform, heb je de tijdstempels nodig. Als je eindproduct tekst in een document is, niet, en je hoeft niet voor een ondertiteltool te betalen om dat te krijgen.

Ondertitels genereren uit een audiobestand in drie stappen

Laptop met audiobewerkingssoftware en hoofdtelefoon op een bureau in een thuiswerkplek

De werkwijze is bij vrijwel elke tool hetzelfde, of het nu web of offline is.

Upload het audiobestand of wijs ernaar. De meeste tools accepteren MP3, WAV, M4A en FLAC — geen video vereist. VEED accepteert MP3, WAV, podcastopnames, interviewaudio en spraakmemo's. Als je enige bron een video is, haalt de tool de audio er zelf uit.

Laat hem de spraak transcriberen en timen. De tool stuurt de audio door een spraakmodel, hakt het resultaat op in ondertitelregels en voorziet elke regel van een begin- en eindtijd. De handmatige versie kost meerdere keren de lengte van de audio. De machinale versie duurt ongeveer zo lang als het bestand.

Controleer het resultaat en exporteer het bestand. Lees het transcript één keer door (modeluitvoer is goed, niet perfect), herstel namen die verkeerd zijn gespeld, en exporteer dan. Hier kies je het formaat: SRT, VTT of gewone TXT.

Dat is de hele cyclus. De verschillen tussen tools zitten in de prijs, de taaldekking, waar je audio naartoe gaat, en of stap drie gratis is.

SRT vs VTT vs TXT: welk bestand heb je nodig

Drie formaten verschijnen in elk exportmenu, en mensen pakken voortdurend het verkeerde.

SRT (SubRip) is het standaard ondertitelbestand. Het is een gewoon tekstbestand met genummerde blokken, elk met een tijdcodebereik en een of twee regels tekst. YouTube, de meeste videobewerkers en bijna elke speler lezen het. Als je niet weet wat je moet kiezen, kies dan SRT.
VTT (WebVTT) is de webneef van SRT. Zelfde idee, iets andere syntaxis, plus ondersteuning voor opmaak en positionering. Gebruik VTT wanneer een website of HTML5-videospeler er met naam om vraagt.
TXT zijn de woorden, zonder tijdstempels. Dit is het formaat dat je wilt als je een artikel schrijft, een samenvatting maakt of een interview citeert. Het is ook het enige van de drie dat een gewone dicteer-tool je kan geven.

Mijn vuistregel: SRT voor video, TXT voor documenten, VTT als een webplatform er specifiek om vraagt. De meeste tools exporteren alle drie: VEED, Kapwing en Descript.

De tools die audio omzetten naar ondertitelbestanden

Hier is waar elke browsertool staat, met functieclaims rechtstreeks van de eigen pagina van elke tool.

VEED is een web- en mobiele automatische ondertitelgenerator die transcribeert vanuit een audiobestand en het resultaat laat downloaden als SRT, VTT of TXT. Gratis om mee te beginnen. Het downloaden van het ondertitelbestand en het ondertitelen van langere video's brengen je op een betaald abonnement.
Kapwing adverteert "99% nauwkeurige ondertitels, gegenereerd in seconden." Dat is Kapwings eigen marketingcijfer, geen onafhankelijke benchmark. Het accepteert elk video- of audiobestand, inclusief MP3, kan ondertitels vertalen naar 100+ talen, en exporteert SRT, VTT en TXT. Gratis accounts krijgen tot 10 minuten ondertitels en een watermerk; Pro verwijdert het watermerk.
Descript genereert ondertitels in 22+ talen, accepteert bestanden met alleen audio, en exporteert zachte ondertitels als SRT of VTT via Publiceren, dan Exporteren, dan Ondertitels. Het werkt op een freemiummodel met een gratis laag van één media-uur per maand.

Zo staan die vier er voor op de onderdelen die je kunt verifiëren voordat je een keuze maakt. Geen nauwkeurings- of snelheidscijfers, want niemand heeft ze hoofd-aan-hoofd getest op dezelfde audio:

Tool	Platform	Lokaal of cloud	Werkt offline	Prijsmodel	Talen	Het beste voor
VEED	Web, mobiel	Cloud	Nee	Gratis om te starten, betaald om te exporteren	Vermeldt 40+ opties, geen totaal opgegeven	Een snelle browserronde met download
Kapwing	Web	Cloud	Nee	Gratis laag (watermerk), Pro	Vertaalt naar 100+	Snelle ondertitels plus vertaling
Descript	Web	Cloud	Nee	Freemium, één media-uur gratis	22+	Audio en ondertitels samen bewerken
OpenAI Whisper CLI	Windows, macOS, Linux	Lokaal	Ja	Gratis, open source	99 meertalig, 1 voor .en-builds	Gratis, privé, geen upload

Alle drie de browsertools sturen je audio naar de server van iemand anders. Voor een marketingclip is dat prima. Voor een opgenomen klantgesprek of iets met een salariscijfer erin, lees dan verder.

Die tools hebben allemaal een vergelijkbare interface die er ongeveer zo uitziet:

interview-audio.mp3Auto subtitle

SRTVTTTXTDownload

Uploaden, op genereren klikken, een formaat kiezen, downloaden. Die balk — niet de onze — is hoe een ondertitelgenerator eruitziet.

Gratis en offline: SRT genereren met open-source Whisper

Code op een computerscherm in donkere modus, verwijzend naar een commandoregelworkflow voor ondertitels

Als je liever niets uploadt, schrijft OpenAI's open-source Whisper-commandoregeltool gratis ondertitelbestanden op je eigen computer. De --output_format-vlag accepteert txt, vtt, srt, tsv, json of all, en staat standaard op all. Dus één commando — whisper interview.mp3 --model turbo — levert offline een .srt-bestand op, zonder account en zonder upload.

Open-source Whisper is een ander project dan Whisper by Remskill, en dat is de moeite waard om duidelijk te maken. Het is OpenAI's commandoregelmodel dat op je computer draait en getimede ondertitelbestanden genereert. Het wordt geleverd in zes modelgroottes (tiny, base, small, medium, large en turbo) met Engelstalige varianten voor de vier kleinere modellen. De meertalige modellen dekken 99 talen; de .en-varianten zijn alleen voor Engels.

Dit is mijn standpunt: voor gevoelig materiaal mag de audio nooit je laptop verlaten. Een opgenomen functioneringsgesprek, de gedicteerde aantekeningen van een arts, een juridische verklaring — niets van dat alles hoort in de verwerkingslogboeken van een leverancier alleen maar omdat je tijdstempels nodig had.

Ik heb ooit een team in één kwartaal een rekening van vijf cijfers zien opbouwen bij cloud-AI door vergaderopnames te transcriberen. De reactie van de CFO in de volgende review was niet: "laten we de prompt optimaliseren." Het was: "waarom sturen we vergaderaudio überhaupt naar een server?" Je laptop heeft al een CPU en een microfoon. Voor privémateriaal is de offline Whisper CLI het antwoord, en het kost niets.

Er is een snellere lokale versie genaamd whisper.cpp, een pure C/C++-build van Whisper zonder afhankelijkheden die alleen op de CPU draait onder een open licentie. Mensen melden dat die ook ondertitelbestanden kan schrijven, maar voor het geteste .srt-pad wijs ik je liever op de officiële OpenAI Whisper CLI en behandel je whisper.cpp als de snelheidsupgrade zodra je er vertrouwd mee bent.

Wanneer Whisper by Remskill het verkeerde hulpmiddel is

Pasted

Whispers overlay in zijn volledige staat — hij plakt een nette alinea op je cursor, geen getimed ondertitelbestand. De blauwe widget staat bovenop elke app.

Dit is het deel dat de meeste productblogs overslaan. Als je taak een downloadbaar .srt- of .vtt-bestand is, is onze app het verkeerde hulpmiddel, en ik zeg het liever nu dan dat ik je download verspil.

Whisper by Remskill is dicteer-eerst. Je houdt een sneltoets ingedrukt (Ctrl+Space op Windows, Command+Option op macOS), spreekt, laat los, en de transcriptie wordt geplakt op je cursor in welke app ook open is. De app hakt spraak niet op in ondertitelblokken, lijnt tekst niet uit op een audioklok, en schrijft geen getimed ondertitelbestand. Voer er een interview aan en je krijgt een nette alinea, geen SRT. Ik heb het exportmenu tientallen keren in mijn hoofd gebouwd maar nooit verzonden, want getimede ondertitels zijn hun eigen product en ze slecht doen helpt niemand.

Gebruik de bovenstaande tools voor ondertitelbestanden. Grijp naar onze app voor de aangrenzende taak: je eigen spraak op het moment dat je het nodig hebt omzetten naar tekst. Een e-mail, een concept, een bijschrift dat je met de hand in een social post typt. De app draait op twee pure Rust-engines, OpenAI Whisper en NVIDIA Parakeet, zonder Python en zonder upload. Andere taak, ander gereedschap. Het juiste kiezen is precies waarom dit artikel er is.

Voordat je iets opent, beantwoord de vraag die alles bepaalt: lever je een bestand op of lever je woorden op? Een bestand betekent tijdstempels, wat een echte ondertitelgenerator betekent. VEED of Kapwing voor een snelle browserronde, de Whisper CLI voor gratis en privé. Woorden betekenen een transcript, en dat is een ander gereedschap. Ik heb een dicteer-app gebouwd en stuur je toch ergens anders naartoe als dat de betere keuze is. Mijn zevenjarige vroeg me vorige week wat ik doe op mijn werk, en het eerlijke antwoord is dat ik mensen help minder te typen — wat ze diep teleurstellend vond. De middag die jij bespaart, is de middag die ik besteedde aan het handmatig ondertitelen van dat podcastfragment, drie seconden tegelijk.

Liever het dicteergedeelte?

Als jouw werk woorden op de cursor zijn, geen ondertitelbestand, zet Whisper je eigen spraak op het moment dat je het nodig hebt om naar tekst — volledig offline.

Bekijk hoe Whisper werkt Prijzen bekijken

Gratis lokale dictatie voor elke ingelogde gebruiker. Gebruik voor ondertitelbestanden de tools hierboven.

Denys Medvediev

Ik ben degene die onze supportmail leest — hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen

Veelgestelde vragen

Ja. VEED, Kapwing, Descript en de open-source Whisper CLI transcriberen allemaal vanuit een audiobestand: MP3, WAV, M4A, FLAC. Er is geen videotrack vereist; de tool timet de spraak zelf.

Door Denys Medvediev23 april 2026

Tutorial

Audio naar ondertitels: wat werkt

Laatst bijgewerkt: juni 2026

Je hebt tijdstempels nodig, niet alleen tekst

Ondertitels genereren uit een audiobestand in drie stappen

De werkwijze is bij vrijwel elke tool hetzelfde, of het nu web of offline is.

Dat is de hele cyclus. De verschillen tussen tools zitten in de prijs, de taaldekking, waar je audio naartoe gaat, en of stap drie gratis is.

SRT vs VTT vs TXT: welk bestand heb je nodig

Drie formaten verschijnen in elk exportmenu, en mensen pakken voortdurend het verkeerde.

SRT (SubRip) is het standaard ondertitelbestand. Het is een gewoon tekstbestand met genummerde blokken, elk met een tijdcodebereik en een of twee regels tekst. YouTube, de meeste videobewerkers en bijna elke speler lezen het. Als je niet weet wat je moet kiezen, kies dan SRT.
VTT (WebVTT) is de webneef van SRT. Zelfde idee, iets andere syntaxis, plus ondersteuning voor opmaak en positionering. Gebruik VTT wanneer een website of HTML5-videospeler er met naam om vraagt.
TXT zijn de woorden, zonder tijdstempels. Dit is het formaat dat je wilt als je een artikel schrijft, een samenvatting maakt of een interview citeert. Het is ook het enige van de drie dat een gewone dicteer-tool je kan geven.

Mijn vuistregel: SRT voor video, TXT voor documenten, VTT als een webplatform er specifiek om vraagt. De meeste tools exporteren alle drie: VEED, Kapwing en Descript.

De tools die audio omzetten naar ondertitelbestanden

Hier is waar elke browsertool staat, met functieclaims rechtstreeks van de eigen pagina van elke tool.

VEED is een web- en mobiele automatische ondertitelgenerator die transcribeert vanuit een audiobestand en het resultaat laat downloaden als SRT, VTT of TXT. Gratis om mee te beginnen. Het downloaden van het ondertitelbestand en het ondertitelen van langere video's brengen je op een betaald abonnement.
Kapwing adverteert "99% nauwkeurige ondertitels, gegenereerd in seconden." Dat is Kapwings eigen marketingcijfer, geen onafhankelijke benchmark. Het accepteert elk video- of audiobestand, inclusief MP3, kan ondertitels vertalen naar 100+ talen, en exporteert SRT, VTT en TXT. Gratis accounts krijgen tot 10 minuten ondertitels en een watermerk; Pro verwijdert het watermerk.
Descript genereert ondertitels in 22+ talen, accepteert bestanden met alleen audio, en exporteert zachte ondertitels als SRT of VTT via Publiceren, dan Exporteren, dan Ondertitels. Het werkt op een freemiummodel met een gratis laag van één media-uur per maand.

Zo staan die vier er voor op de onderdelen die je kunt verifiëren voordat je een keuze maakt. Geen nauwkeurings- of snelheidscijfers, want niemand heeft ze hoofd-aan-hoofd getest op dezelfde audio:

Tool	Platform	Lokaal of cloud	Werkt offline	Prijsmodel	Talen	Het beste voor
VEED	Web, mobiel	Cloud	Nee	Gratis om te starten, betaald om te exporteren	Vermeldt 40+ opties, geen totaal opgegeven	Een snelle browserronde met download
Kapwing	Web	Cloud	Nee	Gratis laag (watermerk), Pro	Vertaalt naar 100+	Snelle ondertitels plus vertaling
Descript	Web	Cloud	Nee	Freemium, één media-uur gratis	22+	Audio en ondertitels samen bewerken
OpenAI Whisper CLI	Windows, macOS, Linux	Lokaal	Ja	Gratis, open source	99 meertalig, 1 voor .en-builds	Gratis, privé, geen upload

Alle drie de browsertools sturen je audio naar de server van iemand anders. Voor een marketingclip is dat prima. Voor een opgenomen klantgesprek of iets met een salariscijfer erin, lees dan verder.

Die tools hebben allemaal een vergelijkbare interface die er ongeveer zo uitziet:

interview-audio.mp3Auto subtitle

SRTVTTTXTDownload

Uploaden, op genereren klikken, een formaat kiezen, downloaden. Die balk — niet de onze — is hoe een ondertitelgenerator eruitziet.

Gratis en offline: SRT genereren met open-source Whisper

Wanneer Whisper by Remskill het verkeerde hulpmiddel is

Pasted

Whispers overlay in zijn volledige staat — hij plakt een nette alinea op je cursor, geen getimed ondertitelbestand. De blauwe widget staat bovenop elke app.

Liever het dicteergedeelte?

Als jouw werk woorden op de cursor zijn, geen ondertitelbestand, zet Whisper je eigen spraak op het moment dat je het nodig hebt om naar tekst — volledig offline.

Bekijk hoe Whisper werkt Prijzen bekijken

Gratis lokale dictatie voor elke ingelogde gebruiker. Gebruik voor ondertitelbestanden de tools hierboven.

Denys Medvediev

Ik ben degene die onze supportmail leest — hoogstwaarschijnlijk door de antwoorden te dicteren.

Audio naar ondertitels: wat werkt

Je hebt tijdstempels nodig, niet alleen tekst

Ondertitels genereren uit een audiobestand in drie stappen

SRT vs VTT vs TXT: welk bestand heb je nodig

De tools die audio omzetten naar ondertitelbestanden

Gratis en offline: SRT genereren met open-source Whisper

Wanneer Whisper by Remskill het verkeerde hulpmiddel is

Liever het dicteergedeelte?

Verder lezen

Veelgestelde vragen

Spraakgestuurd typen in Word

De sneltoets voor spraakgestuurd typen op elk besturingssysteem

Alternatief voor Google spraaktypen: dicteer overal

Audio naar ondertitels: wat werkt

Je hebt tijdstempels nodig, niet alleen tekst

Ondertitels genereren uit een audiobestand in drie stappen

SRT vs VTT vs TXT: welk bestand heb je nodig

De tools die audio omzetten naar ondertitelbestanden

Gratis en offline: SRT genereren met open-source Whisper

Wanneer Whisper by Remskill het verkeerde hulpmiddel is

Liever het dicteergedeelte?

Verder lezen

Veelgestelde vragen

Spraakgestuurd typen in Word

De sneltoets voor spraakgestuurd typen op elk besturingssysteem

Alternatief voor Google spraaktypen: dicteer overal