Tutorial
Audio naar ondertitels: wat werkt
Een ondertitelgenerator zet een geluidsbestand om in een getimed SRT- of VTT-bestand. Hier is de echte werkwijze, de tools die dat daadwerkelijk exporteren, en de gratis offline optie waarbij je audio nooit wordt geüpload.
Laatst bijgewerkt: juni 2026

Een ondertitelgenerator neemt een geluidsbestand — een MP3, een WAV of een podcastexport — en schrijft een getimed ondertitelbestand. Elke tekstzin draagt een begin- en eindtijdstempel. Webtools zoals VEED, Kapwing en Descript doen dit in de browser. De gratis OpenAI Whisper-commandoregeltool doet het offline op je eigen computer.
Ik heb ooit veertig minuten besteed aan het handmatig ondertitelen van een podcastfragment van tien minuten, waarbij ik elke drie seconden pauzeerde om te typen en tijdstempels te raden. Ik heb een master softwaretechniek. De rekensom is hoe dan ook genadeloos. Handmatig ondertitelen kost meerdere keren de lengte van de audio. Een moderne ondertitelgenerator doet hetzelfde werk in ongeveer de lengte van het bestand plus een kop koffie. Wat niemand je van tevoren vertelt: het juiste gereedschap hangt af van één vraag. Heb je een getimed bestand dat je kunt downloaden, of gewoon de woorden?
"Ondertitelgenerator" wordt gebruikt voor twee verschillende taken, en het verkeerde hulpmiddel kost je een middag. Het veld splits zich in browsertools die getimede bestanden exporteren, en offline tools die hetzelfde gratis doen als je een terminal aanraakt. Deze gids legt uit hoe de werkwijze verloopt, welke tools een echt .srt-bestand maken van alleen audio, wat SRT, VTT en TXT elk betekenen, en wanneer een dicteer-app zoals de onze de verkeerde keuze is. Aan het einde weet je welk hulpmiddel je moet openen voor jouw eindproduct. De meeste verwarring die ik lees in onze supportinbox komt van mensen die een typetool kozen terwijl ze een ondertitelbestand nodig hadden. Een jaar van die berichten is grotendeels de reden waarom dit artikel bestaat.
Je hebt tijdstempels nodig, niet alleen tekst
Een ondertitelbestand is geen transcript. Een transcript zijn woorden. Een ondertitelbestand zijn woorden plus timing. Elk ondertitelblok zegt: "toon deze zin van 00:01:04 tot 00:01:07." Die timing is het hele werk. Het laat een videospeler de juiste woorden op het juiste moment op het scherm zetten.
De meeste "spraak naar tekst"-tools, inclusief de onze, geven je woorden en niets anders. Ze plakken een nette alinea op je cursor en stoppen daar. Een ondertitelgenerator moet meer doen. Hij splitst de spraak in korte ondertitelstukjes, lijnt elk stukje uit op de audioklok, en schrijft het allemaal weg in een strikt bestandsformaat dat een speler kan lezen. Als jouw eindproduct een bestand is dat je uploadt naar YouTube, een videobewerker of een cursusplatform, heb je de tijdstempels nodig. Als je eindproduct tekst in een document is, niet, en je hoeft niet voor een ondertiteltool te betalen om dat te krijgen.
Ondertitels genereren uit een audiobestand in drie stappen

De werkwijze is bij vrijwel elke tool hetzelfde, of het nu web of offline is.
Upload het audiobestand of wijs ernaar. De meeste tools accepteren MP3, WAV, M4A en FLAC — geen video vereist. VEED accepteert MP3, WAV, podcastopnames, interviewaudio en spraakmemo's. Als je enige bron een video is, haalt de tool de audio er zelf uit.
Laat hem de spraak transcriberen en timen. De tool stuurt de audio door een spraakmodel, hakt het resultaat op in ondertitelregels en voorziet elke regel van een begin- en eindtijd. De handmatige versie kost meerdere keren de lengte van de audio. De machinale versie duurt ongeveer zo lang als het bestand.
Controleer het resultaat en exporteer het bestand. Lees het transcript één keer door (modeluitvoer is goed, niet perfect), herstel namen die verkeerd zijn gespeld, en exporteer dan. Hier kies je het formaat: SRT, VTT of gewone TXT.
Dat is de hele cyclus. De verschillen tussen tools zitten in de prijs, de taaldekking, waar je audio naartoe gaat, en of stap drie gratis is.
SRT vs VTT vs TXT: welk bestand heb je nodig
Drie formaten verschijnen in elk exportmenu, en mensen pakken voortdurend het verkeerde.
- SRT (SubRip) is het standaard ondertitelbestand. Het is een gewoon tekstbestand met genummerde blokken, elk met een tijdcodebereik en een of twee regels tekst. YouTube, de meeste videobewerkers en bijna elke speler lezen het. Als je niet weet wat je moet kiezen, kies dan SRT.
- VTT (WebVTT) is de webneef van SRT. Zelfde idee, iets andere syntaxis, plus ondersteuning voor opmaak en positionering. Gebruik VTT wanneer een website of HTML5-videospeler er met naam om vraagt.
- TXT zijn de woorden, zonder tijdstempels. Dit is het formaat dat je wilt als je een artikel schrijft, een samenvatting maakt of een interview citeert. Het is ook het enige van de drie dat een gewone dicteer-tool je kan geven.
Mijn vuistregel: SRT voor video, TXT voor documenten, VTT als een webplatform er specifiek om vraagt. De meeste tools exporteren alle drie: VEED, Kapwing en Descript.
De tools die audio omzetten naar ondertitelbestanden
Hier is waar elke browsertool staat, met functieclaims rechtstreeks van de eigen pagina van elke tool.
- VEED is een web- en mobiele automatische ondertitelgenerator die transcribeert vanuit een audiobestand en het resultaat laat downloaden als SRT, VTT of TXT. Gratis om mee te beginnen. Het downloaden van het ondertitelbestand en het ondertitelen van langere video's brengen je op een betaald abonnement.
- Kapwing adverteert "99% nauwkeurige ondertitels, gegenereerd in seconden." Dat is Kapwings eigen marketingcijfer, geen onafhankelijke benchmark. Het accepteert elk video- of audiobestand, inclusief MP3, kan ondertitels vertalen naar 100+ talen, en exporteert SRT, VTT en TXT. Gratis accounts krijgen tot 10 minuten ondertitels en een watermerk; Pro verwijdert het watermerk.
- Descript genereert ondertitels in 22+ talen, accepteert bestanden met alleen audio, en exporteert zachte ondertitels als SRT of VTT via Publiceren, dan Exporteren, dan Ondertitels. Het werkt op een freemiummodel met een gratis laag van één media-uur per maand.
Zo staan die vier er voor op de onderdelen die je kunt verifiëren voordat je een keuze maakt. Geen nauwkeurings- of snelheidscijfers, want niemand heeft ze hoofd-aan-hoofd getest op dezelfde audio:
| Tool | Platform | Lokaal of cloud | Werkt offline | Prijsmodel | Talen | Het beste voor |
|---|---|---|---|---|---|---|
| VEED | Web, mobiel | Cloud | Nee | Gratis om te starten, betaald om te exporteren | Vermeldt 40+ opties, geen totaal opgegeven | Een snelle browserronde met download |
| Kapwing | Web | Cloud | Nee | Gratis laag (watermerk), Pro | Vertaalt naar 100+ | Snelle ondertitels plus vertaling |
| Descript | Web | Cloud | Nee | Freemium, één media-uur gratis | 22+ | Audio en ondertitels samen bewerken |
| OpenAI Whisper CLI | Windows, macOS, Linux | Lokaal | Ja | Gratis, open source | 99 meertalig, 1 voor .en-builds | Gratis, privé, geen upload |
Alle drie de browsertools sturen je audio naar de server van iemand anders. Voor een marketingclip is dat prima. Voor een opgenomen klantgesprek of iets met een salariscijfer erin, lees dan verder.
Die tools hebben allemaal een vergelijkbare interface die er ongeveer zo uitziet:
Uploaden, op genereren klikken, een formaat kiezen, downloaden. Die balk — niet de onze — is hoe een ondertitelgenerator eruitziet.
Gratis en offline: SRT genereren met open-source Whisper

Als je liever niets uploadt, schrijft OpenAI's open-source Whisper-commandoregeltool gratis ondertitelbestanden op je eigen computer. De --output_format-vlag accepteert txt, vtt, srt, tsv, json of all, en staat standaard op all. Dus één commando — whisper interview.mp3 --model turbo — levert offline een .srt-bestand op, zonder account en zonder upload.
Open-source Whisper is een ander project dan Whisper by Remskill, en dat is de moeite waard om duidelijk te maken. Het is OpenAI's commandoregelmodel dat op je computer draait en getimede ondertitelbestanden genereert. Het wordt geleverd in zes modelgroottes (tiny, base, small, medium, large en turbo) met Engelstalige varianten voor de vier kleinere modellen. De meertalige modellen dekken 99 talen; de .en-varianten zijn alleen voor Engels.
Dit is mijn standpunt: voor gevoelig materiaal mag de audio nooit je laptop verlaten. Een opgenomen functioneringsgesprek, de gedicteerde aantekeningen van een arts, een juridische verklaring — niets van dat alles hoort in de verwerkingslogboeken van een leverancier alleen maar omdat je tijdstempels nodig had.
Ik heb ooit een team in één kwartaal een rekening van vijf cijfers zien opbouwen bij cloud-AI door vergaderopnames te transcriberen. De reactie van de CFO in de volgende review was niet: "laten we de prompt optimaliseren." Het was: "waarom sturen we vergaderaudio überhaupt naar een server?" Je laptop heeft al een CPU en een microfoon. Voor privémateriaal is de offline Whisper CLI het antwoord, en het kost niets.
Er is een snellere lokale versie genaamd whisper.cpp, een pure C/C++-build van Whisper zonder afhankelijkheden die alleen op de CPU draait onder een open licentie. Mensen melden dat die ook ondertitelbestanden kan schrijven, maar voor het geteste .srt-pad wijs ik je liever op de officiële OpenAI Whisper CLI en behandel je whisper.cpp als de snelheidsupgrade zodra je er vertrouwd mee bent.
Wanneer Whisper by Remskill het verkeerde hulpmiddel is
Dit is het deel dat de meeste productblogs overslaan. Als je taak een downloadbaar .srt- of .vtt-bestand is, is onze app het verkeerde hulpmiddel, en ik zeg het liever nu dan dat ik je download verspil.
Whisper by Remskill is dicteer-eerst. Je houdt een sneltoets ingedrukt (Ctrl+Space op Windows, Command+Option op macOS), spreekt, laat los, en de transcriptie wordt geplakt op je cursor in welke app ook open is. De app hakt spraak niet op in ondertitelblokken, lijnt tekst niet uit op een audioklok, en schrijft geen getimed ondertitelbestand. Voer er een interview aan en je krijgt een nette alinea, geen SRT. Ik heb het exportmenu tientallen keren in mijn hoofd gebouwd maar nooit verzonden, want getimede ondertitels zijn hun eigen product en ze slecht doen helpt niemand.
Gebruik de bovenstaande tools voor ondertitelbestanden. Grijp naar onze app voor de aangrenzende taak: je eigen spraak op het moment dat je het nodig hebt omzetten naar tekst. Een e-mail, een concept, een bijschrift dat je met de hand in een social post typt. De app draait op twee pure Rust-engines, OpenAI Whisper en NVIDIA Parakeet, zonder Python en zonder upload. Andere taak, ander gereedschap. Het juiste kiezen is precies waarom dit artikel er is.
Voordat je iets opent, beantwoord de vraag die alles bepaalt: lever je een bestand op of lever je woorden op? Een bestand betekent tijdstempels, wat een echte ondertitelgenerator betekent. VEED of Kapwing voor een snelle browserronde, de Whisper CLI voor gratis en privé. Woorden betekenen een transcript, en dat is een ander gereedschap. Ik heb een dicteer-app gebouwd en stuur je toch ergens anders naartoe als dat de betere keuze is. Mijn zevenjarige vroeg me vorige week wat ik doe op mijn werk, en het eerlijke antwoord is dat ik mensen help minder te typen — wat ze diep teleurstellend vond. De middag die jij bespaart, is de middag die ik besteedde aan het handmatig ondertitelen van dat podcastfragment, drie seconden tegelijk.
Liever het dicteergedeelte?
Als jouw werk woorden op de cursor zijn, geen ondertitelbestand, zet Whisper je eigen spraak op het moment dat je het nodig hebt om naar tekst — volledig offline.
Gratis lokale dictatie voor elke ingelogde gebruiker. Gebruik voor ondertitelbestanden de tools hierboven.



