Door Denys Medvediev

Gids

Audio naar tekst omzetten, uitgelegd

Gratis webtools, offline desktop-apps en cloud waarbij je je eigen sleutel meebrengt: ze zetten allemaal geluid om in tekst. De keuze die er echt toe doet, is waar je audio wordt verwerkt.

Laatst bijgewerkt: juni 2026

Close-up van een digitale audio-interface met een gloeiende geluidsgolf op een donker scherm

Een audio-naar-tekstomzetter maakt van een opname of live spraak bewerkbare, doorzoekbare tekst met behulp van een spraak-naar-tekstmodel. De keuze die er echt toe doet, is waar de audio wordt verwerkt: gratis webtools uploaden bestanden naar een server, terwijl een desktop-app zoals Whisper alles op je eigen computer kan transcriberen, offline, en het resultaat plakt waar je cursor staat.

De meeste gratis audio-naar-teksttools laten je de eerste 10 tot 30 minuten transcriberen en vragen daarna om een betaalkaart. Dat deel is eerlijk. Servers kosten geld. Wat niemand hardop zegt, is dat je audio eerst naar die servers moest reizen. Een spraakmemo van een arts, de opname van een bestuursvergadering, een voorbereidingsbestand voor een voogdijzitting: allemaal geüpload naar een leverancier die je nog nooit hebt ontmoet.

Ik heb daar een mening over, en daar kom ik zo op terug.

Een audio-naar-tekstomzetter doet één ding: het luistert naar geluid en schrijft de woorden op. De interessante verschillen zitten in hoe het luistert (een model), waar het luistert (jouw computer of een server) en wat het daarna met de tekst doet (in een bestand zetten, of plakken waar je al aan het typen bent). De drie best scorende gratis omzetters voor deze zoekopdracht zijn allemaal van het type upload-een-bestand-en-wacht. Whisper by Remskill is een ander beestje. Het is dictatie-eerst, wat betekent dat je een sneltoets indrukt, spreekt, en de tekst verschijnt bij de cursor in welke app dan ook.

Deze gids legt uit hoe omzetters werken, doorloopt het driestappenpad voor een opgenomen bestand en vertelt je wanneer een webomzetter de juiste keuze is en wanneer niet. Na een jaar onze supportmail te hebben gelezen, kan ik je vertellen dat het meeste komt van mensen die een cloudtool kozen voor audio die nooit van hun laptop af had mogen gaan.

Een audio-naar-tekstomzetter maakt van opnames woorden die je kunt bewerken

Whisper
De echte Whisper-app — klik rond in de Instellingen om te zien hoe lokale en cloudtranscriptie zijn ingesteld.

Onder de motorkap draait elke omzetter hetzelfde: een spraakherkenningsmodel. Het neemt de golfvorm van je audio en voorspelt de woorden, stukje voor stukje. In het model zit de nauwkeurigheid. Het grote open model achter veel van deze tools is OpenAI's Whisper, dat in de meertalige varianten 99 talen ondersteunt. Dezelfde OpenAI Speech-to-Text API biedt whisper-1 plus de nieuwere modellen gpt-4o-transcribe en gpt-4o-mini-transcribe.

De uitvoer is gewone, bewerkbare tekst. Je kunt een naam corrigeren, naar een zin zoeken, het in een e-mail zetten. Dat is het hele punt. Geluid is lastig om te scannen, tekst is makkelijk. Whisper produceert dezelfde bewerkbare tekst, maar in plaats van je een download te geven, kan het rechtstreeks plakken in welke app je ook gebruikt. De app die hierboven is ingebed, is de echte desktop-frontend, geen mockup.

Welk model je kiest, is de nauwkeurigheidsbeslissing, en het open Whisper-model en Google Cloud Speech-to-Text komen op verschillende plekken uit; onze vergelijking van Whisper versus Google Speech-to-Text zet de twee engines naast elkaar op nauwkeurigheid, taaldekking en waar je audio naartoe gaat.

Een audiobestand in drie stappen naar tekst omzetten

Voor een opgenomen bestand is het pad kort. De gratis webomzetters verwoorden het als uploaden, klikken, downloaden.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Een typische webomzetter: zet er een bestand in, wacht op de upload, download de transcriptie.
1

Kies waar het draait. Cloudomzetters vereisen dat je het bestand naar hun server uploadt. Whisper voert de transcriptie uit op je eigen computer in lokale modus, zodat het bestand je computer nooit verlaat.

2

Kies een model voor je taal. Bestanden in alleen Engels gaan het snelst met een kleiner model. Meertalige of gemengde audio heeft een meertalig model nodig dat 99 talen dekt.

3

Haal de tekst op en bewerk hem. De transcriptie komt terug als gewone tekst. Corrigeer de typfouten die een model altijd maakt bij eigennamen, en je bent klaar.

CancelTranscribing
Whisper transcribeert een opname lokaal — het bestand verlaat je computer nooit.

Eén addertje is het waard om te weten: cloud-API's hebben grootteplafonds. Het transcriptie-eindpunt van OpenAI beperkt uploads tot 25 MB per verzoek. Een lange vergaderopname in WAV gaat daar snel overheen. Lokale verwerking kent zo'n limiet niet, los van je eigen schijfruimte en geduld.

Opgenomen bestanden versus live dictatie: wat heb je nodig?

Hier is de vraag die de meeste omzetterpagina's overslaan. Transcribeer je een bestand dat al bestaat, of probeer je iets nieuws te schrijven met je stem?

Heb je een opname (een interview, een college, een podcast), dan is een bestandsomzetter het juiste gereedschap. Upload hem, krijg de transcriptie, ga verder. De drie populairste gratis tools kunnen dit, met dagelijkse minutenlimieten in de gratis versie.

Cancel
Whisper's overlay voor live opnemen — houd de sneltoets ingedrukt, spreek, laat los.

Schrijf je een nieuwe e-mail, notitie of document, dan wil je helemaal geen bestand. Je wilt dat de woorden verschijnen terwijl je spreekt. Dat is dictatie, en dat werkt anders. Met Whisper houd je een sneltoets ingedrukt, praat je, en laat je los. Op Windows is de standaard Ctrl+Space, en op macOS is het een push-to-talk-combinatie met Command+Option (houd beide ingedrukt, laat een van de toetsen los om te stoppen). De getranscribeerde tekst wordt bij je cursor in elke applicatie geplakt. Geen upload, geen download, geen wisselen van tabblad. De overlay hierboven is wat je ziet terwijl het luistert.

De meeste mensen die zoeken naar een audio-naar-tekstomzetter willen het eerste en ontdekken dat ze ook het tweede wilden. Je neemt minder dingen op dan je schrijft. Vorig jaar besteedde ik twee weken aan het zoeken naar een betere bestandsomzetter, terwijl ik eigenlijk gewoon wilde stoppen met het met één vinger tikken van antwoorden tijdens de zwemles van mijn dochter.

Lokaal versus cloud: waar je audio wordt verwerkt (en waarom dat uitmaakt)

Rijen serverracks in een datacenter met actieve apparatuur, die cloudaudio-verwerking voorstellen

De splitsing die ertoe doet, komt hier, en het is degene waar de gratis tools het stilst over zijn. Een webomzetter verwerkt je audio op zijn servers. AudioConvert.ai zegt dat bestanden binnen 24 uur worden verwijderd. HappyScribe en NoteGPT uploaden ook naar de cloud. Dat is standaard, en voor een openbare podcast is dat prima.

Nu de mening die ik beloofde. Audioconversie die alleen in de cloud draait, is een privacyramp die erom vraagt getranscribeerd te worden. Een team waarmee ik ooit werkte, had een freelancer een interne dictatieprototype laten bouwen dat voor elke uiting een cloud-AI aanriep. De manager opende het kostendashboard aan het einde van het kwartaal en vond een vijfcijferige rekening, grotendeels door standup-opnames vier keer over te transcriberen omdat de herhaallogica te agressief was. Het antwoord van de CFO was kort: of we betalen gewoon niet om vergaderingen te uploaden waar al notulen van zijn. Het geld was het kleine probleem. Het grotere was dat kwartalen aan interne gesprekken nu op iemand anders' servers stonden.

De lokale modus van Whisper biedt daar antwoord op. In lokale modus wordt alle audio op je computer verwerkt en verlaat niets het apparaat; na een eenmalige modeldownload (van ongeveer 140 MB tot 3 GB, afhankelijk van het model) werkt het volledig offline. Twee engines draaien op het apparaat: de Whisper-modellen, en NVIDIA's Parakeet, dat 5 tot 10 keer sneller is dan Whisper op de CPU maar alleen Engels plus 24 Europese talen dekt, zonder vertaling naar het Engels. Geef je de voorkeur aan de cloud, dan heeft Whisper een OpenAI-modus waarbij je je eigen sleutel meebrengt en gpt-4o-mini-transcribe of gpt-4o-transcribe gebruikt (dezelfde modellen die de API biedt), rechtstreeks door OpenAI gefactureerd, zonder opslag van ons. Het punt is dat jíj kiest. De gratis webtools kiezen voor jou, en het antwoord is altijd hun server. Voor meer over volledig buiten de cloud blijven, zie onze gids over offline spraak naar tekst.

Nauwkeurigheid kiezen: welk model jouw accent en taal aankan

Nauwkeurigheid is grotendeels een modelvraag, en het model is een taalvraag. De gratis omzetters adverteren met grote getallen. AudioConvert.ai claimt tot 99% nauwkeurigheid op heldere audio, HappyScribe zegt tot 96%. Dat zijn marketingclaims van leveranciers zonder gepubliceerde methode, dus behandel ze als de brochure, niet als de benchmark.

Wat de nauwkeurigheid wél beïnvloedt, is het afstemmen van het model op je audio. Whisper komt met 8 lokale modellen, verdeeld in alleen-Engels en meertalig. De alleen-Engelse versies (Base op ~140 MB tot Medium op ~1,5 GB) zetten de taalkiezer vast op Engels en doen dat ene werk goed. De meertalige versies (Small, Medium, Large v3 op ~3 GB, en een Large v3 Turbo) dekken 99 talen met automatische detectie. Oekraïens en Engels door elkaar in één zin? Dat vraagt om een meertalig model. Een schone Engelse spraakmemo? Het Engelse Base-model is sneller en lichter.

Whisper
De model- en taalkiezer in de echte Whisper-app — alleen-Engelse en meertalige versies naast elkaar.

De saaie waarheid die geen enkele modelpagina toegeeft: een goedkope opsteekmicrofoon doet meer voor de nauwkeurigheid dan welke model-upgrade dan ook. Slechte audio erin, slechte tekst eruit. Geen enkele AI redt een opname die naast een draaiende vaatwasser is gemaakt. Ik heb een weekend besteed aan het bijstellen van modelinstellingen om mijn eigen wazige audio op te schonen, voordat ik besefte dat het probleem de laptopmicrofoon was, vijftien centimeter van een ventilator. Ik heb een masterdiploma. In het instellingenpaneel hierboven kies je het model en de taal.

Wanneer je een webomzetter overslaat (en iets anders gebruikt)

Een opgeruimde werkplek met een notitieboek, een bril en pennen, die alternatieven voor handmatig aantekeningen maken suggereren

Een webomzetter is soms de betere keuze, en ik zeg het je liever dan dat je met het verkeerde gereedschap vecht. Heb je één korte opname (een interviewfragment van vijf minuten, een enkele spraakmemo) en maakt het je niet uit dat het langs een server gaat, dan geeft een gratis omzetter als HappyScribe je de eerste 10 minuten gratis zonder betaalkaart. Open de pagina, upload, klaar. Een desktop-app installeren is daarvoor overkill.

Sla de webomzetter over wanneer een van deze drie dingen waar is: de audio is gevoelig (medisch, juridisch, financieel), het bestand is groot genoeg om tegen een cloudplafond van 25 MB aan te lopen, of je schrijft iets nieuws in plaats van iets ouds te transcriberen. De eerste twee gevallen vragen om lokale verwerking. Het derde vraagt om dictatie, helemaal niet om een omzetter. Voor transcriptie in vergaderstijl met meerdere sprekers en samenvattingen past een speciaal gereedschap in die categorie beter dan beide — dat is een ander karwei, behandeld in ons overzicht van transcriptiesoftware.

Wat het kost

Whisper is voor iedereen gratis voor de hele lokale pijplijn (beide transcriptie-engines, AI-tekstopschoning, geschiedenis en de aangepaste sneltoets), zonder dat je een betaalmethode nodig hebt om je aan te melden. De cloudkant waarbij je je eigen sleutel meebrengt, is de betaalde Pro-versie, en OpenAI factureert je rechtstreeks voor de minuten die je daadwerkelijk transcribeert. De gratis webomzetters in deze zoekopdracht draaien op een freemium-minutenlimiet: HappyScribe geeft 10 gratis minuten, AudioConvert.ai geeft 30 minuten per dag. Whisper is vandaag beschikbaar op Windows en op macOS met Apple Silicon. De exacte cijfers per plan staan zwart op wit op de prijzenpagina.

De gratis omzetters zijn goed in wat ze doen — zet er een bestand in, wacht, kopieer de tekst eruit. Gebruik er een voor het podcastfragment dat je niet erg vindt om te delen. Maar de opnames die er het meest toe doen, zijn meestal degene die je het liefst niet zou uploaden, en dat is het moment waarop een omzetter die op je eigen laptop draait, ophoudt een leuke extra te zijn.

Probeer een opname die je computer nooit verlaat

Mijn jongste dochter dicteerde afgelopen zaterdag een e-mail van 90 woorden aan haar oma en vroeg me waar de woorden heen waren gegaan. Nergens, zei ik. Ze bleven precies hier. Dat antwoord is de hele reden waarom ik dit heb gebouwd.

Gratis voor de hele lokale pijplijn. Geen betaalmethode nodig om je aan te melden.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze supportmail leest, hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen