Door Denys Medvediev

Probleemoplossing

Waarom is mijn dictaat zo onnauwkeurig?

Dictaat is meestal onnauwkeurig door de instellingen, niet omdat de software kapot is — een slechte microfoon, een rumoerige kamer, de verkeerde taal of het verkeerde model.

Laatst bijgewerkt: juni 2026

Close-up van een studio-condensatormicrofoon, als opmaat naar een gesprek over waarom spraakdictaat misgaat

Dictaat is meestal onnauwkeurig door de instellingen, niet omdat de software kapot is. De grootste boosdoeners zijn een slechte microfoon, een rumoerige kamer, de verkeerde taalinstelling en een model dat niet bij je machine past. Schoon geluid in een rustige ruimte met de juiste taal brengt de meeste mensen rond de 95% nauwkeurigheid — zo'n één fout woord op de twintig.

Ik heb ooit een familielid een headset door de kamer zien gooien. Het was eind jaren negentig, de computer was een Windows 98-desktop met 64MB RAM en de software was Dragon NaturallySpeaking. Het trainen duurde 45 minuten — je las een lijst woorden hardop voor om het te "ijken". Daarna werkte het, een beetje, met misschien 70% nauwkeurigheid en vier seconden vertraging per zin. Vijftien minuten om één alinea van een kerstbrief te dicteren. De headset overleefde het. Het dictaatexperiment niet.

Ik haal dat aan omdat de frustratie in je vraag oud is, maar de oorzaak is veranderd. Modern dictaat heeft geen ijkritueel van 45 minuten meer nodig. Als het nu woorden verkeerd verstaat, ligt dat bijna nooit aan een dom model. Het ligt eraan dat het geluid dat het model bereikt slechter is dan je denkt — en een verrassend groot deel daarvan is in minder dan een minuut te verhelpen. De nauwkeurigheid van Whisper in lokale modus ligt tussen de 95% en 99% op schoon Engels geluid — maar dat getal gaat uit van een paar dingen die vaak niet kloppen.

Dit is een diagnose, geen lijstje met snelle trucjes. We gaan uitzoeken welke van vijf dingen je transcriptie sloopt, ongeveer op volgorde van hoe vaak elk de echte oorzaak is. Wil je de uitgebreide uitleg over microfoon en eigen woorden, dan is onze gids om dictaat te repareren dat de verkeerde woorden typt het juiste adres. Dit stuk helpt je eerst de oorzaak te vinden, zodat je het juiste probleem aanpakt.

Welke nauwkeurigheid is eigenlijk realistisch

Close-up van een blauwe staafgrafiek op papier, ter illustratie van realistische verwachtingen voor transcriptiepercentages

Hier is het getal dat niemand op zijn marketingpagina zet. Spraakherkenning wordt gemeten in word error rate, oftewel WER — het aandeel woorden dat het systeem fout heeft, geteld als substituties, weglatingen en invoegingen ten opzichte van wat je daadwerkelijk zei. Lager is beter. Een WER van nul is een perfecte transcriptie; woordnauwkeurigheid is gewoon één min WER.

Op de schone Engelse LibriSpeech-benchmark noteert Whispers medium Engelse model ongeveer 3% WER — grofweg 97% nauwkeurigheid. Het small Engelse model komt rond de 5,1% WER, zo'n 95%. Dat zijn cijfers voor schoon geluid: een rustige kamer, een goede microfoon, een zorgvuldige spreker. Het echte leven voegt ruis, accenten, dooreen praten en jargon toe, en elk daarvan jaagt de WER terecht omhoog.

Dus wat is normaal? Ongeveer 95% op fatsoenlijk Engels geluid — één fout woord op de twintig. Dat is geen defect. Zo hoort de tool te werken. Zit je op 85% in een rumoerige keuken met een ingebouwde laptopmicrofoon, dan is de software niet kapot — de omstandigheden zijn slechter dan het model nodig heeft. De oplossing zijn de omstandigheden, niet een groter model. Leg de lat bij "één kleine correctie per alinea" en de meeste woede stroomt uit de ervaring weg.

De vijf verdachten, op volgorde van waarschijnlijkheid

Vergrootglas op een blauw oppervlak, dat de zoektocht oproept naar wat de transcriptie sloopt

Als dictaat misgaat, is de oorzaak bijna altijd een van vijf dingen. Loop deze lijst op volgorde af. De eerste twee vangen de meeste gevallen.

  1. De taalinstelling. Jij spreekt de ene taal; de tool luistert naar een andere, of gokt maar wat.
  2. De microfoon. Een ingebouwde laptopmicrofoon op een meter afstand hoort vooral je kamer en nauwelijks je mond.
  3. De kamer. Achtergrondgeluid, een tv, een galmende keuken — het model transcribeert het allemaal.
  4. Het model. Je koos er een die te zwaar is voor je hardware, dus het is traag of het hapert.
  5. De verwachting. Het geluid is prima en de tool is prima; je meet af tegen 100%, en dat haalt niets.

Een zelftest van 60 seconden: dicteer dezelfde twee zinnen drie keer — één keer in een stille kamer dicht bij de microfoon, één keer aan de andere kant van de kamer, één keer met muziek aan. Schommelt de nauwkeurigheid sterk tussen die opnames, dan ligt je probleem bij het geluid (verdachten 2 en 3), en geen softwarewijziging verslaat de microfoon dichterbij zetten en de deur dichtdoen. Is het zelfs bij de stille opname dichtbij al slecht, kijk dan naar de taalinstelling en het model. Die ene test sorteert de meeste mensen in een minuut.

Oorzaak 1: de verkeerde taalinstelling

Twee wereldbollen op een grijze achtergrond, als symbool voor het kiezen van de juiste taal en het juiste accent

Dit is de tienseconden-fix die niemand als eerste controleert. Weet je welke taal je spreekt, kies die dan expliciet in de instellingen in plaats van de tool op automatisch herkennen te laten staan. Stel je een specifieke taal in, dan stopt de tool met gokken welke taal het hoort en steekt het alle energie in de juiste woorden — merkbaar sneller en betrouwbaarder.

De valkuilen van een verkeerde keuze zijn reëel. Whispers meertalige modellen dekken 99 talen met automatische herkenning, maar de Engels-only modellen zitten vast op Engels — voer ze een andere taal en je krijgt onzin. Lokale Parakeet werkt met Engels plus 24 Europese talen en niets daarbuiten, dus Japans erin dicteren werkt nooit, hoe schoon je microfoon ook is. En wissel je echt midden in een zin van taal, dan wil je een meertalig Whisper-model met automatische herkenning, geen Engels-only model. Stem de instelling af op de woorden die uit je mond komen en een flink stuk "onnauwkeurigheid" verdwijnt nog voor je iets anders aanraakt.

Oorzaak 2: je microfoon richt meer schade aan dan je accent

Condensatormicrofoon met popfilter in een studio, ter illustratie van apparatuur die de geluidskwaliteit bepaalt

Mensen geven hun accent de schuld. Het is bijna altijd de microfoon. Jarenlang gaf ik de mijne de schuld — bleek dat mijn stem prima was en mijn gratis laptopmicrofoon het probleem. Hier is de mening die ik zal verdedigen: "AI" repareert geen slecht geluid. Een USB-microfoon van $20 doet meer voor de nauwkeurigheid dan welke modelupgrade ook — de microfoon en een rustige kamer zijn de twee grootste hefbomen voor nauwkeurigheid, belangrijker dan welk model je kiest. Steek het geld in hardware voordat je het in een grotere download steekt.

Het mechanisme is saai en fysiek. Een ingebouwde laptopmicrofoon zit een halve meter of meer van je mond en pikt het bureau, de ventilator en de kamer op. Een headsetmicrofoon of een USB-microfoon op vijftien centimeter hoort je stem en weinig anders. De tool kan alleen transcriberen wat het bereikt, en een wazig, ver, rumoerig signaal geeft het minder om mee te werken — dus het gokt, en gokken is hoe je de verkeerde woorden krijgt. Ik ga hier niet het hele microfoon-en-woordenschat-draaiboek opnieuw uitleggen; onze diepere duik over dictaat dat de verkeerde woorden typt behandelt microfoonplaatsing, ingangsversterking en eigen woordenschat in detail. Voor dit artikel is het punt smaller: zakte de nauwkeurigheid in je drie-opnames-test in op afstand, dan is je microfoon de verdachte, niet je stem.

Oorzaak 3: de kamer, niet de woorden

Microfoon met popfilter in een akoestisch behandelde muziekstudio, een geluidsarme omgeving voor heldere opname

Een microfoon kan een kamer niet ontkennen. Staat er een tv aan, draait er een vaatwasser, zit er een kantoortuin achter je, of bekvechten kinderen twee meter verderop over de regels van een bordspel, dan transcribeert het model die energie naast je stem. Het weet niet welk geluid het is dat je bedoelde.

De oplossing is gênant laagdrempelig: doe de deur dicht, zet de muziek uit, ga bij de ventilator vandaan. Zachte oppervlakken helpen — een kamer met een vloerkleed en gordijnen is vriendelijker voor een microfoon dan een betegelde keuken met kale muren, waar je stem weerkaatst en twee keer aankomt. Je hebt geen akoestisch schuim nodig. Je hebt nodig dat de vaatwasser zijn programma afmaakt. Ik heb e-mails voor school gedicteerd terwijl ik broodtrommels vulde en het model hield prima bij — maar dat kwam doordat de keuken stil was, niet doordat de software magie is. Op het moment dat de blender start, daalt de nauwkeurigheid, en dat is geen bug om te melden.

Oorzaak 4: het model past niet bij je hardware

Whisper
De echte Whisper-app — hij biedt drie paden en laat je het model kiezen dat bij je machine past. Klik door de Instellingen; het is live.

Dit is degene die de concurrenten als een zwarte doos behandelen, en het is belangrijk. Groter is niet altijd beter. Kies een model dat te zwaar is voor je machine en het loopt traag, raakt achterop en de ervaring voelt kapot, zelfs als de nauwkeurigheid op papier prima is.

Whisper by Remskill kiest geen model voor je. Het biedt drie paden en laat je kiezen: Cloud-modus met je eigen OpenAI-sleutel, lokale Parakeet of lokale Whisper. Cloud-modus draait op elke hardware omdat het simpelweg een netwerkaanroep is. Lokaal draait het allemaal om RAM. Op een machine met 8 GB draaien Parakeet (~600 MB), het Base-model of het Small-model comfortabel, en heeft het Medium-model het zwaar. De grootste Whisper-modellen — Large v3 met ~3 GB, of Turbo — willen 16 GB of meer en profiteren het meest van een aparte GPU. De meertalige optie met de beste nauwkeurigheid is Large v3, die 99 talen ondersteunt maar die 16 GB ruimte nodig heeft.

De druk-om-te-praten-flow is hetzelfde welk pad je ook kiest — houd de sneltoets ingedrukt, spreek, laat los, en de tekst wordt op je cursor geplakt. De standaard sneltoets is Ctrl+Space op Windows en de Command+Option-combinatie op macOS, beide te wijzigen in Instellingen. Niet zeker welk model bij je laptop past? Onze gids om het juiste Whisper-model te kiezen koppelt er elk aan de hardware die het nodig heeft. De vuistregel: een model dat past en snel draait verslaat een groter model dat hapert.

Wanneer de tool echt het probleem is, en wanneer het gewoon natuurkunde is

Soms heb je alles goed gedaan — microfoon dichtbij, rustige kamer, juiste taal, verstandig model — en zit er nog steeds één fout woord op de vijftien in. Dat kan het echte plafond zijn. Zware accenten waar het model weinig van heeft gezien, dicht technisch jargon, twee mensen die door elkaar praten, een telefoonluidspreker aan de andere kant — die jagen de WER terecht omhoog, en geen instelling lost ze volledig op. Voor namen en vakjargon laten lokale Whisper en Cloud-modus je een lijst met Eigen woorden toevoegen die de herkenning naar de juiste spelling stuurt; Parakeet neemt die hints niet aan. Maar "het leert mijn stem hoe meer ik het gebruik" is een mythe uit het Dragon-tijdperk — moderne spraak-naar-tekst past zich niet mettertijd aan jouw individuele stem aan, en geen enkele hoeveelheid herhaling traint het. De hefboom is het geluid en de instellingen, niet geduld.

Wanneer je hiervoor Whisper kunt overslaan

Verstuur je alleen een sms'je van 20 woorden of een snel notitietje, download dan niets. Je besturingssysteem dicteert al. Op een Mac is Apple Dictation ingebouwd en gratis — druk op de microfoontoets of de sneltoets, en op ondersteunde systemen wordt het op het apparaat zelf verwerkt. Het stopt vanzelf na 30 seconden stilte, dus het past beter bij korte uitbarstingen dan bij langere teksten. In Word doet Microsofts Dictate hetzelfde met een microfoon en een internetverbinding.

Grijp naar een speciale tool zodra je hele alinea's dicteert, het offline wilt laten werken, of nauwkeurigheid nodig hebt op namen en jargon waar de ingebouwde tools over struikelen — onze overzicht van alternatieven voor Apple Dictation behandelt de opties. Voor een antwoord van één regel is de gratis ingebouwde tool de juiste keuze.

Meestal is het antwoord op "waarom is mijn dictaat zo onnauwkeurig" geen bekentenis over je stem. Het is een halve meter afstand tot de microfoon en een vaatwasser waarvan je vergat dat hij draaide. Repareer het geluid, stel de juiste taal in, kies een model dat je laptop aankan, en beoordeel het dan tegen 95%, niet 100%. Het familielid met de Dragon-headset vocht tegen 1999. Jij niet. Jij vecht vooral tegen je keuken.

Wil je het binnen een minuut weten?

Download Whisper en doe de drie-opnames-test — binnen een minuut weet je of het de tool is, de kamer, of gewoon natuurkunde.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze support-e-mail leest, hoogstwaarschijnlijk door de antwoorden te dicteren.