What is a good word error rate for Whisper?

On clean, read English, Whisper's medium model is documented at around 3% word error rate and the small model around 5%. For context, professional human transcriptionists land near 4% on clean audio, so Whisper is roughly at human level on that kind of recording. Real-world WER is higher because everyday audio is noisier than a benchmark.

Is Whisper accurate enough for professional work?

Yes, for dictation, notes, drafts, and meeting recaps on clear audio in a well-supported language. It is not perfect, so anything high-stakes — names, numbers, legal or medical terms — deserves a final read-through. The headline accuracy number treats every word equally, but the one word that matters is the one you should always check.

What hurts Whisper's accuracy the most?

Background noise and a poor microphone are the biggest factors, ahead of the model you choose. After that come heavy accents on technical jargon, low-resource languages, and overlapping speakers, which Whisper handles worst because it's built for one voice at a time. A quiet room and a decent mic fix more than any model upgrade.

Does a bigger Whisper model mean better accuracy?

Generally yes — larger models are more accurate and slower, with Large v3 the most accurate local option. But the gap between a small and a large model on clean audio is only a few points of WER, smaller than the gap between a laptop mic and a USB mic. Turbo is a popular middle ground: about 6 times faster than Large v3 with roughly 99% of its accuracy.

How can I improve my own transcription accuracy?

Fix the microphone first, then quiet the room, then match the model to the job. A $20 USB mic does more for accuracy than any model upgrade. On local Whisper you can add custom vocabulary and hotwords to bias toward names and jargon, and an AI cleanup pass fixes punctuation and filler after the fact.

How accurate is Whisper for languages other than English?

Whisper's multilingual models cover 99 languages, with English best-supported and major European and Asian languages strong. Low-resource languages have less training data and are more error-prone. Translate-to-English is multilingual Whisper only — not the English-only builds, and not Parakeet, which covers 25 languages. Test your specific language on your own audio before trusting it.

Is cloud transcription more accurate than local Whisper?

Cloud mode (OpenAI, using your own key) generally has the edge in raw accuracy, with local Large v3 a close second. But accuracy is decided by your audio first: a clean local recording beats a muffled cloud one. For most dictation, local is plenty and keeps everything on your machine. Reach for cloud on genuinely hard recordings or when you need web access.

Does the AI cleanup pass improve accuracy?

It improves readability, not raw transcription accuracy. The model's job is to hear your words correctly; the cleanup pass adds punctuation, strips filler, and tidies run-ons so the correct words read like edited prose. It runs through Ollama locally or gpt-5-mini in cloud mode, triggered by the phrase "Hey whisper."

Door Denys Medvediev2 april 2026

Uitleg

Hoe nauwkeurig is Whisper echt

Whisper is erg nauwkeurig bij helder Engels en sterk in de meeste grote talen, maar het is niet perfect. De grootste invloed op jouw nauwkeurigheid heeft de microfoon en een stille ruimte — niet het model dat je kiest. Een AI-correctieslag ruimt daarna de interpunctie en stopwoorden op.

Laatst bijgewerkt: juni 2026

Blauwe audiogolf op een donker scherm, als weergave van spraak die wordt gemeten op transcriptienauwkeurigheid

Whisper is nauwkeurig genoeg voor dagelijkse dictatie en professionele notities: het scoort een woordfoutpercentage van ongeveer 3% op helder uitgesproken Engels met het medium-model. De nauwkeurigheid daalt bij accenten, achtergrondgeluiden, jargon en meerdere gelijktijdige sprekers. De grootste winst boekt de meeste mensen met een betere microfoon en een stille ruimte — niet met een groter model.

"Hoe nauwkeurig is Whisper" is een van die vragen met een eerlijk antwoord en een marketingantwoord, en die zijn niet hetzelfde. Het marketingantwoord luidt: 'ongelooflijk nauwkeurig, toonaangevend.' Het eerlijke antwoord is: 'zeer goed bij een schone opname, merkbaar minder bij een slechte, en dat verschil zit hem grotendeels in de microfoon.' Ik heb hetzelfde model een zin feilloos zien transcriberen via een USB-microfoon van twintig euro, en dezelfde zin kreupel zien afleveren via een laptopmic midden in een lawaaierige keuken.

Dit is dan ook geen benchmark-ranglijstpost. Het is het antwoord dat ik een vriend zou geven die vraagt of hij spraaktypen kan vertrouwen voor serieus werk. Korte versie: ja, met kanttekeningen die je zelf kunt sturen. Lange versie hieronder, inclusief het ene getal dat er echt toe doet en de drie dingen die de nauwkeurigheid stiekem om zeep helpen, hoe goed het model ook is.

Dit is wat de meeste 'Whisper-nauwkeurigheid'-pagina's overslaan. Nauwkeurigheid is geen vast getal. Het is een getal dat verschuift met de modelgrootte, de taal die je spreekt, en — meer dan die twee samen — de kwaliteit van het geluid dat erin gaat. Een klein model op een schone opname verslaat een groot model op een gedempte opname, elke keer weer.

Onderzoekers meten dit met het woordfoutpercentage, doorgaans WER (Word Error Rate) genoemd. Het is het percentage woorden dat het systeem fout transcribeert. Whisper's gepubliceerde WER op helder Engels is laag. Jouw WER op een dinsdagmiddag met de vaatwasser aan is een heel ander verhaal. Ik leg uit wat het getal betekent, wat Whisper daadwerkelijk scoort, wat het naar beneden trekt, en de saaie maar goedkope oplossing die meer helpt dan welke modelupgrade dan ook.

Wat 'nauwkeurigheid' echt betekent: woordfoutpercentage

Close-up van een audiobewerkingsgolf op een donker scherm, als illustratie van gemeten spraakfouten

Als mensen zeggen dat een transcriptiesysteem '95% nauwkeurig' is, bedoelen ze bijna altijd het woordfoutpercentage, ofwel WER. Het is de simpelste eerlijke maatstaf die er is: neem een bekende passage, laat het systeem die transcriberen, en tel de fout gegane woorden. Een WER van 5% betekent dat 5 op de 100 woorden niet kloppen — een vervangwoord, een weglating, of een ingevoegd woord dat niet gezegd is. Lager is beter. Nul zou perfect zijn, en niets in de praktijk haalt nul.

Dat laatste punt is belangrijk, dus ik zeg het ronduit. Geen enkel spraaksysteem is perfect, en elk product dat dat beweert, rondt de hoeken af voor een presentatiedia. Professionele menselijke transcribenten zijn evenmin perfect — zij scoren bij schone audio ergens rond de 4% WER, en slechter bij moeilijke opnames. Dus als je leest dat Whisper '3% WER' haalt, betekent dat ruwweg menselijk niveau op dat soort audio, niet magie. Het is een gereedschap dat het meestal goed doet en soms fout, net als elk ander gereedschap.

Nog een nuance die dertig seconden waard is. WER telt elk woord gelijk, maar dat komt niet overeen met hoe je fouten echt ervaart. Dat Whisper 'hun' als 'hen' transcribeert, is een eenwoordfout die nauwelijks opvalt. Dat het de naam van een klant of een medicijndosering verkeerd heeft, is ook een eenwoordfout maar verpest de zin volledig. Het kopgetal geeft je dus de grote lijn; het vertelt niet of het ene woord dat ertoe doet, het heeft overleefd. Dat is waarom een laatste leesronde nooit uit de mode raakt, hoe laag de WER ook is.

Hoe nauwkeurig is Whisper in de praktijk

Bij helder uitgesproken Engels is Whisper werkelijk sterk. De openbaar gedocumenteerde benchmarks plaatsen het medium-model op ongeveer 3% woordfoutpercentage op een standaard testset voor schone spraak, en het kleinere model op ongeveer 5%. In gewone taal: bij een fatsoenlijke opname van iemand die duidelijk spreekt, heb je het over één of twee foutieve woorden per paar zinnen — doorgaans een homofoon of een weggelopen komma, niet een verminkte betekenis. Voor het dicteren van e-mails, notities en concepten is dat ruimschoots boven de drempel waarbij het je tijd bespaart in plaats van kost.

De werking in de app is gelijk, ongeacht hoe nauwkeurig de run uitvalt. Je drukt een sneltoets in, spreekt, laat los, en de transcriptie wordt ingeplakt op je cursor in elke app die focus heeft. Terwijl je praat verschijnt een kleine capsule zodat je weet dat er geluisterd wordt. Wat je in die capsule ziet, is de live opname — de nauwkeurigheidsvraag wordt beslist in de halve seconde nadat je loslaat, wanneer het model die audio omzet in tekst.

Cancel

De opname-overlay: een kleine capsule die verschijnt terwijl je spreekt, zodat je weet dat Whisper luistert.

De eerlijke kanttekening staat pal naast het goede getal. Die benchmarkcijfers zijn schone uitgesproken spraak in een lab. Jouw keuken, jouw accent, jouw gewoonte om halverwege een zin af te haken — dat zit allemaal niet in de testset. De benchmark geeft het plafond aan. De rest van deze gids gaat over hoe dichtbij dat plafond je in de praktijk komt, en de knoppen die dat bepalen. Spoiler: de grootste is niet het model.

Wat het getal echt omhoog of omlaag trekt

Drie dingen bepalen jouw praktijknauwkeurigheid veel meer dan de modelnaam: de audio, de taal en de woorden zelf. Geluidskwaliteit staat op ruime afstand op de eerste plek. Een ingebouwde laptopmic die kamerechо opvangt, een ventilator, en een kind dat vraagt waarom de maan er soms niet is, geeft elk model een zwaarder probleem dan een podcastmicrofoon in een stille kamer. Hetzelfde model, dezelfde zin, kan van bijna perfect naar merkbaar fout gaan puur door de opname. Dit is de knop die bijna niemand aanpast en die het meest oplevert.

Taal is de tweede knop. Whisper's meertalige versies ondersteunen 99 talen, maar die dekking is niet vlak. Engels is het best ondersteund, de grote Europese en Aziatische talen zijn sterk, en laagdrempelige talen — met minder trainingsdata op het internet — zijn zwakker en foutgevoeliger. Vertalen naar het Engels is alleen mogelijk met de meertalige Whisper-versies; de Engelstalige builds doen dat niet, en Parakeet's 25 talen ook niet. Dus '99 talen ondersteunen' is waar, maar betekent niet dat alle 99 even nauwkeurig zijn. Test je specifieke taal op je eigen audio voordat je het vertrouwt voor iets belangrijks.

De derde knop is de inhoud. Accenten verschuiven het getal — Whisper verwerkt een brede reeks accenten zonder enige 'training', maar een zwaar accent op technisch jargon is het slechtste geval voor elk systeem. Domeinvocabulaire speelt ook op: ongewone productnamen, medische of juridische termen, achternamen die het nooit heeft gezien. En overlappende sprekers zijn de echte harde muur — Whisper is gebouwd voor één stem tegelijk, dus twee mensen die door elkaar praten levert een chaos op. Bij lokale Whisper kun je tegenwicht bieden met een aangepast woordenboek en hotwords, waarmee je het kunt sturen richting de namen en termen die je daadwerkelijk gebruikt. Parakeet biedt geen hotwords, en dat is een valide reden om Whisper te kiezen als je werk vol eigennamen zit.

Groter model, meer nauwkeurigheid, minder snelheid

Er is een echte afweging tussen nauwkeurigheid en snelheid, en de app laat je die zien in plaats van haar te verbergen. Als vuistregel geldt: hoe groter het Whisper-model, hoe nauwkeuriger het is en hoe langzamer het draait. Het Engelstalige Small-model is ongeveer 480 MB en snel; Medium is circa 1,5 GB en nauwkeuriger; het meertalige Large v3 is ruwweg 3 GB en de beste nauwkeurigheid die er is, maar het wil 16 GB RAM en een recente machine om vlot aan te voelen. Kies het grootste model dat jouw hardware comfortabel aankan, niet het grootste dat bestaat.

De interessante uitzondering is Turbo. Whisper's Turbo-versie (distil-large-v3) is gedocumenteerd als ruwweg 6 keer sneller dan Large v3, terwijl het circa 99% van de nauwkeurigheid behoudt. Dat is het zoete midden waar veel mensen op uitkomen: bijna de kwaliteit van het grootste model zonder het wachten. Het is ongeveer 1,5 GB. Als je sterke nauwkeurigheid wilt zonder een laadbalk te hoeven aanstaren, is Turbo de pragmatische middenweg.

Dit herschikt de hele afweging. Het nauwkeurigheidsverschil tussen een klein model en het grootste is echt, maar kleiner dan je zou verwachten — een paar procentpunten WER op schone audio. Het nauwkeurigheidsverschil tussen een laptopmic en een fatsoenlijke USB-mic op hetzelfde model is groter. Dus voordat je 3 GB downloadt op jacht naar het laatste nauwkeurigheidspuntje: sluit een betere mic aan en neem op in een stille ruimte. De saaie waarheid is dat de meeste 'het model heeft het fout' klachten eigenlijk 'de ruimte heeft het fout' zijn.

Lokaal of cloud: waar de beste nauwkeurigheid zit

De app kiest geen pad voor je. Hij biedt drie opties en laat je kiezen op basis van wat je zoekt — snelheid, taaldekking of topnauwkeurigheid. Wat nauwkeurigheid betreft, hier is hoe ze zich verhouden, want het verschil is echt en de moeite waard om te begrijpen voordat je een opname aan een van hen toevertrouwt.

De drie paden, gerangschikt op nauwkeurigheid:

Lokale Parakeet — NVIDIA's TDT-engine, circa 600 MB, de snelste lokale optie op 5 tot 10 keer sneller dan Whisper op CPU. Nauwkeurigheid is goed — niet zo goed als Large-v3, maar meer dan genoeg voor dagelijkse Engelstalige dictatie. Ondersteunt Engels plus 24 Europese talen, 25 in totaal. Geen vertaling naar het Engels, geen hotwords. Kies dit als snelheid telt en je voornamelijk Engels spreekt.
Lokale Whisper — langzamer dan Parakeet op dezelfde machine, maar de meertalige versies bereiken 99 talen, vertalen naar het Engels, en laten je sturen met aangepast woordenboek en hotwords — de nauwkeurigheidscontroles die ertoe doen voor eigennamen en jargon. De grootste versie (Large v3) is de nauwkeurigste lokale optie. Kies dit voor meertalig werk, vertaling of fijnere controle.
Cloud (OpenAI, BYOK) — toonaangevende nauwkeurigheid en webtoegang met je eigen OpenAI-sleutel, direct gefactureerd door OpenAI. Transcriptie verloopt standaard via gpt-4o-mini-transcribe. Het heeft internet nodig, dus dit is het enige pad waarbij je audio jouw machine verlaat. De cloudfunctie is onderdeel van Whisper Pro.

De eerlijke rangschikking voor ruwe nauwkeurigheid is ruwweg: cloud bovenaan, lokale Large v3 op een goede tweede plek, Parakeet als capabele derde voor Engels. Maar 'topnauwkeurigheid' wint alleen als je audio schoon genoeg is om er iets mee te kunnen. Een gedempte opname van aan de andere kant van de kamer naar de cloud sturen, verslaat een schone lokale Whisper-opname niet. Voor de meeste dictatie draaien beide lokale engines volledig op jouw machine zonder iets naar een server te sturen, en dat is ruimschoots voldoende. Grijp naar de cloud bij een echt moeilijke opname of als je midden in een zin iets van het web nodig hebt.

Vier manieren om je eigen nauwkeurigheid te verbeteren

Whisper's plafond wordt bepaald door het model. Je vloer wordt bepaald door alles eromheen, en op die vloer verliezen de meeste mensen nauwkeurigheid. Het goede nieuws is dat de oplossingen goedkoop zijn en een paar minuten kosten. Hier zijn de vier die ertoe doen, op volgorde van impact.

Stap 1 — Fix eerst de microfoon.

Een USB-mic van twintig euro doet meer voor de nauwkeurigheid dan welke modelupgrade dan ook. Houd hem dichtbij, schuin voor je mond zodat hij niet plomt, en uit de buurt van een laptopventilator. Dit is de enkelvoudige verandering met de hoogste opbrengst.

Je weet dat het werkt wanneer dezelfde zin die gebrabbeld uitkwam via de laptopmic nu helder verschijnt.

Stap 2 — Maak de ruimte stil.

Doe de deur dicht, pauzeer de muziek, wacht tot de vaatwassercyclus klaar is. Achtergrondgeluid en echo zijn wat de meeste 'het model heeft het fout' momenten eigenlijk zijn. Een stille ruimte kost niets.

Je weet dat het werkt wanneer stopwoorden en half-gevangen zinsneden niet meer in de transcriptie opduiken.

Stap 3 — Stem het model af op de taak.

Kies het grootste model dat jouw machine comfortabel aankan, of Turbo voor topnauwkeurigheid op snelheid. Voor namen en jargon bij lokale Whisper: voeg een aangepast woordenboek en hotwords toe zodat het naar jouw termen neigt.

Je weet dat het werkt wanneer een model klaar is met downloaden, als gereed verschijnt, en je eigennamen correct worden weergegeven.

Stap 4 — Laat een AI-slag het opruimen.

Ruwe dictatie is één grote aaneengeschakelde zin vol stopwoorden. Whisper kan een AI-correctieslag uitvoeren die interpunctie toevoegt, de 'eh's verwijdert en de zin opruimt voordat die verschijnt. Zeg de activeringsphrase "Hey whisper" om het te activeren.

Je weet dat het werkt wanneer de ingeplakte tekst leest als geredigeerde proza in plaats van een transcript.

Whisper

De echte Whisper-desktopapp op het instellingenscherm, met de panelen Transcriptie en AI geopend.

Die laatste stap is de moeite waard om te zien, want hij verandert wat 'nauwkeurigheid' voor jouw output überhaupt betekent. De transcriptie kan woordperfect zijn en toch lezen als een aaneengeschakelde zin, omdat dat nu eenmaal is hoe mensen praten. De correctieslag herstelt de leesbaarheid die WER nooit meet. Bij een lokaal model loopt het via Ollama; in de cloudmodus is het standaard gpt-5-mini. Hier is dezelfde zin voor en na de slag:

Thinking...

De overlay tijdens de AI-correctieslag, voordat de opgeruimde tekst op je cursor verschijnt.

Ruw

eh dus de nauwkeurigheid komt eigenlijk neer op de mic niet het model en zo helpt een stille kamer meer dan mensen denken

Opgeruimd

De nauwkeurigheid komt eigenlijk neer op de microfoon, niet het model — en een stille kamer helpt meer dan mensen denken.

Merk op dat de correctieslag geen enkele betekenis heeft veranderd; het voegde interpunctie toe en verwijderde de stopwoorden die de ruwe transcriptie met zich meebracht. Dat is het deel dat mensen verwarren met nauwkeurigheid, en dat zou je niet moeten doen. De taak van het model is je correct horen. De taak van de AI-slag is de correcte woorden goed laten lezen. Zorg dat de mic en de ruimte in orde zijn, en beide taken worden makkelijker. Als je de spreek-en-ruim-op-stroom in elke app wilt, doet dezelfde sneltoets schone proza dicteren in elke app, niet alleen in één.

Het eerlijke oordeel over Whisper's nauwkeurigheid

Een weegschaal op een donker oppervlak, als illustratie van een eerlijke afweging van sterke punten en beperkingen

Dus, het rechttoe-rechtaan antwoord. Whisper is nauwkeurig genoeg om op te vertrouwen voor serieus werk — e-mails, notities, concepten, vergadersamenvattingen — bij schone audio in een goed ondersteunde taal. Het is niet perfect en beweert dat ook niet. Accenten, achtergrondgeluiden, zwaar jargon en overlappende sprekers trekken het getal omlaag, en geen enkel modelbadge redt een slechte opname volledig. Als je hoopte op '100% nauwkeurig': het eerlijke antwoord is dat niets dat haalt, en wie dat verkoopt, verkoopt een presentatiedia.

Wanneer hoef je de nauwkeurigheid van Whisper-niveau niet na te jagen? Als je alleen af en toe een zinnetje van dertig woorden dicteert, doet je besturingssysteem dit al gratis. Op Windows: druk op de Windows-toets + H om Spraaktypen te openen waar je cursor ook staat — het interpunctueert zelf, maar verloopt via Microsoft's servers en heeft internet nodig, dus het werkt niet offline. Op Mac: Dicteer in Systeeminstellingen typt in elk veld, en op Apple Silicon kan algemene tekst on-device worden verwerkt. Voor korte flarden zijn die prima, en ik ga je niet aanraden iets te installeren voor een eenregelige herinnering. Een speciale tool verdient zijn plek bij langere notities, meertalig werk, offline privacy en de nauwkeurigheidscontroles — hotwords, modelkeuze, een correctieslag — die de ingebouwde opties niet bieden.

Als je de lokale engines met elkaar vergelijkt, is de afweging nauwkeurigheid-versus-snelheid de kern van de beslissing, en die wordt helder uitgelegd in welk Whisper-model je moet kiezen en de Parakeet-modelanalyse. Voor de meeste mensen is het antwoord weinig glamoureus: een middelgroot model, een fatsoenlijke mic, een stille kamer en een correctieslag. Die combinatie brengt je op een haar na de benchmark, op de audio die je daadwerkelijk opneemt.

Als nauwkeurigheid je zorg is omdat je de cloud volledig wilt vermijden, vind je in offline spraak naar tekst hoe lokale modellen het doen zonder netwerk.

Ik heb vroeg een week lang overtuigd geleefd dat een modelupgrade mijn transcripties zou repareren, 3 GB gedownload, en misschien een punt WER teruggekregen. Toen kocht ik een USB-mic van twintig euro en verhuisde ik van de keukentafel, en diezelfde middag werden de transcripties merkbaar schoner. Het model was nooit het probleem. De ruimte was het. Whisper is erg nauwkeurig; of je dat ook ziet, hangt af van wat je het voert.

Hoor het zelf op jouw eigen stem

Download Whisper, sluit een fatsoenlijke mic aan en dicteer een alinea. Nauwkeurigheid is veel makkelijker te beoordelen op je eigen audio dan op iemand anders' benchmark.

Download Whisper Bekijk hoe het werkt

Gratis lokale modus voor elk ingelogd account. Geen betaalkaart vereist om te starten.

Denys Medvediev

Ik ben degene die onze supportmail leest, waarschijnlijk door de antwoorden in te dicteren.

Verder lezen

Veelgestelde vragen

Op helder uitgesproken Engels scoort Whisper's medium-model gedocumenteerd ongeveer 3% woordfoutpercentage en het small-model ongeveer 5%. Ter vergelijking: professionele menselijke transcribenten scoren bij schone audio rond de 4%, dus Whisper zit ruwweg op menselijk niveau bij dat soort opnames. In de praktijk is de WER hoger, omdat alledaagse audio rumoeriger is dan een benchmark.