What is a good word error rate for Whisper?

On clean, read English, Whisper's medium model is documented at around 3% word error rate and the small model around 5%. For context, professional human transcriptionists land near 4% on clean audio, so Whisper is roughly at human level on that kind of recording. Real-world WER is higher because everyday audio is noisier than a benchmark.

Is Whisper accurate enough for professional work?

Yes, for dictation, notes, drafts, and meeting recaps on clear audio in a well-supported language. It is not perfect, so anything high-stakes — names, numbers, legal or medical terms — deserves a final read-through. The headline accuracy number treats every word equally, but the one word that matters is the one you should always check.

What hurts Whisper's accuracy the most?

Background noise and a poor microphone are the biggest factors, ahead of the model you choose. After that come heavy accents on technical jargon, low-resource languages, and overlapping speakers, which Whisper handles worst because it's built for one voice at a time. A quiet room and a decent mic fix more than any model upgrade.

Does a bigger Whisper model mean better accuracy?

Generally yes — larger models are more accurate and slower, with Large v3 the most accurate local option. But the gap between a small and a large model on clean audio is only a few points of WER, smaller than the gap between a laptop mic and a USB mic. Turbo is a popular middle ground: about 6 times faster than Large v3 with roughly 99% of its accuracy.

How can I improve my own transcription accuracy?

Fix the microphone first, then quiet the room, then match the model to the job. A $20 USB mic does more for accuracy than any model upgrade. On local Whisper you can add custom vocabulary and hotwords to bias toward names and jargon, and an AI cleanup pass fixes punctuation and filler after the fact.

How accurate is Whisper for languages other than English?

Whisper's multilingual models cover 99 languages, with English best-supported and major European and Asian languages strong. Low-resource languages have less training data and are more error-prone. Translate-to-English is multilingual Whisper only — not the English-only builds, and not Parakeet, which covers 25 languages. Test your specific language on your own audio before trusting it.

Is cloud transcription more accurate than local Whisper?

Cloud mode (OpenAI, using your own key) generally has the edge in raw accuracy, with local Large v3 a close second. But accuracy is decided by your audio first: a clean local recording beats a muffled cloud one. For most dictation, local is plenty and keeps everything on your machine. Reach for cloud on genuinely hard recordings or when you need web access.

Does the AI cleanup pass improve accuracy?

It improves readability, not raw transcription accuracy. The model's job is to hear your words correctly; the cleanup pass adds punctuation, strips filler, and tidies run-ons so the correct words read like edited prose. It runs through Ollama locally or gpt-5-mini in cloud mode, triggered by the phrase "Hey whisper."

Af Denys Medvediev2. april 2026

Forklaring

Hvor præcis er Whisper, egentlig

Whisper er meget præcis på klar engelsk lyd og klarer sig godt på de fleste store sprog, men den er ikke perfekt. Den allerstørste faktor for din nøjagtighed er mikrofonen og et stille rum – ikke hvilken model du vælger. Et AI-eftertjek retter tegnsætning og fyldord bagefter.

Sidst opdateret: juni 2026

Blå lydbølge på en mørk skærm, der illustrerer tale, som måles for transskriptionsnøjagtighed

Whisper er præcis nok til daglig diktering og professionelle noter og opnår ca. 3 % ordfejlrate på tydelig oplæst engelsk med medium-modellen. Nøjagtigheden falder ved accenter, baggrundsstøj, fagtermer og overlappende stemmer. Den største forbedring, de fleste kan gøre, er en bedre mikrofon og et stille rum – ikke en større model.

"Hvor præcis er Whisper" er et af de spørgsmål, der har et ærligt svar og et marketingsvar, og de er ikke det samme. Marketingsvaret er "utroligt præcis, state of the art." Det ærlige svar er "meget god på en ren optagelse, mærkbart dårligere på en dårlig, og forskellen mellem de to er mest din mikrofon." Jeg har set den samme model transskribere en sætning perfekt gennem en USB-mikrofon til $20 og ødelægge den med en laptop-mikrofon i et støjende køkken.

Så dette er ikke et benchmark-leaderboard-indlæg. Det er svaret, jeg ville give en ven, der spurgte, om de kan stole på taletastning til rigtig arbejde. Kort version: ja, med forbehold du selv kan styre. Lang version nedenfor – inklusiv det ene tal, der faktisk betyder noget, og de tre ting, der stille og roligt ødelægger nøjagtigheden, uanset hvor god modellen er.

Her er det, som de fleste sider om "Whisper-nøjagtighed" springer over. Nøjagtighed er ikke ét tal. Det er et tal, der bevæger sig med modelstørrelsen, det sprog du taler, og – mere end begge dele – kvaliteten af den lyd, der kommer ind. En lille model på en ren optagelse slår en stor model på en uklar, hver eneste gang.

Måden forskere måler dette på, hedder ordfejlrate, som regel skrevet WER. Det er andelen af ord, systemet fejlfortolker. Whispers publicerede WER på klar engelsk er lav. Din WER en tirsdag eftermiddag med opvaskemaskinen i gang er en anden historie. Jeg forklarer, hvad tallet betyder, hvad Whisper faktisk scorer, hvad der trækker det ned, og den kedelige, billige løsning, der hjælper mere end nogen modelopgradering.

Hvad "nøjagtighed" faktisk betyder: ordfjlrate

Nærbillede af en lydredigeringsbølge på en mørk skærm, der illustrerer tale målt for fejl

Når folk siger, at et transskriptionssystem er "95 % nøjagtigt", mener de næsten altid ordfjlrate, eller WER. Det er den mest enkle og ærlige målestok: tag et kendt tekstafsnit, lad systemet transskribere det, og tæl de ord, det fik forkert. En WER på 5 % betyder, at 5 ord ud af 100 kom ud forkert – en erstatning, en udeladelse eller et indsat ord, der ikke blev sagt. Lavere er bedre. Nul ville være perfekt, og intet i virkeligheden rammer nul.

Den sidste del er vigtig, så jeg siger det direkte. Ingen talemotor er perfekt, og ethvert produkt, der påstår det modsatte, runder op til en præsentation. Mennesker er heller ikke perfekte transskribenter – professionelle menneskelige transskribenter lander et sted omkring 4 % WER på klar lyd og dårligere på vanskelige optagelser. Så når du læser, at Whisper klarer "3 % WER", er det omtrent på niveau med – eller tæt på – menneskers niveau på den slags lyd. Det er ikke magi. Det er et værktøj, der har ret det meste af tiden og fejler en gang imellem, ligesom alle andre værktøjer.

Én nuance mere, der er tredive sekunder værd. WER tæller hvert ord ligeligt, hvilket ikke matcher, hvordan du faktisk oplever fejl. At Whisper hører "der" som "her" er en 1-ords-fejl, der næppe bemærkes. At mishøre en klients navn eller en medicinsk dosering er en 1-ords-fejl, der ødelægger sætningen. Overskriftstallet fortæller dig, hvordan tingene ser ud overordnet – men ikke om det ene ord, der betyder noget, overlevede. Derfor er en endelig gennemlæsning aldrig gået af mode, uanset hvor lav WER er.

Hvor præcis er Whisper i praksis

På klar, oplæst engelsk er Whisper genuint stærk. De offentligt dokumenterede benchmarks placerer medium-modellen på ca. 3 % ordfjlrate på et standardtest-sæt med klar tale, og den mindre model på ca. 5 %. I klart sprog: på en anstændig optagelse af en, der taler tydeligt, kan du forvente et eller to forkerte ord pr. par sætninger – som regel et homofon eller et fejlsat komma, ikke et ødelagt meningsindhold. Til diktering af e-mails, noter og udkast er det langt over den grænse, hvor det sparer dig tid frem for at koste dig den.

Mekanikken i appen er den samme, uanset hvor præcis kørslen er. Du trykker på en genvejstast, taler, slipper, og transskriptionen indsættes ved din markør i den app, der er aktiv. En lille kapsel vises, mens du taler, så du ved, den lytter. Det, du ser i kapslen, er den live optagelse – spørgsmålet om nøjagtighed afgøres i det halve sekund, efter du slipper, når modellen omsætter lyden til tekst.

Cancel

Optagelsesoverlejringen: en lille kapsel, der vises, mens du taler, så du ved, at Whisper lytter.

Det ærlige forbehold sidder lige ved siden af det gode tal. Benchmark-tallene er klar, oplæst tale i et laboratorium. Dit køkken, din accent, din vane med at fade ud midt i en sætning – intet af det er i testmaterialet. Benchmarket fortæller dig loftet. Resten af denne guide handler om, hvor tæt på det loft du faktisk kommer, og de faktorer, der bestemmer det. Spoiler: den vigtigste er ikke modellen.

Hvad der faktisk bevæger tallet op eller ned

Tre ting former din virkelige nøjagtighed langt mere end modelbadgen: lyden, sproget og ordene i sig selv. Lydkvalitet er klart vigtigst. En indbygget laptop-mikrofon, der fanger rumsekko, en blæser og et barn, der spørger, hvorfor månen nogle gange ikke er der, giver enhver model et sværere problem end en podcastmikrofon i et stille rum. Den samme model og den samme sætning kan gå fra nærmest perfekt til mærkbart forkert udelukkende på baggrund af optagelsen. Det er den faktor, næsten ingen justerer, og den der giver det største afkast.

Sproget er den næststørste faktor. Whispers flersprogede versioner dækker 99 sprog, men den dækning er ikke jævn. Engelsk er bedst understøttet, de store europæiske og asiatiske sprog er stærke, og lavressourcesprog – dem med mindre træningsdata på internettet – er svagere og mere fejlbehæftede. Oversæt-til-engelsk er kun tilgængeligt i de flersprogede versioner af Whisper; de engelskonlige versioner kan ikke gøre det, og Parakeets 25 sprog heller ikke. Så "understøtter 99 sprog" er korrekt og betyder heller ikke, at alle 99 er lige præcise. Test dit specifikke sprog på din egen lyd, inden du stoler på det til noget vigtigt.

Den tredje faktor er indholdet. Accenter påvirker tallet – Whisper håndterer et bredt spektrum uden nogen "trænings"-fase, men en kraftig accent på teknisk fagsprog er det værste scenarie for enhver motor. Fagspecifikt ordforråd snubler den også over: usædvanlige produktnavne, medicinske eller juridiske termer, efternavne den aldrig har set. Og overlappende stemmer er den egentlige hårde grænse – Whisper er bygget til én stemme ad gangen, så to personer, der taler i munden på hinanden, giver rod. Med lokal Whisper kan du modvirke det med brugerdefineret ordforråd og hotword-tilpasning, der styrer den mod de navne og termer, du faktisk bruger. Parakeet tilbyder ikke hotwords, og det er en rimelig grund til at vælge Whisper, hvis dit arbejde er fyldt med egennavne.

Større model, mere nøjagtighed, mindre hastighed

Der er en reel afvejning mellem nøjagtighed og hastighed, og appen lader dig se den i stedet for at skjule den. Som tommelfingerregel gælder det, at jo større Whisper-modellen er, jo mere præcis er den, og jo langsommere kører den. Den engelskonlige Small-model er på ca. 480 MB og hurtig; Medium er ca. 1,5 GB og mere præcis; den flersprogede Large v3 er ca. 3 GB og den bedste nøjagtighed, men den kræver 16 GB RAM og en nyere maskine for at føles responsiv. Vælg den største model, din hardware kører komfortabelt – ikke den største, der eksisterer.

Den interessante undtagelse er Turbo. Whispers Turbo-version (distil-large-v3) er dokumenteret til at være ca. 6 gange hurtigere end Large v3, mens den bevarer ca. 99 % af nøjagtigheden. Det er det søde punkt, mange ender på: næsten kvaliteten af den største model uden ventetiden. Den er ca. 1,5 GB. Ønsker du god nøjagtighed og vil ikke stirre på en indlæsningsspinner, er Turbo det pragmatiske valg.

Her er den del, der omformulerer hele afvejningen. Nøjagtighedsgabet mellem en lille model og den største er reelt, men mindre end du ville gætte – et par procentpoint WER på klar lyd. Nøjagtighedsgabet mellem en laptop-mikrofon og en anstændig USB-mikrofon på den samme model er større. Så inden du downloader 3 GB for at jagte det sidste procentpoint, kan du tilslutte en bedre mikrofon og optage et stille sted. Den kedelige sandhed er, at de fleste "modellen tog fejl"-klager faktisk er "rummet tog fejl".

Lokalt eller i skyen: hvor den bedste nøjagtighed lever

Appen vælger ikke en vej for dig. Den præsenterer tre og lader dig vælge ud fra, hvad du søger – hastighed, sprogdækning eller topnøjagtighed. Hvad angår nøjagtighed specifikt, er her, hvordan de stiller op, fordi forskellen er reel og værd at forstå, inden du satser en optagelse på én af dem.

De tre veje, rangeret efter faktisk nøjagtighed:

Lokalt Parakeet — NVIDIAs TDT-motor, ca. 600 MB, den hurtigste lokale mulighed – 5 til 10 gange hurtigere end Whisper på CPU. Nøjagtigheden er god – ikke Large-v3-god, men mere end nok til daglig engelskdiktering. Dækker engelsk plus 24 europæiske sprog, 25 i alt. Ingen oversæt-til-engelsk, ingen hotwords. Vælg den, når hastighed betyder noget, og du primært taler engelsk.
Lokalt Whisper — Langsommere end Parakeet på den samme maskine, men de flersprogede versioner når 99 sprog, oversætter til engelsk og lader dig tilpasse mod brugerdefineret ordforråd og hotwords – de nøjagtighedskontroller, der betyder noget for egennavne og fagsprog. Den største version (Large v3) er den mest præcise lokale mulighed. Vælg den til flersproget arbejde, oversættelse eller finkornet kontrol.
Cloud (OpenAI, BYOK) — Bedste nøjagtighed og webadgang med din egen OpenAI-nøgle, faktureret direkte af OpenAI. Transskription kører som standard på gpt-4o-mini-transcribe. Den kræver internet, så det er den eneste vej, hvor din lyd forlader din maskine. Cloud-overfladen er en del af Whisper Pro.

Den ærlige rangering for rå nøjagtighed er omtrent: skyen øverst, lokalt Large v3 som tæt nummer to, Parakeet som et godt tredje valg for engelsk. Men "topnøjagtighed" vinder kun, hvis din lyd er klar nok til at fortjene det. En uklar optagelse fra den anden side af rummet til skyen slår ikke lokal Whisper på en klar optagelse. Til de fleste dikteringer kører begge lokale motorer fuldt ud på din maskine uden at sende noget til en server – og det er mere end nok. Brug skyen, når du har en genuint vanskelig optagelse, eller du skal hente information fra nettet midt i en sætning.

Fire måder at øge din egen nøjagtighed

Whispers loft er sat af modellen. Dit gulv er sat af alt det rundt om, og gulvet er der, de fleste mister nøjagtighed. Den gode nyhed er, at løsningerne er billige og tager et par minutter. Her er de fire, der betyder noget, i rækkefølge efter, hvor meget de hjælper.

Trin 1 – Ret mikrofonen først.

En USB-mikrofon til $20 gør mere for nøjagtigheden end nogen modelopgradering. Hold den tæt, lidt til siden for munden, så den ikke popper, og væk fra en laptop-blæser. Det er den enkeltinvestering, der giver det højeste afkast.

Du ved, det virkede, når den sætning, der kom ud forvrænget på laptop-mikrofonen, nu kommer ud ren.

Trin 2 – Stiln rummet.

Luk døren, sæt musikken på pause, vent på, at opvaskemaskinens program er slut. Baggrundsstøj og ekko er det, de fleste "modellen tager fejl"-øjeblikke faktisk skyldes. Et stille rum er gratis.

Du ved, det virkede, når fyldord og halvt opfangede fraser holder op med at dukke op i transskriptionen.

Trin 3 – Tilpas modellen til opgaven.

Vælg den største model, din maskine kører komfortabelt, eller Turbo for næsten topnøjagtighed med høj hastighed. For navne og fagsprog på lokalt Whisper kan du tilføje brugerdefineret ordforråd og hotwords, så den lener sig mod dine termer.

Du ved, det virkede, når en model er færdig med at downloade, vises som klar, og dine egennavne begynder at lande rigtigt.

Trin 4 – Lad et AI-efterbehandlingspas rydde op.

Rå diktering er en lang strøm med fyldord. Whisper kan køre et AI-oprydningspas, der retter tegnsætning, fjerner "øhm"-erne og rydder op i sætningen, inden den lander. Sig aktiveringsfrasen "Hey whisper" for at udløse det.

Du ved, det virkede, når den indsatte tekst læses som redigeret prosa, ikke som en transskript.

Whisper

Den rigtige Whisper-desktopapp på indstillingsskærmen med panelerne Transskription og AI åbne.

Det sidste trin er værd at se, fordi det ændrer, hvad "nøjagtighed" overhovedet betyder for dit output. Transskriptionen kan være ordret korrekt og stadig læse som en løbende strøm, fordi det er sådan, folk taler. Oprydningspasset fikser den læsbarhed, som WER aldrig måler. På en lokal model kører det via Ollama; i cloud-tilstand er det gpt-5-mini som standard. Her er den samme sætning før og efter passet:

Thinking...

Overlejringen under AI-oprydningspasset, inden den ryddede tekst lander ved din markør.

Råt

øhm så nøjagtigheden afhænger mest af mikrofonen ikke modellen og ligesom et stille rum hjælper mere end folk tror

Renset

Nøjagtigheden afhænger mest af mikrofonen, ikke modellen – og et stille rum hjælper mere, end folk tror.

Bemærk, at oprydningen ikke ændrede et enkelt ords betydning; den tilføjede tegnsætning og fjernede fyldordene, som råtransskriptet indeholdt. Det er den del, folk forveksler med nøjagtighed – og det burde de ikke. Modellens opgave er at høre dig korrekt. AI-passets opgave er at gøre de korrekte ord let læsbare. Ret mikrofonen og rummet, og begge opgaver bliver nemmere. Ønsker du tale-og-rens-flowet i alle apps, vil den samme genvejstast diktere ren prosa i enhver app, ikke kun én.

Den ærlige dom over Whispers nøjagtighed

En vægtskål på en mørk overflade, der illustrerer en ærlig afvejning af styrker og begrænsninger

Så det direkte svar. Whisper er præcis nok til at stole på til rigtig arbejde – e-mails, noter, udkast, mødereferater – på klar lyd i et velsupporteret sprog. Den er ikke perfekt og påstår det heller ikke. Accenter, baggrundsstøj, tungt fagsprog og overlappende stemmer trækker alle tallet ned, og ingen modelbadge redder fuldt ud en dårlig optagelse. Kom du her med håb om "100 % nøjagtig", er det ærlige svar, at intet er det, og den, der sælger det, sælger en præsentation.

Hvornår bør du ikke anstrenge dig for at jagte Whisper-niveaunøjagtighed? Hvis du kun dikteringer af og til en 30-ords besked, gør dit styresystem det allerede gratis. På Windows trykker du Windows-tasten + H for at åbne Stemmeindtastning, uanset hvor markøren er – den tilføjer tegnsætning selv, men den rutes via Microsofts servere og kræver internet, så den er ikke offline. På Mac skriver Diktering i Systemindstillinger i alle felter, og på Apple Silicon kan generel tekst behandles på enheden. Til korte tekster er det fint, og jeg vil ikke fortælle dig at installere noget til en enkeltlinjes påmindelse. Et dedikeret værktøj fortjener sin plads ved længere noter, flersproget arbejde, offline-privatliv og de nøjagtighedskontroller – hotwords, modelvalg, et oprydningspas – som de indbyggede ikke giver dig.

Afvejer du de lokale motorer mod hinanden, er nøjagtighed-versus-hastighed hele beslutningen, og den er dækket klart i hvilken Whisper-model du skal bruge og Parakeet-modelgennemgangen. For de fleste er svaret uanseligt: en mellenstor model, en anstændig mikrofon, et stille rum og et oprydningspas. Den kombination bringer dig inden for en hårsbred af benchmarket på den lyd, du faktisk optager.

Bekymrer nøjagtighed dig, fordi du vil undgå skyen helt, dækker afvejningerne i offline tale til tekst hvordan lokale modeller klarer sig uden et netværk i kredsløbet.

Jeg brugte en uge i starten overbevist om, at en modelopgradering ville fikse mine transskriptioner, downloadede 3 GB og fik måske et enkelt procentpoint WER tilbage. Så købte jeg en USB-mikrofon til $20 og flyttede mig fra køkkenbordet, og transskriptionerne blev mærkbart renere samme eftermiddag. Modellen var aldrig problemet. Rummet var. Whisper er meget præcis; om du oplever det, afhænger af, hvad du fodrer den med.

Hør det selv med din egen stemme

Download Whisper, tilslut en anstændig mikrofon, og dikter et afsnit. Nøjagtighed er meget nemmere at bedømme på din egen lyd end på andres benchmark.

Download Whisper Se, hvordan det virker

Gratis lokal tilstand for enhver logget-ind konto. Intet betalingskort kræves for at starte.

Denys Medvediev

Jeg er den, der læser vores support-e-mail, sandsynligvis ved at diktere svarene.

Videre læsning

Ofte stillede spørgsmål

På klar, oplæst engelsk er Whispers medium-model dokumenteret til ca. 3 % ordfjlrate og den lille model til ca. 5 %. For sammenhængens skyld lander professionelle menneskelige transskribenter tæt på 4 % på klar lyd, så Whisper er omtrent på menneskelig niveau for den slags optagelse. Virkelighedens WER er højere, fordi hverdagslyd er støjende end et benchmark.