What is a good word error rate for Whisper?

On clean, read English, Whisper's medium model is documented at around 3% word error rate and the small model around 5%. For context, professional human transcriptionists land near 4% on clean audio, so Whisper is roughly at human level on that kind of recording. Real-world WER is higher because everyday audio is noisier than a benchmark.

Is Whisper accurate enough for professional work?

Yes, for dictation, notes, drafts, and meeting recaps on clear audio in a well-supported language. It is not perfect, so anything high-stakes — names, numbers, legal or medical terms — deserves a final read-through. The headline accuracy number treats every word equally, but the one word that matters is the one you should always check.

What hurts Whisper's accuracy the most?

Background noise and a poor microphone are the biggest factors, ahead of the model you choose. After that come heavy accents on technical jargon, low-resource languages, and overlapping speakers, which Whisper handles worst because it's built for one voice at a time. A quiet room and a decent mic fix more than any model upgrade.

Does a bigger Whisper model mean better accuracy?

Generally yes — larger models are more accurate and slower, with Large v3 the most accurate local option. But the gap between a small and a large model on clean audio is only a few points of WER, smaller than the gap between a laptop mic and a USB mic. Turbo is a popular middle ground: about 6 times faster than Large v3 with roughly 99% of its accuracy.

How can I improve my own transcription accuracy?

Fix the microphone first, then quiet the room, then match the model to the job. A $20 USB mic does more for accuracy than any model upgrade. On local Whisper you can add custom vocabulary and hotwords to bias toward names and jargon, and an AI cleanup pass fixes punctuation and filler after the fact.

How accurate is Whisper for languages other than English?

Whisper's multilingual models cover 99 languages, with English best-supported and major European and Asian languages strong. Low-resource languages have less training data and are more error-prone. Translate-to-English is multilingual Whisper only — not the English-only builds, and not Parakeet, which covers 25 languages. Test your specific language on your own audio before trusting it.

Is cloud transcription more accurate than local Whisper?

Cloud mode (OpenAI, using your own key) generally has the edge in raw accuracy, with local Large v3 a close second. But accuracy is decided by your audio first: a clean local recording beats a muffled cloud one. For most dictation, local is plenty and keeps everything on your machine. Reach for cloud on genuinely hard recordings or when you need web access.

Does the AI cleanup pass improve accuracy?

It improves readability, not raw transcription accuracy. The model's job is to hear your words correctly; the cleanup pass adds punctuation, strips filler, and tidies run-ons so the correct words read like edited prose. It runs through Ollama locally or gpt-5-mini in cloud mode, triggered by the phrase "Hey whisper."

Av Denys Medvediev2. april 2026

Forklaring

Hvor nøyaktig er Whisper, egentlig

Whisper er svært nøyaktig på tydelig engelsk lyd og solid på de fleste store språk, men den er ikke perfekt. Den viktigste faktoren for din egen nøyaktighet er mikrofonen og et stille rom – ikke hvilken modell du velger. Et AI-pass rydder opp i tegnsetting og fyllord etterpå.

Sist oppdatert: juni 2026

Blå lydbølge på en mørk skjerm, som representerer tale som måles for transkripsjonsnøyaktighet

Whisper er nøyaktig nok for hverdagsdiktering og profesjonelle notater, med en ordfeilrate på rundt 3 % på tydelig lest engelsk med medium-modellen. Nøyaktigheten synker med aksenter, bakgrunnsstøy, fagtermer og overlappende talere. Den største forbedringen de fleste kan gjøre, er en bedre mikrofon og et stille rom – ikke en større modell.

«Hvor nøyaktig er Whisper» er et av de spørsmålene som har et ærlig svar og et markedsføringssvar – og de er ikke det samme. Markedsføringssvaret er «utrolig nøyaktig, toppmoderne». Det ærlige svaret er «veldig bra på en god opptak, merkbart verre på en dårlig, og forskjellen der imellom handler mest om mikrofonen din». Jeg har sett den samme modellen transkribere en setning perfekt gjennom en $20 USB-mikrofon, og rote den til gjennom en bærbar-mikrofon på kjøkkenet med oppvaskmaskin i gang.

Så dette er ikke et innlegg om benchmarkrangeringer. Det er svaret jeg ville gitt en venn som spurte om de kan stole på talediktering i ekte arbeid. Kortversjon: ja, med forbehold du selv kan kontrollere. Langversjon nedenfor – inkludert det ene tallet som faktisk betyr noe, og de tre tingene som stille ødelegger nøyaktigheten uansett hvor god modellen er.

Her er det de fleste «Whisper-nøyaktighet»-sider hopper over. Nøyaktighet er ikke ett enkelt tall. Det er et tall som beveger seg med modellstørrelsen, språket du snakker – og mer enn noen av disse – kvaliteten på lyden som går inn. En liten modell på et rent opptak slår en stor modell på et mumlende, hver gang.

Slik forskere måler dette kalles ordfeilrate, vanligvis skrevet WER. Det er prosentandelen ord systemet bommer på. Whispers publiserte WER på ren engelsk er lav. Din WER på en tirsdagsettermiddag med oppvaskmaskinen i gang er en annen historie. Jeg skal forklare hva tallet betyr, hva Whisper faktisk scorer, hva som drar det ned, og den kjedelige, billige løsningen som hjelper mer enn noen modelloppgradering.

Hva «nøyaktighet» faktisk betyr: ordfeilrate

Nærbilde av en lydredigeringsbølge på en mørk skjerm, som illustrerer tale målt for feil

Når folk sier at et transkripsjonssystem er «95 % nøyaktig», mener de nesten alltid ordfeilrate, eller WER. Det er det enkleste ærlige målet som finnes: ta et kjent tekstutdrag, la systemet transkribere det, og tell opp feilene. En WER på 5 % betyr at 5 ord av 100 ble feil – enten feil ord, et utelatt ord eller et lagt til ord som ikke ble sagt. Lavere er bedre. Null ville vært perfekt, og ingenting i virkeligheten treffer null.

Den siste biten er viktig, så jeg sier det rett ut. Ingen talegjenkjenningsmotor er perfekt, og ethvert produkt som påstår noe annet, runder opp til en presentasjon. Mennesker er heller ikke perfekte transkriberere – profesjonelle menneskelige transkriberere lander på rundt 4 % WER på ren lyd, og verre på vanskelige opptak. Så når du leser at Whisper gjør «3 % WER», er det omtrent på menneskenivå på den typen lyd – ikke magi. Det er et verktøy som har rett mesteparten av tiden og tar feil av og til, som alle verktøy.

Én nyanse til som er verdt å nevne. WER teller hvert ord likt, noe som ikke stemmer med hvordan du faktisk opplever feil. At Whisper hører «der» i stedet for «der borte» er en 1-ords feil som knapt merkes. Å mishøre en klients navn eller en medisindose er også en 1-ords feil – men den ødelegger setningen. Så topplinjetallet forteller deg formen på ting; det forteller deg ikke om det ene ordet som betyr noe overlevde. Det er derfor en siste gjennomlesning aldri går av moten, uansett hvor lav WER er.

Så hvor nøyaktig er Whisper i praksis

På ren, lest engelsk er Whisper genuint sterk. De offentlig dokumenterte benchmarkene plasserer medium-modellen rundt 3 % ordfeilrate på et standard rentaletestsett, og den mindre modellen rundt 5 %. I klartekst: på et anstendig opptak av noen som snakker tydelig, ser du ett til to feil ord per noen setninger – vanligvis et homofon eller et bortkommet komma, ikke et ødelagt meningsinnhold. For å diktere e-poster, notater og utkast er det godt over terskelen der det sparer deg tid i stedet for å koste det.

Mekanikken i appen er den samme uavhengig av hvor nøyaktig kjøringen blir. Du trykker en hurtigtast, snakker, slipper, og transkriptet limes inn ved markøren din i hvilken app som enn har fokus. En liten kapsel dukker opp mens du snakker, slik at du vet at den lytter. Det du ser i kapselen er det direkte opptaket – nøyaktighetsspørsmålet avgjøres i halvsekunnet etter at du slipper, når modellen gjør om lyden til tekst.

Cancel

Opptaksoverlegget: en liten kapsel som dukker opp mens du snakker, slik at du vet at Whisper lytter.

Det ærlige forbeholdet sitter rett ved siden av det gode tallet. De benchmarktallene er ren lest tale i et laboratorium. Kjøkkenet ditt, aksenten din, vanen din med å sette i gang og aldri fullføre setninger – ingenting av det er i testsettet. Benchmarken forteller deg taket. Resten av denne guiden handler om hvor nært taket du faktisk kommer, og hva som avgjør det. Spoiler: den viktigste faktoren er ikke modellen.

Hva som faktisk flytter tallet opp eller ned

Tre ting former din virkelige nøyaktighet langt mer enn modellmerket: lyden, språket og selve ordene. Lydkvalitet kommer først, med god margin. En innebygd laptop-mikrofon som plukker opp romklang, en vifte og et barn som spør hvorfor månen noen ganger ikke er der, gir enhver modell et vanskeligere problem enn en podkast-mikrofon i et stille rom. Den samme modellen, samme setning, kan gå fra nesten perfekt til merkbart feil utelukkende på grunn av opptaket. Dette er den faktoren nesten ingen justerer, og den som gir størst gevinst.

Språk er den andre faktoren. Whispers flerspråklige versjoner dekker 99 språk, men den dekningen er ikke jevn. Engelsk er best støttet, de store europeiske og asiatiske språkene er sterke, og lavressursspråk – de med mindre treningsdata på internett – er svakere og mer feilutsatte. Oversett-til-engelsk er kun tilgjengelig i flerspråklig Whisper; de engelskspesifikke versjonene gjør det ikke, og Parakeets 25 språk heller ikke. Så «støtter 99 språk» er sant, men det betyr ikke at alle 99 er like nøyaktige. Test ditt eget språk på din egen lyd før du stoler på det til noe viktig.

Den tredje faktoren er innholdet. Aksenter påvirker tallet – Whisper håndterer et bredt utvalg uten noe «trenings»-steg, men en sterk aksent på teknisk fagspråk er det verste tilfellet for enhver motor. Domeneord byr også på problemer: uvanlige produktnavn, medisinske eller juridiske termer, etternavn den aldri har sett. Og overlappende talere er den virkelige harde veggen – Whisper er bygd for én stemme om gangen, så to personer som snakker i munnen på hverandre, gir et rot. På lokal Whisper kan du motvirke dette med egendefinert vokabular og nøkkelordbiasing, som nudger den mot navn og termer du faktisk bruker. Parakeet tilbyr ikke nøkkelord, og det er en god grunn til å velge Whisper hvis arbeidet ditt er fullt av egennavn.

Større modell, mer nøyaktighet, mindre hastighet

Det er en reell avveiing mellom nøyaktighet og hastighet, og appen lar deg se den i stedet for å skjule den. Som en tommelfingerregel: jo større Whisper-modellen er, jo mer nøyaktig er den og jo langsommere kjører den. Den engelskspesifikke Small-modellen er rundt 480 MB og rask; Medium er omtrent 1,5 GB og mer nøyaktig; den flerspråklige Large v3 er rundt 3 GB og den beste nøyaktigheten som tilbys, men den vil ha 16 GB RAM og en nyere maskin for å føles kvikk. Velg den største modellen maskinvaren din kjører komfortabelt – ikke den største som finnes.

Det interessante unntaket er Turbo. Whispers Turbo-versjon (distil-large-v3) er dokumentert som rundt 6 ganger raskere enn Large v3 mens den beholder omtrent 99 % av nøyaktigheten. Det er midtpunktet mange lander på: nesten kvaliteten til den største modellen uten ventetiden. Den er rundt 1,5 GB. Hvis du vil ha god nøyaktighet og ikke ønsker å stirre på en lastesnurrer, er Turbo det pragmatiske alternativet.

Her er det som reframes hele avveiingen. Nøyaktighetsforskjellen mellom en liten modell og den største er reell, men mindre enn du ville gjettet – noen prosentpoeng av WER på ren lyd. Nøyaktighetsforskjellen mellom en laptop-mikrofon og en anstendig USB-mikrofon på den samme modellen er større. Så før du laster ned 3 GB i jakt på det siste nøyaktighetspoenget, plugg inn en bedre mikrofon og ta opp et sted det er stille. Den kjedelige sannheten er at de fleste «modellen bommet»-klager egentlig er «rommet bommet».

Lokal eller sky: hvor den beste nøyaktigheten bor

Appen velger ikke en vei for deg. Den presenterer tre og lar deg velge basert på hva du er ute etter – hastighet, språkdekning eller toppnøyaktighet. For nøyaktighet spesifikt, her er hvordan de stiller opp, fordi forskjellen er reell og verdt å forstå før du setter et opptak inn i én av dem.

De tre veiene, rangert etter faktisk nøyaktighet:

Lokal Parakeet — NVIDIAs TDT-motor, rundt 600 MB, det raskeste lokale alternativet med 5 til 10 ganger raskere enn Whisper på CPU. Nøyaktigheten er god – ikke Large-v3-god, men mer enn nok for hverdagsdiktering på engelsk. Dekker engelsk pluss 24 europeiske språk, 25 totalt. Ingen oversetting til engelsk, ingen nøkkelord. Velg det når hastighet betyr noe og du snakker mest engelsk.
Lokal Whisper — tregere enn Parakeet på samme maskin, men de flerspråklige versjonene når 99 språk, oversetter til engelsk, og lar deg favorisere egendefinert vokabular og nøkkelord – nøyaktighetskontrollene som betyr noe for egennavn og fagtermer. Den største versjonen (Large v3) er det mest nøyaktige lokale alternativet. Velg det for flerspråklig arbeid, oversetting eller finere kontroll.
Sky (OpenAI, BYOK) — beste nøyaktighet i klassen og netttilgang med din egen OpenAI-nøkkel, fakturert direkte av OpenAI. Transkripsjon kjører på gpt-4o-mini-transcribe som standard. Det krever internett, så dette er den eneste veien der lyden din forlater maskinen din. Skyflaten er en del av Whisper Pro.

Den ærlige rangeringen for rå nøyaktighet er omtrent: sky på toppen, lokal Large v3 som en tett andreplass, Parakeet som et dyktig tredjealternativ for engelsk. Men «toppnøyaktighet» vinner bare hvis lyden din er ren nok til å fortjene det. Å mate skyen med et mumlet opptak fra den andre siden av rommet slår ikke lokal Whisper på et rent et. For de fleste dikteringer kjører begge lokale motorer fullt ut på maskinen din uten at noe sendes til en server, og det er mer enn nok. Ty til sky når du har et genuint vanskelig opptak eller trenger et faktum hentet fra nettet midt i en setning.

Fire måter å heve din egen nøyaktighet

Whispers tak settes av modellen. Gulvet ditt settes av alt rundt den, og det er gulvet der de fleste mister nøyaktighet. Den gode nyheten er at løsningene er billige og tar noen minutter. Her er de fire som betyr noe, i rekkefølge etter hvor mye de hjelper.

Steg 1 — Fiks mikrofonen først.

En $20 USB-mikrofon gjør mer for nøyaktigheten enn noen modelloppgradering. Hold den nær, litt til siden for munnen så den ikke smeller, og unna laptop-viften. Dette er den enkeltendringen med høyest avkastning du kan gjøre.

Du vet at det virket når den samme setningen som kom ut uklar på laptop-mikrofonen kommer ut tydelig.

Steg 2 — Gjør rommet stille.

Lukk døren, pause musikken, vent til oppvaskmaskinen er ferdig. Bakgrunnsstøy og ekko er det de fleste «modellen tok feil»-øyeblikkene faktisk er. Et stille rom koster ingenting.

Du vet at det virket når fyllord og halvt oppfattede fraser slutter å dukke opp i transkriptet.

Steg 3 — Match modellen til jobben.

Velg den største modellen maskinen din kjører komfortabelt, eller Turbo for nær-toppnøyaktighet med hastighet. For navn og fagtermer på lokal Whisper, legg til egendefinert vokabular og nøkkelord slik at den lener seg mot dine termer.

Du vet at det virket når en modell er ferdig nedlastet, vises som klar, og egennavn begynner å lande riktig.

Steg 4 — La et AI-pass rydde opp.

Rå diktering er en løpende setning full av fyllord. Whisper kan kjøre et AI-oppryddingspass som fikser tegnsetting, fjerner «ehmm»-er og rydder opp setningen før den lander. Si aktiveringsfrasen «Hey whisper» for å utløse det.

Du vet at det virket når den innlimte teksten leses som redigert prosa, ikke som et transskript.

Whisper

Den ekte Whisper-skrivebordsappen på innstillingsskjermen, med Transkripsjon- og AI-panelene åpne.

Det siste steget er verdt å se, fordi det endrer hva «nøyaktighet» til og med betyr for resultatet ditt. Transkripsjonen kan være ordrett korrekt og likevel leses som en løpende setning, fordi det er slik folk snakker. Oppryddingspasset fikser lesbarheten som WER aldri måler. På en lokal modell kjører det gjennom Ollama; i skymodus er det gpt-5-mini som standard. Her er den samme setningen før og etter passet:

Thinking...

Overlegget under AI-oppryddingspasset, før den ryddede teksten lander ved markøren din.

Rå

ehm så nøyaktigheten handler mest om mikrofonen ikke modellen og liksom et stille rom hjelper mer enn folk tror

Renset

Nøyaktigheten handler mest om mikrofonen, ikke modellen – og et stille rom hjelper mer enn folk tror.

Legg merke til at oppryddingen ikke endret ett eneste ords betydning; den la til tegnsetting og fjernet fyllordene som råtranskriptet hadde med seg. Det er den delen folk forveksler med nøyaktighet – og ikke bør. Modellens jobb er å høre deg riktig. AI-passets jobb er å få de riktige ordene til å leses godt. Få mikrofonen og rommet på plass, og begge jobbene blir enklere. Hvis du vil ha dikter-og-rydd-flyten i hvilken som helst app, vil den samme hurtigtasten diktere ren prosa i hvilken som helst app, ikke bare én.

Den ærlige dommen om Whispers nøyaktighet

En vektskål på en mørk overflate, som illustrerer en ærlig avveining av styrker og begrensninger

Så, det rette svaret. Whisper er nøyaktig nok til å stole på for ekte arbeid – e-poster, notater, utkast, møteoppsummeringer – på ren lyd i et godt støttet språk. Den er ikke perfekt, og den påstår det aldri. Aksenter, bakgrunnsstøy, tungt fagspråk og overlappende talere drar alle tallet ned, og ingen modellmerke redder fullt ut et dårlig opptak. Hvis du kom hit med håp om «100 % nøyaktig», er det ærlige svaret at ingenting er det, og den som selger det, selger en lysbildepresentasjon.

Når bør du ikke bry deg med å jage Whisper-nivånøyaktighet? Hvis du bare dikterer den tilfeldige 30-ords teksten, gjør operativsystemet ditt allerede dette gratis. På Windows trykker du Windows-tasten + H for å åpne Taleskriving der markøren er – den setter inn tegnsetting selv, men går gjennom Microsofts servere og krever internett, så den er ikke offline. På Mac skriver Diktering i Systeminnstillinger inn i et hvilket som helst felt, og på Apple Silicon kan generell tekst behandles på enheten. For korte sesjoner er disse fine, og jeg kommer ikke til å be deg installere noe for en én-linjes påminnelse. Et dedikert verktøy fortjener sin plass ved lengre notater, flerspråklig arbeid, frakoblet personvern og nøyaktighetskontrollene – nøkkelord, modellvalg, et oppryddingspass – som de innebygde ikke gir deg.

Hvis du veier de lokale motorene mot hverandre, er nøyaktighet-mot-hastighet-avveiingen hele beslutningen, og den er dekket tydelig i hvilken Whisper-modell du bør bruke og Parakeet-modellgjennomgangen. For de fleste er svaret usjarmerende: en mellomstort modell, en anstendig mikrofon, et stille rom og et oppryddingspass. Den kombinasjonen får deg innen et hårstrå av benchmarken på lyden du faktisk tar opp.

Hvis nøyaktighet er bekymringen din fordi du vil hoppe over skyen helt, dekker avveiingene i frakoblet tale til tekst hvordan lokale modeller holder seg uten et nettverk i løkken.

Jeg brukte en uke tidlig på å være overbevist om at en modelloppgradering ville fikse transskriptene mine, lastet ned 3 GB og fikk tilbake kanskje ett poeng av WER. Så kjøpte jeg en $20 USB-mikrofon og flyttet meg bort fra kjøkkenbordet, og transskriptene ble merkbart renere samme ettermiddag. Modellen var aldri problemet. Rommet var det. Whisper er veldig nøyaktig; om du ser det avhenger av hva du gir den.

Hør det selv med din egen stemme

Last ned Whisper, plugg inn en anstendig mikrofon og dikter et avsnitt. Nøyaktighet er mye lettere å bedømme på din egen lyd enn på noens annens benchmark.

Last ned Whisper Se hvordan det fungerer

Gratis lokal modus for alle innloggede kontoer. Ingen betalingskort nødvendig for å starte.

Denys Medvediev

Jeg er den som leser støtte-e-posten vår, høyst sannsynlig ved å diktere svarene.

Videre lesning

Vanlige spørsmål

På ren, lest engelsk er Whispers medium-modell dokumentert med rundt 3 % ordfeilrate og den lille modellen rundt 5 %. For sammenligning lander profesjonelle menneskelige transkriberere nær 4 % på ren lyd, så Whisper er omtrent på menneskenivå på den typen opptak. WER i virkeligheten er høyere fordi hverdagslyd er støyende enn en benchmark.