Av Denys Medvediev

Feilsøking

Hvorfor er dikteringen min så unøyaktig?

Diktering er som regel unøyaktig på grunn av oppsettet, ikke fordi programvaren er ødelagt — en dårlig mikrofon, et støyende rom, feil språk eller feil modell.

Sist oppdatert: juni 2026

Nærbilde av en kondensatormikrofon fra studio, som rammer inn en samtale om hvorfor talediktering bommer

Diktering er som regel unøyaktig på grunn av oppsettet, ikke fordi programvaren er ødelagt. De største synderne er en dårlig mikrofon, et støyende rom, feil språkinnstilling og en modell som ikke passer maskinen din. Ren lyd i et stille rom med riktig språk gir de fleste rundt 95 % nøyaktighet — omtrent ett feil ord av tjue.

Jeg så en gang en slektning kaste et headset tvers over rommet. Det var sent på 1990-tallet, datamaskinen var en Windows 98-stasjonær med 64 MB RAM, og programvaren var Dragon NaturallySpeaking. Treningen tok 45 minutter — du leste en liste med ord høyt for å «kalibrere» den. Så fungerte den, på et vis, kanskje med 70 % nøyaktighet og fire sekunders forsinkelse per setning. Femten minutter på å diktere ett avsnitt av et julebrev. Headsettet overlevde. Dikteringseksperimentet gjorde det ikke.

Jeg nevner det fordi frustrasjonen i spørsmålet ditt er gammel, men årsaken har endret seg. Moderne diktering trenger ikke et 45 minutters kalibreringsrituale. Når den får ord feil i dag, er det nesten aldri fordi modellen er dum. Det er fordi lyden som når modellen, er dårligere enn du tror — og overraskende mye av det kan fikses på under ett minutt. Whispers egen nøyaktighet i lokal modus lander mellom 95 % og 99 % på ren engelsk lyd — men det tallet forutsetter noen ting som ofte ikke stemmer.

Dette er en diagnose, ikke en fiks-liste. Vi finner ut hvilken av fem ting som ødelegger transkripsjonen din, omtrent i rekkefølge etter hvor ofte hver enkelt er den egentlige grunnen. Vil du ha den grundige gjennomgangen av mikrofon og egendefinerte ord, eier vår guide til å fikse diktering som skriver feil ord den grunnen. Denne artikkelen hjelper deg å finne årsaken først, slik at du fikser det riktige.

Hva som faktisk er realistisk nøyaktighet

Nærbilde av et blått stolpediagram på papir, som rammer inn realistiske forventninger til transkripsjonsrater

Her er tallet ingen setter på markedsføringssiden sin. Talegjenkjenning måles i ordfeilrate, eller WER — andelen ord systemet får feil, der man teller erstatninger, utelatelser og innskudd mot det du faktisk sa. Lavere er bedre. En WER på null er en perfekt transkripsjon; ordnøyaktighet er rett og slett én minus WER.

På den rene engelske LibriSpeech-benchmarken registrerer Whispers medium English-modell rundt 3 % WER — omtrent 97 % nøyaktighet. Small English-modellen lander rundt 5,1 % WER, omtrent 95 %. Dette er tall for ren lyd: et stille rom, en god mikrofon, en nøye oppleser. Virkeligheten legger til støy, aksenter, krysstale og fagsjargong, og hver eneste av disse skyver legitimt WER oppover.

Så hva er normalt? Rundt 95 % på grei engelsk lyd — ett feil ord av tjue. Det er ikke en feil. Det er verktøyet som fungerer slik det er ment. Hvis du ligger på 85 % i et støyende kjøkken på en innebygd laptop-mikrofon, er ikke programvaren ødelagt — forholdene er under det modellen trenger. Løsningen er forholdene, ikke en større modell. Sett lista ved «én liten rettelse per avsnitt», så renner mesteparten av irritasjonen ut av opplevelsen.

De fem mistenkte, i rekkefølge etter sannsynlighet

Forstørrelsesglass på en blå overflate, som fremkaller jakten på hva som ødelegger transkripsjonen

Når diktering går galt, er årsaken nesten alltid én av fem ting. Gå gjennom denne lista i rekkefølge. De to første fanger de fleste tilfellene.

  1. Språkinnstillingen. Du snakker ett språk; verktøyet lytter etter et annet, eller gjetter.
  2. Mikrofonen. En innebygd laptop-mikrofon en meter unna hører rommet ditt mer enn munnen din.
  3. Rommet. Bakgrunnsstøy, en TV, et kjøkken med ekko — modellen transkriberer alt sammen.
  4. Modellen. Du valgte en som er for tung for maskinvaren din, så den er treg eller setter seg fast.
  5. Forventningen. Lyden er fin og verktøyet er fint; du måler mot 100 %, som ingenting når.

En 60-sekunders selvtest: dikter de samme to setningene tre ganger — én gang i et stille rom tett på mikrofonen, én gang tvers over rommet, én gang med musikk på. Hvis nøyaktigheten svinger kraftig mellom disse opptakene, er problemet lyd (mistenkt 2 og 3), og ingen programvareendring slår å flytte mikrofonen nærmere og lukke døra. Hvis det er dårlig selv på det stille nærbildeopptaket, se på språkinnstillingen og modellen. Den ene testen sorterer de fleste på et minutt.

Årsak 1: feil språkinnstilling

To globuser på grå bakgrunn, som står for å velge riktig språk og aksent

Dette er ti-sekunders-fiksen ingen sjekker først. Hvis du vet hvilket språk du snakker, velg det eksplisitt i innstillingene i stedet for å la verktøyet stå på automatisk gjenkjenning. Når du setter et bestemt språk, slutter verktøyet å prøve å gjette hvilket språk det hører, og bruker all innsatsen på å få ordene riktige — merkbart raskere og mer pålitelig.

Mismatch-fellene er reelle. Whispers flerspråklige modeller dekker 99 språk med automatisk gjenkjenning, men de engelskspråklige modellene er låst til engelsk — gi dem et annet språk og du får tøv. Lokal Parakeet håndterer engelsk pluss 24 europeiske språk og ingenting utenfor det settet, så å diktere japansk inn i den vil aldri fungere uansett hvor ren mikrofonen din er. Og hvis du faktisk veksler språk midt i en setning, vil du ha en flerspråklig Whisper-modell med automatisk gjenkjenning, ikke en engelskspråklig. Match innstillingen til ordene som kommer ut av munnen din, så forsvinner en god del «unøyaktighet» før du rører noe annet.

Årsak 2: mikrofonen din gjør mer skade enn aksenten din

Kondensatormikrofon med poppfilter i et studio, som illustrerer utstyr som former lydkvaliteten

Folk skylder på aksenten sin. Det er nesten alltid mikrofonen. I årevis skyldte jeg på min — det viste seg at stemmen min var fin og den gratis laptop-mikrofonen min var problemet. Her er meningen jeg vil forsvare: «AI» fikser ikke dårlig lyd. En USB-mikrofon til $20 gjør mer for nøyaktigheten enn noen modelloppgradering — mikrofonen og et stille rom er de to største nøyaktighetsspakene, foran hvilken modell du velger. Bruk pengene på maskinvare før du bruker dem på en større nedlasting.

Mekanismen er kjedelig og fysisk. En innebygd laptop-mikrofon sitter en halvmeter eller mer fra munnen din og plukker opp pulten, viften og rommet. En headset-bom eller en USB-mikrofon femten centimeter unna hører stemmen din og lite annet. Verktøyet kan bare transkribere det som når det, og et utvisket, fjernt, støyende signal gir det mindre å jobbe med — så det gjetter, og gjetninger er hvordan du får feil ord. Jeg skal ikke lære bort hele mikrofon- og ordbokoppskriften på nytt her; vår dybdeartikkel om diktering som skriver feil ord dekker mikrofonplassering, inngangsforsterkning og egendefinert ordforråd i detalj. For denne artikkelen er poenget smalere: hvis tre-opptaks-testen din viste at nøyaktigheten kollapset med avstand, er mikrofonen den mistenkte, ikke stemmen din.

Årsak 3: rommet, ikke ordene

Mikrofon med poppfilter i et akustisk behandlet musikkstudio, et lavstøymiljø for klar opptak

En mikrofon kan ikke u-høre et rom. Hvis det står en TV på, en oppvaskmaskin går, et åpent kontorlandskap er bak deg, eller barn diskuterer reglene i et brettspill to meter unna, transkriberer modellen den energien sammen med stemmen din. Den vet ikke hvilken lyd som er den du mente.

Løsningen er pinlig lavteknologisk: lukk døra, skru av musikken, flytt deg vekk fra viften. Myke overflater hjelper — et rom med teppe og gardiner er snillere mot en mikrofon enn et flislagt kjøkken med bare vegger, der stemmen din spretter og ankommer to ganger. Du trenger ikke akustisk skum. Du trenger at oppvaskmaskinen blir ferdig med syklusen sin. Jeg har diktert e-poster til skolen mens jeg smurte matpakker, og modellen henger fint med — men det er fordi kjøkkenet var stille, ikke fordi programvaren er magisk. I det øyeblikket blenderen starter, faller nøyaktigheten, og det er ikke en feil å melde inn.

Årsak 4: modellen passer ikke maskinvaren din

Whisper
Den ekte Whisper-appen — den viser tre veier og lar deg velge modellen som passer maskinen din. Klikk deg rundt i Innstillinger; den er live.

Dette er den konkurrentene behandler som en svart boks, og den betyr noe. Større er ikke alltid bedre. Velg en modell som er for tung for maskinen din, og den kjører tregt, henger etter, og opplevelsen føles ødelagt selv om nøyaktigheten på papiret er fin.

Whisper by Remskill velger ikke en modell for deg. Den viser tre veier og lar deg velge: Cloud-modus med din egen OpenAI-nøkkel, lokal Parakeet, eller lokal Whisper. Cloud-modus kjører på hvilken som helst maskinvare fordi det bare er et nettverkskall. Lokalt handler matematikken om RAM. På en maskin med 8 GB kjører Parakeet (~600 MB), Base-modellen eller Small-modellen komfortabelt, og Medium-modellen vil slite. De største Whisper-modellene — Large v3 på ~3 GB, eller Turbo — vil ha 16 GB eller mer og har størst nytte av et dedikert GPU. Det beste flerspråklige alternativet for nøyaktighet er Large v3, som støtter 99 språk men trenger de 16 GB med slingringsmonn.

Trykk-og-snakk-flyten er den samme uansett hvilken vei du velger — hold hurtigtasten, snakk, slipp, og teksten limes inn ved markøren. Standard hurtigtast er Ctrl+Space på Windows og Command+Option-akkorden på macOS, begge kan endres i Innstillinger. Usikker på hvilken modell som passer laptopen din? Vår guide til å velge riktig Whisper-modell kobler hver enkelt til maskinvaren den trenger. Tommelfingerregelen: en modell som passer og kjører raskt slår en større som hakker.

Når verktøyet faktisk er problemet, og når det bare er fysikk

Noen ganger har du gjort alt riktig — mikrofon tett på, stille rom, riktig språk, fornuftig modell — og det er fortsatt feil ett ord av femten. Det kan være det egentlige taket. Tunge aksenter modellen har sett lite av, tett teknisk sjargong, to personer som snakker i munnen på hverandre, en telefonhøyttaler i den andre enden — disse skyver legitimt WER oppover, og ingen innstilling fikser dem helt. For navn og fagsjargong lar lokal Whisper og Cloud-modus deg legge til en liste med egendefinerte ord som vekter gjenkjenningen mot riktig stavemåte; Parakeet tar ikke imot slike hint. Men «den lærer stemmen min jo mer jeg bruker den» er en myte fra Dragon-tiden — moderne tale-til-tekst tilpasser seg ikke din individuelle stemme over tid, og ingen mengde gjentakelse trener den. Spaken er lyden og innstillingene, ikke tålmodighet.

Når du bør droppe Whisper til dette

Hvis alt du gjør er å skyte av en tekstmelding på 20 ord eller et raskt notat, ikke last ned noe. Operativsystemet ditt dikterer allerede. På en Mac er Apple Dictation innebygd og gratis — trykk på Mikrofon-tasten eller hurtigtasten, og på støttede oppsett behandles det på selve enheten. Den stopper av seg selv etter 30 sekunders stillhet, så den passer korte utbrudd bedre enn lengre skriving. I Word gjør Microsofts Dictate det samme med en mikrofon og en internettforbindelse.

Strekk deg etter et dedikert verktøy så snart du dikterer hele avsnitt, vil at det skal fungere uten nett, eller trenger nøyaktighet på navn og sjargong de innebygde verktøyene roter med — vår oversikt over alternativer til Apple Dictation dekker mulighetene. For et enlinjes svar er det gratis innebygde verktøyet det riktige valget.

Mesteparten av tiden er svaret på «hvorfor er dikteringen min så unøyaktig» ikke en tilståelse om stemmen din. Det er en halvmeter avstand til mikrofonen og en oppvaskmaskin du glemte at gikk. Fiks lyden, sett riktig språk, velg en modell laptopen din kan bære, og døm den så mot 95 %, ikke 100 %. Slektningen med Dragon-headsettet kjempet mot 1999. Det gjør ikke du. Du kjemper for det meste mot kjøkkenet ditt.

Vil du finne ut av det på et minutt?

Last ned Whisper og kjør tre-opptaks-testen — du vet innen et minutt om det er verktøyet, rommet eller bare fysikk.

Bilde av Denys Medvediev

Denys Medvediev

Jeg er han som leser support-e-posten vår, mest sannsynlig ved å diktere svarene.