Av Denys Medvediev

Feilsøking

Diktering skriver feil ord? 5 løsninger

Diktering skriver feil ord når modellen mishører én lyd og gjetter. Fem årsaker, fire av dem kan du fikse på ti minutter.

Sist oppdatert: juni 2026

Svart tastatur i grunt fokus på mørk overflate, som illustrerer dikteringsresultat som ender opp på siden

Diktering skriver feil ord når talemodellen mishører én lyd og skriver om setningen rundt gjettingen sin. De vanligste årsakene er svak mikrofon, bakgrunnsstøy, et homofon modellen ikke klarer å skille, feil språkinnstilling, eller et navn den aldri har sett. Fiks lyden først, deretter lær verktøyet vokabularet ditt.

Du sier «distribuer til staging.» Skjermen viser «destruer stadionet.» Du retter det. Neste setning, samme sak. Ved den tredje rettingen skriver du raskere enn du snakker, noe som undergraver hele poenget. Jeg har sett akkurat denne syklusen frustrere en forfatter, en selger, og min egen mor, som prøvde diktering én gang og gikk tilbake til to-fingerstyping av ren prinsipp. Den gode nyheten er at nesten hvert feil ord spores tilbake til én av fem årsaker, og fire av dem kan du fikse i løpet av de neste ti minuttene.

Her er det ingen forteller deg. De fleste dikteringsverktøy er ikke ødelagt når dette skjer. De gjetter, i sanntid, under dårlige forhold, uten å vite hva kollegaen din heter eller at «Kubernetes» er et ord. Whispers lokale modus har en innstilling som løser det siste problemet direkte — et Egendefinerte ord-felt der du lister opp navnene og faguttrykket du forventer at det skal høre, slik at det staver dem riktig i stedet for å finne på noe som rimer. Det er gratis og fungerer offline. Vi kommer dit. Men den kjedelige sannheten er at mikrofonen betyr mer enn programvaren, så vi starter der.

Dikteringen er ikke ødelagt. Den gjetter.

Bærbar datamaskintastatur under rombelysning, som illustrerer hvor feilskrevet diktering havner

Tale-til-tekst hører ikke bokstaver. Den hører lyd, og den satser på de mest sannsynlige ordene lyden lager — deretter justerer den den gjetningen etter hvert som mer lyd ankommer. Det er derfor diktering noen ganger skriver om tekst du allerede sa. Den mishører ett ord sent i setningen, bestemmer at et tidligere ord må ha vært noe annet for at grammatikken skal stemme, og endrer det stille.

«Noens» og «noens.» «Der» og «der.» «Ting» og «tenk.» Dette er homofoner — ord som høres identiske ut — og ingen mengde tydelig tale fikser dem, fordi tydelighet aldri var problemet. Modellen må gjette ut fra kontekst, og noen ganger gjetter den feil.

Så er det ord modellen genuint aldri har møtt. Sjefens etternavn. En produktkode. «Remskill.» Modellen kan ikke stave det den ikke kjenner, så den erstatter med det nærmeste virkelige ordet den vet om. Det er ikke en feil. Det er et vokabular-gap, og det har en spesifikk løsning vi dekker nedenfor.

Mikrofonen er den vanligste synderen

Skrivebordoppsett med kondensatormikrofon, bærbar PC og hodetelefoner, dikteringskilden

Før du skylder på programvaren, se på hva som mater den. En bærbar datamaskinen sin innebygde mikrofon sitter ved siden av viften, peker mot taket, og plukker opp rommet like mye som stemmen din. Søppel inn, feil ord ut.

Dette er den ene meningen jeg vil satse hele artikkelen på: «KI» fikser ikke dårlig lyd. En USB-mikrofon til 200 kroner gjør mer for nøyaktigheten enn noe modelloppgraderinger du kan gjøre. Jeg brukte en uke på å laste inn større, tregere modeller for å fikse mine egne feil ord, før jeg la merke til at den bærbare PC-mikrofonen min var rettet mot viften. Mikrofonen var problemet hele tiden. Jeg bygger denne programvaren til daglig. Bruk pengene på maskinvare først. Modellen er den billige delen.

Verifiseringstesten: dikter de samme tre setningene med den innebygde mikrofonen, deretter med et hodesett eller USB-mikrofon. Hvis antall feil ord synker, var mikrofonen problemet og du er ferdig. De fleste slutter å lese her, og det er greit.

Bakgrunnsstøy og romakustikk

Rolig stille skrivebord med bærbar PC, notatbok og blomster i et lavstøyende arbeidsrom

En oppvaskmaskin to rom unna. En kollegas telefonsamtale. Den typen åpent kontorlandskap der du kan høre noen spise chips fra ni meter. Modellen kan ikke skille stemmen din fra støyen — den transkriberer hva enn lyden er høyest, og noen ganger vinner chipsene.

Googles AI-oversikt for akkurat dette problemet lister bakgrunnsstøy som en primær årsak, rett ved siden av aksenter og homofoner. Løsningen er uoppsiktsvekkende: lukk døren, skru av viften, flytt deg bort fra det åpne vinduet. Et stille rom gjør mer enn en smart algoritme.

Verifisering: prøv den samme dikteringen i et stille rom versus det vanlige ditt. Hvis feilene minker i stillhet, var støy synderen. Hvis du ikke kan få et stille rom, er en retningsstyrt eller støyreduserende mikrofon som bare lytter til det som er rett foran den, det nest beste alternativet — og vi er tilbake til maskinvare, der pengene burde gå uansett.

Feil språk eller aksent-mismatch

Trebokstavbrikker spredt på et lyst bord, som antyder ord og språkvalg

Hvis dikteringen er satt til automatisk gjenkjenning og du veksler mellom språk, bruker modellen innsats på å identifisere språket før den identifiserer ordene — og en feil gjetning om språket forgifter alt etterpå. Sett språket eksplisitt når du kan.

I Whisper er det Innstillinger, Transkripsjon, Språk. Å velge talespråket ditt direkte hopper over gjenkjenningstrinnet og hjelper modellen med å plukke opp ordene dine mer nøyaktig. La det stå på automatisk gjenkjenning bare hvis du genuint veksler mellom språk midt i en økt. Whispers flerspråklige modeller dekker 99 språk med automatisk gjenkjenning; de engelskspråklige byggene låser til engelsk, som er akkurat det du vil ha hvis engelsk er alt du snakker.

Aksent-mismatch er fetter til dette problemet. En amerikansk-engelsk modell trent mest på amerikanske talere vil snuble på en sterk regional aksent. Å sette den nærmeste regionale varianten verktøyet ditt tilbyr, og gi den et rent signal, begrenser gapet.

Fiks det på Windows, Mac og iPhone

Hver plattforms innebygde diktering har sine egne særtrekk og sitt eget tak. På Windows åpner Stemmeskriving med Windows-tasten pluss H, men markøren din må være i et tekstfelt og du trenger en internettforbindelse — det innebygde verktøyet sender lyden din til skyen for å transkribere den. Hvis det skriver tull, sjekk forbindelsen først; Apple-supportforaene for det samme feil-ord-problemet har «verifiser internettforbindelsen» helt øverst på listen. (For en grundigere gjennomgang, se guiden vår om tale til tekst som ikke fungerer på Windows.)

På Mac, slå på diktering med Mikrofon-tasten i funksjonstasträkken, Diktering-snarveien, eller Rediger og deretter Start diktering. En ting å avklare: nåværende macOS-diktering lar deg diktere tekst i hvilken som helst lengde uten tidsavbrudd — den stopper bare etter omtrent 30 sekunders stillhet, som folk forveksler med en hard grense. Hvis feil ord vedvarer, går vår feilsøkingsguide for tale til tekst på Mac steg for steg. På iPhone peker Apple-foraene også på å deaktivere prediktiv tekst, som noen ganger overprøver det dikteringen fikk riktig.

Den hardere grensen: Windows Stemmeskriving (Win+H) gir deg ingen måte å legge til egendefinerte ord eller trene ordboken sin. Words separate dikteringsflate lar deg bygge en liten dikteringsordbok, men verktøyet de fleste bruker — Win+H — kan ikke læres vokabularet ditt i det hele tatt. Noe som bringer oss til den ene løsningen som faktisk gjør en forskjell på feil-navn, feil-faguttrykk-problemet.

Lær den ordene dine: egendefinert vokabular

Whisper
Den ekte Whisper-appen — åpne Innstillinger, Transkripsjon, og skriv inn navnene og faguttrykkene dine i Egendefinerte ord-feltet. Klikk rundt; det er live.

Dette er løsningen de innebygde verktøyene ikke kan gi deg. Når du kjører en Whisper-modell i Whispers lokale modus, får du et Egendefinerte ord-felt — en kommaseparert liste over navnene, produktbetegnelsene og faguttrykkene du forventer at den skal høre. Du skriver inn «Kubernetes, PostgreSQL, Remskill, John Smith,» og transkripsjonen foretrekker å stave disse riktig når de dukker opp i talen din. Det ligger i Innstillinger, Transkripsjon, i det gratis lokale nivået — ikke noe kort, ikke noe sky.

En forbehold verdt å vite: Egendefinerte ord er en Whisper-modellfunksjon. Parakeet, det raskere lokale alternativet, godtar ikke egendefinerte ord eller ledetekstantydninger — dens egen beskrivelse sier det tydelig. Så hvis det å lære verktøyet vokabularet ditt betyr noe for deg, velg en Whisper-modell, ikke Parakeet.

Jeg lærte hvor mye dette betyr fra min yngste datter. Jeg viste henne diktering én gang — trykk, snakk, slipp. Hun skrev umiddelbart en e-post på 90 ord til bestemoren sin om en tann hun hadde mistet og tannfeen sin valutakurs, uten spørsmål. Så kom hun tilbake irritert fordi den hele tiden manglede bestevenninnens navn. Hun visste ikke hva et vokabular-gap var. Hun visste bare at det fikk navnet feil. Jeg la til navnet i Egendefinerte ord, og klagene stoppet. Den gjennomsnittlige personen ønsker ikke å forstå hvorfor diktering stavet et navn feil. De vil ha en boks å skrive navnet inn i. Den boksen er hele poenget med denne seksjonen.

En annen justering, hvis du vil ha den: Whisper tilbyr en Profil-innstilling — Rask, Balansert eller Nøyaktig — som styrer hvor nøye modellen lytter. Nøyaktig er tregere men fanger mer. Og å velge en større modell fra de åtte Whisper leverer, fra Base på rundt 140 MB opp til Large v3 på rundt 3 GB, bytter hastighet mot nøyaktighet. Ingen av disse er «det rette valget» for alle — de er justeringsknapper, og feil-ord-problemet avgjør hvilken du dreier på. Hvis du er usikker på hvilken du skal laste inn, legger guiden vår for å velge en Whisper-modell ut avveiningene.

Et oppryddingspass som fikser resten

Thinking...
Whispers valgfrie KI-oppryddingspass som kjører på råtranskripsjonen — det fikser grammatikk, tegnsetting og store/små bokstaver før teksten havner ved markøren din.

Selv etter at lyden er ren og vokabularet er lastet inn, slipper noen gjenværende feil gjennom. Whisper kan kjøre et valgfritt KI-oppryddingspass på råtranskripsjonen før den havner ved markøren din — det fikser grammatikk, tegnsetting og store/små bokstaver, og fjerner fylleord som «eh» og «liksom.» Det kjører på enheten din gratis, eller i sky-modus med OpenAI hvis du har oppgitt din egen nøkkel.

Dette er sikkerhetsnettet, ikke det første trekket. Fiks mikrofonen, still rommet, sett språket, lær det ordene dine — deretter la oppryddingspasset rydde opp det som er igjen. Å prøve å la KI-tekstkorrigering kompensere for en vifte-blåst innebygd mikrofon er å løse det feil problemet med det dyre verktøyet. Jeg vet, fordi jeg lanserte oppryddingspasset først og språkvelgeren andre, i nøyaktig feil rekkefølge, og deretter brukte min egen app i en måned og lurte på hvorfor. For de som vil ha finkornet kontroll, går Whisper-prompteguiden vår dypere inn på å forme utdata.

Hurtigtasten for å ta opp er Ctrl+Space på Windows og Command+Option på Mac, begge tilpasningsdyktige i Innstillinger hvis de krasjer med noe du allerede bruker.

Når det innebygde verktøyet ikke kan fikses

Noen ganger er svaret ikke en løsning — det er et annet verktøy, eller intet verktøy i det hele tatt. Hvis du bare sender av gårde en og annen 30-ords tekst, er Apple Dictation og Windows Stemmeskriving gratis og innebygd, og å jage perfekt nøyaktighet er unødvendig. Bruk det som allerede er der.

Men det er et reelt tak. Windows Stemmeskriving trenger internett og kan ikke lære vokabularet ditt. Hvis feil-ord-problemet ditt spesifikt er at verktøyet hele tiden ødelegger navn, produktbetegnelser eller teknisk faguttrykk — og du ikke kan legge til disse ordene noe sted — kan det innebygde verktøyet genuint ikke fikses for ditt brukstilfelle. Det er grensen der et opplærbart, frakoblet verktøy gjør sin plass fortjent. Og hvis du mest transkriberer møter med flere talere i stedet for å diktere din egen skriving, er det en helt annen kategori verktøy — møtetranskribering, ikke diktering. Ikke tving en dikteringsapp inn i en jobb den ikke ble bygd for.

Hvor nøyaktig bør du forvente at dikteringen er?

Sett forventningene ærlig. Ren lyd, et kjent språk, og et lastet vokabular vil få deg til et punkt der korrigeringer er unntaket, ikke regelen. Offentlige Whisper-referanseverdier lander på rundt 3% ordfeiltakt på ren lest tale med medium engelskmodell. Virkeligheten — din aksent, ditt rom, ditt faguttrykk — er høyere. Det er normalt.

Målet er ikke null feil. Målet er færre feil enn typing ville ha produsert på samme tid, og den ribben er lavere enn folk tror. Diktering på 145 ord per minutt slår skriving på 40 selv når du stopper for å rette ett eller to ord. Hvis du retter hvert eneste andre ord, er noe på listen ovenfor fortsatt ødelagt. Hvis du retter hvert tiende ord, har du allerede vunnet.

Hvis dikteringen fortsetter å skrive feil ord, fiks lyden, sett språket, og lær den navnene dine — deretter la den gjøre skrivingen mens du gjør noe annet. Min yngste datter kaller det fortsatt «snakkemaskinen.» Hun har ingen anelse om at det finnes et vokabularfelt, en språkvelger, eller åtte modeller bak trykk-snakk-slipp. Det er den versjonen av dette som faktisk fungerer — når de feil ordene stopper, og du slutter å legge merke til verktøyet i det hele tatt.

Vil du at navnene skal komme ut riktig?

Last ned Whisper, legg til ditt første egendefinerte ord, og se de feil ordene forsvinne allerede i første setning.

Foto av Denys Medvediev

Denys Medvediev

Jeg er den som leser supporte-posten vår, mest sannsynlig ved å diktere svarene.

Videre lesning