Av Denys Medvediev

Guide

Hur du använder röstskrivning på Windows

Windows har röstskrivning inbyggt. Tryck på Windows-tangenten + H i valfri textruta, vänta på "Lyssnar" och prata. Det kräver internet och en fungerande mikrofon. För intensivt bruk, offline-arbete eller arbete i flera appar gör ett dedikerat verktyg med ett enda snabbtangent samma sak överallt.

Senast uppdaterad: juni 2026

En Windows-laptop och ett tangentbord på ett skrivbord, redo för handsfree-skrivning via röst

För att använda röstskrivning på Windows placerar du markören i valfri textruta och trycker på Windows-tangenten + H. Röstskrivningsfältet öppnas, visar "Lyssnar" och skriver det du säger. Det kräver en fungerande mikrofon, en internetanslutning och att onlineigenkänning av tal är aktiverat under Inställningar, Sekretess och säkerhet, Tal.

De flesta vet inte om att Windows kan skriva åt dem. Funktionen följer med Windows 10 och 11, den har ingen installationsguide och den döljer sig bakom ett kortkommando som ingen pratar om: Windows-tangenten + H. Placera markören i en textruta, håll ned Windows-tangenten, tryck på H, och ett litet fält öppnas längst upp på skärmen och börjar lyssna.

Det är verkligen allt, och för korta stunder fungerar det utmärkt. Fångsten är det Microsoft säger öppet och som de flesta blogginlägg hoppar över: Windows röstskrivning skickar ditt tal via Microsofts moln, så det behöver en internetanslutning för att fungera alls. Den detaljen avgör om den inbyggda funktionen räcker för dig eller om du vill ha något annat. Jag går igenom den inbyggda funktionen ärligt först, och berättar sedan var den tar slut.

Här är det som hur-man-gör-listorna döljer. Windows röstskrivning är en riktig, gratis, inbyggd funktion, och den fungerar i valfri textruta som tar en markör — din webbläsare, Word, ett Slack-meddelande, sökfältet. Du installerar ingenting. Kortkommandot är Windows-tangenten + H, och när du väl vet att det finns, kommer du att använda det.

Det ärliga svaret kommer i två delar. Del ett: hur du slår på det inbyggda och använder det väl, vilket är det mesta av vad folk som söker efter det faktiskt behöver. Del två: var Win+H kör slut — inget internet, lång diktering, egna ord som det ständigt mishör — och vad ett dedikerat verktyg fixar i varje fall. Jag tar upp båda, installerar alternativet på två minuter och berättar rakt ut när Win+H redan räcker.

Vad Windows röstskrivning faktiskt är

En person som pratar nära en öppen laptop, som illustrerar att tala istället för att skriva

Windows röstskrivning är en inbyggd funktion som låter dig skriva in text genom att tala istället för att skriva. Den följer med Windows 10 och Windows 11, kostar ingenting och fungerar i valfri textruta där du kan placera en markör. Microsofts egen beskrivning är värd att citera eftersom den sätter gränserna: röstskrivning "använder onlineigenkänning av tal som drivs av Azure Speech Services." Tre saker följer av den meningen.

Först behöver det internet. Ditt tal skickas till Microsofts servrar för att omvandlas till text, så utan anslutning gör röstskrivning ingenting. För det andra behöver du en fungerande mikrofon — laptopens inbyggda räcker för att börja. För det tredje, eftersom igenkänningen sker i molnet, är noggrannheten generellt god och den belastar inte din CPU. Det är avvägningarna i ett nötskal: gratis och noggrann, men bara online och inte privat.

Folk blandar ofta ihop det här med det äldre Windows Taligenkänning, med det nyare Röståtkomst, eller med diktering inuti en enda app. För vardagliga "jag vill prata och se ord dyka upp i det jag skriver" är den du vill ha röstskrivning, öppnad med Windows-tangenten + H. Nästa avsnitt är själva guiden.

Slå på det med Windows-tangenten + H

Det finns ingen app att starta och ingen guide att klicka sig igenom. Du placerar markören där du vill ha orden och aktiverar sedan röstskrivning med ett kortkommando. Här är hela sekvensen, med det enda inställningsstopp du kan behöva.

Klicka i valfri textruta — ett dokument, ett e-postmeddelande, en chatt, adressfältet — så att markören blinkar där. Tryck på Windows-tangenten + H. Ett litet röstskrivningsfält visas längst upp på skärmen. Vänta tills det säger "Lyssnar" innan du pratar; börjar du för tidigt klipper det av dina första ord. Tala normalt och texten visas där markören är. Tryck på mikrofonknappen på fältet, eller kortkommandot igen, för att sluta.

Om ingenting händer är det oftast en av två orsaker. Din mikrofon är inte inställd eller tillåten — röstskrivning behöver en fungerande mikrofon. Eller onlineigenkänning av tal är avslaget, vilket innebär att molndelen av funktionen är inaktiverad. Slå på det under Start, sedan Inställningar, sedan Sekretess och säkerhet, sedan Tal, och ställ in Onlineigenkänning av tal på På. Om fältet öppnas men aldrig når "Lyssnar" är det nästan alltid internetanslutningen, eftersom igenkänningen sker på Microsofts servrar snarare än din dator. (Om Win+H beter sig besvärligare på ett mer envetet sätt, har jag skrivit ett separat stycke om varför Win+H slutar fungera och hur du får det att fungera igen.)

Det bättre sättet för intensivt bruk: ett snabbtangent överallt

Det inbyggda är utmärkt tills du stöter på en av dess väggar — inget internet på ett tåg, ett långt dikteringsblock, eller ett ord det mishör varje gång. Lösningen är ett systemövergripande verktyg som gör samma jobb men kör på din egen dator, har en kort buffert så att ditt sista ord inte klipps av, och använder ett enda snabbtangent i varje app. Du behöver en PC med Windows 10 eller nyare, en fungerande mikrofon och ett konto. Hela den lokala pipelinen är gratis för alla inloggade konton, utan att betalningsuppgifter krävs vid registrering. Här är sekvensen.

Steg 1 — Installera Whisper och logga in.

Ladda ned från nedladdningssidan, installera och skapa ett gratis konto. Inget kort. Den lokala transkriptionspipelinen öppnas direkt.

Du vet att det fungerade när appens systemfältsikon visas och installationsguiden erbjuder sig att välja en modell.

Steg 2 — Välj en transkriptionsväg.

Appen väljer inte åt dig. Du får tre: Moln (OpenAI, med din egen nyckel), Lokal Parakeet eller Lokal Whisper. För att ersätta Win+H:s online-beteende med något offline väljer du en lokal motor — mer om det två avsnitt ned.

Du vet att det fungerade när en modell är färdignedladdad och visas som redo.

Steg 3 — Bekräfta ditt snabbtangent.

På Windows är standardinställningen Ctrl+Space, hålls ned som push-to-talk. Ändra det i Inställningar om det krockar med något du redan använder. Till skillnad från Win+H håller nedtryckning av tangenten inspelningen igång så länge du håller den.

Du vet att det fungerade när en testinspelning klistras in i valfritt textfält.

Steg 4 — Placera markören var som helst och prata.

Klicka i ett dokument, e-postmeddelande eller chattruta, håll ned snabbtangenten, säg en mening, släpp. Transkriptet klistras in där markören är, i vilken app som helst som är i fokus.

Du vet att det fungerade när din talade mening sitter i textrutan som text.

Whisper
Den riktiga Whisper-desktopappen på inställningsskärmen, med panelerna Transkription och AI öppna.

Den långsamma delen är engångsnedladdningen av modellen, inte installationen. Sedan slutar det att skriva i valfri app vara en typningsuppgift och blir en taluppgift — och det fortsätter fungera när Wi-Fi:n försvinner.

Om du tidigare använt tal till text på Windows 11 är det här samma idé med ett snabbtangent som inte slutar automatiskt på dig.

Interpunktion: kommandon kontra automatisk

Rå tal har inga kommatecken. Varje dikteringsverktyg hanterar det på ett av två sätt, och Windows röstskrivning erbjuder faktiskt båda. Det har automatisk interpunktion, som lägger till kommatecken och punkter på eigen hand baserat på hur du talar, och du växlar det från kugghjulsikonen på röstskrivningsfältet. Och det har talade kommandon: säg "punkt" eller "punkt", "komma", "ny rad", "öppna citattecken" och "stäng citattecken", och det sätter in tecknet istället för orden.

Kugghjulsmenyn på det fältet är värd att titta på en gång. Utöver automatisk interpunktion innehåller den filter för svordomar och valet av standardmikrofon. Inget är gömt; det är ett klick från fältet som öppnas med Win+H. Medan du talar visar en liten indikator att funktionen lyssnar — samma idé som varje bra dikteringsverktyg använder så att du aldrig behöver gissa om det hörde dig:

Cancel
En inspelningsindikator: en liten kapsel som visas medan du talar, så att du vet att verktyget lyssnar.

Gränsen för kommandoBaserad interpunktion är att den tvingar dig att berätta om formateringen — "komma", "ny rad", "punkt" — vilket är okej för en text men tröttande över ett långt stycke. Automatisk interpunktion hjälper, men den lämnar ändå en bokstavlig utskrift av vad du sa, med öhm och falska starter inkluderade. Att städa upp det till något du faktiskt skulle behålla är ett separat steg, och det är där ett dedikerat verktyg går förbi. Mer om det nedan.

Lokalt eller molnet: valet Win+H inte ger dig

Windows röstskrivning fattade det lokala-eller-moln-beslutet åt dig: det är molnet, punkt slut. Ditt tal går till Microsofts servrar varje gång. Det är okej för en inköpslista och ett verkligt problem för en lönekalkylnot eller ett klientmejl du helst inte vill ha transkriberat utanför kontoret. Ett dedikerat verktyg ger dig valet som det inbyggda hoppar över. Så här skiljer sig de tre vägarna åt, eftersom appen ber dig välja och jag hellre vill att du väljer rätt:

  • Lokal ParakeetNVIDIAs TDT-motor, runt 600 MB, och det snabbaste lokala alternativet — 5 till 10 gånger snabbare än Whisper på CPU. Täcker engelska plus 24 andra europeiska språk, 25 totalt. Ingen översättning till engelska. Om du dikterar på engelska eller ett annat europeiskt språk och vill ha hastighet utan att något lämnar din dator är det här det enkla valet.
  • Lokal WhisperLångsammare än Parakeet på samma dator, men de flerspråkiga byggen täcker 99 språk och kan översätta till engelska. De engelskspråkiga byggen är bara på engelska, inte 99. Välj det här för kinesiska, japanska, koreanska eller allt översättningsarbete som Parakeet inte klarar. Standardmodellen för engelska är runt 480 MB.
  • Moln (OpenAI, BYOK)Bästa noggrannhet och webbåtkomst, med din egen OpenAI-nyckel fakturerad direkt av OpenAI. Transkription körs som standard på gpt-4o-mini-transcribe. Kräver internet, precis som Win+H, men det är din nyckel och ditt val. Molnytan är en del av Whisper Pro.

Den tråkiga sanningen är att för de flesta vardagliga skrivuppgifter är en lokal motor mer än tillräcklig, och det är det enda Win+H inte kan erbjuda. Båda lokala vägarna körs helt på din dator utan att något skickas till en server. Molnet tjänar sitt syfte när du vill ha toppnoggrannhet på en svår inspelning eller behöver att modellen hämtar ett faktum från webben mitt i en mening. Börja lokalt och ta till molnet bara när lokalt inte räcker.

Renare resultat utan att säga varje kommatecken

Både Win+H och ett dedikerat verktyg ger dig samma utgångspunkt: en lång sträng utan interpunktion. Du säger "okej alltså flytta deadline till fredag berätta för klienten och boka rummet för två", och det är den opunkterade väggen som varje talmotor ger dig. Win+H kan interpunktera medan du går eller ta emot talade kommandon. Ingen av dem tar bort "öhm" eller rättar en mening du började om halvvägs.

Den uppstädningen är där ett AI-pass gör sig förtjänt. Säg aktiveringsfrasen "Hey whisper" och den transkriberade texten förbättras innan den landar — fyllnadsord borttagna, långa meningar delade, versalisering fixad. På en lokal modell körs det via Ollama på din dator; i molnläge är det gpt-5-mini som standard. Du talar den röriga versionen en gång och får tillbaka den version du faktiskt skulle skicka.

Thinking...

okay so move the deadline to friday tell the client and book the room for two um before lunch

Städad

Okay, so move the deadline to Friday, tell the client, and book the room for two before lunch.

Sedan finns orden som en generisk motor ständigt missar — ett produktnamn, en kollegas efternamn, lite fackjargon. Win+H ger dig inget sätt att lära den de orden. Ett dedikerat verktyg låter dig styra mot anpassat ordförråd så att orden du använder varje dag slutar komma tillbaka fel. Det hittar inte på formatering du inte bad om, och den som lovar "säg rubrik och se den styla sig själv" säljer en demo, inte en vanlig tisdag. Få ned orden snabbt och rent via röst; gör layouten med tangenterna du redan känner till.

Det flödet — tala sedan städa — är hela anledningen till att folk byter: du kan skriva snabbare med röst i varje app istället för att diktera kommatecken i ett inbyggt fält som bara fungerar online.

När Win+H redan räcker

En laptop öppen på ett köksbänk, som antyder en snabb vardagsanteckning

Ibland är det gratis alternativet som redan finns på din dator det rätta svaret, och att låtsas annorlunda vore ohederligt. Windows röstskrivning är verkligen bra för en stor del av vad folk behöver, och att installera något extra vore överdrivet.

Håll dig till Win+H om du är online det mesta av tiden, din diktering kommer i korta stunder och du inte har något emot att ditt tal passerar genom Microsofts moln. Ett tvåraders Slack-svar, en sökfråga, en snabb anteckning i ett dokument — tryck på Windows-tangenten + H, vänta på "Lyssnar", prata, klart. Det är gratis, det är inbyggt och det interpunkterar på eigen hand. För en enrads-påminnelse tänker jag inte säga åt dig att installera en app.

Ta ett dedikerat systemövergripande verktyg när det inbyggda börjar göra ont: inget internet på ett flyg eller tåg, långa dikteringsstunder där push-to-hold slår ett fält som tar timeout, integritet för text du inte vill ska lämna din dator, egna ord det ständigt mishör, eller att du vill ha ett snabbtangent som beter sig identiskt i varje program. Under den gränsen vinner Win+H på pris och nollinstallation. Över den är skillnaden verklig.

Om du fortfarande bestämmer dig för vilken sida av den gränsen du befinner dig på lägger den längre jämförelsen i guiden till Win+H-alternativ ut exakt var varje alternativ passar, utan marknadsföringsglansen.

Windows levererade röstskrivning för år sedan och gömde det bakom ett kortkommando som ingen säger högt. Nu vet du det: Windows-tangenten + H, vänta på "Lyssnar", prata. För de flesta snabba uppgifter är det hela svaret, och det är gratis. Den dag du är offline, eller dikterar något längre än ett textmeddelande, eller ett ord ständigt kommer tillbaka fel, vet du exakt vilken vägg du slagit i — och vilket verktyg som tar dig över den. Jag dikterade en hel del av det här med röst, i en app som inte bryr sig om vilken textruta markören är i. Internet försvann två gånger medan jag höll på. Dikteringen märkte det inte.

Prova röstskrivning som också fungerar offline

Håll ned ett snabbtangent, prata, släpp. Transkriptet landar i vilken textruta markören är i — på ett tåg, på ett flyg eller med Wi-Fi:n nere.

Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att komma igång.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår support-e-post, troligtvis genom att diktera svaren.

Vidare läsning