Av Denys Medvediev

Guide

Tal till text på Windows 11

Håll ned Windows-tangenten + H på ett fysiskt tangentbord, placera markören i ett textfält och börja prata — den inbyggda röstinmatningen körs online via Azure. För offlinediktering i vilken app som helst, installera ett dedikerat verktyg. Den här guiden ställer in båda, från start till mål.

Senast uppdaterad: juni 2026

Händer som skriver på ett bärbart tangentbord inomhus, en illustration av diktering som ett snabbare alternativ till att skriva

Håll ned Windows-tangenten + H på ett fysiskt tangentbord, placera markören i ett textfält och börja prata. Orden hamnar vid markören. Den inbyggda röstinmatningen använder Azures taligenkänning online och kräver internetanslutning. För offlinediktering i vilken app som helst, installera ett dedikerat verktyg. Den här guiden ställer in båda, från start till mål.

Min äldre dotter frågade en gång varför det tar så lång tid att skicka mina mejl. Det ärliga svaret är att jag skriver ungefär 40 ord i minuten och blir avbruten ungefär var nittionde sekund. Röstinmatning löste hälften av det. Knepet i Windows 11 är ett kortkommando som de flesta aldrig hittar: håll ned Windows-tangenten + H, så dyker ett litet mikrofonverktygsfält upp ovanför det du skriver i.

Sedan pratar du, och orden hamnar vid markören. Min åsikt, som jag försvarar nedan: för allt utöver en snabb notering är det inbyggda verktyget inte det jag skulle välja.

Det finns två vägar för att få röst-till-text att fungera i Windows 11, och skillnaden ligger i var arbetet utförs. Väg 1 är den inbyggda röstinmatningen, som skickar ditt ljud till Microsofts Azure-servrar, transkriberar det där och skickar tillbaka texten. Det fungerar bra för ett Teams-meddelande men är ett problem för ett lönekalkylblad på ett flyg utan Wi-Fi.

Väg 2 är en skrivbordsapp som transkriberar på din egen dator, offline, i vilket fönster som helst. När du är klar med den här guiden har du båda igång och vet vilken du ska behålla. De flesta supportmejl jag får kommer från någon som valde fel väg från start. Jag är den som läser dem.

Väg 1: tryck på Win+H och börja prata

Windows 11 · Win + H

Listening…
Den inbyggda röstinmatningens verktygsfält i Windows 11: en mikrofonknapp, en kugghjulsinställning och etiketten Lyssnar.

Krav: Windows 11, internetanslutning, fungerande mikrofon och markören i ett textfält. Inget att ladda ned och inget konto. Tid: under en minut.

1

Öppna ett textfält. Ett Word-dokument, ett mejl, en webbläsares sökfält — var som helst du kan skriva.

2

Håll ned Windows-tangenten + H på ett fysiskt tangentbord. Ett litet flytande verktygsfält med en mikrofonknapp dyker upp.

3

Vänta på etiketten Lyssnar och börja sedan prata. Dina ord visas vid markören.

4

Säg sluta lyssna eller tryck på mikrofonen för att stoppa. Verktygsfältet stängs och din diktering stannar där markören stod.

Förväntat resultat: verktygsfältet visar Lyssnar och orden du säger dyker upp vid markören medan du pratar. Om du slår på automatisk interpunktion (kugghjulsikonen i verktygsfältet) lägger verktyget till kommatecken och punkter baserat på vad du säger.

Om inget händer: röstinmatningen använder taligenkänning online via Azure och kräver därför internetanslutning, fungerande mikrofon och en markör inne i ett textfält. Ingen anslutning, ingen transkribering. Den fullständiga felsökningslistan finns två avsnitt längre ned.

Kommer du från en äldre guide som pratar om Windows Speech Recognition? Den funktionen ersattes av Voice Access för Windows 11 22H2 och senare redan i september 2024. Den gamla WSR-kontrollpanelen lever kvar endast i äldre Windows-versioner. Så om en guide ber dig öppna en guide för taligenkänning och du inte hittar den, är guiden inaktuell — inte din dator.

När den inbyggda röstinmatningen räcker

Bärbar dator och anteckningsblock på ett träskrivbord, en låginsatsmiljö där inbyggd diktering fungerar utmärkt

Jag ska inte be dig installera programvara du inte behöver. För många uppgifter är Win+H rätt svar, och det kostar ingenting.

Använd det inbyggda verktyget när dikteringen är kort, du har anslutning och insatserna är låga. Ett svar till en kollega i Teams. En snabb notering i OneNote. En sökfråga du hellre pratar än knåpar fram med tummen. Det hanterar automatisk interpunktion och fungerar i alla vanliga textfält i Windows 11. För 30-ords-utbrott när du ändå är uppkopplad skulle det gå långsammare att öppna en andra app än att bara prata.

En annan inbyggd funktion förvirrar folk, så låt mig reda ut det. Voice Access är inte samma sak som röstinmatning. Voice Access låter dig styra hela datorn och skriva text med rösten, och till skillnad från Win+H körs det offline med lokal taligenkänning efter en engångsnedladdning av språkpaket. Det kräver Windows 11 version 22H2 eller senare. Så om du behöver full handsfree-kontroll av datorn (klicka, scrolla, öppna appar med rösten) är Voice Access det inbyggda verktyget att välja — inte röstinmatning. Det är olika uppgifter.

Var Win+H inte räcker till (offline, noggrannhet, språk)

Det inbyggda verktyget har tre verkliga begränsningar. Ingen av dem är avgörande för en snabb notering. Alla tre börjar ställa till det så fort du gör längre eller mer seriöst arbete.

Offline

Röstinmatning kräver internet eftersom transkriberingen sker på Azure-servrar, inte på din bärbara dator. På ett flyg, på ett tåg genom en tunnel eller i en byggnad som sväljer Wi-Fi slutar det fungera.

Noggrannhet

Microsoft publicerar ingen noggrannhetssiffra för röstinmatning och det finns inget neutralt riktmärke jag skulle vilja hänvisa till. Det jag kan säga är att en molnmodell med dålig anslutning, en inbyggd mikrofon i en bärbar dator och en kraftig accent är tre separata sätt att få ett transkript du måste städa upp för hand.

Språk

Röstinmatning stöder en fast lista med ungefär fyrtio språk som underhålls av Microsoft, och du måste installera varje språk innan du kan byta till det. Det räcker för de flesta men är en mur för den som arbetar på ett språk Microsoft inte lagt till.

De tre verkliga begränsningarna med inbyggd röstinmatning: offline-läge, noggrannhet och språktäckning.

Integritetsperspektivet är det jag tänker mest på. Din diktering — mejlet till barnets skola, utkastet till ett kontrakt, den halvfärdiga idén du aldrig skulle säga högt på ett möte — lämnar din dator och går till en server. För ett Teams-möte som drar fem minuter över är det ingenting. För det du verkligen bryr dig om är det värt att veta vart ljudet tar vägen.

Win+H fungerar inte? De tre vanligaste bovarna

När Win+H inte gör någonting är det nästan alltid en av tre saker. Kontrollera dem i den här ordningen, för så vanliga är de som orsak.

1. Ingen internet eller ingen fungerande mikrofon.

Röstinmatning kräver anslutning och en mikrofon som Windows kan höra. Öppna Inställningar, System, Ljud och bekräfta att din inmatningsenhet visar rörelse när du pratar.

Testa åtgärden: verktygsfältet ska visa Lyssnar i stället för att hänga.

2. Markören är inte i ett textfält.

Win+H aktiveras bara när markören är inuti ett fält du kan skriva i. Klicka in i ett Word-dokument eller ett mejlbrev först och tryck sedan på kortkommandot.

Testa åtgärden: mikrofonverktygsfältet dyker upp direkt när du trycker på tangenterna.

3. Ett funktionstangentslager i den bärbara datorn kapar H-tangenten.

På en del bärbara datorer mappar om toppradstangenter eller medietangenter saker, och ett tangentbordsverktyg kan fånga upp kortkommandot.

Testa åtgärden: öppna pektangentbordets mikrofonknapp i stället. Om diktering fungerar där är det hårdvare-kortkommandot som är problemet, och du mappar om tangenten i tillverkarens tangentbordsverktyg.

Kontrollera de tre vanliga bovarna i ordning — så vanliga är de som orsak.

Om ingen av dem löser det är den djupare orsaken oftast ett språkpaket som inte installerades klart eller en Windows-uppdatering som körde mitt i. Det är också när jag slutar brottas med det inbyggda verktyget och ställer in något jag kontrollerar från start till slut, vilket är Väg 2 nedan. Om det fortsätter att misslyckas efter det har vi skrivit en separat guide för när röstinmatning inte fungerar i Windows med den längre checklistan.

Väg 2: installera en dedikerad dikteringsapp

Whisper är skrivbordsappen jag bygger, och den gör de tre saker Win+H inte kan: den transkriberar offline på din egen CPU, den fungerar via ett systemomfattande kortkommando i vilken app som helst, och den låter dig välja motor för din hårdvara och dina språk i stället för en fast molnmodell. Här är hela installationen, från start till mål.

Whisper
Den riktiga Whisper-skrivbordsappen — klicka runt i panelerna Inställningar, Transkribering och AI.

Krav: Windows 11, ungefär 1 GB ledigt diskutrymme för en mellanstor modell, en mikrofon och ett gratiskonto (inget betalningssätt krävs från start). Du behöver anslutning för den engångsvisa nedladdningen; transkriberingen efter det är offline. Tid: 5–10 minuter, mest modellnedladdningen.

1

Ladda ned och installera Whisper. Hämta installationsprogrammet från nedladdningssidan och kör det. Förväntat: appen öppnas i sitt huvudfönster.

2

Logga in. Skapa gratiskontot när du uppmanas; inget kort krävs från start. Förväntat: du hamnar på huvudskärmen med Inställningar tillgängliga.

3

Välj en lokal motor och ladda ned modellen. Välj en Whisper-modell anpassad till din dator, eller Parakeet för det snabbaste lokala alternativet. Förväntat: en förloppslinje slutförs och modellen visas som redo.

4

Bekräfta kortkommandot. Standard-kortkommandot för Windows är Ctrl+Space: håll ned, prata, släpp. Ändra det i Inställningar om det krockar med något.

5

Testa det i vilken app som helst. Klicka in i ett textfält (en webbläsare, din kodredigerare, en chattruta), håll ned Ctrl+Space, säg en mening, släpp. Texten hamnar vid markören.

Förväntat resultat: med modellen nedladdad håller du Ctrl+Space i vilken app som helst, pratar, släpper, och dina ord klistras in vid markören utan internet inblandat efter nedladdningen. Att säga Hey whisper utlöser ett AI-städpass på texten innan den hamnar på plats, om du aktiverar det.

Om kortkommandot missar: bind om det i Inställningar. Det lärde jag mig på den hårda vägen. Den första versionen av kortkommandohanteraren avfyrade stopp-inspelnings-callback:en sex gånger per verkligt knapptryck i Windows, eftersom Windows indataramverk genererar spöklika Ctrl+Space-släpphändelser med oförutsägbara intervall. Det fungerade på en ren maskin och gick sönder på alla bärbara datorer med ett andra inmatat språk aktiverat. Det krävde telemetri, en 50ms-vakt som inte räckte och slutligen ett 300ms-debounce som gjorde det. Min dotters dom kvarstår: det är därför papps mejl tar så lång tid.

Vad gäller språktäckning hanterar den lokala Whisper-motorn 99 språk på sina flerspråkiga modeller, medan .en-byggena är bara engelska och lite snabbare för just det jobbet. Parakeet-motorn körs 5–10 gånger snabbare än Whisper på CPU och täcker engelska plus 24 europeiska språk (25 totalt), men hoppar över asiatiska språk och översättning till engelska. Om offline-första är det som är viktigt för dig täcker vår djupare guide till offline-tal-till-text motorerna mer detaljerat.

Win+H vs Voice Access vs en dedikerad app

Tre sätt att omvandla tal till text i Windows 11, sida vid sida. Tabellen täcker bara vad varje verktyg dokumenterar. Inga påhittade noggrannhets- eller hastighetspoäng.

VerktygTypFungerar offlinePrismodellSpråkBäst för
Win+H röstinmatningInbyggt i Windows 11Nej (Azure online)Gratis med Windows~40, fast listaKorta onlinenoteringar i alla textfält
Voice AccessInbyggt i Windows 11 (22H2+)Ja (på enheten)Gratis med WindowsBegränsad uppsättningHandsfree-kontroll av hela datorn
Whisper (dedikerad app)Installera på Windows + macOSJa (lokal CPU)Gratis lokal nivå; betald Cloud-tillägg99 på flerspråkiga Whisper-modellerOfflinediktering i vilken app som helst

Om ditt enda behov är ett snabbt Teams-svar medan du är uppkopplad vinner Väg 1 på enkelhet. Den finns redan på din dator. Så fort offline, täckning i alla appar eller ett saknat språk kommer in i bilden förtjänar Väg 2 att installeras.

Lokalt vs molnet: vilket Whisper-läge passar din dator

Whisper körs i två lägen och valet beror på din hårdvara och om du vill ha webbåtkomst.

Lokalt läge gör allt på din dator. Välj en Whisper-modell anpassad till din dator: Base är ungefär 140 MB och körs på nästan vad som helst, Small är ungefär 480 MB, Medium ungefär 1,5 GB och den flerspråkiga Large v3 är ungefär 3 GB för bästa noggrannhet om du har RAM-minne. Eller välj Parakeet på ungefär 600 MB för det snabbaste lokala alternativet om du mest arbetar på engelska eller europeiska språk. Inget av det berör internet efter nedladdningen.

Thinking...
AI-städpasset som både lokalt och molnläge delar, som körs innan texten hamnar på plats.

Molnläge är räddningsluckan. Det använder din egen OpenAI-nyckel: transkribering via gpt-4o-mini-transcribe eller gpt-4o-transcribe, och webbsökning när du vill ha ett aktuellt svar inklistrat vid markören. Du tar med nyckeln; vi tar ingen del.

Här är åsikten jag ställer mig bakom: prova lokalt läge först. Om din Windows-dator är från de senaste fyra åren behöver du inte molnet för vardagsdiktering, och lokalt läge håller ditt ljud på din dator där det hör hemma. Molnet är reservalternativet för när du stöter på en vägg, inte standarden. Whisper är gratis för hela den lokala pipelinen när du väl loggat in, utan krav på betalningssätt från start. Cloud-ytan är den betalda Pro-nivån. Detaljer finns på prissidan. För den fullständiga lokala genomgången går guiden för röst-till-text i Windows steg för steg.

När du ska skippa den dedikerade appen

Jag föredrar att du behåller Win+H framför att installera något du inte kommer använda. Skippa en dedikerad app och behåll den inbyggda röstinmatningen när allt detta stämmer:

  • Du dikterar korta utbrott, inte långa dokument.
  • Du är uppkopplad varje gång du dikterar.
  • Du arbetar bara på ett språk som Microsofts röstinmatning redan täcker.
  • Ditt ljud är lågprioriterat och du bryr dig inte om det lämnar datorn.

Win+H är gratis, redan installerat och bra på precis det jobbet. Den dedikerade appen förtjänar sin plats i det ögonblick du överskrider en av dessa gränser — ett flyg, ett kontraktsutkast, ett språk Microsoft hoppat över, eller en app som inte är ett vanligt textfält.

Ärlig prissättning

Whispers lokala läge är gratis för alla som loggar in: Whisper- och Parakeet-transkribering, AI-förbättring, historik, förinställningar, anpassade nyckelord, hårdvaruacceleration, modellnedladdningar och det globala kortkommandot — allt detta utan krav på kort från start. Whisper Pro lägger till Cloud-funktionerna ovanpå: OpenAI-molntranskribering, Cloud AI-förbättring och röstbaserad webbsökning. Den inbyggda Windows-röstinmatningen är också gratis eftersom den är en del av Windows. Den fullständiga planöversikten finns på prissidan. Jag föredrar att du läser de exakta siffrorna där snarare än att lita på en siffra i ett blogginlägg som kan bli inaktuell.

Två vägar, ett beslut. Om du är uppkopplad, noteringen är kort och insatserna är låga — tryck på Windows-tangenten + H och prata, det är gratis och redan på din dator. I det ögonblick du behöver det på ett flyg, i vilken app som helst, på ett språk Microsoft hoppat över eller med ditt ljud kvar på din egen dator — ställ in den dedikerade appen i stället. Jag korsade den gränsen någonstans vid den tredje mötesanteckning jag dikterade envändigt medan jag packade matlådor, och jag har inte skrivit ett långt mejl sedan dess.

Prova det offline på din egen dator

Ladda ned Whisper, håll Ctrl+Space, prata, släpp — dina ord klistras in vid markören i vilken app som helst, utan internet inblandat.

Gratis lokalt läge för alla inloggade konton. Inget kort krävs från start. Om Win+H redan gör allt du behöver, behåll kortkommandot — det är ett bra sådant.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår support-mejl, troligtvis dikterad.

Vidare läsning