Poradnik
Zamiana mowy na tekst w Windows 11
Naciśnij klawisz Windows + H na fizycznej klawiaturze, ustaw kursor w dowolnym polu tekstowym i zacznij mówić — wbudowane pisanie głosowe działa online przez Azure. Jeśli potrzebujesz dyktowania offline w dowolnej aplikacji, zainstaluj osobne narzędzie. Ten poradnik przeprowadzi Cię przez oba rozwiązania od początku do końca.
Ostatnia aktualizacja: czerwiec 2026

Naciśnij klawisz Windows + H na fizycznej klawiaturze, ustaw kursor w dowolnym polu tekstowym i zacznij mówić. Słowa pojawiają się przy kursorze. Wbudowane pisanie głosowe korzysta z rozpoznawania mowy Azure online i wymaga połączenia z internetem. Jeśli potrzebujesz dyktowania offline w dowolnej aplikacji, zainstaluj osobne narzędzie. Ten poradnik przeprowadzi Cię przez oba rozwiązania od początku do końca.
Moja starsza córka zapytała kiedyś, dlaczego tak długo mi to zajmuje, zanim wyślę maila. Szczera odpowiedź jest taka, że piszę jakieś 40 słów na minutę i co mniej więcej dziewięćdziesiąt sekund coś mi przerywa. Pisanie głosowe rozwiązało połowę tego problemu. Sztuczka w Windows 11 to jeden skrót, którego większość ludzi nigdy nie odkrywa: przytrzymaj klawisz Windows + H, a nad polem, w którym piszesz, pojawia się małe okienko z mikrofonem.
Wtedy mówisz, a słowa trafiają prosto do kursora. Opinia, której będę tu bronił: do czegokolwiek dłuższego niż krótka notatka wbudowane narzędzie to nie jest mój wybór.
Do działającego zamieniania mowy na tekst w Windows 11 prowadzą dwie drogi, a różnica między nimi tkwi w tym, gdzie odbywa się przetwarzanie. Droga 1 to wbudowane pisanie głosowe, które wysyła dźwięk na serwery Azure firmy Microsoft, tam go transkrybuje i odsyła tekst. Sprawdza się przy wiadomości na Teams, a jest problemem przy arkuszu z wynagrodzeniami podczas lotu bez Wi-Fi.
Droga 2 to aplikacja desktopowa, która transkrybuje lokalnie na Twoim komputerze, offline, w dowolnym oknie. Pod koniec tego poradnika będziesz mieć uruchomione oba rozwiązania i będziesz wiedzieć, przy którym zostać. Większość maili do pomocy technicznej, które dostaję, pochodzi od kogoś, kto od razu wybrał złą drogę. Ja jestem tym, który te maile czyta.
Droga 1: naciśnij Win+H i zacznij mówić
Windows 11 · Win + H
Wymagania wstępne: Windows 11, połączenie z internetem, działający mikrofon i kursor w polu tekstowym. Bez pobierania i bez konta. Czas: poniżej minuty.
Otwórz dowolne pole tekstowe. Dokument Word, wiadomość e-mail, pasek wyszukiwania w przeglądarce — cokolwiek, w czym możesz pisać.
Naciśnij klawisz Windows + H na fizycznej klawiaturze. Pojawi się mały pływający pasek z przyciskiem mikrofonu.
Poczekaj na etykietę Słucham, a następnie zacznij mówić. Twoje słowa pojawiają się przy kursorze.
Powiedz "stop listening" lub dotknij mikrofonu, aby zakończyć. Pasek się zamknie, a Twoje dyktowanie pozostanie tam, gdzie był kursor.
Oczekiwany rezultat: pasek pokazuje Słucham, a słowa, które mówisz, pojawiają się przy kursorze na bieżąco. Włączenie automatycznej interpunkcji (ikonka koła zębatego na pasku) pozwala narzędziu dodawać przecinki i kropki na podstawie tego, co mówisz.
Jeśli nic się nie dzieje: pisanie głosowe korzysta z rozpoznawania mowy online opartego na Azure, więc potrzebuje połączenia z internetem, działającego mikrofonu i kursora wewnątrz pola tekstowego. Brak połączenia oznacza brak transkrypcji. Pełna lista rozwiązań jest dwie sekcje dalej.
Korzystasz ze starszego poradnika o Windows Speech Recognition? Ta funkcja została zastąpiona przez Voice Access w Windows 11 22H2 i nowszych w wrześniu 2024 roku. Stary panel sterowania WSR żyje już tylko w starszych wersjach Windows. Jeśli więc jakiś poradnik każe Ci otworzyć kreator rozpoznawania mowy i nie możesz go znaleźć, poradnik jest nieaktualny — nie Twój komputer.
Kiedy wbudowane pisanie głosowe wystarczy

Nie będę Ci kazać instalować oprogramowania, którego nie potrzebujesz. Do wielu zadań Win+H to właściwa odpowiedź i nic nie kosztuje.
Korzystaj z wbudowanego narzędzia, gdy dyktowanie jest krótkie, masz połączenie z internetem i stawki są niskie. Odpowiedź dla współpracownika na Teams. Szybka notatka w OneNote. Zapytanie do wyszukiwarki, które wolisz powiedzieć niż wklepać palcem. Obsługuje automatyczną interpunkcję i działa w każdym standardowym polu tekstowym w Windows 11. Przy trzydziestosłowowych urywkach, gdy i tak jesteś online, otwieranie drugiej aplikacji zajęłoby więcej czasu niż samo mówienie.
Druga wbudowana funkcja często wprowadza zamieszanie, więc wyjaśnię. Voice Access to nie to samo, co pisanie głosowe. Voice Access pozwala sterować całym komputerem i dyktować tekst głosem — i w odróżnieniu od Win+H działa offline, korzystając z rozpoznawania mowy na urządzeniu po jednorazowym pobraniu pakietu językowego. Wymaga Windows 11 w wersji 22H2 lub nowszej. Jeśli więc potrzebujesz pełnego sterowania komputerem bez rąk (klikanie, przewijanie, otwieranie aplikacji głosem), sięgnij po Voice Access, nie po pisanie głosowe. To dwa różne narzędzia do dwóch różnych zadań.
Gdzie Win+H zawodzi (offline, dokładność, języki)
Wbudowane narzędzie ma trzy realne ograniczenia. Żadne z nich nie dyskwalifikuje go przy szybkiej notatce. Ale wszystkie trzy dają się we znaki, gdy tylko zaczniesz robić coś dłuższego albo poważniejszego.
Tryb offline
Pisanie głosowe wymaga internetu, bo transkrypcja odbywa się na serwerach Azure — nie na Twoim laptopie. W samolocie, w pociągu przez tunel albo w budynku, który zjada sygnał Wi-Fi, po prostu przestaje działać.
Dokładność
Microsoft nie publikuje żadnych danych o dokładności pisania głosowego i nie ma żadnego neutralnego benchmarku, na którym mógłbym się oprzeć. Mogę powiedzieć tyle: model chmurowy na niestabilnym połączeniu, wbudowany mikrofon laptopa i wyraźny akcent to trzy osobne powody, dla których dostaniesz transkrypt, który trzeba będzie poprawić ręcznie.
Języki
Pisanie głosowe obsługuje stałą, utrzymywaną przez Microsoft listę około czterdziestu języków — każdy trzeba zainstalować przed przełączeniem. Dla większości ludzi to wystarczy, ale dla kogoś pracującego w języku, którego Microsoft jeszcze nie dodał, to ściana.
Kwestia prywatności to ta, o której myślę najczęściej. Twoje dyktowanie — e-mail do szkoły dziecka, szkic umowy, pomysł w połowie ukształtowany, którego nigdy byś nie powiedział głośno na spotkaniu — opuszcza Twój komputer i trafia na serwer. Przy pięciominutowo opóźnionym spotkaniu na Teams to pikuś. Przy rzeczach, które są dla Ciebie ważne, warto wiedzieć, gdzie trafia dźwięk.
Win+H nie działa? Trzy najczęstsze przyczyny
Gdy Win+H nic nie robi, prawie zawsze chodzi o jedną z trzech rzeczy. Sprawdź je w tej kolejności, bo właśnie tak często każda z nich jest przyczyną.
1. Brak internetu albo niesprawny mikrofon.
Pisanie głosowe wymaga połączenia i mikrofonu, który Windows słyszy. Otwórz Ustawienia, System, Dźwięk i sprawdź, czy przy mówieniu widać ruch wskaźnika urządzenia wejściowego.
Test po naprawie: pasek powinien pokazać Słucham zamiast się zawieszać.
2. Kursor nie jest w polu tekstowym.
Win+H działa tylko wtedy, gdy kursor jest wewnątrz pola, w którym można pisać. Najpierw kliknij w dokument Word albo w treść wiadomości e-mail, a potem naciśnij skrót.
Test po naprawie: pasek z mikrofonem pojawia się natychmiast po naciśnięciu klawiszy.
3. Warstwa klawiszy funkcyjnych laptopa przechwytuje H.
W niektórych laptopach klawisze górnego rzędu lub multimedialne są przemapowane, a narzędzie do obsługi klawiatury może przechwycić skrót.
Test po naprawie: zamiast tego otwórz przycisk mikrofonu na klawiaturze ekranowej. Jeśli dyktowanie tam działa, problem leży w skrócie sprzętowym i trzeba przemapować klawisz w narzędziu do klawiatury producenta.
Jeśli żadne z tych rozwiązań nie pomoże, głębszym problemem jest zwykle pakiet językowy, który nie dokończył instalacji, albo aktualizacja Windows w trakcie pracy. To też moment, w którym przestaję walczyć z wbudowanym narzędziem i konfiguruję coś, nad czym mam pełną kontrolę — czyli Drogę 2 poniżej. Jeśli problem się utrzymuje, napisaliśmy osobny poradnik o tym, gdy pisanie głosowe nie działa w Windows z obszerniejszą listą rozwiązań.
Droga 2: skonfiguruj dedykowaną aplikację do dyktowania
Whisper to aplikacja desktopowa, którą buduję, i robi trzy rzeczy, których Win+H nie potrafi: transkrybuje offline na Twoim własnym procesorze, działa przez jeden systemowy skrót klawiszowy w dowolnej aplikacji i pozwala wybrać silnik odpowiedni do Twojego sprzętu i języków zamiast jednego stałego modelu chmurowego. Oto pełna konfiguracja od początku do końca.
Wymagania wstępne: Windows 11, około 1 GB wolnego miejsca na dysku dla modelu średniej wielkości, mikrofon i bezpłatne konto (bez podawania metody płatności na start). Połączenie z internetem potrzebne jest tylko do jednorazowego pobrania; transkrypcja potem odbywa się offline. Czas: 5 do 10 minut, z czego większość to pobieranie modelu.
Pobierz i zainstaluj Whisper. Pobierz instalator ze strony z pobieraniem i uruchom go. Oczekiwany wynik: aplikacja otwiera się w głównym oknie.
Zaloguj się. Utwórz bezpłatne konto, gdy zostaniesz o to poproszony — karta nie jest wymagana na start. Oczekiwany wynik: ląduje na głównym ekranie z dostępnymi Ustawieniami.
Wybierz lokalny silnik i pobierz model. Wybierz model Whisper dopasowany do swojego komputera albo Parakeet jako najszybszą lokalną opcję. Oczekiwany wynik: pasek postępu kończy się, a model pokazuje się jako gotowy.
Potwierdź skrót klawiszowy. Domyślny skrót w Windows to Ctrl+Space: naciśnij i przytrzymaj, mów, puść. Zmień go w Ustawieniach, jeśli koliduje z czymś innym.
Przetestuj w dowolnej aplikacji. Kliknij w dowolne pole tekstowe (przeglądarka, edytor kodu, okno czatu), przytrzymaj Ctrl+Space, powiedz zdanie, puść. Tekst trafia do kursora.
Oczekiwany wynik: po pobraniu modelu przytrzymujesz Ctrl+Space w dowolnej aplikacji, mówisz, puszczasz — i Twoje słowa wklejają się przy kursorze bez internetu w obiegu po chwili pobierania. Powiedzenie "Hey whisper" uruchamia przebieg czyszczenia AI na tekście przed jego wklejeniem, jeśli to włączysz.
Jeśli skrót zachowuje się nieprawidłowo: przypisz go ponownie w Ustawieniach. Sam nauczyłem się tego na własnej skórze. Pierwsza wersja obsługi skrótu wywoływała callback zatrzymania nagrywania sześć razy przy jednym rzeczywistym naciśnięciu klawisza w Windows, bo framework wejściowy Windows generuje phantom Ctrl+Space release events w nieprzewidywalnych momentach. Działało na czystym komputerze i wysypywało się na każdym laptopie z włączonym drugim układem klawiatury. Potrzebna była telemetria, zabezpieczenie 50ms, które nie wystarczyło, i ostatecznie debounce 300ms, które zadziałało. Werdykt córki stoi: właśnie dlatego mailom taty zajmuje to tyle czasu.
Jeśli chodzi o obsługę języków, lokalny silnik Whisper obsługuje 99 języków na modelach wielojęzycznych, podczas gdy wersje .en są przeznaczone wyłącznie do angielskiego i są odrobinę szybsze do tego jednego zadania. Silnik Parakeet działa 5 do 10 razy szybciej niż Whisper na CPU i obsługuje angielski oraz 24 języki europejskie (25 łącznie), choć pomija języki azjatyckie i tłumaczenie na angielski. Jeśli najważniejszy jest dla Ciebie tryb offline, nasz dokładniejszy przewodnik po zamianie mowy na tekst offline omawia silniki bardziej szczegółowo.
Win+H kontra Voice Access kontra dedykowana aplikacja
Trzy sposoby na zamianę mowy na tekst w Windows 11 zestawione obok siebie. Tabela zawiera tylko to, co każde narzędzie dokumentuje. Żadnych wymyślonych wyników dokładności ani prędkości.
| Narzędzie | Typ | Działa offline | Model cenowy | Języki | Najlepsze do |
|---|---|---|---|---|---|
| Win+H (pisanie głosowe) | Wbudowane w Windows 11 | Nie (Azure online) | Bezpłatne z Windows | ~40, stała lista | Krótkich notatek online w dowolnym polu tekstowym |
| Voice Access | Wbudowane w Windows 11 (22H2+) | Tak (na urządzeniu) | Bezpłatne z Windows | Ograniczony zestaw | Pełnego sterowania komputerem bez rąk |
| Whisper (dedykowana aplikacja) | Instalacja na Windows + macOS | Tak (lokalny CPU) | Bezpłatny poziom lokalny; płatny dodatek Cloud | 99 na wielojęzycznych modelach Whisper | Dyktowania offline w dowolnej aplikacji |
Jeśli Twoją jedyną potrzebą jest szybka odpowiedź na Teams, gdy jesteś online, Droga 1 wygrywa prostotą. Jest już na Twoim komputerze. Gdy tylko pojawia się konieczność trybu offline, obsługa dowolnej aplikacji albo brakujący język, Droga 2 zasługuje na instalację.
Lokalnie czy w chmurze: który tryb Whisper dla Twojego komputera
Whisper działa w dwóch trybach, a wybór zależy od Twojego sprzętu i tego, czy chcesz dostępu do sieci.
Tryb lokalny robi wszystko na Twoim komputerze. Wybierz model Whisper dopasowany do swojego PC: Base to około 140 MB i działa praktycznie na wszystkim, Small to około 480 MB, Medium około 1,5 GB, a wielojęzyczny Large v3 to około 3 GB dla najlepszej dokładności, jeśli masz dość RAM-u. Albo wybierz Parakeet (około 600 MB) jako najszybszą lokalną opcję, jeśli pracujesz głównie po angielsku lub w językach europejskich. Nic z tego nie łączy się z internetem po pobraniu.
Tryb chmurowy to wyjście awaryjne. Używa Twojego własnego klucza OpenAI: transkrypcja przez gpt-4o-mini-transcribe lub gpt-4o-transcribe i przeszukiwanie sieci, gdy chcesz mieć żywą odpowiedź wklejoną przy kursorze. Klucz dostarczasz Ty; my nie bierzemy nic.
Oto opinia, za którą się stawię: najpierw wypróbuj tryb lokalny. Jeśli Twój komputer z Windows pochodzi z ostatnich czterech lat, nie potrzebujesz chmury do codziennego dyktowania, a tryb lokalny trzyma Twoje audio na Twoim komputerze, gdzie jego miejsce. Chmura to opcja awaryjna na wypadek ściany, nie domyślna. Whisper jest bezpłatny dla całego lokalnego potoku po zalogowaniu się — bez wymaganej metody płatności na start. Warstwa Cloud to płatny poziom Pro. Szczegóły znajdziesz na stronie cennika. Pełne lokalne instrukcje krok po kroku znajdziesz w przewodniku po zamianie głosu na tekst w Windows.
Kiedy pominąć dedykowaną aplikację
Wolę, żebyś zostawił Win+H, niż instalował coś, z czego nie będziesz korzystać. Pomiń dedykowaną aplikację i zostań przy wbudowanym pisaniu głosowym, gdy wszystkie poniższe warunki są spełnione:
- Dyktujesh krótkie fragmenty, nie długie dokumenty.
- Jesteś online zawsze, gdy dyktuje.
- Pracujesz wyłącznie w języku, który pisanie głosowe Microsoft już obsługuje.
- Twoje audio nie jest poufne i nie zależy Ci na tym, czy opuszcza komputer.
Win+H jest bezpłatny, już zainstalowany i świetnie sprawdza się dokładnie do tego zadania. Dedykowana aplikacja zarabia na swoje miejsce w chwili, gdy przekroczysz jedną z tych granic — samolot, szkic umowy, język, który Microsoft pominął, albo dowolna aplikacja, która nie jest standardowym polem tekstowym.
Uczciwe ceny
Tryb lokalny Whisper jest bezpłatny dla wszystkich zalogowanych: transkrypcja Whisper i Parakeet, ulepszanie AI, historia, presety, niestandardowe słowa kluczowe, akceleracja sprzętowa, pobieranie modeli i globalny skrót klawiszowy — wszystko to bez wymaganej karty na start. Whisper Pro dodaje na to funkcje Cloud: transkrypcja chmurowa OpenAI, ulepszanie AI w chmurze i głosowe przeszukiwanie sieci. Wbudowane pisanie głosowe Windows jest też bezpłatne, bo jest częścią Windows. Pełny opis planów znajdziesz na stronie cennika. Wolę, żebyś przeczytał dokładne liczby tam, niż ufał danym z wpisu na blogu, które mogą się zdezaktualizować.
Dwie drogi, jedna decyzja. Jeśli jesteś online, notatka jest krótka i stawki są niskie — naciśnij klawisz Windows + H i mów. Jest bezpłatne i już na Twoim komputerze. W chwili gdy potrzebujesz tego w samolocie, w dowolnej aplikacji, w języku pominiętym przez Microsoft albo z audio pozostającym na Twoim własnym komputerze — zainstaluj dedykowaną aplikację. Tę granicę przekroczyłem gdzieś przy trzeciej notatce ze spotkania, którą dyktowałem jedną ręką, pakując drugie śniadanie. Od tamtej pory nie napisałem długiego maila ręcznie.
Wypróbuj offline na własnym komputerze
Pobierz Whisper, przytrzymaj Ctrl+Space, mów, puść — Twoje słowa wklejają się przy kursorze w dowolnej aplikacji, bez internetu w obiegu.
Bezpłatny tryb lokalny dla każdego zalogowanego konta. Karta nie jest wymagana na start. Jeśli Win+H już robi wszystko, czego potrzebujesz, zatrzymaj ten skrót — to dobry skrót.



