Autor: Denys Medvediev

Poradnik

Jak korzystać z pisania głosowego na Windows

Windows ma wbudowane pisanie głosowe. Naciśnij klawisz Windows + H w dowolnym polu tekstowym, poczekaj na komunikat „Słucham” i zacznij mówić. Wymaga połączenia z internetem i działającego mikrofonu. Do intensywnego, offline'owego lub wieloaplikacyjnego użytku dedykowane narzędzie z jednym skrótem klawiszowym robi to samo wszędzie.

Ostatnia aktualizacja: czerwiec 2026

Laptop z systemem Windows i klawiatura na biurku, gotowe do dyktowania tekstu głosem

Aby korzystać z pisania głosowego na Windows, ustaw kursor w dowolnym polu tekstowym i naciśnij klawisz Windows + H. Pasek pisania głosowego otworzy się, wyświetli komunikat „Słucham” i będzie wpisywał to, co mówisz. Potrzebujesz działającego mikrofonu, połączenia z internetem i włączonego rozpoznawania mowy online w Ustawieniach, w sekcji Prywatność i bezpieczeństwo, Mowa.

Większość ludzi nigdy nie odkrywa, że Windows może pisać za nich. Ta funkcja jest wbudowana w Windows 10 i 11, nie wymaga żadnego kreatora konfiguracji i ukrywa się za skrótem klawiszowym, o którym nikt nie mówi: klawisz Windows + H. Ustaw kursor w polu tekstowym, przytrzymaj klawisz Windows, naciśnij H — i u góry ekranu pojawi się mały pasek, który zaczyna nasłuchiwać.

To naprawdę tyle i przy krótkich dyktandach działa całkiem dobrze. Problem polega na tym, co Microsoft stwierdza wprost, a większość blogów pomija: pisanie głosowe w Windows przesyła mowę przez chmurę Microsoft, więc do czegokolwiek potrzebuje połączenia z internetem. Ten jeden szczegół decyduje, czy wbudowana funkcja wystarczy, czy będziesz chciał czegoś więcej. Najpierw uczciwie omówię to, co jest wbudowane, a potem powiem, gdzie się kończy.

Oto rzecz, którą poradnikowe listy zakopują w środku. Pisanie głosowe w Windows to prawdziwa, bezpłatna, wbudowana funkcja, która działa w każdym polu tekstowym przyjmującym kursor — w przeglądarce, Wordzie, wiadomości na Slacku, pasku wyszukiwania. Nic nie instalujesz. Skrót to klawisz Windows + H i gdy już wiesz, że istnieje, będziesz z niego korzystać.

Uczciwa odpowiedź składa się więc z dwóch części. Pierwsza: jak włączyć wbudowaną funkcję i dobrze ją wykorzystać — tego właśnie szuka większość osób. Druga: gdzie Win+H trafia na ścianę — brak internetu, długie dyktando, niestandardowe słowa, które stale są błędnie rozpoznawane — i co dedykowane narzędzie w każdym z tych przypadków naprawia. Omówię obie, skonfigurowanie alternatywy zajmie dwie minuty, a powiem wprost, kiedy Win+H już w zupełności wystarczy.

Czym właściwie jest pisanie głosowe w Windows

Osoba mówiąca przy otwartym laptopie — ilustracja mówienia zamiast pisania

Pisanie głosowe w Windows to wbudowana funkcja pozwalająca wpisywać tekst mówiąc zamiast pisać. Jest dostępna w Windows 10 i Windows 11, nic nie kosztuje i działa w każdym polu tekstowym, w którym można ustawić kursor. Opis Microsoftu warto zacytować, bo wyznacza granice: pisanie głosowe „używa internetowego rozpoznawania mowy opartego na usługach Azure Speech”. Z tego jednego zdania wynikają trzy rzeczy.

Po pierwsze, potrzebuje internetu. Twoja mowa jest wysyłana na serwery Microsoftu, gdzie jest zamieniana na tekst, więc bez połączenia pisanie głosowe nic nie zrobi. Po drugie, potrzebujesz działającego mikrofonu — wbudowany w laptop zupełnie wystarczy na start. Po trzecie, ponieważ rozpoznawanie odbywa się w chmurze, dokładność jest zazwyczaj dobra i nie obciąża procesora. W skrócie: bezpłatne i dokładne, ale tylko online i bez prywatności.

Wiele osób myli tę funkcję ze starszym Windows Speech Recognition, nowszym Voice Access lub dyktowaniem w obrębie jednej aplikacji. Jeśli chodzi o zwykłe „chcę mówić i widzieć słowa pojawiające się w tym, co piszę”, szukasz pisania głosowego otwieranego skrótem klawisz Windows + H. Następna sekcja to właściwy poradnik.

Włącz je skrótem klawisz Windows + H

Nie ma żadnej aplikacji do uruchomienia ani kreatora do przeklikania. Ustawiasz kursor tam, gdzie chcesz wpisać słowa, a następnie uruchamiasz pisanie głosowe skrótem klawiszowym. Oto cała sekwencja, wraz z ewentualnym krokiem przez ustawienia.

Kliknij w dowolne pole tekstowe — dokument, e-mail, czat, pasek adresu — tak by kursor tam mrugał. Naciśnij klawisz Windows + H. U góry ekranu pojawi się mały pasek pisania głosowego. Poczekaj, aż wyświetli „Słucham”, zanim zaczniesz mówić — jeśli zaczniesz za wcześnie, pierwszych słów nie usłyszy. Mów naturalnie, a tekst pojawi się w miejscu kursora. Naciśnij przycisk mikrofonu na pasku lub ponownie ten sam skrót, żeby zatrzymać.

Jeśli nic się nie dzieje, zazwyczaj jest to spowodowane jedną z dwóch rzeczy. Mikrofon nie jest ustawiony lub nie ma uprawnień — pisanie głosowe wymaga działającego mikrofonu. Albo internetowe rozpoznawanie mowy jest wyłączone, co oznacza, że chmurowa część funkcji jest zablokowana. Włącz ją w menu Start, a potem Ustawienia, Prywatność i bezpieczeństwo, Mowa i ustaw Internetowe rozpoznawanie mowy na Włączone. Jeśli pasek się otwiera, ale nigdy nie wyświetla „Słucham”, prawie zawsze winne jest połączenie internetowe — rozpoznawanie odbywa się na serwerach Microsoftu, nie na twoim komputerze. (Jeśli Win+H sprawia bardziej uporczywe problemy, napisałem osobny artykuł o tym, dlaczego Win+H przestaje działać i jak to naprawić.)

Lepszy sposób do intensywnego użytku: jeden skrót wszędzie

Wbudowana funkcja jest świetna, dopóki nie trafisz na jedną z jej ścian — brak internetu w pociągu, długi blok dyktanda albo słowo, które jest błędnie rozpoznawane za każdym razem. Rozwiązaniem jest ogólnosystemowe narzędzie, które robi to samo, ale działa na własnym komputerze, trzyma krótki bufor tak by ostatnie słowo nie zostało ucięte i używa jednego skrótu we wszystkich aplikacjach. Potrzebujesz komputera z Windows 10 lub nowszym, działającego mikrofonu i konta. Cały lokalny potok jest bezpłatny dla każdego zalogowanego użytkownika — bez podawania metody płatności przy rejestracji. Oto kolejne kroki.

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Lokalny potok transkrypcji otworzy się od razu.

Wiedz, że się udało, gdy w zasobniku systemowym pojawi się ikona aplikacji, a kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz ścieżkę transkrypcji.

Aplikacja nie wybiera za ciebie. Masz trzy opcje: Cloud (OpenAI, własny klucz), lokalny Parakeet lub lokalny Whisper. Aby zastąpić tryb wyłącznie online Win+H czymś, co działa offline, wybierz silnik lokalny — więcej o tym za dwie sekcje.

Wiedz, że się udało, gdy model zakończy pobieranie i pokaże się jako gotowy.

Krok 3 — Potwierdź swój skrót klawiszowy.

Na Windows domyślnie to Ctrl+Space, przytrzymany jako push-to-talk. Zmień go w Ustawieniach, jeśli koliduje z czymś, czego już używasz. W odróżnieniu od Win+H, przytrzymanie klawisza nagrywa tak długo, jak go trzymasz.

Wiedz, że się udało, gdy testowe nagranie zostanie wklejone do dowolnego pola tekstowego.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dokument, e-mail lub pole czatu, przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja zostanie wklejona tam, gdzie jest kursor — w jakiejkolwiek aktywnej aplikacji.

Wiedz, że się udało, gdy wypowiedziane zdanie pojawi się w polu tekstowym jako tekst.

Whisper
Prawdziwy Whisper na ekranie ustawień z otwartymi panelami Transkrypcja i AI.

Powolna jest jednorazowa część, czyli pobieranie modelu, nie konfiguracja. Potem pisanie w dowolnej aplikacji przestaje być zadaniem do wklepania — staje się zadaniem do powiedzenia. I działa nawet gdy Wi-Fi padnie.

Jeśli już korzystałeś z zamiany mowy na tekst w Windows 11, to ten sam pomysł, tyle że ze skrótem, który nie zatrzymuje się sam.

Interpunkcja: polecenia głosowe albo automatyka

Surowa mowa nie ma przecinków. Każde narzędzie do dyktowania radzi sobie z tym na jeden z dwóch sposobów, a pisanie głosowe w Windows oferuje oba. Ma automatyczną interpunkcję — dodaje przecinki i kropki na podstawie sposobu mówienia — którą włączasz z ikony koła zębatego na pasku. I ma polecenia głosowe: powiedz „kropka”, „przecinek”, „nowa linia”, „cudzysłów otwierający” i „cudzysłów zamykający”, a wstawi znak zamiast słów.

Menu koła zębatego na tym pasku warto raz sprawdzić. Oprócz automatycznej interpunkcji znajdziesz tam filtr wulgaryzmów i wybór domyślnego mikrofonu. Nic nie jest zakopane — jeden klik od paska otwieranego Win+H. Podczas mówienia mały wskaźnik pokazuje, że funkcja słucha — ten sam pomysł, który każde dobre narzędzie do dyktowania stosuje, żebyś nigdy nie zgadywał, czy cię usłyszało:

Cancel
Wskaźnik nagrywania: mała kapsułka pojawiająca się podczas mówienia, sygnalizująca, że narzędzie słucha.

Ograniczeniem interpunkcji opartej na poleceniach jest konieczność narrowania formatowania — „przecinek”, „nowa linia”, „kropka” — co jest w porządku dla krótkiego tekstu, ale przy długim akapicie staje się męczące. Automatyczna interpunkcja pomaga, ale wciąż dostajesz dosłowny zapis tego, co powiedziałeś — z urwanymi zdaniami włącznie. Doprowadzenie tego do czegoś, co warto zachować, to osobny krok i właśnie tutaj dedykowane narzędzie zyskuje przewagę. O tym niżej.

Lokalnie czy w chmurze: wybór, którego Win+H ci nie daje

Pisanie głosowe w Windows podjęło za ciebie decyzję o lokalnym lub chmurowym przetwarzaniu: chmura, koniec tematu. Twoja mowa trafia za każdym razem na serwery Microsoftu. Na liście zakupów to żaden problem, ale przy notatce do arkusza z wynagrodzeniami czy e-mailu do klienta, którego wolisz nie mieć transkrybowanego poza firmą — już tak. Dedykowane narzędzie daje ci wybór, którego wbudowana funkcja nie ma. Oto jak różnią się trzy ścieżki, bo aplikacja każe ci wybrać i wolę, żebyś wybrał świadomie:

  • Lokalny ParakeetSilnik TDT NVIDIA, około 600 MB i najszybsza opcja lokalna — 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski i 24 inne języki europejskie, łącznie 25. Brak tłumaczenia na angielski. Jeśli dyktajesz po angielsku lub innym języku europejskim i zależy ci na szybkości bez wysyłania czegokolwiek poza komputer, to jest szybki wybór.
  • Lokalny Whisperwolniejszy niż Parakeet na tym samym komputerze, ale wielojęzyczne wersje obsługują 99 języków i mogą tłumaczyć na angielski. Wersje tylko dla angielskiego — to tylko angielski, nie 99. Wybierz to dla chińskiego, japońskiego, koreańskiego lub wszelkich tłumaczeń, których Parakeet nie wykona. Domyślny model angielski waży około 480 MB.
  • Cloud (OpenAI, własny klucz)najlepsza dokładność i dostęp do internetu, z własnym kluczem OpenAI rozliczanym bezpośrednio przez OpenAI. Transkrypcja domyślnie przez gpt-4o-mini-transcribe. Wymaga internetu jak Win+H, ale to twój klucz i twoja decyzja. Tryb Cloud jest częścią Whisper Pro.

Nudna prawda jest taka, że dla większości codziennego pisania lokalny silnik w zupełności wystarczy — i to jest jedyna rzecz, której Win+H nie może zaoferować. Obie lokalne ścieżki działają w całości na twoim komputerze bez wysyłania czegokolwiek na serwer. Cloud zdobywa swoje miejsce wtedy, gdy chcesz najwyższej dokładności przy trudnym nagraniu lub potrzebujesz, żeby model pobrał w trakcie zdania jakiś fakt z sieci. Zacznij lokalnie i sięgaj po chmurę tylko wtedy, gdy lokalna cię nie satysfakcjonuje.

Czystsze wyniki bez mówienia każdego przecinka

Win+H i dedykowane narzędzie dają ten sam punkt startowy: potok bez interpunkcji. Mówisz „okej więc przesuń termin na piątek powiedz klientowi i zarezerwuj salę na dwie osoby”, i to jest nieprzerwany ciąg słów, który każdy silnik mowy ci zwraca. Win+H może dodawać interpunkcję na bieżąco lub przyjmować polecenia głosowe. Żadne z nich nie usuwa „yyy” ani nie naprawia zdania, które zacząłeś i urwałeś w połowie.

Sprzątanie to miejsce, gdzie przejście przez AI przynosi wartość. Powiedz frazę aktywacyjną „Hey whisper”, a transkrybowany tekst zostanie ulepszony zanim trafi na miejsce — wypełniacze usunięte, potoki podzielone, wielkie litery poprawione. Na modelu lokalnym przez Ollama na twoim komputerze; w trybie chmurowym domyślnie przez gpt-5-mini. Mówisz raz wersję pełną chaosu i dostajesz z powrotem wersję, którą naprawdę wyślesz.

Thinking...
Surowe

okej więc przesuń termin na piątek powiedz klientowi i zarezerwuj salę na dwie osoby yyy przed lunchem

Po obróbce

Okej, więc przesuń termin na piątek, powiedz klientowi i zarezerwuj salę na dwie osoby przed lunchem.

Są też słowa, z którymi ogólny silnik wciąż sobie nie radzi — nazwa produktu, nazwisko współpracownika, branżowy żargon. Win+H nie daje żadnego sposobu, żeby go tego nauczyć. Dedykowane narzędzie pozwala ukierunkować silnik na własne słownictwo, żeby słowa, których używasz codziennie, przestały wracać w błędnej formie. Nie sformatuje za ciebie dokumentu na życzenie i ktokolwiek obiecuje „powiedz nagłówek i obserwuj, jak się stylizuje” — sprzedaje demo, nie środowy poranek w pracy. Wprowadzaj słowa szybko i czysto głosem; układ rób klawiaturą, którą już znasz.

Ten sam przepływ mów-a-potem-czyść to powód, dla którego ludzie przesiadają się — możesz pisać szybciej głosem w każdej aplikacji zamiast dyktować przecinki do wbudowanego paska, który działa tylko online.

Kiedy Win+H już w zupełności wystarczy

Laptop otwarty na kuchennym blacie — sugestia szybkiej codziennej notatki

Czasem darmowe narzędzie, które masz już na komputerze, jest właściwą odpowiedzią i udawanie czegoś innego byłoby nieuczciwe. Pisanie głosowe w Windows jest naprawdę dobre dla dużej części tego, czego ludzie potrzebują, i instalowanie czegokolwiek dodatkowego byłoby przesadą.

Zostań przy Win+H, jeśli przez większość czasu jesteś online, dyktajesz krótko i nie przeszkadza ci, że twoja mowa przechodzi przez chmurę Microsoftu. Dwulinijkowa odpowiedź na Slacku, zapytanie w wyszukiwarce, szybka notatka w dokumencie — wciśnij klawisz Windows + H, poczekaj na „Słucham”, mów, gotowe. Jest bezpłatne, wbudowane i samo dodaje interpunkcję. Dla jednolinijkowego przypomnienia nie zamierzam ci mówić, żebyś instalował aplikację.

Sięgnij po dedykowane, ogólnosystemowe narzędzie, gdy wbudowana funkcja zaczyna ci przeszkadzać: brak internetu w samolocie lub pociągu, długie odcinki dyktanda, gdzie push-to-hold bije pasek z limitem czasu, prywatność tekstu, którego nie chcesz wysyłać poza swój komputer, niestandardowe słowa, które stale są błędnie rozpoznawane, albo jeden skrót działający identycznie we wszystkich programach. Poniżej tej granicy Win+H wygrywa ceną i zerową konfiguracją. Powyżej niej różnica jest realna.

Jeśli wciąż decydujesz, po której stronie tej granicy jesteś, szersze porównanie w przewodniku po alternatywach dla Win+H pokazuje dokładnie, gdzie pasuje każda opcja — bez marketingowego połysku.

Windows wprowadził pisanie głosowe wiele lat temu i schował je za skrótem, o którym nikt głośno nie mówi. Teraz już wiesz: klawisz Windows + H, poczekaj na „Słucham”, mów. Dla większości szybkich zadań to cała odpowiedź i jest bezpłatna. Gdy będziesz offline, będziesz dyktować coś dłuższego niż SMS albo jakieś słowo będzie wracać w złej formie — będziesz dokładnie wiedział, na którą ścianę trafiłeś i które narzędzie przez nią przeprowadzi. Sporą część tego napisałem głosem, w aplikacji, której nie obchodzi, w jakim polu tekstowym jest kursor. Wi-Fi padło dwa razy w trakcie. Dyktowanie tego nie zauważyło.

Wypróbuj pisanie głosowe działające również offline

Przytrzymaj jeden skrót, mów, puść. Transkrypcja trafia do dowolnego pola tekstowego, w którym jest kursor — w pociągu, w samolocie albo gdy Wi-Fi nie działa.

Bezpłatny tryb lokalny dla każdego zalogowanego konta. Karta nie jest wymagana na start.

Zdjęcie Denysa Medvevieva

Denys Medvediev

To ja czytam nasz e-mail do pomocy technicznej — najprawdopodobniej dyktując odpowiedzi.

Dalsze lektury