Autor: Denys Medvediev

Poradnik

Jak pisać głosem

Dyktowanie głosem to proste: mówisz, a słowa pojawiają się tam, gdzie stoi kursor. Twój system operacyjny ma to wbudowane — klawisz Windows + H albo Dyktowanie w macOS. Dedykowane narzędzie z jednym skrótem, takie jak Whisper, działa tak samo w każdej aplikacji, offline, z poprawką AI.

Ostatnia aktualizacja: czerwiec 2026

Osoba przy laptopie na spokojnym biurku z mikrofonem obok, sugerująca mówienie zamiast pisania

Żeby pisać głosem, otwórz wbudowane narzędzie do dyktowania — klawisz Windows + H na Windows albo Dyktowanie w macOS w Ustawieniach systemowych — ustaw kursor w dowolnym polu tekstowym i mów. Jeśli chcesz dyktowania, które działa tak samo w każdej aplikacji, offline i z poprawką AI, dedykowane narzędzie z jednym skrótem, takie jak Whisper, wklei transkrypcję dokładnie tam, gdzie stoi kursor.

Większość ludzi pisze mniej więcej 40 słów na minutę. Większość ludzi mówi trzy lub cztery razy szybciej. Matematyka była więc zawsze prosta — pytanie brzmiało tylko, czy oprogramowanie nadąży za głosem. Przez jakieś trzydzieści lat nie nadążało. Teraz nadąża, a zaskakujące jest to, ile osób wciąż nie wie, że ich własny komputer już to potrafi.

Żeby zacząć, nie musisz nic kupować. Windows i macOS mają wbudowane dyktowanie, które wpisuje tekst w dowolnym polu tekstowym, w którym stoi kursor. Jest bezpłatne, już zainstalowane i do krótkich rzeczy całkowicie wystarczające. Pokażę to najpierw, uczciwie, bo dla wielu osób to właśnie właściwa odpowiedź. Potem pokażę wersję, której sam używam przez cały dzień, i wyjaśnię, gdzie ją wyprzedza.

Oto co warto zrozumieć, zanim zmienisz choćby jedno ustawienie. Dyktowanie głosem wkleja tekst w miejscu kursora. Nieważne, w której aplikacji kursor się znajduje — e-mail, pasek wyszukiwania, dokument czy okno czatu to dla niego po prostu pola tekstowe. Gdy to do ciebie dotrze, cały temat staje się prostszy.

Masz tak naprawdę dwie drogi, nie sto. Pierwsza to wbudowane narzędzie, które już masz w systemie. Druga to dedykowana aplikacja push-to-talk — przytrzymujesz klawisz, mówisz, puszczasz, a ona działa tak samo wszędzie i działa offline. To, co wbudowane, wystarcza na krótkie dyktowania. Dedykowane narzędzie ma sens, gdy robisz to przez cały dzień. Pokażę ci obydwa rozwiązania, omówię podstawy, które sprawiają, że każde z nich działa, i powiem, kiedy aplikację można sobie darować.

Czym właściwie jest dyktowanie głosem

Mikrofon biurkowy obok klawiatury, ilustrujący mówienie tekstu zamiast jego wpisywania

Dyktowanie głosem — rozpoznawanie mowy, speech-to-text, jak to chcesz nazwać — to jeden prosty pomysł. Mówisz, oprogramowanie zamienia dźwięk na tekst, a tekst pojawia się tam, gdzie normalnie byś pisał. To cały koncept. Wydaje się nowe dlatego, że przez większość historii komputerów po prostu nie działało dość dobrze, żeby się tym zawracać głowę.

Pamiętam krewnego z Dragon NaturallySpeaking na komputerze z Windows 98 i 64 MB RAM. Konfiguracja wymagała 45-minutowej sesji treningowej — czytałeś na głos listę słów, żeby program mógł się „skalibrować”. Po tym wszystkim skuteczność wynosiła jakoś 70%, każde zdanie pojawiało się z czterosekondowym opóźnieniem, a podyktowanie jednego akapitu listu świątecznego zajmowało piętnaście minut. Słuchawki wylądowały po drugiej stronie pokoju. Przeżyły; eksperyment z dyktowaniem — nie. Dwadzieścia pięć lat później moja młodsza córka podyktowała kompletny e-mail do babci w jakieś dziewięćdziesiąt sekund, bez trenowania, bez kalibracji, za pierwszym razem.

Ta różnica to cała historia. Nowoczesne dyktowanie głosem działa od razu z pudełka na większości akcentów i większości języków, bez etapu treningu, a słowa pojawiają się na tyle szybko, że nie tracisz wątku myśli. Obydwie drogi opisane poniżej są na tym zbudowane. Jedyne prawdziwe decyzje, jakie ci pozostają, to po które narzędzie sięgnąć i jak do niego mówić.

Szybka metoda wbudowana w Windows i Mac

Obydwa główne systemy operacyjne mają wbudowane dyktowanie głosem za darmo i to właśnie od tego warto zacząć. Na Windows ustaw kursor w dowolnym polu tekstowym i naciśnij jednocześnie klawisz Windows i H. Pojawi się mały pasek dyktowania i zacznie nasłuchiwać. Mów, a słowa trafiają do pola. Znaki interpunkcyjne dodajesz, mówiąc je — „przecinek”, „kropka”, „pytajnik” — albo możesz włączyć autopunkcję w ustawieniach paska i pozwolić programowi zgadywać. Jedna rzecz warta odnotowania: Windows do dyktowania głosem wymaga połączenia z internetem. Twój dźwięk trafia na serwery Microsoftu i wraca jako tekst, więc trybu offline tu nie ma.

Na Macu włączasz to raz. Otwórz menu Apple, wybierz Ustawienia systemowe, kliknij Klawiatura na pasku bocznym, przewiń do Dyktowania i włącz je (kliknij Włącz, gdy zapyta). Od tej chwili zaczynasz dyktowanie klawiszem mikrofonu w rzędzie funkcyjnym, wybranym skrótem albo przez menu Edycja, a potem Rozpocznij dyktowanie. Mów do dowolnego pola tekstowego, a słowa się pojawiają. Na Macach z Apple Silicon ogólne dyktowanie tekstu jest przetwarzane na urządzeniu, nie na serwerach Apple, i w obsługiwanych językach automatycznie wstawia interpunkcję. Możesz też nadal pisać w trakcie mówienia — to milszy szczegół, niż się wydaje.

Cancel
Nakładka nagrywania: mała kapsułka, która pojawia się podczas mówienia, żebyś wiedział, że aplikacja słucha.

Na szybki SMS, wyszukiwanie, jednowierszową notatkę — to wystarczy i z czystym sumieniem możesz skończyć czytanie tutaj. Wbudowane narzędzia zaczynają uwierać na trzy konkretne sposoby: Windows nie działa offline, obydwa potrafią się potknąć na dłuższych fragmentach i żadne nie działa tak samo w każdej aplikacji, którą otwierasz. Jeśli żadne z tego cię nie boli, bezpłatne narzędzie już na twoim komputerze to właściwa odpowiedź. Jeśli boli — czytaj dalej.

Lepszy sposób: jeden skrót do wszystkich aplikacji

Wersja, której sam używam, to dedykowane narzędzie push-to-talk działające ponad wszystkim. Przytrzymujesz jeden klawisz, mówisz, puszczasz, a transkrypcja pojawia się przy kursorze — w e-mailu, edytorze, oknie czatu, komunikacie commitu — wszędzie tak samo. Działa offline, lokalny tryb jest bezpłatny dla każdego zalogowanego konta bez podawania karty przy rejestracji i może uruchomić poprawkę AI na tym, co powiedziałeś. Potrzebujesz Maca z Apple Silicon albo komputera z Windows 10 lub nowszym i działającego mikrofonu. Oto jak to skonfigurować.

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony z pobraniem, zainstaluj i utwórz bezpłatne konto. Nie pytamy o metodę płatności. Cały lokalny potok transkrypcji jest dostępny od razu.

Będziesz wiedzieć, że zadziałało, gdy ikona aplikacji pojawi się w zasobniku i kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz tryb transkrypcji.

Aplikacja nie wybiera za ciebie. Masz trzy opcje: Cloud (OpenAI, z własnym kluczem), Local Parakeet albo Local Whisper. Do prywatnych notatek zacznij od trybu lokalnego — pełne porównanie znajdziesz dwa rozdziały dalej.

Będziesz wiedzieć, że zadziałało, gdy model skończy się pobierać i pojawi się jako gotowy.

Krok 3 — Sprawdź swój skrót klawiszowy.

Na Windows domyślny to Ctrl+Space; na Macu Command+Option — skrót oparty wyłącznie na modyfikatorach, który przytrzymujesz podczas mówienia. Na Macu przyznaj uprawnienie Ułatwienia dostępu, gdy zostaniesz o to poproszony — bez niego wklejanie tekstu przy kursorze nie dosięgnie innych aplikacji.

Będziesz wiedzieć, że zadziałało, gdy testowe nagranie pojawi się jako tekst w dowolnym polu tekstowym.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dowolne pole tekstowe w dowolnej aplikacji, przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja pojawia się tam, gdzie jest kursor. Krótki ogon kontynuuje nagrywanie przez chwilę po puszczeniu klawisza, żeby ostatnie słowo nie zostało ucięte.

Będziesz wiedzieć, że zadziałało, gdy twoje wypowiedziane zdanie będzie siedziało w polu jako tekst.

Whisper
Prawdziwa aplikacja desktopowa Whisper na ekranie ustawień z otwartymi panelami Transkrypcja i AI.

Wolna część to jednorazowe pobieranie modelu, nie sama konfiguracja. Reszta to cztery kroki powyżej. Gdy już działa, pisanie przestaje być zadaniem klawiaturowym i staje się zadaniem głosowym, a skrót jest ten sam bez względu na to, czy jesteś w skrzynce odbiorczej, czy w edytorze kodu.

zamiana głosu na tekst na Windows · na Macu

Pięć rzeczy, które sprawiają, że każde narzędzie działa

Niezależnie od tego, którą drogę wybierzesz, te same podstawy decydują o tym, czy dyktowanie głosem czujesz jak magię, czy jak walkę. Żadna z nich nie jest skomplikowana i większość dotyczy ciebie, nie oprogramowania. Opanuj je, a tanie wbudowane narzędzie pobije drogie używane źle.

Wybierz ciche miejsce. Silniki mowy transkrybują to, co słyszą, a słyszą zmywarkę, otwarte okno i twoje dziecko pytające, dlaczego księżyca czasem nie widać. Cichy pokój robi więcej niż jakiekolwiek przełączanie ustawień. Potem pomyśl o mikrofonie, bo to jedyna rzecz, przy której naprawdę warto się zatrzymać: mikrofor USB za $20 robi więcej dla dokładności niż jakikolwiek upgrade modelu. Własne liczby zespołu Whisper pokazują, że przejście z wbudowanego mikrofonu laptopa na USB klasy podcastowej zmniejsza poziom błędów o 30–40% na tym samym modelu — to większy skok niż dostałbyś ze sprytniejszego, wolniejszego silnika. Wydaj pieniądze najpierw na sprzęt.

Potem chodzi o to, jak mówisz. Mów pełnymi frazami, nie słowo po słowie — silniki dyktowania używają otaczających słów do odgadnięcia właściwego, więc „spotkam cię tam” transkrybuje się czyściej niż cztery słowa powiedziane jedno po drugim. Mów w normalnym, równym tempie — śpieszenie się i przesadna artykulacja obydwa szkodzą. I nie martw się przecinkami ani wielkimi literami podczas mówienia. Albo powiedz znaki interpunkcyjne, jeśli twoje narzędzie tego chce, albo pozwól poprawce AI dodać je potem — o tym jest następna sekcja. Próba dyktowania, interpunkcji i edycji jednocześnie to prosta droga do tego, żeby zdania zlewały się w jedno.

Lokalnie czy w chmurze: który tryb wybrać

Przy dedykowanym narzędziu jedyna prawdziwa decyzja to to, gdzie odbywa się transkrypcja. Lokalnie oznacza, że wszystko działa na twoim komputerze i nic nie trafia na serwer. Chmura oznacza, że audio trafia do OpenAI dla najwyższej dokładności i dostępu do internetu. Dla większości ludzi przez większość czasu zacząłbym lokalnie — twój laptop ma już mikrofon i procesor, a jeden akapit nie wymaga serwera w pętli. Jeśli twój Mac ma Apple Silicon albo twój PC pochodzi z ostatnich kilku lat, lokalny tryb obsługuje codzienne dyktowanie bez żadnych skarg. Oto czym różnią się trzy ścieżki, bo aplikacja każe ci wybrać.

  • Lokalny ParakeetSilnik TDT firmy NVIDIA, około 600 MB, najszybsza lokalna opcja — 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne języki europejskie, 25 łącznie. Bez tłumaczenia na angielski. Jeśli mówisz po angielsku lub w innym języku europejskim, to szybki, w pełni offline wybór.
  • Lokalny WhisperWolniejszy niż Parakeet na tym samym komputerze, ale wersje wielojęzyczne obsługują 99 języków i mogą tłumaczyć na angielski. Wersje tylko po angielsku — tylko angielski, nie 99. Wybierz to do chińskiego, japońskiego, koreańskiego lub jakiejkolwiek pracy z tłumaczeniami, czego Parakeet nie potrafi. Domyślny model angielski to około 480 MB.
  • Chmura (OpenAI, BYOK)Najwyższa dokładność i dostęp do internetu, z własnym kluczem OpenAI rozliczanym bezpośrednio przez OpenAI. Transkrypcja działa domyślnie na gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza twój komputer. Tryb chmury jest częścią Whisper Pro.

Nudna prawda jest taka, że do rodzaju tekstu, który większość ludzi pisze przez cały dzień — e-maile, notatki, wiadomości, szkice — lokalny tryb w zupełności wystarcza. Obydwa lokalne silniki działają całkowicie na twoim komputerze, co ma znaczenie, gdy tekst to arkusz z zarobkami szefa albo e-mail do szkoły twojego dziecka. Chmura zasługuje na swoje miejsce, gdy chcesz najwyższej dokładności na trudnym nagraniu albo gdy potrzebujesz, żeby model sięgnął po fakty z sieci w połowie zdania. Zacznij lokalnie i sięgaj po chmurę tylko wtedy, gdy lokalny tryb cię zawodzi.

Niech AI posprząta to, co powiedziałeś

Surowe dyktowanie wychodzi jako jeden ciąg bez interpunkcji. Mówisz „okej czyli odpisz na maila od nauczyciela potwierdź wycieczkę i przypomnij mi żeby wysłać formularz w czwartek” i właśnie taką ścianę nieprzystopowanego tekstu dostaje od ciebie każdy silnik mowy. Sprzątanie tego jest miejscem, w którym drogi się rozchodzą — i to największy powód, dla którego dedykowane narzędzie wyprzedza resztę.

Wbudowane narzędzia robią lekkie porządki. Dyktowanie Windows dodaje interpunkcję, gdy ją powiesz, albo zgaduje, gdy włączysz autopunkcję. Dyktowanie macOS wstawia interpunkcję automatycznie w obsługiwanych językach. To wystarczy na jedno czy dwa zdania. Do cięższych porządków — usuwania „yyy”, naprawiania zlewających się zdań, zamieniania gadanego bełkotu w coś, co faktycznie wyślesz — Whisper może uruchomić poprawkę AI. Powiedz frazę aktywacyjną „Hey whisper”, a tekst zostanie ulepszony zanim wyląduje. W trybie lokalnym działa przez Ollama bez opuszczania twojego komputera; w trybie chmury domyślnie używa gpt-5-mini.

Thinking...
Surowe

okej czyli odpisz na maila od nauczyciela potwierdź wycieczkę i przypomnij mi żeby wysłać formularz w czwartek yyyy przed dzwonkiem

Po poprawce

Okej, czyli odpisz na maila od nauczyciela, potwierdź wycieczkę i przypomnij mi, żeby wysłać formularz w czwartek przed dzwonkiem.

To jest ta część, która zmienia odczucie dyktowania. Bez poprawki wymieniasz pisanie na edytowanie — mówisz szybko, a potem spędzasz zaoszczędzony czas na naprawianiu wielkich liter i siekaniu zlewających się zdań. Z poprawką mówisz w taki bałaganiarski sposób, w jaki naprawdę mówisz, i dostajesz z powrotem coś bliskiego gotowego. Dyktuję tak, jak myślę — we fragmentach z okazjonalnym fałszywym startem — i pozwalam poprawce to poukładać. Nie napisze za ciebie e-maila, ale sprawi, że e-mail, który podyktowałeś, brzmi jak ten, który chciałeś napisać.

Ten sam przepływ: mów-potem-sprzątaj to cały powód, dla którego głos może pobić klawiaturę w codziennym pisaniu — długi akapit zamienia się w kilka wypowiedzianych zdań zamiast pięciu minut przy klawiaturze.

Kiedy wbudowane narzędzie w zupełności wystarczy

Dwie strzałki wskazujące w różnych kierunkach, ilustrujące wybór między narzędziami

Czasem właściwym narzędziem jest to bezpłatne, które już masz na komputerze, a udawanie inaczej byłoby nieuczciwe. Jeśli dyktujesz tylko krótko — SMS, wyszukiwanie, szybka notatka — wbudowane narzędzie obsłuży to za darmo i instalowanie aplikacji byłoby strzelaniem z armaty do wróbla. Nie będę ci mówić, żebyś konfigurował oprogramowanie dla jednowierszowego przypomnienia.

Na Windows pasek Windows + H jest naprawdę dobry do krótkiego dyktowania; interpunktuje i już tam jest. Na Macu, szczególnie z Apple Silicon, Dyktowanie działa na urządzeniu, autopunktuje i pozwala pisać w trakcie mówienia — to więcej niż wystarczy do codziennych krótkich wiadomości. Jeśli głównie wysyłasz krótkie wiadomości i masz Maca, możesz nigdy nie potrzebować niczego innego. Bardziej szczegółowe opisy znajdziesz w przewodnikach dla zamiany głosu na tekst na Windows i na Macu, jeśli chcesz polegać na tym, co wbudowane.

Po dedykowane narzędzie sięgaj, gdy wbudowane zaczyna boleć w sposób, który czujesz codziennie: długie sesje pisania, dyktowanie offline na Windows, praca wielojęzyczna, cięższa poprawka AI albo chęć posiadania jednego skrótu, który działa tak samo w każdej aplikacji, zamiast uczenia się przepływu na nowo przy każdej zmianie okna. Poniżej tego progu używaj tego, co bezpłatne. Uczciwa odpowiedź jest taka, że wbudowane narzędzie to właściwy punkt startowy dla większości ludzi, a dedykowane jest właściwym upgrade'em, gdy robisz to dość często, żeby poczuć tarcie.

Jeśli większość twojego dyktowania to zapisywanie pomysłów, a nie odpowiadanie na wiadomości, ten kompromis wygląda tak samo w kontekście robienia notatek głosem — krótkie zapiski pasują do wbudowanego, a długa sesja to właśnie moment, gdy dedykowany skrót zaczyna się opłacać.

Pisanie głosem to nie nowy trik — to trzydziestoletni pomysł, który w końcu działa. Wbudowane narzędzie na twoim komputerze zaprowadzi cię większość drogi i dla wielu osób to właśnie cała odpowiedź. Dedykowane narzędzie jest na wyciągnięcie ręki, gdy „większość drogi” przestaje wystarczać. Prawie cały ten tekst napisałem, mówiąc do laptopa i pozwalając poprawce naprawić moje fałszywe starty, a potem przeczytałem go z powrotem, żeby sprawdzić, czy nadal brzmi jak człowiek. Brzmiał — i to jedyny test, który ma znaczenie.

Powiedz swoje następne zdanie zamiast je wpisywać

Przytrzymaj skrót, mów, puść. Transkrypcja ląduje tam, gdzie stoi kursor — w każdej aplikacji, za każdym razem tak samo.

Bezpłatny tryb lokalny dla każdego zalogowanego konta. Karta nie jest wymagana na start.

Zdjęcie Denysa Medvedeva

Denys Medvediev

To ja czytam naszą pocztę wsparcia — najpewniej dyktując odpowiedzi.

Dalsza lektura