Poradnik
Jak napisać książkę dyktując głosem
Książkę dyktuje się tak samo, jak opowiada się ją znajomemu: najpierw konspekt, potem każdą scenę do Word, Scrivener albo Dokumentów przez skrót klawiszowy działający w całym systemie. Nie poprawiaj podczas mówienia. Posprzątaj potem.
Ostatnia aktualizacja: czerwiec 2026

Aby napisać książkę dyktowaną głosem, autor najpierw tworzy konspekt, a następnie dyktuje każdy rozdział do Word, Scrivener albo Google Docs za pomocą systemowego skrótu klawiszowego. Zasada jest prosta: mów całą scenę bez zatrzymywania się, a korektę zostaw na później. Mówienie daje około 145 słów na minutę wobec mniej więcej 40 przy pisaniu.
Kiedy po raz pierwszy próbowałem dyktować zamiast pisać, łapałem się na tym, że poprawiam każde zdanie w chwili, gdy pojawia się na ekranie. Mów, zatrzymaj się, popraw przecinek, mów dalej. Po dwudziestu minutach miałem cztery czyste akapity i obolałą szczękę. To dokładnie zły sposób i właśnie tak zaczyna prawie każdy.
Dyktowanie książki to mniej kwestia oprogramowania, a bardziej nawyk, który trzeba oduczyć. Wewnętrzny redaktor chce poprawiać słowa, gdy tylko się pojawiają. Cały zysk szybkości z dyktowania bierze się stąd, że każesz temu redaktorowi poczekać. Wyrzuć słowa w tempie mówienia — cały bałagan — a potem posprzątaj w osobnym podejściu. Mówienie jest jakieś trzy i pół raza szybsze od pisania, ale tylko wtedy, gdy dajesz mu biec.
Oto fragment, który większość poradników "dyktuj swoją powieść" pomija. Narzędzie prawie nie ma znaczenia. Rozdział w Scrivener to pole tekstowe — tak samo jak Dokument Google czy pusty plik Word. Dyktowanie, które wkleja tekst w miejscu kursora, nie obchodzi, w co akurat się wpatrujesz.
Prawdziwe pytanie nie brzmi więc "jaka aplikacja napisze książkę głosem". Nic nie napisze za ciebie książki. Pytanie brzmi: "jak przenieść mówione słowa do rękopisu z pełną prędkością i posprzątać je potem?" — a odpowiedź ma trzy uczciwe części: wbudowane dyktowanie, które już masz w komputerze, systemowy skrót klawiszowy działający wszędzie oraz schemat pracy trzymający wewnętrznego redaktora w ciszy, dopóki słowa nie są na miejscu. Przeprowadzę cię przez wszystkie trzy, skonfiguruję jedno w dwie minuty i powiem, kiedy wbudowane narzędzie w zupełności wystarczy.
Dlaczego autorzy dyktują zamiast pisać
Liczby to łatwa część. Większość ludzi pisze około 40 słów na minutę i mówi około 145. To mniej więcej trzy i pół raza więcej, co przy rękopisie liczącym 90 000 słów oznacza różnicę między szkicem, który powstaje miesiącami, a takim, który zajmuje tygodnie. Ale surowa prędkość to nie jest prawdziwy powód, dla którego autorzy to robią.
Ważniejszy powód jest taki, że opowiadanie to naturalny sposób, w jaki historie żyją w głowie. Sceny nie myślisz w justowanych akapitach — myślisz ją jako ktoś, kto ją relacjonuje. Dyktowanie pozwala ci opowiedzieć szkic tak, jak opisałbyś rozdział znajomemu przy stole w kuchni, a kształt nadać mu później. Klawiatura stawia warstwę między myślą a stroną. Głos tę warstwę usuwa na czas pierwszego, brudnego przejścia — tego, przy którym większość książek staje w miejscu.
Jest też powód fizyczny, o którym nikt nie wspomina, dopóki nadgarstki nie zaczną narzekać gdzieś przy dwunastym rozdziale. Pisanie całej książki to ogromna liczba naciśnięć klawiszy. Dyktowanie szkieletu głosem i zostawienie klawiatury do drobnych poprawek rozkłada obciążenie na cały dzień. To kwestia komfortu i produktywności, nie twierdzenie medyczne — ale jeśli godziny pisania to właśnie to, co cię spowalnia, dyktowanie jako odpoczynek dla rąk przez część czasu to rozsądny ruch, który warto wypróbować.
Najszybszy sposób: twój komputer już umie dyktować

Zanim cokolwiek zainstalujesz, wiedz, że twój system operacyjny już to potrafi — za darmo — i na krótką sesję to naprawdę wystarcza. Na Windows postaw kursor w rękopisie i naciśnij klawisz Windows + H. Otwiera się pasek Pisania głosem, mówisz, a słowa lądują tam, gdzie stoi kursor — Word, Scrivener, Google Docs w przeglądarce, cokolwiek. Przecinki i kropki dodaje samo, gdy mówisz.
Na Macu włącz Dyktowanie w Ustawieniach systemowych w sekcji Klawiatura, a potem uruchamiaj je skrótem, który tam ustawiłeś. Działa wszędzie, gdzie możesz pisać, a na Apple Silicon może przetwarzać tekst na urządzeniu, gdy tylko pobiorą się modele mowy. Powiedz "przecinek", "kropka" albo "nowy akapit" i samo interpunkcjonuje w trakcie.
Problem z całą książką jest dwojaki. Windows Pisanie głosem przesyła dane przez serwery Microsoftu i wymaga połączenia z internetem — nie jest więc opcją offline, co ma znaczenie, gdy piszesz rękopis, który wolisz nigdzie nie wysyłać. Oba wbudowane narzędzia są też nastrojone na krótkie porcje: wiadomość, e-mail, akapit. Mają tendencję do wyłączania się z powodu braku aktywności, źle słyszą nietypowe imiona postaci i nie dają żadnej możliwości nauczenia ich wymyślonego słownictwa. Przy szkicu liczącym 80 000 słów te drobne niedogodności kumulują się. To właśnie ten moment, gdy dedykowane narzędzie zaczyna mieć sens.
Konfiguracja Whisper w dwie minuty (Windows lub Mac)
Systemowe narzędzie do dyktowania rozwiązuje oba ograniczenia wbudowanych opcji naraz: działa offline i tak samo w każdej aplikacji do pisania, którą otworzysz. Potrzebujesz Maca na Apple Silicon lub komputera z Windows 10 lub nowszym, działającego mikrofonu i otwartego rękopisu w Word, Scrivener, Google Docs albo czymkolwiek innym. Cały lokalny potok transkrypcji jest bezpłatny dla każdego zalogowanego konta — bez podawania karty przy rejestracji. Oto kolejność kroków.
Krok 1 — Zainstaluj Whisper i zaloguj się.
Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Cały lokalny potok transkrypcji otwiera się od razu.
Będziesz wiedział, że zadziałało, gdy w zasobniku systemowym pojawi się ikona aplikacji, a kreator konfiguracji zaproponuje wybór modelu.
Krok 2 — Wybierz ścieżkę transkrypcji.
Aplikacja nie wybiera za ciebie. Masz trzy opcje: Cloud (OpenAI, własny klucz), Local Parakeet lub Local Whisper. Dla prywatnego rękopisu zacznij od lokalnej — więcej o tym za dwie sekcje.
Będziesz wiedział, że zadziałało, gdy model skończy się pobierać i pokaże się jako gotowy.
Krok 3 — Potwierdź skrót klawiszowy.
Na Windows domyślnie jest to Ctrl+Space, na Macu przytrzymanie Command+Option jako push-to-talk. Na Macu przyznaj uprawnienie Dostępności, gdy zostaniesz o to poproszony — bez niego wklejanie w miejscu kursora nie może sięgnąć do innych aplikacji. Oba skróty możesz zmienić w Ustawieniach, jeśli kolidują z czymś, czego już używasz.
Będziesz wiedział, że zadziałało, gdy testowe nagranie wklei się do dowolnego pola tekstowego.
Krok 4 — Postaw kursor w rękopisie i zacznij mówić.
Otwórz swój rozdział, kliknij tam, gdzie ma zacząć się następny akapit, przytrzymaj skrót klawiszowy, powiedz kilka zdań, puść. Transkrypcja pojawi się tam, gdzie stoi kursor — w dokumencie.
Będziesz wiedział, że zadziałało, gdy twoje wypowiedziane zdania będą siedzieć w rękopisie jako tekst.
Wolna część to pobieranie modelu, nie konfiguracja. Reszta to cztery powyższe kroki. Gdy aplikacja już działa, pisanie rozdziału przestaje być zadaniem do klikania, a staje się zadaniem do mówienia — o to właśnie chodzi.
Jeśli wcześniej konfigurowałeś dyktowanie na Windows albo na Macu, to ta sama pamięć mięśniowa, tylko skierowana na rękopis.
Najpierw konspekt, potem dyktowanie scena po scenie
Dyktowanie nagradza pisarza, który wie, dokąd zmierza scena, zanim otworzy usta. Schemat pracy, który naprawdę działa, jest nudny i powtarzalny: najpierw konspekt, potem opowiadaj książkę kawałek po kawałku, a potem posprzątaj. Pomiń konspekt, a podczas pisania szkicu wciąż będziesz narracją wpychać się w ślepe zaułki.
Zacznij każdą sesję od kilku punktów wypunktowanych dla sceny — kto w niej jest, co się zmienia, gdzie się kończy. Tych nie musisz dyktować; wpisz je, to tylko rusztowanie. Potem postaw kursor przy następnej pustej linii, przytrzymaj skrót klawiszowy i opowiedz scenę tak, jak opowiedziałbyś ją na głos. Gdy mówisz, pojawia się mała kapsuła, żebyś wiedział, że aplikacja słucha — Whisper trzyma chwilę po puszczeniu klawisza, żeby ostatnie słowo nie zostało obcięte.
Jedna zasada ważniejsza od reszty: nie poprawiaj podczas mówienia. W chwili, gdy zatrzymujesz się, żeby poprawić przecinek albo przeformułować zdanie, wypadasz ze sceny i wracasz w tryb redaktora — a te dwa tryby nie jeżdżą na tym samym biegu. Opowiedz cały kawałek do końca — scenę, sekcję, beat — i dopiero wtedy patrz na ekran. Dyktuj w sesjach po dziesięć lub piętnaście minut, nazywaj postaci i miejsca zawsze tak samo, żeby transkrypcja była spójna, i zostaw run-ony i brakujące przecinki w spokoju. Przejście czyszczące istnieje właśnie po to, żeby przejście pisania mogło być szybkie i brudne. Zrzuć słowa w tempie mówienia; kształtuj je potem — tak jak piszesz szybciej głosem wszędzie indziej.
Lokalnie czy w chmurze: który tryb dla rękopisu
Przy szkicu książki najpierw spróbuj trybu lokalnego. Rękopis to ten jeden dokument, który większość autorów naprawdę strzeże — niedokończony, nieopublikowany, czasem objęty umową. To dziwny wybór: trzymać go na własnym dysku i jednocześnie przesyłać głos przez chmurę, żeby dostać słowa na stronę. Jeśli twój Mac ma Apple Silicon albo twój komputer jest z ostatnich kilku lat, tryb lokalny obsłuży pełną sesję pisania bez problemów — a chmura staje się wyjściem awaryjnym, nie domyślnym.
Oto czym różnią się trzy ścieżki, bo aplikacja każe ci wybrać i wolę, żebyś wybrał dobrze:
- Local Parakeet — Silnik TDT od NVIDIA, około 600 MB, najszybsza opcja lokalna — 5 do 10 razy szybszy od Whisper na CPU. Obsługuje angielski plus 24 inne języki europejskie, 25 łącznie. Bez tłumaczenia na angielski, bez własnego słownictwa. Jeśli piszesz po angielsku lub innym języku europejskim, a imiona twoich postaci są zwyczajne — to szybki, w pełni offline wybór.
- Local Whisper — Wolniejszy od Parakeet na tym samym komputerze, ale wielojęzyczne wersje obsługują 99 języków i mogą tłumaczyć na angielski, a do tego obsługuje własne słownictwo — przydatne, gdy książka pełna jest wymyślonych imion, miejsc i terminów, których możesz go nauczyć. Wersje tylko po angielsku obsługują wyłącznie angielski, nie 99 języków. Domyślny model angielski waży około 480 MB.
- Cloud (OpenAI, BYOK) — Najlepsza dokładność i dostęp do sieci, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu, więc jest to jedyna ścieżka, która opuszcza twój komputer. Dostęp do chmury jest częścią Whisper Pro.
Nudna prawda jest taka, że do prozy typowej dla pierwszego szkicu tryb lokalny w zupełności wystarczy. Oba lokalne silniki działają w całości na twoim komputerze, bez wysyłania czegokolwiek na serwer — a to dokładnie to, czego chcesz przy rękopisie. Jeśli twoja książka zawiera dużo wymyślonego słownictwa — fantastyczne imiona, fikcyjne miejsca, techniczny termin, którego używasz czterdzieści razy — własne słownictwo lokalnego Whisper jest decydującą funkcją, bo zatrzymuje transkrypcję przed odgadywaniem tego samego imienia na pięć różnych sposobów. Chmura zarabia na swoje miejsce, gdy chcesz najwyższej dokładności podczas trudnej sesji nagraniowej. Na co dzień zacznij lokalnie i sięgaj po chmurę tylko wtedy, gdy lokalny tryb cię nie zadowala.
Przeprowadź przejście czyszczące po zebraniu słów
Surowe dyktowanie wychodzi jako jeden ciąg. Mówisz "przeszła przez pokój nie spojrzała na niego po prostu otworzyła okno ym i czekała" — i taki bezprzecinkowy mur dostaje cię od każdego silnika mowy. To w porządku — taka jest umowa za prędkość mówienia. Czyszczenie to osobne przejście i to właśnie tam szkic zmienia się z powrotem w prozę.
Windows Pisanie głosem dodaje interpunkcję podczas mówienia, a dyktowanie na macOS radzi sobie z podstawami, gdy mówisz "przecinek" albo "kropka". Do cięższego czyszczenia — usuwania "ym-ów", naprawiania run-onów, zamieniania mówionego akapitu w coś, co naprawdę zostawi się w rękopisie — Whisper może przeprowadzić przejście AI. Powiedz frazę aktywacyjną "Hey whisper", a tekst zostaje poprawiony, zanim trafi na stronę. Na lokalnym modelu działa to przez Ollama; w trybie chmury domyślnie to gpt-5-mini.
przeszła przez pokój nie spojrzała na niego po prostu otworzyła okno ym i czekała aż hałas z ulicy wypełni ciszę
Przeszła przez pokój. Nie spojrzała na niego; po prostu otworzyła okno i czekała, aż hałas z ulicy wypełni ciszę.
Jedno uczciwe ograniczenie, bo autorzy słyszą odwrotne obietnice. Przejście AI porządkuje interpunkcję i wypełniacze. Nie przepisuje twojej prozy, nie naprawia ciągłości fabuły ani nie decyduje, czy scena działa. Nie zauważy, że kolor oczu bohatera zmienił się między rozdziałami — i nie powinno, bo to twoja robota i to ona sprawia, że książka jest twoja. Traktuj przejście czyszczące jak maszynistkę porządkującą transkrypcję, nie jak współautora. Praca głosem daje ci szybki, surowy szkic; samo pisanie — wybory, struktura, zdanie, które trafia — zostaje przy tobie.
Ten sam rytm mów-potem-czyść przenosi się poza fikcję — nawyk pisania długich form jest identyczny, niezależnie od tego, czy piszesz powieść, czy rozdział pracy dyplomowej, bo schemat jest taki sam: konspekt, opowiedz sekcję bez zatrzymywania się, a potem posprzątaj w osobnym przejściu.
Kiedy wbudowane narzędzie w zupełności wystarczy

Czasem darmowe narzędzie już obecne na twoim komputerze to właściwy wybór i udawanie inaczej byłoby nieuczciwe. Jeśli dyktujesz tylko w krótkich porcjach — linijka dialogu, która właśnie ci przyszła do głowy, notatka do siebie w konspekcie, akapit między spotkaniami — system operacyjny obsłuży to za darmo. Klawisz Windows + H na Windows, skrót Dyktowania na Macu. Nie instaluj aplikacji, żeby zapisać jedno zdanie.
Jest też zadanie, które wygląda jak dyktowanie książki, ale nim nie jest — warto je nazwać, żebyś nie sięgał po złe narzędzie. Transkrypcja nagranego pliku audio — wywiadu, który nagrałeś, notatki głosowej nagrywanej podczas spaceru, zapisu spotkania autorskiego — to inne zadanie niż dyktowanie na żywo. Dyktowanie wpisuje słowa, które teraz mówisz do mikrofonu; nie jest stworzone do przetwarzania nagrania wielu mówców po fakcie. Do tego użyj serwisu stworzonego do transkrypcji plików audio. Dyktowanie na żywo i transkrypcja nagranego dźwięku to dwa różne zadania — narzędzie, które świetnie radzi sobie z jednym, zazwyczaj jest przeciętne w drugim.
Sięgaj po dedykowane, systemowe narzędzie, gdy wbudowane opcje zaczynają ci przeszkadzać: całe rozdziały zamiast krótkich porcji, prywatność offline dla nieopublikowanego rękopisu, wymyślone słownictwo, które chcesz mieć zawsze jednakowo zapisane, albo po prostu jeden skrót klawiszowy zachowujący się tak samo w Scrivener, Word i poczcie. Poniżej tej granicy używaj tego, co darmowe. Nie będę ci kazać instalować oprogramowania, żeby podyktować listę zakupów.
Jeśli twój projekt jest akademicki, a nie beletrystyczny, ta sama logika rozdział po rozdziale sprawdza się przy dyktowaniu pracy dyplomowej — gdzie wymyślone słownictwo zastępuje żargon dziedzinowy, a argument za prywatnością staje się jeszcze mocniejszy.
Żadna aplikacja nie napisze książki. Nigdy nie napisze — i w dni, gdy scena nie chce przyjść, to mała łaska: nie ma oprogramowania do obwinienia, jest tylko praca. To, co dyktowanie zmienia, to prędkość brudnego pierwszego przejścia: konspekt, opowiedz, posprzątaj potem. Większość tego poradnika napisałem mówiąc do ekranu i spojrzałem na słowa dopiero wtedy, gdy wszystkie były na miejscu. Pierwsze trzy akapity, które próbowałem perfekcjonować podczas mówienia, to wciąż najgorsze trzy, które napisałem.
Opowiedz następny rozdział na stronę
Zaplanuj scenę, przytrzymaj skrót, opowiedz ją, puść. Szkic ląduje w dowolnym rękopisie, gdzie stoi kursor — i w każdej innej aplikacji też.
Darmowy tryb lokalny dla każdego zalogowanego konta. Żadna karta nie jest potrzebna na start.



