Poradnik
Dyktowanie w czasie rzeczywistym dla piszących
Aplikacja do dyktowania dla pisarzy pozwala wypowiedzieć zdanie i zobaczyć je przy kursorze chwilę później. W Whisper trzymasz klawisz skrótu, mówisz, puszczasz — i transkrypcja trafia do miejsca, w którym piszesz. Na lokalnych modelach to mniej więcej półtorej sekundy.
Ostatnia aktualizacja: czerwiec 2026

Aplikacja do dyktowania w czasie rzeczywistym zamienia mowę na tekst przy kursorze z minimalnym opóźnieniem. Whisper działa w trybie naciśnij i mów: trzymasz klawisz skrótu, wypowiadasz zdanie, puszczasz — transkrypcja trafia do edytora na ekranie. Na lokalnych modelach czas od puszczenia klawisza do pojawienia się tekstu wynosi około 1,4 sekundy. Działa offline, bezpłatnie, w dowolnej aplikacji desktopowej.
Stworzyłem Whisper, bo pisanie na klawiaturze było najwolniejszą częścią tworzenia. Nie myślenie, nie redagowanie — sam mechaniczny akt poruszania palcami wystarczająco szybko, żeby nadążyć za zdaniem, które już dawno skończyłem w głowie. Głos to zmienia. Mówisz z prędkością około 145 słów na minutę; piszesz może 40. Ta różnica mówi wszystko.
Ale „czas rzeczywisty” to obciążone słowo, a większość stron sprzedających dyktowanie pisarzom pomija ważne szczegóły. Zanim cokolwiek pobierzesz, chcę uczciwie powiedzieć, co „czas rzeczywisty” tu oznacza, jak odczuwalne jest opóźnienie i gdzie to narzędzie sprawdza się w prawdziwej sesji pisania — długa proza, wpisy na blogu, fikcja, e-mail, który od tygodnia odkładasz.
Oto szczera wersja, którą większość stron pomija. Whisper działa w trybie naciśnij i mów. Trzymasz klawisz skrótu, wypowiadasz pełne zdanie lub trzy, potem puszczasz. Transkrypcja trafia do kursora po puszczeniu — nie słowo po słowie w trakcie mówienia, jak na ekranie stenografa sądowego. Jednostką jest wypowiedź, nie sylaba.
To rozróżnienie jest ważne, bo ustawia właściwe oczekiwania. Jeśli wyobrażasz sobie słowa pełzające po stronie w rytm Twoich ust — to są napisy na żywo, inne narzędzie do innej pracy. To, co Whisper daje piszącemu, jest w praktyce szybsze: wypowiadasz myśl, pojawia się, wypowiadasz następną. Na lokalnym modelu pełna pętla trwa około 1,4 sekundy. Na tyle szybko, że przestajesz to zauważać i po prostu piszesz.
Co „czas rzeczywisty” naprawdę oznacza dla piszącego

Pisarze sięgają po dyktowanie z tego samego powodu co ja: szkic jest w głowie, a klawiatura stoi na drodze. Pierwsza wersja ma być szybka i niedopracowana. Klawiatura sprawia, że wychodzi powolna i schludna — dokładnie odwrotnie. Mówienie pozwala uchwycić bałaganiastą wersję z prędkością myślenia, a redagowanie — ta część, która naprawdę potrzebuje palców — przychodzi potem.
Kiedy więc pisarz szuka „dyktowania w czasie rzeczywistym”, zazwyczaj chodzi mu o to: wypowiedzieć zdanie i zobaczyć je, zanim straci następne. To jest prawdziwy próg. Nie litera po literze — przerwa poniżej dwóch sekund, żeby słowa były zanim myśl wyparuje. Whisper to osiąga. Od puszczenia klawisza do pojawienia się tekstu w dokumencie mija około 1,4 sekundy na lokalnym modelu na M1 Air, nieco ponad dwie sekundy na przeciętnej maszynie z Windows z większym modelem. (Obserwowałem, jak przepływ się psuje, gdy opóźnienie przekracza dwie sekundy — mózg z powrotem skupia się na ekranie i tracisz wątek. Dlatego to właśnie ta liczba mnie obsesjonuje.)
Pisarze chcą też nigdy nie opuszczać dokumentu. Długi szkic to stan skupienia, a skupienie nie przeżyje otwierania osobnego okna transkrypcji, klikania „nagraj”, czekania, kopiowania i wklejania z powrotem. Whisper wkleja przy kursorze w aplikacji, w której właśnie jesteś — Scrivener, Word, Google Docs w przeglądarce, zwykły edytor tekstu, Twój CMS. Nie przełączasz okien. Trzymasz klawisz i piszesz dalej. To sprawia, że narzędzie odczuwa się jako działające w czasie rzeczywistym, choć ściśle rzecz biorąc, wkleja po puszczeniu.
Trzymaj klawisz, mów, puść — tekst wkleja się sam
Mechanika jest nudna, co jest najwyższą pochwałą dla oprogramowania. Trzymasz klawisz skrótu, mówisz, puszczasz — transkrypcja pojawia się przy kursorze w tym, co aktualnie ma fokus. Whisper utrzymuje krótki bufor — 250 milisekund — po puszczeniu klawisza, żeby ostatnie słowo nie zostało ucięte. Ponieważ tekst wklejany jest przy kursorze systemu operacyjnego, Twój rękopis to dla niego po prostu „pole tekstowe”. Scrivener, Final Draft, Word, szkic na Substacku w przeglądarce — to samo zachowanie, bez konfiguracji per aplikacja.
Podczas mówienia pojawia się mała kapsułka, żebyś wiedział, że aplikacja słucha, a następnie widać krótki etap transkrypcji, zanim słowa trafią na miejsce. To cała pętla. Nie ma osobnego okna, do którego trzeba alt-tabować, żadnego przycisku nagrywania do szukania, żadnego pliku do eksportowania. Kursor jest w akapicie, mówisz, zdanie pojawia się w akapicie:
Klawisz skrótu to jedna rzecz, którą warto dobrze ustawić na początku. Na Windows to Ctrl+Space; na Mac to Command+Option — modyfikator przytrzymywany podczas mówienia. Oba można zmienić w Ustawieniach, co jest ważne dla piszących, bo wiele aplikacji do pisania rezerwuje skróty dla własnych funkcji. (Moja młodsza córka powiedziała mi kiedyś, że skrót „nie działa” w jej aplikacji graficznej. To był konflikt, nie błąd — tak nauczyłem się, że przeciętna osoba nie ma pojęcia, czym jest konflikt skrótów klawiaturowych. Dlatego każdy skrót jest teraz konfigurowalny.) Jeśli wcześniej korzystałeś z dyktowania w Windows lub na Mac, ta sama pamięć mięśniowa, skierowana na Twoją aplikację do pisania.
Konfiguracja w dwie minuty (Windows lub Mac)
Potrzebujesz Maca na Apple Silicon lub PC z Windows 10 lub nowszym, działającego mikrofonu i otwartego edytora, w którym piszesz. Cały lokalny potok jest bezpłatny dla każdego zalogowanego użytkownika — bez podawania karty płatniczej przy rejestracji. Oto kolejność kroków.
Krok 1 — Zainstaluj Whisper i zaloguj się.
Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Cały lokalny potok transkrypcji jest dostępny od razu.
Będziesz wiedzieć, że zadziałało, gdy w zasobniku systemowym pojawi się ikona aplikacji, a kreator konfiguracji zaproponuje wybór modelu.
Krok 2 — Wybierz ścieżkę transkrypcji.
Aplikacja nie wybiera za Ciebie. Masz trzy opcje: Cloud (OpenAI, własny klucz), lokalny Parakeet lub lokalny Whisper. Do prywatnego pisania prozy zacznij od lokalnej — więcej o tym, którą wybrać, dwie sekcje dalej.
Będziesz wiedzieć, że zadziałało, gdy model skończy się pobierać i pokaże status gotowości.
Krok 3 — Potwierdź klawisz skrótu.
Domyślnie na Windows to Ctrl+Space, na Mac Command+Option przytrzymywane jako push-to-talk. Na Mac przyznaj uprawnienie Dostępności, gdy pojawi się monit — bez niego wklejanie przy kursorze nie dotrze do Twojej aplikacji do pisania.
Będziesz wiedzieć, że zadziałało, gdy próbne nagranie wklei się w dowolne pole tekstowe.
Krok 4 — Ustaw kursor w szkicu i mów.
Otwórz dokument, kliknij w miejscu, gdzie ma się pojawić kolejne zdanie, przytrzymaj klawisz skrótu, powiedz je, puść. Transkrypcja pojawia się przy kursorze — w środku akapitu i w odpowiednim miejscu.
Będziesz wiedzieć, że zadziałało, gdy wypowiedziane zdanie znajdzie się w szkicu jako tekst.
Najwolniejsza część to pobieranie modelu, nie konfiguracja. Reszta to cztery powyższe kroki. Gdy już działa, umieszczenie zdania na stronie przestaje być zadaniem pisania, a staje się zadaniem mówienia — dla długiego szkicu to różnica między popołudniem a wieczorem.
Jak w praktyce wygląda dyktowanie szkicu
Sztuczka w dyktowaniu prozy polega na tym, żeby przestać dyktować prozę słowo w słowo. Początkujący próbują mówić z przecinkami i podziałami akapitów i wychodzą z tego wolniejsi niż przy pisaniu na klawiaturze. Szybka metoda to mówienie całymi myślami — wypowiadasz zdanie tak, jakbyś mówił do przyjaciela, puszczasz, mówisz następne. Niech pierwsza wersja będzie szorstka. Chwytasz szkic, nie składasz tekstu. Wpis na blogu liczący 1500 słów, który zajmuje mi dziewięćdziesiąt minut pisania, zabieram w połowę tego czasu mówieniem — i większość oszczędności to po prostu brak zatrzymywania się, żeby coś poprawiać w połowie zdania.
Rytm naciśnij i mów pasuje do tego, jak pisarze naprawdę myślą. Trzymasz klawisz na jedną myśl, puszczasz, patrzysz co wylądowało, decydujesz o następnym zdaniu, trzymasz znowu. Przerwy między naciśnięciami to czas na myślenie, nie martwy czas — narzędzie nie nagrywa Twoich „yyyy” kiedy gapisz się w ścianę i zastanawiasz, gdzie idzie scena. W prozie fikcyjnej jest to bliżej brzmienia dialogu w głowie niż jakiekolwiek pisanie na klawiaturze; wykonujesz kwestię, a potem masz ją na stronie do cięcia.
Dwie praktyczne uwagi na długie sesje. Po pierwsze, dyktuj w porcjach jednego lub trzech zdań, nie całych akapitów za jednym razem — krótsze fragmenty wklejają się szybciej i łatwiej je poprawić, gdy słowo wyjdzie krzywo. Po drugie, mikrofon ma większe znaczenie, niż byś przypuszczał. Mikrofon USB za 80 zł robi więcej dla dokładności niż jakikolwiek upgrade modelu, bo czyste nagranie audio to podstawa pracy modelu. To nudna prawda, z którą żaden sprzedawca „precyzji AI” nie chce startować. Gdy słowa płyną tak szybko, możesz dyktować całe szkice głosem i traktować klawiaturę jako narzędzie do redagowania — do czego zawsze była lepsza.
Lokalnie czy w chmurze: który tryb dla aktywnego pisarza
Do pisania szkiców zacznij od trybu lokalnego. Rękopis w trakcie tworzenia, propozycja, którą jeszcze nie wysłałeś, wpis w dzienniku — żadna z tych rzeczy nie musi opuszczać laptopa, żeby zamienić się w tekst. Jeśli Twój Mac ma Apple Silicon albo PC pochodzi z ostatnich kilku lat, lokalny tryb spokojnie radzi sobie z codziennym dyktowaniem, a chmura staje się wyjściem awaryjnym, a nie opcją domyślną. Oto czym różnią się trzy ścieżki — aplikacja każe Ci wybrać, więc wolę, żebyś wybrał dobrze:
- Lokalny Parakeet — Silnik TDT od NVIDIA, około 600 MB, najszybsza opcja lokalna — od 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski i 24 inne języki europejskie, łącznie 25. Bez tłumaczenia na angielski. Jeśli piszesz po angielsku lub w innym języku europejskim, to szybki wybór działający w pełni offline, który utrzymuje niskie opóźnienie.
- Lokalny Whisper — Wolniejszy niż Parakeet na tej samej maszynie, ale wielojęzyczne wersje obsługują 99 języków i potrafią tłumaczyć na angielski. Wersje wyłącznie angielskie — tylko angielski, nie 99. Wybierz tę ścieżkę, jeśli piszesz po chińsku, japońsku lub koreańsku (czego Parakeet nie obsługuje), potrzebujesz tłumaczenia albo chcesz faworyzowania słów kluczowych dla imion postaci i wymyślonych słów. Domyślny model angielski waży około 480 MB.
- Cloud (OpenAI, BYOK) — Najlepsza dokładność i dostęp do internetu, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Domyślnie transkrypcja działa przez gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza Twoją maszynę — i jest częścią Whisper Pro.
Nudna prawda jest taka, że dla większości prozy tryb lokalny w zupełności wystarczy — oba lokalne silniki działają w całości na Twoim urządzeniu, bez wysyłania czegokolwiek na serwer. Chmura ma sens, gdy zależy Ci na najwyższej dokładności dla trudnego nagrania albo potrzebujesz faktu z internetu w połowie zdania. Chmura jest też ścieżką o najniższym opóźnieniu przy dobrym połączeniu — około 1,1 sekundy — bo sieć bije lokalną moc obliczeniową na wolniejszym laptopie. Zacznij lokalnie; po chmurę sięgaj tylko wtedy, gdy tryb lokalny Ci nie wystarczy.
Jedna opinia, za którą ręczę: dyktowanie wyłącznie w chmurze to katastrofa prywatności czekająca na transkrypcję. Widziałem kiedyś, jak wewnętrzny zespół nazbierał pięciocyfrowy rachunek za chmurę w ciągu kwartału — głównie przez pętlę „smart retry”, która transkrybowała te same nagrania cztery razy. CFO otworzył dashboard podczas kwartalnego przeglądu i w sali zrobiło się bardzo cicho. Twój pierwszy szkic nie musi trafiać do logów vendora, żeby zamienić się w tekst. Twój laptop ma już mikrofon i procesor.
Zamiana mówionego szkicu w czystą prozę
Surowe dyktowanie wychodzi jako jeden wielki ciąg zdań. Mówisz „dobra więc rozdział zaczyna się na dworcu kolejowym ona się spóźniła ominęła połączenie yyy i właśnie od tego wszystko się zaczyna” — i taki niepunktowany mur dostarcza Ci każdy silnik mowy. Dla szkicu to w porządku — i tak będziesz redagować. Ale istnieje szybsza droga do czegoś czytelnego.
Wpisywanie głosowe w Windows dodaje interpunkcję podczas mówienia, a Dyktowanie na macOS obsługuje podstawy, gdy mówisz „przecinek” lub „kropka”. Do głębszego czyszczenia — wycinania „ymmm”, naprawiania zbiegu zdań, zamieniania mówionego akapitu w coś, co warto zachować — Whisper może uruchomić przebieg AI. Wypowiedz frazę aktywacyjną „Hey whisper” i tekst zostanie ulepszony przed wylądowaniem. Na lokalnym modelu działa to przez Ollama; w trybie chmury domyślnie przez gpt-5-mini.
dobra więc rozdział zaczyna się na dworcu kolejowym ona się spóźniła ominęła połączenie yyy i właśnie od tego wszystko się zaczyna
Dobra, więc rozdział zaczyna się na dworcu kolejowym. Ona się spóźniła — ominęła połączenie — i właśnie od tego wszystko się zaczyna.
Słowo ostrzeżenia, które pisarze powinni szczególnie usłyszeć: czyszczenie przez AI to przebieg interpunkcji i wypełniaczy, nie współautor. Poprawia mechanikę; nie przepisuje Twojego głosu i nie powinieneś na to pozwalać. Do fikcji lub czegokolwiek z wyraźnym stylem uruchamiam lżejsze lokalne ulepszenie lub pomijam je zupełnie w pierwszym szkicu i redaguję ręcznie później — bo cały sens szybkiego dyktowania polega na tym, że szorstki szkic jest Twój. Używaj czyszczenia, żeby notatki były czytelne. Właściwe pisanie rób sam.
Ten sam przepływ mów-a-potem-czyść działa wszędzie, gdzie przechowujesz tekst — to dokładnie jak dyktuje notatki i chwyta pomysły między sesjami pisania, żeby myśl badawcza lub wątek fabularny przeszły z mówionej uwagi do czystej linii bez przerywania rytmu.
Kiedy aplikacja do dyktowania w czasie rzeczywistym to zły wybór

Czasem uczciwa odpowiedź brzmi: potrzebujesz czegoś innego — i wolę to powiedzieć, niż sprzedać Ci złe narzędzie. Whisper to dyktowanie naciśnij i mów do aplikacji, w której piszesz. Nie są to napisy na żywo, nie jest to transkrypcja wywiadu i nie jest to narzędzie na telefon.
Jeśli naprawdę potrzebujesz słów pojawiających się na ekranie podczas mówienia — napisy do prezentacji na żywo, napisy przewijające się podczas transmisji, ścieżka napisów dostępnościowych — to są prawdziwe napisy na żywo, osobna kategoria stworzona do ciągłego strumieniowania, nie dyktowania naciśnij i puść. Sięgnij po narzędzie do napisów. Jeśli masz nagrany wywiad lub dwugodzinne spotkanie do zamiany na transkrypt, to transkrypcja pliku z etykietami mówców — usługa taka jak Otter lub Rev pasuje lepiej niż skrót dyktowania; inna kategoria, nie każ narzędziu do pisania robić roboty transkrypcji. I jeśli dyktuje tylko 30-słowową notatkę w biegu, mikrofon klawiatury telefonu jest darmowy i masz go już w kieszeni — Whisper to narzędzie desktopowe dla Windows i macOS, więc nie ma aplikacji do zainstalowania w tym celu.
Po aplikację do dyktowania w czasie rzeczywistym sięgaj, gdy zadaniem jest pisanie: długa proza, wpis na blogu, rozdział, e-mail, który ciągle odkładasz — pisane przy biurku, w aplikacji, której już używasz, gdzie mówienie bije pisanie, a Ty chcesz słów przy kursorze sekundę później. Poniżej tego poziomu używaj tego, co bezpłatne. Nie namawiam Cię do uruchamiania aplikacji desktopowej, żeby wysłać jednolinijkową wiadomość.
Większość pisarzy, od których słyszę, jest na jednej lub drugiej platformie — jeśli chcesz szczegółowego przewodnika po platformie, konfiguracja w oprogramowaniu do dyktowania dla pisarzy omawia cały przepływ pracy od końca do końca, od wyboru modelu po trzymanie rąk z dala od klawiatury przez całą sesję.
„Czas rzeczywisty” dla pisarza nie oznacza liter pełzających po stronie w rytm ust. Oznacza: wypowiadasz zdanie i jest tam, zanim stracisz następne — mniej więcej półtorej sekundy, w aplikacji, w której właśnie jesteś, bez wysyłania czegokolwiek gdziekolwiek. To jest ta sztuczka, i to spokojna. Podyktowałem większą część tego poradnika zdanie po zdaniu, puszczając klawisz między myślami, obserwując jak słowa pojawiają się kiedy obmyślałem kolejną linię. Klawiatura leżała przez cały czas, przydatna tylko do poprawek. Co jest dokładnie tam, gdzie chcę, żeby była.
Podyktuj swój następny szkic
Trzymaj klawisz skrótu, wypowiedz zdanie, puść. Słowa lądują przy kursorze w tym, w czym piszesz — mniej więcej półtorej sekundy później, bez wysyłania czegokolwiek gdziekolwiek.
Bezpłatny tryb lokalny dla każdego zalogowanego użytkownika. Do startu nie potrzeba karty.



