Wyjaśnienie
Prywatna mowa na tekst, lokalnie
Prywatna mowa na tekst oznacza, że Twój głos jest transkrybowany na Twoim własnym urządzeniu — nic nie jest przesyłane na serwer. Lokalne silniki Whisper i Parakeet działają w pełni offline. Dyktowanie w chmurze natomiast wysyła Twoje nagranie do zewnętrznego serwera.
Ostatnia aktualizacja: czerwiec 2026

Prywatna mowa na tekst to transkrypcja działająca na własnym urządzeniu użytkownika — nagrany głos nigdy nie opuszcza maszyny. Lokalne silniki, takie jak Whisper i Parakeet, działają w pełni offline i nic nie wysyłają na serwer. Usługi dyktowania w chmurze przesyłają audio do zdalnej transkrypcji. Dla maksymalnej prywatności wybierz lokalne narzędzie offline.
Każde narzędzie do dyktowania mówi o sobie "prywatne". Większość z nich taka nie jest. To słowo rozciąga się do znaczenia: "szyfrujemy przesyłkę" albo "usuwamy ją po 30 dniach" — a to nadal znaczy, że Twój głos opuścił komputer, trafił na czyjś serwer i został przepisany przez maszynę, której nie posiadasz. To jest polityka prywatności, nie prywatność. Istnieje ścisłe, wąskie znaczenie tego słowa i warto je znać, zanim powierzysz narzędziu e-mail do swojego prawnika.
Uczciwa definicja jest prosta: prywatna mowa na tekst oznacza, że audio zamieniane jest w słowa na Twoim urządzeniu i nic nigdzie nie jest wysyłane. Żadnych przesyłek, żadnych serwerów, żadnego internetu. Ten wariant istnieje, jest bezpłatny w ramach potoku lokalnego i działa na laptopie, który już masz. Haczyk — i powiem to wprost — jest taki, że w chwili, gdy wybierzesz tryb chmurowy dla lepszej dokładności, ta obietnica się zmienia. Wyraźnie zaznaczę tę granicę.
Oto co znika pod warstwą marketingu. "Prywatne" to nie uczucie — to pytanie z jedną odpowiedzią: czy audio opuszcza urządzenie, czy nie. Jeśli opuszcza, ktoś inny niż Ty może je w zasadzie usłyszeć. Jeśli nie — nie może. Wszystko inne — szyfrowanie, okna retencji, certyfikaty zgodności — to zarządzanie szkodami na wypadek, gdy jednak opuszcza.
Właściwe pytanie nie brzmi więc "czy to narzędzie jest prywatne?", lecz "czy mój głos jest transkrybowany na mojej maszynie, czy na ich?". Lokalny Whisper i Parakeet robią to na Twojej, offline, z modelem załadowanym do Twojej własnej pamięci RAM. Dyktowanie w chmurze robi to na ich. Ten poradnik wyjaśnia, co ta różnica naprawdę oznacza, jak skonfigurować wersję lokalną w dwie minuty i jeden uczciwy wyjątek, w którym wysłanie audio do chmury jest rozsądną wymianą.
Co "prywatne" faktycznie oznacza w kontekście mowy na tekst

Prywatna mowa na tekst oznacza jedną konkretną rzecz: nagrany głos jest zamieniany w tekst na Twoim własnym urządzeniu i audio nigdy go nie opuszcza. Żadnych przesyłek na serwer, żadnych połączeń przez internet, żadnej strony trzeciej w obiegu. Transkrypcja odbywa się w Twojej własnej pamięci i procesorze — tak jak sprawdzanie pisowni — a potem audio znika. To cała definicja, i większość narzędzi używających słowa "prywatne" jej nie spełnia.
To, co zwykle sprzedaje się jako "prywatne", to wersja chmurowa z lepszym zamkiem na drzwiach. Audio nadal trafia na serwery dostawcy, żeby zostać przepisane; dostawca po prostu obiecuje szyfrować je w trakcie przesyłania i usuwać według jakiegoś harmonogramu. To naprawdę lepsze niż nic i dla wielu osób wystarczające. Ale to nie to samo co audio, które nigdy nie opuszcza urządzenia. Obietnica usunięcia to obietnica. Przetwarzanie na urządzeniu to fakt — nie ma czego usuwać, bo nic nie zostało wysłane. Gdy prywatność naprawdę ma znaczenie — kwota wynagrodzenia, notatka medyczna, szkic, który nigdy nie powinien być indeksowany — różnica między obietnicą a faktem jest tu wszystkim.
Powód, dla którego transkrypcja na urządzeniu jest dziś w ogóle możliwa, jest prosty: modele zmniejszyły się, a laptopy przyspieszyły. Kilka lat temu do dobrego rozpoznawania mowy potrzebowałeś centrum danych — dlatego wszystko trafiało do chmury. Dziś otwarty model Whisper działa lokalnie na średniej klasy laptopie, a Parakeet działa jeszcze szybciej. Chmura była obejściem dla sprzętu, który już Cię nie ogranicza. Prywatna mowa na tekst to nie funkcja premium, za którą płacisz ekstra — to domyślna opcja, która stała się praktyczna. Reszta tego poradnika wyjaśnia, jak z niej korzystać.
Dlaczego większość dyktowania w chmurze nie jest prywatna
Kiedy naciskasz klawisz w narzędziu do dyktowania w chmurze, oto co dzieje się pod spodem: mikrofon nagrywa kilka sekund audio, ten plik jest wysyłany przez internet na serwer, model na tym serwerze transkrybuje nagranie, a tekst wraca na Twój ekran. Cały proces może trwać zaledwie sekundę — i właśnie dlatego wydaje się niewidoczny. Ale Twój głos — faktyczne nagranie, nie tylko słowa — odbył podróż do maszyny, nad którą nie masz kontroli, i z powrotem.
Windows Voice Typing jest najbardziej oczywistym przykładem, bo większość ludzi już go ma. Naciśnij Windows + H i pojawi się mały pasek, który wpisuje Twoją mowę w aktywne pole. Działa dobrze. Jest też usługą chmurową — internetowym rozpoznawaniem mowy Microsoftu — dlatego wymaga połączenia z internetem i przestaje działać w samolocie. Twoje audio trafia na serwery Microsoftu, żeby stać się tekstem. To samo dotyczy większości dzisiejszych aplikacji do "dyktowania AI": sprytna część działa na cudzym sprzęcie, a ciche miesięczne rachunki to koszt jego wynajmu. Lokalne narzędzie pokazuje małą kapsułkę podczas nasłuchiwania, a nagrane audio nigdy nie opuszcza laptopa:
Nie twierdzę, że transkrypcja w chmurze jest zła — za chwilę obronię ją w przypadkach, gdzie ma sens. Mówię, że marketingowe słowo "prywatne" zazwyczaj opisuje zamek na przesyłce, a nie brak przesyłki. Dyktowanie wyłącznie w chmurze to katastrofa prywatności czekająca na transkrypcję, a pierwsi ją odczuwają ci, którzy nie widzą rachunku. Byłem kiedyś świadkiem, jak jeden zespół w ciągu jednego kwartału naliczył pięciocyfrowy rachunek za chmurowe AI — głównie przez błąd "inteligentnego ponowienia", który czterokrotnie ponownie wysyłał te same nagrania z daily standupów. Dyrektor finansowy otworzył dashboard na kwartalnym przeglądzie i w sali zapadła cisza. Nikt nie zdecydował, żeby wysyłać wszystkie te nagrania na serwer. Narzędzie po prostu tak działało, za każdym razem.
Jak lokalna mowa na tekst zachowuje prywatność
Prywatna wersja działa całkowicie na Twojej maszynie. Wciskasz skrót, mówisz, zwalniasz, a model załadowany już do Twojej własnej pamięci RAM zamienia audio w tekst i wkleja go przy kursorze — bez internetu, bez serwera, bez żadnych przesyłek. Potrzebujesz Maca z Apple Silicon lub komputera z Windows 10 lub nowszym, działającego mikrofonu i kilku minut. Cały lokalny potok jest bezpłatny dla każdego zalogowanego konta, bez wymagania metody płatności przy rejestracji. Oto sekwencja.
Krok 1 — Zainstaluj Whisper i zaloguj się.
Pobierz ze strony z pobieraniem, zainstaluj i utwórz bezpłatne konto. Bez karty. Cały lokalny potok transkrypcji jest dostępny od razu, offline.
Będziesz wiedzieć, że zadziałało, gdy ikona aplikacji w zasobniku systemowym się pojawi i kreator konfiguracji zaproponuje wybór modelu.
Krok 2 — Wybierz lokalną ścieżkę transkrypcji.
Aplikacja nie wybiera za Ciebie. Do prywatnego dyktowania offline wybierz Local Parakeet lub Local Whisper — oba działają na Twojej maszynie. Trzecia opcja, Cloud, przesyła audio — zostaw ją wyłączoną, jeśli zależy Ci na prywatności.
Będziesz wiedzieć, że zadziałało, gdy lokalny model zakończy pobieranie i pojawi się jako gotowy.
Krok 3 — Potwierdź swój skrót klawiszowy.
Na Windows domyślnie to Ctrl+Space, na Macu Command+Option trzymane jako push-to-talk. Na Macu przyznaj uprawnienie Dostępność, gdy zostaniesz o to poproszony — bez niego funkcja wklejania przy kursorze nie dosięgnie innych aplikacji.
Będziesz wiedzieć, że zadziałało, gdy testowe nagranie zostanie wklejone w dowolne pole tekstowe.
Krok 4 — Wyciągnij kabel sieciowy i mów dalej.
To jest test prywatności. Wyłącz Wi-Fi, umieść kursor w dowolnym polu tekstowym, przytrzymaj skrót, powiedz zdanie, zwolnij. Transkrypt nadal się pojawia, bo model działał lokalnie.
Będziesz wiedzieć, że zadziałało, gdy dyktowanie będzie działać przy całkowicie wyłączonym internecie.
Wolna część to jednorazowe pobieranie modelu, które oczywiście wymaga internetu. Po tym audio w trybie lokalnym nigdy nie trafia do sieci. Test z wyciąganiem kabla w kroku czwartym to nie sztuczka — to jedyny dowód, który ma znaczenie. Jeśli dyktowanie działa przy wyłączonej sieci, audio jest transkrybowane na Twoim urządzeniu, koniec. Jeśli przestaje działać — gdzieś trafiało. Ten jeden test przecina każde twierdzenie o "prywatności" na każdej stronie marketingowej.
Nawet czyszczenie AI może zostać na Twojej maszynie
Oto część, o którą większość ludzi nie pomyśli, że powinna zapytać. Surowe dyktowanie wychodzi jako ciąg bez interpunkcji, z okazjonalnym "yyy" i zdaniami, które się wloką. Rozwiązaniem jest przepustka AI, która porządkuje tekst w coś, co naprawdę zachowasz. I właśnie tutaj wiele "prywatnych" lokalnych narzędzi cicho dzwoni do domu: transkrybuje na urządzeniu, po czym wysyła bałaganiarski transkrypt do chmurowego modelu na czyszczenie. Audio zostało prywatne; słowa — nie.
Whisper obsługuje czyszczenie również lokalnie, przez Ollama — bezpłatny lokalny program do uruchamiania modeli, który działa na Twojej maszynie pod adresem localhost i nigdy nie dotyka internetu. Powiedz frazę aktywacyjną "Hey whisper" i tekst zostanie ulepszony zanim trafi do kursora — cały cykl odbywa się wewnątrz Twojego laptopa. Łańcuch pozostaje nienaruszony: Twój głos staje się tekstem na Twoim urządzeniu, a ten tekst jest czyszczony na Twoim urządzeniu. Nic ze zdania — ani audio, ani szkic, ani dopracowana wersja — nigdy nie opuszcza maszyny.
To szczegół, który sprawdzałbym w każdym narzędziu, które nazywa się prywatnym. Łatwo trzymać transkrypcję lokalnie, a czyszczenie po cichu przenieść do chmury, bo czyszczenie to właśnie ta część, która potrzebuje dużego modelu, a duże modele kuszą do wynajęcia. Nudna prawda jest taka, że do codziennego dyktowania lokalny model przez Ollama w zupełności wystarcza do poprawienia interpunkcji i usunięcia słów-wypełniaczy. Chmurowy model jest potrzebny tylko wtedy, gdy prosisz o coś naprawdę trudniejszego — i to powinna być świadoma decyzja, nie coś, co narzędzie podejmuje za Ciebie w tle.
Lokalnie czy w chmurze: który tryb do prywatnego przepływu pracy
Do wszystkiego, co nazwiemy prywatnym, zacznij lokalnie. Jeśli Twój Mac jest oparty na Apple Silicon lub Twój PC pochodzi z ostatnich kilku lat, lokalne silniki obsługują codzienne dyktowanie bez problemów, a chmura staje się wyjściem awaryjnym, a nie domyślnym wyborem. Aplikacja zmusza Cię do świadomego wyboru ścieżki — nie narzuca domyślnej — więc oto jak różnią się te trzy opcje, z prywatnością w pełnym świetle:
Wybór zależy od tego, gdzie jest przetwarzane audio i czego potrzebujesz od transkrypcji.
- Local Parakeet — Silnik TDT firmy NVIDIA, około 600 MB, najszybsza opcja lokalna — 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski i 24 inne języki europejskie, łącznie 25. Bez tłumaczenia na angielski. W pełni na urządzeniu, nic nie jest przesyłane. Szybki prywatny wybór, jeśli mówisz po angielsku lub w innym języku europejskim.
- Local Whisper — wolniejszy niż Parakeet na tej samej maszynie, ale wielojęzyczne wersje obsługują 99 języków i potrafią tłumaczyć na angielski. Wersje tylko po angielsku są tylko po angielsku — nie 99 języków. Również w pełni na urządzeniu. Wybierz tę opcję dla chińskiego, japońskiego, koreańskiego lub jakiejkolwiek pracy z tłumaczeniami, czego Parakeet nie potrafi. Domyślny model angielski waży około 480 MB.
- Cloud (OpenAI, BYOK) — najlepsza dokładność i dostęp do sieci, z Twoim własnym kluczem OpenAI rozliczanym bezpośrednio przez OpenAI. Transkrypcja domyślnie używa gpt-4o-mini-transcribe. To jedyna ścieżka, która przesyła Twoje audio — opuszcza Twoją maszynę, żeby dotrzeć do OpenAI. Jest opcjonalna, jest częścią Whisper Pro i wyłączona, dopóki jej nie włączysz.
Granica jest wyraźna: dwie lokalne ścieżki są prywatne z założenia — audio jest transkrybowane na Twoim urządzeniu i nie ma czego wyciec. Ścieżka chmurowa taka nie jest i nie udajemy inaczej. Wysyła Twoje audio do OpenAI, na Twoim kluczu, bo to jedyny sposób, żeby uzyskać dokładność OpenAI i dostęp do sieci na żywo. Jeśli Twój Mac jest z serii M lub Twój PC jest niedawny, zacznij od trybu lokalnego i sięgaj po chmurę tylko wtedy, gdy lokalny tryb naprawdę Cię nie satysfakcjonuje. Chmura to wyjątek, który wybierasz świadomie — nie domyślna opcja, którą dziedziczysz.
Co faktycznie opuszcza Twoją maszynę w każdym trybie
Bądźmy konkretni co do danych, bo "prywatne" jest bez wartości bez wskazania, co podróżuje. W trybie lokalnym odpowiedź brzmi: nic — ani audio, ani transkrypt, ani wyczyszczona wersja. Nagranie jest przetwarzane w Twojej pamięci RAM, czyszczenie odbywa się przez Ollama na Twojej maszynie, a jedyną rzeczą, która się przesunęła, są słowa — z modelu do Twojego pola tekstowego. Możesz to zweryfikować z odpiętą siecią.
Gdy działa czyszczenie AI, nakładka pokazuje stan ulepszania, podczas gdy lokalny model przekształca ciągły tekst w coś czytelnego. Oto przykład takiej transformacji — surowe dyktowanie na górze, wyczyszczony tekst na dole — wszystko dzieje się na Twoim urządzeniu w trybie lokalnym:
okay so send the q3 numbers to marcus before the board call and flag the margin dip um but dont cc the whole finance list
Okay, so send the Q3 numbers to Marcus before the board call and flag the margin dip — but don't cc the whole finance list.
W trybie chmurowym uczciwe rozliczenie jest inne i powinieneś to wiedzieć, zanim przestawisz przełącznik. Twoje audio jest przesyłane do punktu końcowego transkrypcji OpenAI, na Twój własny klucz API, żeby tam zostać zamienione w tekst. Jeśli używasz też ulepszenia AI w chmurze, transkrypt trafia do modelu GPT; jeśli używasz wyszukiwania w sieci, wysyłane jest też zapytanie. Nic z tego nie przechodzi przez Remskill — to bezpośrednia linia od Twojej maszyny do OpenAI na Twoim kluczu — ale opuszcza Twoją maszynę, co jest jedyną rzeczą definiującą, czy coś jest prywatne. To zdanie o liczbach Q3 i Marcusie to dokładnie ten rodzaj rzeczy, który trzymałbym lokalnie. Przepis, który dyktuję dla zabawy — szczerze nie dbam.
Ten sam przepływ mów-potem-wyczyść działa w każdej aplikacji, więc po konfiguracji możesz pisać szybciej swoim głosem w edytorze, e-mailu i terminalu — prywatnie, bez niczego opuszczającego laptopa w trybie lokalnym.
Kiedy wysyłanie audio do chmury jest uczciwa wymianą

Kłamałbym, gdybym powiedział, że lokalny tryb to zawsze odpowiedź. Czasem chmura jest właściwym wyborem i udawanie inaczej, żeby forsować narrację o prywatności, byłoby tą samą marketingową nieuczciwością, na którą narzekałem przez ostatnich sześć sekcji. Wymiana jest realna: rezygnujesz z gwarancji, że nic nie opuszcza Twojej maszyny, a otrzymujesz najlepszą dostępną dokładność transkrypcji plus dostęp do sieci na żywo pod tym samym skrótem.
Sięgaj po tryb chmurowy, gdy treść nie jest wrażliwa, a dokładność jest. Transkrypt podcastu, szkic publicznego wpisu na blogu, lista zakupów, trudne nagranie z silnym akcentem lub w hałaśliwym pomieszczeniu, gdzie lokalny model się potyka — żadna z tych rzeczy nie musi zostać na Twojej maszynie, a modele OpenAI poradzą sobie z nimi lepiej. Używasz własnego klucza API, więc audio trafia bezpośrednio do OpenAI, a koszt za minutę obciąża Ciebie, nie przez pośrednika. Dla niepoufnej pracy, gdzie płacisz za jakość, to sensowna wymiana. Błędem nie jest używanie chmury — błędem jest używanie jej domyślnie do wszystkiego, w tym do rzeczy, które nigdy nie powinny trafić na serwer.
A dla naprawdę krótkich tekstów — pomiń dedykowane narzędzie całkowicie. Jeśli dyktujesz 30-słowową wiadomość, Windows + H lub macOS Dictation jest darmowe i już zainstalowane — choć warto wiedzieć, że Windows Voice Typing samo w sobie jest usługą chmurową, więc nie jest opcją prywatną, tylko wygodną. Na Apple Silicon macOS Dictation może przetwarzać zwykły tekst na urządzeniu, co czyni je jedynym wbudowanym rozwiązaniem faktycznie prywatnym dla krótkich fragmentów. Poniżej 200 słów nie będę Ci mówić, żebyś cokolwiek instalował. Dedykowane narzędzie zarabia swoje miejsce, gdy notatki stają się długie, gdy chcesz prywatności offline na Windows, albo gdy potrzebujesz jednego skrótu działającego tak samo wszędzie.
Jeśli wybierasz narzędzie głównie ze względu na gwarancję prywatności, głębsza wersja tego argumentu jest w poradniku o mowie na tekst offline który przeprowadza przez uruchomienie wszystkiego bez połączenia sieciowego.
"Prywatne" to najbardziej nadużywane słowo w tej kategorii i najłatwiejsze do sprawdzenia: odepnij sieć i sprawdź, czy nadal działa. Lokalny Whisper i Parakeet zdają ten test, bo audio nigdy nie opuszcza Twojej maszyny — i czyszczenie AI też go zdaje, bo Ollama działa tuż obok nich. Tryb chmurowy celowo go nie zdaje, bo wynajmuje dokładność OpenAI — i to uczciwa wymiana do odpowiedniej pracy. Zdyktowałem większość tego poradnika przy wyłączonym Wi-Fi, co jest albo mocnym demem produktu, albo sygnałem, że powinienem częściej wychodzić z domu. Obie rzeczy mogą być prawdą.
Dyktuj prywatnie, zacznij teraz
Wybierz lokalny model, odepnij sieć i mów. Transkrypt trafia do kursora — a Twój głos nigdy nie opuścił laptopa.
Bezpłatny tryb lokalny dla każdego zalogowanego konta. Karta nie jest wymagana na start.



