Autor: Denys Medvediev

Poradnik

Oprogramowanie do pisania głosem: darmowe opcje wbudowane kontra płatne narzędzia

Część najlepszego oprogramowania do pisania głosem masz już na swoim komputerze. Oto które wybrać i kiedy zapłacenie za dedykowaną aplikację naprawdę ma sens.

Ostatnia aktualizacja: czerwiec 2026

Smukły laptop i szklanka wody na jasnym biurku, gotowe do pisania głosem bez użycia rąk

Oprogramowanie do pisania głosem słucha przez mikrofon i zapisuje to, co mówisz, zamieniając mowę na edytowalny tekst z prędkością około 145 słów na minutę, wobec około 40 przy pisaniu na klawiaturze. Dobre narzędzia działają w całym systemie, więc słowa lądują dokładnie przy kursorze. Niektóre są darmowe i wbudowane w Windows oraz Mac; płatne aplikacje dodają tryb offline i porządkowanie tekstu przez AI.

Mów, a słowa lądują przy kursorze

Za pierwszym razem, gdy to działa, wygląda jak mała sztuczka magiczna. Przytrzymujesz klawisz, mówisz zdanie, puszczasz, a zdanie już jest w twoim e-mailu. Bez klawiatury. Moja młodsza krewna podyktowała kiedyś 90-słowną wiadomość do babci, zanim zdążyłem skończyć tłumaczyć, czym w ogóle jest dyktowanie. Mówienie nigdy nie było tą trudną częścią. Przez dwie dekady trudną częścią było to, by oprogramowanie było na tyle dobre, by mu zaufać, i ta część w końcu została rozwiązana.

Ten artykuł jest o tym, które oprogramowanie do pisania głosem warte jest twojego czasu, łącznie z darmowymi opcjami, które już masz.

Pasted
Nakładka Whisper kończąca dyktowanie — tekst wkleja się przy kursorze.

Większość ludzi przykutych do klawiatury robi to z przyzwyczajenia, nie z konieczności. Pisanie to wyuczony kompromis, sposób na wydobycie myśli z głowy i przeniesienie ich do maszyny, która nie ma uszu. Oprogramowanie do pisania głosem usuwa ten kompromis. Pytanie przestało brzmieć, czy to działa, gdzieś około 2022 roku, a zaczęło brzmieć: które wybrać i czy muszę za nie płacić.

Szczera odpowiedź zależy od trzech rzeczy: jak długo dyktujesz, czy chcesz, by działało w każdej aplikacji, i czy zależy ci na tym, by twoje słowa nigdy nie opuszczały laptopa. Zanim skończysz czytać, będziesz wiedzieć, która droga ci pasuje, a ja powiem ci, kiedy darmowa opcja wbudowana to wszystko, czego potrzebujesz. Czytam większość maili do wsparcia dla tej aplikacji i spora ich część przychodzi od ludzi, którzy zapłacili za narzędzie, podczas gdy to, które już mieli na komputerze, wykonałoby tę pracę. Mam więc mały interes w tym, by odwieść cię od zakupu.

Czym jest oprogramowanie do pisania głosem

Zbliżenie cyfrowego interfejsu audio z żywą falą dźwiękową, ilustrujące mowę przechwyconą jako dane

Oprogramowanie do pisania głosem to program, który przechwytuje dźwięk z twojego mikrofonu i zamienia go na tekst pisany za pomocą modelu rozpoznawania mowy. Starsza nazwa to oprogramowanie do dyktowania. Nowsza marketingowa nazwa to dyktowanie AI, co w większości oznacza to samo, z dołączonym modelem językowym poprawiającym interpunkcję i ton.

Występuje w trzech postaciach. Wbudowane dyktowanie jest dostarczane z systemem operacyjnym: pisanie głosem w Windows, Apple Dictation. Pisanie głosem w przeglądarce żyje wewnątrz jednej aplikacji, jak pisanie głosem w Google Docs. A dedykowane aplikacje na komputer instalują się osobno i działają we wszystkim, w czym piszesz. Postać ma większe znaczenie niż marka. Narzędzie przeglądarkowe, które pisze tylko wewnątrz Google Docs, jest bezużyteczne dla twoich wiadomości na Slacku, bez względu na to, jak dobra jest jego dokładność. Pierwsze pytanie, jakie należy zadać o każde narzędzie, nie brzmi, jak jest dokładne, ale gdzie pozwala ci pisać. Dokładność jest dziś rozwiązanym problemem dla większości z nich; zasięg nie.

To, co odróżnia poważne narzędzie od zabawki, to miejsce, w którym wkleja tekst. Narzędzia wbudowane i dedykowane aplikacje na komputer działają w całym systemie: naciskasz skrót w dowolnym polu tekstowym, a tekst się tam pojawia. To cała gra. Cała reszta — dokładność, języki, porządkowanie przez AI — to dodatek na wierzchu tego, czy narzędzie pisze tam, gdzie patrzysz.

Druga rzecz odróżnia kategorie: to, co model potrafi usłyszeć. Niektóre narzędzia obsługują tylko angielski. Inne obsługują dziesiątki języków i potrafią przełączać się w połowie zdania. Modele Whisper przeznaczone wyłącznie dla angielskiego obsługują dokładnie jeden język, podczas gdy jego wielojęzyczne wersje obejmują 99. Parakeet od NVIDIA plasuje się pośrodku, z 25 językami: angielskim plus 24 europejskimi. Jeśli piszesz wyłącznie po angielsku, nic z tego nie ma znaczenia i powinieneś wybierać według szybkości. Jeśli przed obiadem redagujesz w dwóch językach, ma to ogromne znaczenie. Większość ludzi przecenia, ilu języków potrzebuje, a nie docenia, jak bardzo zależy im na opóźnieniu. Opóźnienie między puszczeniem klawisza a zobaczeniem tekstu to coś, co czujesz za każdym razem.

Jeśli wolisz zobaczyć działającą wersję obejmującą cały system, niż czytać o kategorii, strona pisania głosem Whisper pokazuje pętlę przytrzymaj-skrót na Windows i Mac, z darmowymi lokalnymi silnikami w komplecie.

Jak to działa (i dlaczego dokładność w końcu się poprawiła)

Pod maską potok składa się z trzech kroków. Twój mikrofon nagrywa krótki klip audio. Model rozpoznawania mowy zamienia ten dźwięk w tekst. Następnie tekst zostaje wklejony, czasem po tym, jak model językowy go uporządkuje.

CancelTranscribing
Whisper w trakcie transkrypcji — model mowy zamieniający dźwięk w tekst.

Skok dokładności, który wszyscy zauważyli, wziął się z modelu w środku. Otwartoźródłowy model Whisper od OpenAI zmienił to, co znaczy słowo dobry. Radzi sobie z akcentami, hałasem w tle i 99 językami w swoich wielojęzycznych wariantach, bez kroku trenowania. Ta ostatnia część to cicha rewolucja. Nie uczysz nowoczesnego oprogramowania do pisania głosem swojego głosu. Instalujesz je i mówisz.

Jestem na tyle stary, by pamiętać, kiedy to była fantastyka naukowa. Pod koniec lat 90. pewien krewny uruchamiał Dragon NaturallySpeaking na komputerze z Windows 98 i 64 MB pamięci RAM. Konfiguracja oznaczała czytanie na głos listy słów przez 45 minut, by oprogramowanie mogło skalibrować się do twojego głosu. Potem działało, ledwo, z dokładnością może 70%, z czterosekundowym opóźnieniem na zdanie. Podyktowanie jednego akapitu świątecznego listu zajmowało piętnaście minut. Słuchawki przeleciały przez pokój. Słuchawki przetrwały; eksperyment nie. Dwadzieścia pięć lat później to samo zadanie zajmuje dziewięćdziesiąt sekund i zero trenowania. Sprzęt dogonił pomysł.

Dziś istnieją dwa rodzaje środkowego kroku. Przetwarzanie lokalne uruchamia model na twoim własnym komputerze, offline, więc twój dźwięk nigdy nie opuszcza maszyny, tak jak działa zamiana mowy na tekst offline. Przetwarzanie w chmurze wysyła dźwięk na serwer, co może być szybsze na słabym sprzęcie, ale oznacza, że twoje słowa podróżują. To, którego chcesz, zależy od tego, co dyktujesz. Lista zakupów — kogo to obchodzi. Umowa twojego klienta — może obchodzi.

Trzeci krok, porządkowanie, to miejsce, w którym mieszka AI w dyktowaniu AI. Surowa transkrypcja daje ci ścianę słów bez podziałów na akapity i z okazjonalnym „yyy”. Model językowy potrafi poprawić interpunkcję, usunąć przerywniki, a nawet dopasować ton, o jaki poprosisz. W Whisper by Remskill ten krok jest opcjonalny i działa lokalnie przez Ollama lub w chmurze przez twój własny klucz OpenAI, jeśli włączysz Pro. Możesz go też wywołać głosem: wypowiedz frazę aktywującą, obecnie „Hey whisper”, a tekst zostaje przekazany do modelu zamiast wklejony surowy. Nic z tego nie zmienia podstawowej sztuczki. To po prostu decyduje, jak dopracowane są słowa, gdy się pojawiają.

Darmowe opcje, które już masz: pisanie głosem w Windows, Apple Dictation, Google Docs

Zanim za cokolwiek zapłacisz, sprawdź, co już masz na komputerze. Trzy darmowe wbudowane opcje pokrywają sporo terenu.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
Dyktowanie, które już masz na komputerze, w dwóch wersjach — bez instalacji.

Pisanie głosem w Windows

W Windows 11 naciśnij klawisz z logo Windows plus H w dowolnym polu tekstowym, a pojawi się pasek pisania głosem. Jest dobry do szybkich wiadomości. Haczyk: do działania potrzebuje połączenia z internetem i działającego mikrofonu, bo rozpoznawanie odbywa się w chmurze. Obsługuje 43 języki według listy Microsoftu. Jeśli jesteś offline w pociągu, przestaje działać. Pełny opis krok po kroku znajdziesz w naszym przewodniku po zamianie mowy na tekst w Windows.

Apple Dictation

Na Macu włącz je w Ustawieniach systemowych, Klawiatura, Dyktowanie, a następnie uruchom je klawiszem mikrofonu lub wybranym skrótem. Obecna wersja transkrybuje tekst dowolnej długości i zatrzymuje się dopiero po 30 sekundach ciszy, a nie po sztywnym limicie czasu. Na Apple Silicon potrafi przetwarzać twoją mowę na urządzeniu. Do krótkich notatek jest darmowe i w porządku; dłuższa konfiguracja jest opisana w zamianie mowy na tekst na Mac.

Pisanie głosem w Google Docs

Otwórz dokument Google w Chrome, Edge lub Safari, kliknij Narzędzia, a następnie Pisanie głosowe, i pojawi się okienko mikrofonu. Obsługuje ponad 100 języków i odmian regionalnych. Twarde ograniczenie jest wprost w nazwie: pisze tylko wewnątrz Google Docs i Slides. Nie napisze twojego e-maila, twojego Slacka ani twojego kodu.

Szczery sposób odczytania tej trójki: to prawdziwe narzędzia, nie demka, i dla sporej części ludzi są one końcem poszukiwań. To, gdzie się zatrzymują, jest przewidywalne. Pisanie głosem w Windows umiera w chwili, gdy stracisz sygnał. Pisanie głosem w Google Docs nigdy nie opuszcza dokumentu. Apple Dictation jest doskonałe na Macu i nieobecne wszędzie indziej. Jeśli twoja praca mieści się w tych granicach, skończyłeś. Zamknij tę kartę i naciśnij klawisz. Płatna kategoria istnieje dla pracy, która się nie mieści: dyktowanie przez cały dzień, offline w samolocie, w każdej aplikacji zamiast jednej, i dźwięk, który musi zostać na twoim własnym dysku.

Kiedy pominąć dedykowaną aplikację i użyć wbudowanej

Oto część, którą pomija większość artykułów o najlepszym oprogramowaniu. Jeśli wysyłasz krótkie wiadomości — 30-słowny SMS, szybką odpowiedź na Slacku — darmowe dyktowanie, które już masz na komputerze, to wszystko, czego potrzebujesz. Pisanie głosem w Windows (klawisz Windows + H) i Apple Dictation są darmowe, są wbudowane i działają. Nie instaluj ani nie płać za nic, by napisać jedno zdanie. Dedykowana aplikacja zaczyna zarabiać na swoje miejsce, gdy dyktujesz często, potrzebujesz, by działała offline w samolocie, chcesz jej w każdej aplikacji, a nie tylko w jednej, albo zależy ci na tym, by twoje słowa zostały na twoim urządzeniu. Poniżej tego progu nudna prawda jest taka, że już masz właściwe narzędzie.

Ile kosztuje Whisper by Remskill

Whisper by Remskill jest darmowy dla każdego zalogowanego użytkownika dla całego lokalnego potoku: lokalnego Whisper, Parakeet, porządkowania przez AI opartego na Ollama, historii, własnego skrótu, pobierania modeli, bez konieczności podawania metody płatności przy rejestracji. Whisper Pro dodaje warstwę Cloud: transkrypcję w chmurze OpenAI, ulepszanie AI w chmurze i głosowe wyszukiwanie w sieci przez twój własny klucz OpenAI. Tryb Cloud nalicza ci opłaty bezpośrednio przez OpenAI; my nie bierzemy prowizji. Aktualne plany i okres próbny Pro znajdziesz na stronie cennika. Nie będę tu rzucał w ciebie liczbami; strona robi to lepiej, niż może to zrobić akapit.

Dalsza lektura

Mój krewny rzucił słuchawkami przez pokój w 1999 roku, bo dyktowanie było 45-minutową mordęgą produkującą śmieci. Słuchawki przeżyły eksperyment. Dwadzieścia pięć lat później mordęga zniknęła. Naciskasz klawisz i mówisz, a słowa się pojawiają. Jedyna prawdziwa decyzja, jaka pozostała, to które narzędzie, a dla wielu ludzi właściwa odpowiedź siedzi już na ich komputerze, wyłączona, czekająca. Moje własne dzieci nigdy nie dowiedzą się, że kiedyś było to trudne, i o to właśnie chodzi, nawet jeśli daje to gorszą opowieść przy stole.

Najpierw spróbuj tego, co już masz

Jeśli zabraknie mu miejsca, pobierz Whisper i wybierz silnik, który pasuje do tego, jak pracujesz.

Darmowe dla zalogowanych użytkowników dla całego lokalnego potoku. Bez karty przy rejestracji.

Zdjęcie Denysa Medvedieva

Denys Medvediev

Jestem tym, który czyta nasze maile do wsparcia, najpewniej dyktując odpowiedzi.