Autor: Denys Medvediev

Rozwiązywanie problemów

Dyktowanie wpisuje złe słowa? 5 sposobów na naprawę

Dyktowanie wpisuje złe słowa, gdy model źle słyszy jeden dźwięk i zgaduje. Pięć przyczyn, cztery możesz naprawić w dziesięć minut.

Ostatnia aktualizacja: czerwiec 2026

Czarna klawiatura w płytkiej głębi ostrości na ciemnej powierzchni — nawiązanie do tekstu dyktowanego trafiającego na stronę

Dyktowanie wpisuje złe słowa, gdy model mowy źle słyszy jeden dźwięk i przepisuje zdanie wokół swojego domysłu. Typowe przyczyny to słaby mikrofon, hałas w tle, homofon, którego model nie potrafi rozróżnić, błędne ustawienie języka lub nazwa, której nigdy nie napotkał. Najpierw napraw audio, potem naucz narzędzie swojego słownictwa.

Mówisz „deploy na staging”. Na ekranie pojawia się „destroy the stadium”. Poprawiasz. Następne zdanie — to samo. Przy trzeciej poprawce piszesz szybciej, niż mówisz, a cały sens dyktowania przepada. Obserwowałem tę pętlę frustrującą pisarkę, handlowca i moją własną mamę, która spróbowała dyktowania raz, a potem wróciła do pisania dwoma palcami z czystej przekory. Dobra wiadomość: prawie każde błędne słowo da się sprowadzić do jednej z pięciu przyczyn, a cztery z nich możesz usunąć w ciągu najbliższych dziesięciu minut.

Oto to, czego nikt ci nie mówi. Większość narzędzi do dyktowania nie jest zepsuta — one zgadują, w czasie rzeczywistym, w złych warunkach, nie wiedząc, jak nazywa się twój kolega ani że „Kubernetes” to w ogóle słowo. Whisper w trybie lokalnym ma ustawienie, które od razu rozwiązuje ten ostatni problem — pole „Custom words”, gdzie wpisujesz nazwy i żargon, jakich spodziewasz się użyć, żeby aplikacja pisała je poprawnie zamiast wymyślać coś, co brzmi podobnie. To bezpłatne i działa offline. Do tego dojdziemy. Ale proza życia jest taka, że mikrofon ma większe znaczenie niż oprogramowanie — więc od niego zaczynamy.

Twoje dyktowanie nie jest zepsute. Ono zgaduje.

Klawiatura laptopa w miękkim oświetleniu otoczenia — ilustracja tego, gdzie ląduje źle przepisany tekst

Zamiana mowy na tekst nie słyszy liter. Słyszy dźwięk i obstawia słowa, które najbardziej pasują do tego dźwięku — a potem koryguje ten zakład, gdy dociera więcej dźwięku. Dlatego dyktowanie czasem przepisuje tekst, który już wypowiedziałeś. Źle rozumie jedno słowo pod koniec zdania, decyduje, że wcześniejsze słowo musiało być czymś innym, żeby gramatyka miała sens, i po cichu je zmienia.

„Morze” i „może”. „Może” i „morze”. „Raz” i „raź”. To homofony — słowa brzmiące identycznie — i żadna ilość wyraźnego mówienia ich nie naprawia, bo wyraźność nigdy nie była problemem. Model musi zgadywać z kontekstu, a czasem zgaduje źle.

Są też słowa, z którymi model nigdy się nie zetknął. Nazwisko twojego szefa. Kod produktu. „Remskill.” Model nie potrafi przeliterować tego, czego nie zna, więc podstawia najbliższe prawdziwe słowo, które zna. To nie błąd. To luka w słowniku, która ma konkretne rozwiązanie — opisuję je poniżej.

Mikrofon to zwykle winowajca

Biurko z mikrofonem pojemnościowym, laptopem i słuchawkami — źródło sygnału dla dyktowania

Zanim obwinisz oprogramowanie, sprawdź, czym je karmisz. Wbudowany mikrofon laptopa siedzi tuż przy wentylatorze, jest skierowany w sufit i łapie tyle samo pokoju, co twojego głosu. Śmieci na wejściu, błędy na wyjściu.

To jedyna opinia, na którą stawiam cały ten artykuł: „AI” nie naprawia kiepskiego audio. Mikrofon USB za 80 zł robi więcej dla dokładności niż jakikolwiek upgrade modelu, jaki możesz zrobić. Spędziłem tydzień, ładując coraz większe i wolniejsze modele, żeby pozbyć się własnych błędnych słów — zanim zauważyłem, że mikrofon laptopa był skierowany prosto na wentylator. Mikrofon był problemem przez cały czas. Buduję to oprogramowanie zawodowo. Najpierw zainwestuj w sprzęt. Model to tania część.

Test weryfikacyjny: podyktuj te same trzy zdania wbudowanym mikrofonem, potem słuchawkami lub mikrofonem USB. Jeśli liczba błędnych słów spada, mikrofon był problemem i możesz skończyć czytanie. Większość ludzi zatrzymuje się tutaj — i to jest w porządku.

Hałas w tle i akustyka pomieszczenia

Spokojne, ciche biurko z laptopem, notatnikiem i kwiatami — miejsce pracy o niskim poziomie hałasu

Zmywarka w pokoju obok. Rozmowa telefoniczna współpracownika. Typowy open space, w którym słyszysz, jak ktoś chrupie chipsy z dziesięciu metrów. Model nie odróżni twojego głosu od hałasu — transkrybuje to, co jest najgłośniejsze, a czasem chipsy wygrywają.

Przegląd AI od Google dla tego konkretnego problemu wymienia hałas w tle jako główną przyczynę, obok akcentów i homofonów. Rozwiązanie jest niezbyt ekscytujące: zamknij drzwi, wyłącz wentylator, odsuń się od otwartego okna. Cicha sala robi więcej niż sprytny algorytm.

Weryfikacja: wypróbuj to samo dyktowanie w cichym miejscu i w zwykłym. Jeśli błędy rzedną w ciszy, hałas był winny. Jeśli nie możesz znaleźć cichego pokoju, kierunkowy lub z redukcją szumów mikrofon, który słyszy tylko to, co jest bezpośrednio przed nim, to najlepszy kolejny krok — i wracamy do sprzętu, a na sprzęt właśnie powinny iść pieniądze.

Zły język lub niedopasowany akcent

Drewniane kafle z literami rozsypane na jasnym stole — nawiązanie do słów i wyboru języka

Jeśli dyktowanie jest ustawione na automatyczne wykrywanie i przełączasz się między językami, model traci czas na identyfikację języka zamiast rozpoznawać słowa — a błędne założenie co do języka psuje wszystko, co po nim nastąpi. Ustaw język wprost, kiedy tylko możesz.

W Whisper to: Ustawienia, Transkrypcja, Język. Wybranie konkretnego języka pomija krok wykrywania i pomaga modelowi precyzyjniej rozpoznawać twoje słowa. Zostaw automatyczne wykrywanie tylko wtedy, gdy naprawdę zmieniasz języki w trakcie sesji. Wielojęzyczne modele Whisper obsługują 99 języków z automatycznym wykrywaniem; wersje tylko dla języka angielskiego blokują się na angielskim — co jest dokładnie tym, czego chcesz, jeśli mówisz wyłącznie po angielsku.

Niedopasowanie akcentu to kuzyn tego problemu. Model US-English trenowany głównie na amerykańskich głośnikach potknie się na silnym regionalnym akcencie. Wybranie najbliższego wariantu regionalnego, jaki oferuje twoje narzędzie, i dostarczenie mu czystego sygnału zmniejszają tę lukę.

Napraw to w Windows, Mac i iPhone

Wbudowane dyktowanie każdej platformy ma swoje własne dziwactwa i własny sufit. W Windows, Voice Typing otwierasz klawiszem Windows plus H, ale kursor musi być w polu tekstowym i potrzebujesz połączenia z internetem — wbudowane narzędzie wysyła dźwięk do chmury, żeby go przepisać. Jeśli wpisuje bzdury, najpierw sprawdź połączenie; fora wsparcia Apple dla tego samego problemu z błędnymi słowami stawiają „zweryfikuj połączenie internetowe” na samym szczycie listy. (Jeśli chcesz dokładniejszego przewodnika, zajrzyj do naszego poradnika o tym, co zrobić, gdy dyktowanie głosowe nie działa w Windows.)

Na Macu włączasz Dyktowanie klawiszem mikrofonu w rzędzie funkcyjnym, skrótem Dyktowania lub przez menu Edycja — Rozpocznij dyktowanie. Jedna rzecz warta wyjaśnienia: aktualne macOS Dyktowanie pozwala dyktować tekst dowolnej długości bez limitu czasu — zatrzymuje się dopiero po ok. 30 sekundach ciszy, co ludzie mylą z twardym ograniczeniem. Jeśli błędne słowa nie ustępują, nasz przewodnik po rozwiązywaniu problemów z dyktowaniem na Macu prowadzi krok po kroku. Na iPhone'ie fora Apple wskazują też na wyłączenie tekstu predykcyjnego, który czasem „poprawia” to, co dyktowanie rozpoznało poprawnie.

Twardszy limit: Windows Voice Typing (Win+H) nie daje żadnego sposobu na dodanie własnych słów ani nauczanie słownika. Oddzielna powierzchnia dyktowania w Wordzie pozwala zbudować mały słownik dyktowania, ale narzędzie, po które większość ludzi sięga — Win+H — nie da się nauczyć twojego słownictwa. To prowadzi nas do jedynej naprawy, która naprawdę coś zmienia w problemie z błędnymi nazwami i żargonem.

Naucz go swoich słów: własne słownictwo

Whisper
Prawdziwa aplikacja Whisper — otwórz Ustawienia, Transkrypcja i wpisz swoje nazwy oraz żargon w polu Custom words. Klikaj — to działa na żywo.

To naprawienie, którego wbudowane narzędzia ci nie dadzą. Kiedy uruchamiasz model Whisper w trybie lokalnym Whisper, dostajesz pole Custom words — lista nazw, terminów produktów i żargonu oddzielona przecinkami, których spodziewasz się używać. Wpisujesz „Kubernetes, PostgreSQL, Remskill, Jan Kowalski,” a transkrypcja skłania się do pisania tych słów poprawnie, gdy pojawiają się w mowie. Znajdziesz je w Ustawienia, Transkrypcja, w bezpłatnym lokalnym poziomie — bez karty, bez chmury.

Jedna rzecz warta zapamiętania: Custom words to funkcja modeli Whisper. Parakeet, szybsza opcja lokalna, nie przyjmuje własnych słów ani wskazówek — mówi o tym wprost w opisie. Więc jeśli zależy ci na uczeniu narzędzia swojego słownictwa, wybierz model Whisper, nie Parakeet.

Tego, jak bardzo to ważne, nauczyłem się od mojej młodszej córki. Pokazałem jej dyktowanie raz — naciśnij, mów, puść. Natychmiast napisała 90-słowowy e-mail do babci o wypadniętym zębie i kursie wymiany Wróżki Zębuszki — bez żadnych pytań. Potem wróciła zirytowana, bo aplikacja ciągle przekręcała imię jej najlepszej przyjaciółki. Nie wiedziała, co to luka w słowniku. Wiedziała tylko, że imię wychodzi źle. Dodałem to imię do Custom words — i skargi ustały. Przeciętna osoba nie chce rozumieć, dlaczego dyktowanie pisze imię błędnie. Chce mieć pole, do którego to imię wpisze. To pole jest sednem tego rozdziału.

Drugi suwak, jeśli chcesz: Whisper udostępnia ustawienie Profil — Szybki, Zrównoważony lub Dokładny — które kontroluje, jak uważnie model słucha. Dokładny jest wolniejszy, ale łapie więcej. Wybór większego modelu spośród ośmiu dostępnych w Whisper, od Base (ok. 140 MB) do Large v3 (ok. 3 GB), wymienia szybkość na dokładność. Żaden z nich nie jest „właściwym wyborem” dla wszystkich — to pokrętła, a problem z błędnymi słowami decyduje, które kręcisz. Jeśli nie masz pewności, który załadować, nasz przewodnik po wyborze modelu Whisper wyjaśnia kompromisy.

Przebieg czyszczenia, który naprawia resztę

Thinking...
Opcjonalny przebieg czyszczenia AI Whisper działający na surowym transkrypcie — poprawia gramatykę, interpunkcję i wielkość liter, zanim tekst trafi do kursora.

Nawet gdy audio jest czyste i słownictwo załadowane, kilka resztkowych błędów się prześlizguje. Whisper może uruchomić opcjonalny przebieg czyszczenia AI na surowym transkrypcie, zanim trafi do kursora — poprawia gramatykę, interpunkcję i wielkość liter oraz usuwa wypełniacze takie jak „yyy” i „no wiesz”. Działa na twoim urządzeniu bezpłatnie lub w trybie Cloud z OpenAI, jeśli podasz własny klucz.

To siatka bezpieczeństwa, nie pierwszy krok. Napraw mikrofon, wycisz pokój, ustaw język, naucz aplikację słów — a potem pozwól, żeby przebieg czyszczenia sprzątnął resztę. Próba sprawienia, by korekta tekstu AI kompensowała wbudowany mikrofon dmuchający w wentylator, to rozwiązywanie złego problemu drogim narzędziem. Wiem, bo najpierw wdrożyłem przebieg czyszczenia, a dopiero potem wybór języka — w dokładnie odwrotnej kolejności — i przez miesiąc używałem własnej aplikacji, zastanawiając się dlaczego. Dla fanów precyzyjnej kontroli nasz przewodnik po promptowaniu Whisper wchodzi głębiej w kształtowanie wyników.

Skrót do nagrywania to Ctrl+Space w Windows i Command+Option na Macu — oba można zmienić w Ustawieniach, jeśli kolidują z czymś, czego już używasz.

Gdy wbudowanego narzędzia nie da się naprawić

Czasem odpowiedzią nie jest naprawa — to inne narzędzie lub żadne. Jeśli od czasu do czasu wysyłasz krótką 30-słowową wiadomość, Apple Dictation i Windows Voice Typing są bezpłatne i wbudowane, a gonienie za perfekcyjną dokładnością to przesada. Używaj tego, co masz.

Ale jest prawdziwy sufit. Windows Voice Typing wymaga internetu i nie może nauczyć się twojego słownictwa. Jeśli twój problem z błędnymi słowami polega konkretnie na tym, że narzędzie ciągle kaleczy nazwy, terminy produktów lub techniczny żargon — i nie możesz tych słów nigdzie dodać — wbudowanego narzędzia naprawdę nie da się naprawić dla twojego przypadku użycia. To jest granica, w której narzędzie, którego można uczyć i które działa offline, zasługuje na swoje miejsce. A jeśli głównie transkrybujesz spotkania z wieloma mówcami, a nie dyktujesz własny tekst, to zupełnie inna kategoria narzędzi — transkrypcja spotkań, nie dyktowanie. Nie wciskaj aplikacji do dyktowania w zadanie, do którego nie została zbudowana.

Jakiej dokładności możesz oczekiwać od dyktowania?

Ustal realistyczne oczekiwania. Czyste audio, znany język i załadowane słownictwo doprowadzą cię do punktu, w którym poprawki są wyjątkiem, nie regułą. Publiczne benchmarki Whisper osiągają ok. 3% błędów słownych na czystej mowie czytanej ze średnim modelem angielskim. Prawdziwe życie — twój akcent, twój pokój, twój żargon — daje wyższy wynik. To normalne.

Celem nie jest zero błędów. Celem jest mniej błędów niż pisanie wyprodukowałoby w tym samym czasie — a poprzeczka jest niżej, niż ludzie myślą. Dyktowanie przy 145 słowach na minutę bije pisanie przy 40, nawet gdy zatrzymujesz się, żeby poprawić słowo czy dwa. Jeśli poprawiasz co drugie słowo, coś na powyższej liście nadal jest zepsute. Jeśli poprawiasz co dziesiąte — już wygrałeś.

Jeśli twoje dyktowanie ciągle wpisuje złe słowa, napraw audio, ustaw język i naucz je swoich nazw — potem pozwól mu pisać, a ty zajmij się czymś innym. Moja młodsza córka nadal nazywa to „mówiącym komputerem”. Nie ma pojęcia, że za przyciśnięciem-mówieniem-puszczeniem stoi pole słownictwa, wybór języka i osiem modeli. To jest ta wersja, która naprawdę działa — gdy błędne słowa przestają się pojawiać i przestajesz w ogóle zauważać narzędzie.

Chcesz, żeby twoje nazwy wychodziły poprawnie?

Pobierz Whisper, dodaj pierwsze własne słowo i patrz, jak błędne słowa znikają już w pierwszym zdaniu.

Zdjęcie Denysa Medvedyeva

Denys Medvediev

To ja czytam naszą skrzynkę wsparcia — najprawdopodobniej dyktując odpowiedzi.

Dalsza lektura