Autor: Denys Medvediev

Rozwiązywanie problemów

Dlaczego moje dyktowanie jest tak niedokładne?

Dyktowanie zwykle bywa niedokładne z powodu ustawień, a nie dlatego, że oprogramowanie jest zepsute — winny jest słaby mikrofon, hałaśliwy pokój, zły język albo niewłaściwy model.

Ostatnia aktualizacja: czerwiec 2026

Zbliżenie studyjnego mikrofonu pojemnościowego, wprowadzające do rozważań o tym, dlaczego dyktowanie głosowe się myli

Dyktowanie zwykle bywa niedokładne z powodu ustawień, a nie dlatego, że oprogramowanie jest zepsute. Najczęstsi winowajcy to słaby mikrofon, hałaśliwy pokój, źle ustawiony język i model, który nie pasuje do twojego sprzętu. Czysty dźwięk w cichym pomieszczeniu i właściwy język doprowadzają większość ludzi do około 95% dokładności — mniej więcej jednego błędnego słowa na dwadzieścia.

Kiedyś widziałem, jak ktoś z rodziny rzucił słuchawkami przez cały pokój. Były późne lata 90., komputer to pecet z Windows 98 i 64 MB RAM-u, a programem był Dragon NaturallySpeaking. Trening trwał 45 minut — czytałeś na głos listę słów, żeby go „skalibrować”. Potem to jakoś działało, może z 70% dokładnością i czterosekundowym opóźnieniem na każde zdanie. Piętnaście minut na podyktowanie jednego akapitu świątecznego listu. Słuchawki przeżyły. Eksperyment z dyktowaniem nie.

Wspominam o tym, bo frustracja w twoim pytaniu jest stara, ale jej przyczyna się zmieniła. Nowoczesne dyktowanie nie potrzebuje 45-minutowego rytuału kalibracji. Gdy dziś myli słowa, to prawie nigdy dlatego, że model jest głupi. To dlatego, że dźwięk docierający do modelu jest gorszy, niż ci się wydaje — a zaskakująco dużą część tego da się naprawić w niecałą minutę. Własna dokładność Whispera w trybie lokalnym mieści się między 95% a 99% na czystym angielskim dźwięku — ale ta liczba zakłada kilka rzeczy, które często nie są prawdą.

To diagnostyka, a nie lista gotowych rad. Ustalimy, która z pięciu rzeczy psuje twoją transkrypcję, mniej więcej w kolejności od najczęstszej przyczyny. Jeśli szukasz dogłębnego przewodnika po mikrofonie i słowach własnych, naszym terenem jest poradnik o naprawianiu dyktowania, które wpisuje złe słowa. Ten tekst pomaga najpierw znaleźć przyczynę, żebyś naprawił właściwą rzecz.

Jaka dokładność jest naprawdę realistyczna

Zbliżenie niebieskiego wykresu słupkowego na papierze, obrazujące realistyczne oczekiwania wobec wskaźnika transkrypcji

Oto liczba, której nikt nie umieszcza na swojej stronie marketingowej. Rozpoznawanie mowy mierzy się w wskaźniku błędów słów, czyli WER — to udział słów, które system przekręca, licząc podstawienia, pominięcia i wstawienia względem tego, co naprawdę powiedziałeś. Im niżej, tym lepiej. WER równe zeru to idealna transkrypcja; dokładność słów to po prostu jeden minus WER.

Na czystym angielskim benchmarku LibriSpeech średni angielski model Whispera notuje około 3% WER — mniej więcej 97% dokładności. Mały angielski model osiąga około 5,1% WER, czyli około 95%. To wyniki dla czystego dźwięku: ciche pomieszczenie, dobry mikrofon, uważny lektor. Prawdziwe życie dorzuca hałas, akcenty, nakładające się głosy i żargon, a każdy z tych czynników słusznie podnosi WER.

Co więc jest normalne? Około 95% na przyzwoitym angielskim dźwięku — jedno błędne słowo na dwadzieścia. To nie usterka. To narzędzie działające zgodnie z założeniem. Jeśli siedzisz na 85% w hałaśliwej kuchni z wbudowanym mikrofonem laptopa, oprogramowanie nie jest zepsute — warunki są poniżej tego, czego potrzebuje model. Naprawić trzeba warunki, a nie sięgać po większy model. Ustaw poprzeczkę na „jedna drobna poprawka na akapit”, a większość złości zniknie z tego doświadczenia.

Pięciu podejrzanych, w kolejności prawdopodobieństwa

Lupa na niebieskiej powierzchni, przywołująca poszukiwanie tego, co psuje transkrypcję

Gdy dyktowanie szwankuje, przyczyną prawie zawsze jest jedna z pięciu rzeczy. Przejdź tę listę po kolei. Pierwsze dwie obejmują większość przypadków.

  1. Ustawienie języka. Ty mówisz w jednym języku; narzędzie nasłuchuje innego albo zgaduje.
  2. Mikrofon. Wbudowany mikrofon laptopa o metr od ciebie słyszy bardziej twój pokój niż twoje usta.
  3. Pokój. Hałas tła, telewizor, kuchnia z echem — model transkrybuje to wszystko.
  4. Model. Wybrałeś zbyt ciężki jak na twój sprzęt, więc działa wolno albo się dławi.
  5. Oczekiwania. Dźwięk jest w porządku i narzędzie jest w porządku; mierzysz względem 100%, czego nic nie osiąga.

Autotest na 60 sekund: podyktuj te same dwa zdania trzy razy — raz w cichym pokoju blisko mikrofonu, raz z drugiego końca pokoju, raz przy włączonej muzyce. Jeśli dokładność mocno skacze między tymi próbami, twoim problemem jest dźwięk (podejrzani 2 i 3) i żadna zmiana oprogramowania nie przebije przysunięcia mikrofonu bliżej i zamknięcia drzwi. Jeśli jest źle nawet przy cichej, bliskiej próbie, sprawdź ustawienie języka i model. Ten jeden test rozstrzyga sprawę dla większości ludzi w minutę.

Przyczyna 1: złe ustawienie języka

Dwa globusy na szarym tle, symbolizujące wybór właściwego języka i akcentu

To dziesięciosekundowa naprawa, której nikt nie sprawdza jako pierwszej. Jeśli wiesz, w jakim języku mówisz, wybierz go wprost w ustawieniach, zamiast zostawiać narzędzie na autowykrywaniu. Gdy ustawisz konkretny język, narzędzie przestaje zgadywać, jaki język słyszy, i cały wysiłek wkłada w trafianie w słowa — zauważalnie szybciej i pewniej.

Pułapki niedopasowania są prawdziwe. Wielojęzyczne modele Whispera obejmują 99 języków z autowykrywaniem, ale modele wyłącznie angielskie są zablokowane na angielskim — podaj im inny język, a dostaniesz bełkot. Lokalny Parakeet obsługuje angielski plus 24 języki europejskie i nic poza tym zestawem, więc dyktowanie do niego po japońsku nigdy nie zadziała, choćbyś miał najczystszy mikrofon. A jeśli naprawdę przeskakujesz między językami w połowie zdania, potrzebujesz wielojęzycznego modelu Whisper z autowykrywaniem, a nie modelu wyłącznie angielskiego. Dopasuj ustawienie do słów wychodzących z twoich ust, a kawał „niedokładności” zniknie, zanim cokolwiek innego ruszysz.

Przyczyna 2: twój mikrofon szkodzi bardziej niż akcent

Mikrofon pojemnościowy z filtrem pop w studiu, ilustrujący sprzęt kształtujący jakość dźwięku

Ludzie obwiniają swój akcent. To prawie zawsze mikrofon. Przez lata obwiniałem swój — okazało się, że mój głos był w porządku, a problemem był darmowy mikrofon laptopa. Oto opinia, której będę bronić: „AI” nie naprawia kiepskiego dźwięku. Mikrofon USB za 20 dolarów robi dla dokładności więcej niż jakikolwiek upgrade modelu — mikrofon i ciche pomieszczenie to dwie największe dźwignie dokładności, ważniejsze niż to, który model wybierzesz. Wydaj pieniądze na sprzęt, zanim wydasz je na większy plik do pobrania.

Mechanizm jest nudny i fizyczny. Wbudowany mikrofon laptopa siedzi co najmniej trzydzieści centymetrów od twoich ust i wyłapuje biurko, wentylator i pokój. Mikrofon na pałąku zestawu słuchawkowego albo mikrofon USB piętnaście centymetrów od ust słyszy twój głos i niewiele więcej. Narzędzie potrafi przepisać tylko to, co do niego dociera, a rozmazany, odległy, zaszumiony sygnał daje mu mniej materiału do pracy — więc zgaduje, a zgadywanie to właśnie sposób, w jaki dostajesz złe słowa. Nie będę tu na nowo wykładać całego podręcznika mikrofonu i słownictwa; nasza dogłębna analiza dyktowania wpisującego złe słowa szczegółowo omawia ustawienie mikrofonu, czułość wejścia i słownik własny. W tym artykule chodzi o coś węższego: jeśli twój trzykrotny test pokazał załamanie dokładności na odległość, podejrzanym jest mikrofon, a nie twój głos.

Przyczyna 3: pokój, a nie słowa

Mikrofon z filtrem pop w wytłumionym studiu muzycznym, ciche otoczenie do czystego nagrywania

Mikrofon nie potrafi „odsłyszeć” pokoju. Jeśli gra telewizor, chodzi zmywarka, za tobą jest open space albo dwa metry dalej dzieciaki kłócą się o zasady planszówki, model przepisuje tę energię razem z twoim głosem. Nie wie, który dźwięk jest tym, o który ci chodziło.

Naprawa jest żenująco mało technologiczna: zamknij drzwi, wyłącz muzykę, odsuń się od wentylatora. Pomagają miękkie powierzchnie — pokój z dywanem i zasłonami jest dla mikrofonu łaskawszy niż wykafelkowana kuchnia z gołymi ścianami, gdzie twój głos się odbija i dociera dwa razy. Nie potrzebujesz pianki akustycznej. Potrzebujesz, żeby zmywarka skończyła cykl. Dyktowałem szkolne e-maile, szykując kanapki do lunchu, i model nadążał — ale to dlatego, że kuchnia była cicha, a nie dlatego, że oprogramowanie jest magiczne. W chwili, gdy rusza blender, dokładność spada, i to nie jest błąd do zgłoszenia.

Przyczyna 4: model nie pasuje do twojego sprzętu

Whisper
Prawdziwa aplikacja Whisper — pokazuje trzy ścieżki i pozwala wybrać model pasujący do twojego komputera. Poklikaj po Ustawieniach; to działa na żywo.

To ta rzecz, którą konkurenci traktują jak czarną skrzynkę, a ona ma znaczenie. Większe nie zawsze znaczy lepsze. Wybierz model zbyt ciężki dla twojej maszyny, a będzie działał wolno, zostawał w tyle, i doświadczenie wyda się zepsute, nawet gdy dokładność na papierze jest w porządku.

Whisper by Remskill nie wybiera modelu za ciebie. Pokazuje trzy ścieżki i pozwala wybrać: tryb chmurowy z użyciem twojego własnego klucza OpenAI, lokalny Parakeet albo lokalny Whisper. Tryb chmurowy działa na dowolnym sprzęcie, bo to po prostu wywołanie sieciowe. Lokalnie cała matematyka kręci się wokół RAM-u. Na maszynie z 8 GB Parakeet (~600 MB), model Base albo model Small działają wygodnie, a model Medium będzie się męczył. Największe modele Whispera — Large v3 przy ~3 GB albo Turbo — chcą 16 GB lub więcej i najbardziej korzystają z dedykowanego GPU. Najdokładniejszą opcją wielojęzyczną jest Large v3, który obsługuje 99 języków, ale potrzebuje tego zapasu 16 GB.

Sposób działania przez naciśnij-i-mów jest taki sam przy każdej ścieżce — przytrzymaj skrót, mów, puść, a tekst wkleja się w miejscu kursora. Domyślny skrót to Ctrl+Space w Windows i kombinacja Command+Option w macOS, oba zmienialne w Ustawieniach. Nie wiesz, który model pasuje do twojego laptopa? Nasz poradnik o wyborze właściwego modelu Whisper przyporządkowuje każdy z nich do sprzętu, jakiego wymaga. Zasada kciuka: model, który się mieści i działa szybko, bije większy, który się zacina.

Kiedy to naprawdę narzędzie jest problemem, a kiedy to po prostu fizyka

Czasem zrobiłeś wszystko jak należy — bliski mikrofon, cichy pokój, właściwy język, sensowny model — a i tak myli się jedno słowo na piętnaście. To może być prawdziwy sufit. Mocne akcenty, których model widział mało, gęsty żargon techniczny, dwie osoby mówiące jedna przez drugą, głośnik telefonu po drugiej stronie — to wszystko słusznie podnosi WER i żadne ustawienie tego w pełni nie naprawi. Dla nazwisk i żargonu branżowego lokalny Whisper i tryb chmurowy pozwalają dodać listę Słów własnych, która nakłania rozpoznawanie ku właściwej pisowni; Parakeet takich podpowiedzi nie przyjmuje. Ale „uczy się mojego głosu, im więcej go używam” to mit z epoki Dragona — nowoczesna zamiana mowy na tekst nie dostosowuje się z czasem do twojego indywidualnego głosu i żadna ilość powtórzeń go nie wytrenuje. Dźwignią jest dźwięk i ustawienia, a nie cierpliwość.

Kiedy odpuścić sobie do tego Whispera

Jeśli wszystko, co robisz, to wystrzelenie dwudziestowyrazowego SMS-a albo szybkiej notatki, nic nie pobieraj. Twój system operacyjny już dyktuje. Na Macu Apple Dictation jest wbudowane i darmowe — naciśnij klawisz Mikrofonu albo skrót klawiaturowy, a na wspieranych konfiguracjach przetwarza dane na urządzeniu. Zatrzymuje się samo po 30 sekundach ciszy, więc nadaje się raczej do krótkich zrywów niż do dłuższego pisania. W Wordzie Dictate od Microsoftu robi to samo, korzystając z mikrofonu i połączenia z internetem.

Po dedykowane narzędzie sięgnij wtedy, gdy dyktujesz całe akapity, chcesz, by działało offline, albo potrzebujesz dokładności na nazwiskach i żargonie, na których wbudowane narzędzia się gubią — nasze zestawienie alternatyw dla Apple Dictation omawia dostępne opcje. Do jednolinijkowej odpowiedzi darmowe wbudowane narzędzie jest właściwym wyborem.

Najczęściej odpowiedzią na pytanie „dlaczego moje dyktowanie jest tak niedokładne” nie jest wyznanie na temat twojego głosu. To trzydzieści centymetrów odległości do mikrofonu i zmywarka, o której zapomniałeś, że chodzi. Napraw dźwięk, ustaw właściwy język, wybierz model, który twój laptop udźwignie, a potem oceniaj go względem 95%, a nie 100%. Krewny ze słuchawkami od Dragona walczył z 1999 rokiem. Ty nie. Ty walczysz głównie ze swoją kuchnią.

Chcesz dowiedzieć się w minutę?

Pobierz Whispera i przeprowadź trzykrotny test — w minutę będziesz wiedzieć, czy to narzędzie, pokój, czy po prostu fizyka.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam naszego maila wsparcia, najpewniej dyktując odpowiedzi.