Wyjaśnienie
Na ile dokładny jest Whisper, tak naprawdę
Whisper jest bardzo dokładny przy czystym angielskim nagraniu i radzi sobie dobrze w większości popularnych języków, ale nie jest niezawodny. Największy wpływ na Twoją dokładność ma mikrofon i cichy pokój — nie wybrany model. Przepustka AI poprawia interpunkcję i wypełniacze po transkrypcji.
Ostatnia aktualizacja: czerwiec 2026

Whisper jest wystarczająco dokładny do codziennego dyktowania i profesjonalnych notatek — model medium osiąga około 3% wskaźnika błędów słownych na czystym angielskim. Dokładność spada przy akcentach, szumach w tle, żargonie i nakładających się głosach. Największą poprawę, jaką może zrobić większość ludzi, daje lepszy mikrofon i cichy pokój — nie większy model.
"Na ile dokładny jest Whisper" to jedno z tych pytań, które mają zarówno szczerą, jak i marketingową odpowiedź — i nie są one tym samym. Odpowiedź marketingowa brzmi: "niesamowicie dokładny, najnowocześniejszy." Szczera odpowiedź: "bardzo dobry przy czystym nagraniu, wyraźnie gorszy przy słabym, a różnica między nimi to głównie Twój mikrofon." Sam widziałem, jak ten sam model perfekcyjnie transkrybuje zdanie przez mikrofon USB za $20, by chwilę potem całkowicie pogubić się na mikrofonie laptopa w hałaśliwej kuchni.
To nie jest więc artykuł o rankingach benchmarków. To odpowiedź, której udzieliłbym znajomemu pytającemu, czy może ufać dyktowaniu głosowemu w prawdziwej pracy. Krótko: tak, ale z zastrzeżeniami, które możesz kontrolować. Dłuższa wersja poniżej — z jedną liczbą, która naprawdę ma znaczenie, i trzema rzeczami, które po cichu niszczą dokładność, niezależnie od jakości modelu.
Oto co większość stron o "dokładności Whisper" pomija. Dokładność to nie jedna liczba. To liczba, która zmienia się w zależności od rozmiaru modelu, języka, którym mówisz, i — bardziej niż jedno i drugie — jakości wchodzącego sygnału audio. Mały model na czystym nagraniu pobije duży model na stłumionym za każdym razem.
Badacze mierzą to wskaźnikiem błędów słownych, zwykle oznaczanym WER. To procent słów, które system rozpoznaje błędnie. Opublikowany WER Whisper dla czystego angielskiego jest niski. Twój WER we wtorkowe popołudnie przy pracującej zmywarce to już zupełnie inna historia. Wyjaśnię, co ta liczba oznacza, co Whisper faktycznie osiąga, co go obniża i jakiego taniego, nudnego remedium warto szukać zamiast nowego modelu.
Co "dokładność" tak naprawdę oznacza: wskaźnik błędów słownych

Kiedy ludzie mówią, że system transkrypcji jest "95% dokładny", prawie zawsze mają na myśli wskaźnik błędów słownych, czyli WER. To najprostszy uczciwy pomiar jaki istnieje: bierzesz znany tekst, każesz systemowi go przepisać, a następnie liczysz błędnie rozpoznane słowa. WER 5% oznacza, że na każde 100 słów 5 wyszło źle — jako zamiana, pominięcie lub wstawione słowo, które nie zostało powiedziane. Im niższy, tym lepiej. Zero byłoby ideałem, a żaden prawdziwy system go nie osiąga.
Ten ostatni punkt jest ważny, więc powiem wprost. Żaden silnik rozpoznawania mowy nie jest doskonały, a każdy produkt, który twierdzi inaczej, zaokrągla liczby na potrzeby prezentacji. Ludzie też nie transkrybują bezbłędnie — profesjonalni transkrypcjoniści osiągają około 4% WER na czystym nagraniu, a gorzej na trudnych. Kiedy więc czytasz, że Whisper osiąga "3% WER", oznacza to mniej więcej poziom ludzki na takim rodzaju nagrania — nie magię. To narzędzie, które działa prawidłowo przez większość czasu i popełnia błędy przez część czasu, jak każde inne narzędzie.
Jeszcze jedna subtelność warta trzydziestu sekund. WER liczy każde słowo jednakowo, co nie odpowiada temu, jak faktycznie odczuwasz błędy. Pomylenie przez Whisper "tam" z "ten" to błąd jednego słowa, który ledwo rzuca się w oczy. Pomylenie nazwiska klienta lub dawki leku to błąd jednego słowa, który psuje całe zdanie. Nagłówkowa liczba mówi Ci o ogólnej skali; nie mówi, czy to jedno ważne słowo przetrwało. Dlatego końcowe przejrzenie tekstu nigdy nie wychodzi z mody, niezależnie od tego, jak niski jest WER.
Jak dokładny jest Whisper w praktyce
Na czystym, odczytywanym angielskim Whisper radzi sobie naprawdę dobrze. Publicznie udokumentowane benchmarki plasują model medium na około 3% WER na standardowym zestawie testowym czystej mowy, a mniejszy model na około 5%. W prostych słowach: przy przyzwoitym nagraniu kogoś mówiącego wyraźnie możesz oczekiwać jednego lub dwóch błędnych słów na kilka zdań — zwykle homofonu lub zbędnego przecinka, nie zepsutego sensu. Do dyktowania e-maili, notatek i szkiców to z dużą nadwyżką przekracza próg, przy którym oszczędza czas zamiast go kosztować.
Mechanizm działania aplikacji jest ten sam, niezależnie od tego, jak dokładny okaże się wynik. Naciskasz skrót klawiszowy, mówisz, puszczasz, a transkrypcja wkleja się w miejscu kursora w dowolnej aplikacji, która ma fokus. Gdy mówisz, pojawia się mała kapsułka, żebyś wiedział, że aplikacja słucha. To, co widzisz w tej kapsułce, to bieżące nagranie — kwestia dokładności rozstrzyga się w pół sekundy po zwolnieniu klawisza, gdy model zamienia dźwięk na tekst.
Uczciwe zastrzeżenie stoi tuż obok dobrego wyniku. Te wartości benchmarkowe to czysta mowa odczytywana w laboratorium. Twoja kuchnia, Twój akcent, Twój nawyk urywania zdań w połowie — nic z tego nie ma w zestawie testowym. Benchmark mówi Ci o suficie. Reszta tego przewodnika dotyczy tego, jak blisko tego sufitu faktycznie jesteś, i czynników, które o tym decydują. Uwaga: ten największy to nie model.
Co faktycznie przesuwa wynik w górę lub w dół
Trzy czynniki kształtują Twoją rzeczywistą dokładność znacznie bardziej niż etykieta modelu: audio, język i same słowa. Jakość dźwięku jest na pierwszym miejscu z dużym marginesem. Wbudowany mikrofon laptopa wychwytujący echo pokoju, wentylator i dziecko pytające, dlaczego księżyca czasem nie widać, postawi przed każdym modelem trudniejsze zadanie niż mikrofon podcasterski w cichym pokoju. Ten sam model, to samo zdanie, może przejść od niemal idealnego do wyraźnie błędnego wyłącznie przez różnicę w nagraniu. To dźwignia, którą prawie nikt nie rusza, a która przynosi największy zwrot.
Język jest drugą dźwignią. Wielojęzyczne wersje Whisper obsługują 99 języków, ale ta obsługa nie jest równa. Angielski jest wspierany najlepiej, główne języki europejskie i azjatyckie są mocne, a języki nisko-zasobowe — z mniejszą ilością danych treningowych w internecie — są słabsze i bardziej podatne na błędy. Tłumaczenie na angielski to funkcja wyłącznie wielojęzycznego Whisper; wersje tylko po angielsku tego nie robią, podobnie jak Parakeet z 25 językami. Tak więc "obsługuje 99 języków" jest prawdą, ale nie oznacza, że wszystkie 99 są równie dokładne. Przetestuj swój konkretny język na własnym nagraniu, zanim mu zaufasz w czymś ważnym.
Trzecia dźwignia to treść. Akcenty zmieniają wynik — Whisper radzi sobie z szerokim zakresem bez żadnego etapu "trenowania", ale mocny akcent w połączeniu z żargonem technicznym to najgorszy przypadek dla każdego silnika. Słownictwo dziedzinowe też stwarza problemy: nietypowe nazwy produktów, terminy medyczne lub prawnicze, nazwiska, których model nigdy nie widział. A nakładające się głosy to prawdziwa twarda ściana — Whisper jest zbudowany dla jednego głosu naraz, więc dwie osoby mówiące jednocześnie dadzą bałagan. W lokalnym Whisper możesz walczyć z tym za pomocą niestandardowego słownictwa i ustawiania słów kluczowych, nakierowując model na nazwy i terminy, których faktycznie używasz. Parakeet nie oferuje słów kluczowych i to jest uczciwy powód, by wybrać Whisper, jeśli Twoja praca jest pełna rzeczowników własnych.
Większy model, lepsza dokładność, mniejsza szybkość
Istnieje prawdziwy kompromis między dokładnością a szybkością, a aplikacja pokazuje go zamiast ukrywać. Ogólna zasada: im większy model Whisper, tym bardziej dokładny i tym wolniej działa. Model Small tylko po angielsku waży około 480 MB i jest szybki; Medium to około 1,5 GB i jest dokładniejszy; wielojęzyczny Large v3 to około 3 GB i najlepsza dostępna dokładność, ale wymaga 16 GB RAM i nowoczesnego sprzętu, żeby działać sprawnie. Wybieraj największy model, który Twój sprzęt obsługuje wygodnie, nie największy, który istnieje.
Ciekawym wyjątkiem jest Turbo. Wariant Turbo Whisper (distil-large-v3) jest udokumentowany jako około 6 razy szybszy niż Large v3, zachowując przy tym około 99% jego dokładności. To sweet spot, na którym ląduje wiele osób: prawie jakość największego modelu bez czekania. Waży około 1,5 GB. Jeśli chcesz wysokiej dokładności bez gapienia się w kółko ładowania, Turbo to pragmatyczny środek.
Oto fragment, który zmienia sposób patrzenia na cały kompromis. Różnica w dokładności między małym modelem a największym jest realna, ale mniejsza, niż można by przypuszczać — kilka punktów procentowych WER na czystym nagraniu. Różnica w dokładności między mikrofonem laptopa a przyzwoitym mikrofonem USB na tym samym modelu jest większa. Zanim więc pobierzesz 3 GB, goniąc za ostatnim ułamkiem dokładności, podłącz lepszy mikrofon i nagraj w cichym miejscu. Nudna prawda jest taka, że większość skarg "model się pomylił" to w rzeczywistości "pokój się pomylił".
Lokalne czy chmura: gdzie mieszka najlepsza dokładność
Aplikacja nie wybiera za Ciebie ścieżki. Prezentuje trzy i pozwala wybrać w zależności od tego, czego szukasz — szybkości, zasięgu językowego lub dokładności na najwyższym poziomie. Jeśli chodzi konkretnie o dokładność, oto jak się ustawiają, bo różnica jest realna i warto ją zrozumieć, zanim powierzysz im nagranie.
Trzy ścieżki, uszeregowane według faktycznej dokładności:
- Lokalny Parakeet — Silnik TDT od NVIDIA, około 600 MB, najszybsza lokalna opcja — 5 do 10 razy szybsza niż Whisper na procesorze. Dokładność jest dobra — nie tak dobra jak Large-v3, ale więcej niż wystarczająca do codziennego dyktowania po angielsku. Obsługuje angielski plus 24 języki europejskie, 25 łącznie. Brak tłumaczenia na angielski, brak słów kluczowych. Wybierz go, gdy liczy się szybkość i mówisz głównie po angielsku.
- Lokalny Whisper — wolniejszy niż Parakeet na tym samym sprzęcie, ale wielojęzyczne wersje obsługują 99 języków, tłumaczą na angielski i pozwalają dostosować słownictwo i słowa kluczowe — czyli kontrole dokładności ważne dla rzeczowników własnych i żargonu. Największa wersja (Large v3) to najdokładniejsza lokalna opcja. Wybierz ją do pracy wielojęzycznej, tłumaczeń lub precyzyjnej kontroli.
- Chmura (OpenAI, BYOK) — najlepsza dokładność i dostęp do sieci przy użyciu własnego klucza OpenAI, rozliczana bezpośrednio przez OpenAI. Transkrypcja domyślnie korzysta z gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, przy której Twoje audio opuszcza Twój komputer. Tryb chmury jest częścią Whisper Pro.
Uczciwy ranking pod względem surowej dokładności wygląda mniej więcej tak: chmura na szczycie, lokalny Large v3 jako bliski drugi, Parakeet zdolny trzeci dla angielskiego. Ale "najlepsza dokładność" wygra tylko wtedy, gdy Twoje audio jest wystarczająco czyste, by na to zasłużyć. Przesłanie do chmury stłumionego nagrania z drugiego końca pokoju nie pobije lokalnego Whisper na czystym nagraniu. W przypadku większości dyktowania oba lokalne silniki działają w pełni na Twoim komputerze, nic nie wysyłając na serwer, i to jest w zupełności wystarczające. Sięgaj po chmurę, gdy masz naprawdę trudne nagranie lub potrzebujesz faktu z sieci w trakcie zdania.
Cztery sposoby na poprawę własnej dokładności
Sufit Whisper wyznacza model. Twoją podłogę wyznacza wszystko wokół niego, a podłoga to miejsce, gdzie większość ludzi traci dokładność. Dobra wiadomość jest taka, że naprawy są tanie i zajmują kilka minut. Oto cztery, które mają znaczenie, w kolejności od najbardziej pomocnych.
Krok 1 — Najpierw napraw mikrofon.
Mikrofon USB za $20 zrobi więcej dla dokładności niż jakikolwiek upgrade modelu. Umieść go blisko, pod kątem do ust, żeby nie łapał wybuchów powietrza, i z dala od wentylatora laptopa. To zmiana o najwyższym zwrocie, jaką możesz zrobić.
Będziesz wiedział, że zadziałało, gdy to samo zdanie, które wychodziło bełkotliwie przez mikrofon laptopa, wyjdzie czysto.
Krok 2 — Wycisz pokój.
Zamknij drzwi, wstrzymaj muzykę, poczekaj na koniec cyklu zmywarki. Szum tła i echo to właśnie to, czym jest większość momentów "model się myli". Cichy pokój nic nie kosztuje.
Będziesz wiedział, że zadziałało, gdy wypełniacze i niepełne frazy przestaną się pojawiać w transkrypcji.
Krok 3 — Dopasuj model do zadania.
Wybierz największy model, który Twój komputer obsługuje wygodnie, lub Turbo dla bliskiej topowej dokładności przy dużej szybkości. Dla nazw i żargonu w lokalnym Whisper dodaj niestandardowe słownictwo i słowa kluczowe, żeby model skłaniał się ku Twoim terminom.
Będziesz wiedział, że zadziałało, gdy model skończy pobieranie, pokaże się jako gotowy, a Twoje rzeczowniki własne zaczną wychodzić poprawnie.
Krok 4 — Pozwól przepustce AI to posprzątać.
Surowe dyktowanie to jeden długi ciąg z wypełniaczami. Whisper może uruchomić przepustkę AI, która poprawia interpunkcję, usuwa "yyy" i porządkuje zdanie przed wklejeniem. Wypowiedz frazę aktywacyjną "Hey whisper", żeby ją uruchomić.
Będziesz wiedział, że zadziałało, gdy wklejony tekst będzie czytać się jak zredagowana proza, a nie transkrypt.
Ten ostatni krok warto zobaczyć, bo zmienia to, co "dokładność" w ogóle oznacza dla Twojego wyniku. Transkrypcja może być słowo w słowo idealna i nadal czytać się jak jeden ciągły ciąg, bo tak właśnie ludzie mówią. Przepustka czyszcząca naprawia czytelność, której WER nigdy nie mierzy. Na lokalnym modelu działa przez Ollama; w trybie chmury domyślnie używa gpt-5-mini. Oto to samo zdanie przed i po przepustce:
yyy więc dokładność zależy głównie od mikrofonu nie od modelu i no cichy pokój pomaga bardziej niż ludzie myślą
Dokładność zależy głównie od mikrofonu, nie od modelu — a cichy pokój pomaga bardziej, niż ludzie myślą.
Zauważ, że czyszczenie nie zmieniło ani jednego słowa z sensem; dodało interpunkcję i usunęło wypełniacze, które niósł surowy transkrypt. To właśnie ta część, którą ludzie mylą z dokładnością — a nie powinni. Zadanie modelu to poprawne rozpoznanie słów. Zadanie przepustki AI to sprawienie, by poprawne słowa dobrze się czytały. Napraw mikrofon i pokój, a oba zadania stają się łatwiejsze. Jeśli chcesz przepływu mów-następnie-czyść w dowolnej aplikacji, ten sam skrót klawiszowy pozwoli Ci dyktować czystą prozę w dowolnej aplikacji, nie tylko w jednej.
Uczciwy werdykt w sprawie dokładności Whisper

No to prosta odpowiedź. Whisper jest wystarczająco dokładny, by mu ufać w prawdziwej pracy — e-maile, notatki, szkice, podsumowania spotkań — na czystym nagraniu w dobrze obsługiwanym języku. Nie jest doskonały i nigdy tego nie twierdzi. Akcenty, szum tła, ciężki żargon i nakładające się głosy — wszystko to obniża wynik, a żadna etykieta modelu w pełni nie ocali złego nagrania. Jeśli przyszedłeś tu z nadzieją na "100% dokładności", uczciwa odpowiedź jest taka, że nic takiego nie istnieje, a kto to sprzedaje, sprzedaje prezentację.
Kiedy nie warto gonić za dokładnością na poziomie Whisper? Jeśli dyktuje się tylko od czasu do czasu tekst liczący 30 słów, Twój system operacyjny już to robi za darmo. Na Windows naciśnij klawisz Windows + H, żeby otworzyć Pisanie głosowe wszędzie tam, gdzie jest kursor — sam dodaje interpunkcję, choć przesyła sygnał przez serwery Microsoftu i potrzebuje internetu, więc nie działa offline. Na Macu Dyktowanie w Ustawieniach systemowych wpisuje w każde pole, a na Apple Silicon ogólny tekst może być przetwarzany na urządzeniu. Przy krótkich wiadomościach te opcje są wystarczające i nie zamierzam nakłaniać Cię do instalowania czegokolwiek dla jednolinijkowego przypomnienia. Dedykowane narzędzie zyskuje rację bytu przy dłuższych notatkach, pracy wielojęzycznej, prywatności offline i kontrolach dokładności — słowach kluczowych, wyborze modelu, przepustce czyszczącej — których wbudowane aplikacje nie oferują.
Jeśli porównujesz lokalne silniki między sobą, wybór między dokładnością a szybkością to cała decyzja — i jest ona przedstawiona prosto w którym modelu Whisper użyć i w szczegółowym omówieniu modelu Parakeet. Dla większości ludzi odpowiedź jest mało spektakularna: model średniego rozmiaru, przyzwoity mikrofon, cichy pokój i przepustka czyszcząca. Ta kombinacja przybliża Cię do benchmarku na nagraniach, które faktycznie rejestrujesz.
Jeśli dokładność niepokoi Cię dlatego, że chcesz całkowicie zrezygnować z chmury, kompromisy związane z rozpoznawaniem mowy offline wyjaśniają, jak lokalne modele sprawdzają się bez sieci.
Na początku spędziłem tydzień w przekonaniu, że upgrade modelu naprawi moje transkrypcje, pobrałem 3 GB i odzyskałem może punkt WER. Potem kupiłem mikrofon USB za $20 i zmieniłem miejsce pracy ze stołu w kuchni — i transkrypcje były wyraźnie czystsze tego samego popołudnia. Model nigdy nie był problemem. Pokój był. Whisper jest bardzo dokładny; to, czy to widzisz, zależy od tego, czym go karmisz.
Przekonaj się sam na własnym głosie
Pobierz Whisper, podłącz przyzwoity mikrofon i podyktuj akapit. Dokładność jest o wiele łatwiejsza do oceny na własnym nagraniu niż na cudzym benchmarku.
Tryb lokalny bezpłatny dla każdego zalogowanego konta. Karta nie jest wymagana na start.



