Wyjaśnienie
Którego modelu Whisper powinienem użyć
Nie ma jednego właściwego modelu Whisper — odpowiedni zależy od tego, czy najbardziej zależy ci na szybkości, dokładności, języku czy miejscu na dysku. Ten przewodnik przypisuje każdy dostępny model do konkretnego zastosowania, żebyś mógł wybrać w jakąś minutę, i mówi, kiedy zamiast Whisper lepiej sięgnąć po Parakeet.
Ostatnia aktualizacja: czerwiec 2026

Najlepszy model Whisper zależy od zadania: wybierz mały model angielski do codziennego dyktowania po angielsku, model wielojęzyczny do innych języków, duży model dla najwyższej dokładności albo Turbo dla szybkości zbliżonej do jakości dużego modelu. Do głównie angielskiego i szybkości Parakeet bije Whisper. Aplikacja pokazuje wszystkie i pozwala użytkownikowi wybrać.
To pytanie dostaję częściej niż jakiekolwiek inne, zwykle w formie „pobrałem aplikację, no to który model wybrać”. To uczciwe pytanie, a szczera pierwsza odpowiedź brzmi: nie ma jednego modelu, który wygrywa zawsze. Jest model, który wygrywa dla twojego komputera, twojego języka i tego, jak bardzo przeszkadza ci czekanie pół sekundy dłużej. Dlatego aplikacja nie wybiera za ciebie. Pokazuje opcje i schodzi z drogi.
Brzmi to jak wymówka, dopóki nie zobaczysz rozpiętości. Najmniejszy model angielski waży około 140 MB i działa na laptopie z 2016 roku. Najlepszy wielojęzyczny waży około 3 GB i chce 16 GB RAM-u. Pomiędzy tymi dwoma mieści się sześć innych opcji plus osobny silnik o nazwie Parakeet. Wybierzesz źle i albo czekasz za długo, albo transkrybujesz w niewłaściwym języku. Wybierzesz dobrze i zapominasz, że model w ogóle istnieje, a o to właśnie chodzi.
Oto sposób patrzenia, dzięki któremu cała lista nabiera sensu. Każdy model to kompromis między czterema rzeczami: szybkością, dokładnością, liczbą obsługiwanych języków oraz ilością zajmowanego miejsca na dysku i RAM-u. Nie da się zmaksymalizować wszystkich czterech naraz. Model 3 GB jest dokładniejszy i zna więcej języków, ale jest wolniejszy i nie zmieści się na komputerze z 8 GB pamięci. Model 140 MB jest błyskawiczny, ale obsługuje tylko angielski i tylko do pewnego stopnia.
Prawdziwe pytanie nie brzmi więc „który model jest najlepszy”. Brzmi „na jaki kompromis się decyduję”. Gdy już wiesz, czy jesteś osobą dyktującą wyłącznie po angielsku na skromnym laptopie, tłumaczem pracującym w dziewięciu językach, czy kimś, kto po prostu chce najszybszej lokalnej opcji, jaka istnieje, wybór nasuwa się sam. Przejdę przez modele wyłącznie angielskie, wielojęzyczne, miejsca, w których Parakeet bije je wszystkie, oraz jednozdaniową rekomendację, jeśli nie chcesz czytać reszty.
Zacznij od jednego pytania: na czym zależy ci najbardziej?

Zanim padnie jakakolwiek nazwa modelu, odpowiedz na jedno pytanie: co jest dla ciebie teraz najważniejsze — szybkość, dokładność, zakres języków czy miejsce na dysku? Możesz wskazać tylko jeden priorytet, bo modele konkurują ze sobą w tych obszarach. Większość osób, które się nad tym męczą, nie zdecydowała jeszcze, co chce zoptymalizować — i właśnie dlatego lista wydaje się paraliżująca. Wcale nie jest. To cztery krótkie odpowiedzi pod ośmioma nazwami.
Jeśli zależy ci na szybkości i mówisz po angielsku, wylądujesz na małym modelu angielskim albo, co bardziej prawdopodobne, na Parakeet. Jeśli potrzebujesz języka innego niż angielski, jesteś w rodzinie wielojęzycznej, czy ci się to podoba, czy nie. Jeśli chcesz najdokładniejszej transkrypcji, jaką da się uzyskać lokalnie, i masz na to RAM, to wybierasz duży model. A jeśli miejsca na dysku jest mało, najmniejszy model jest twoim przyjacielem, a ten 3 GB odpada. To całe drzewo decyzyjne, a reszta przewodnika tylko wypełnia je nazwami.
Jedną rzecz aplikacja robi celowo: nigdy nie narzuca ci wartości domyślnej. Nie ma odznaki „rekomendowany” popychającej cię ku modelowi, który akurat dobrze wypada w naszym benchmarku. Widzisz Cloud, widzisz Parakeet, widzisz osiem modeli Whisper podzielonych na wyłącznie angielskie i wielojęzyczne — i wybierasz. Jeśli konfigurowałeś już zamianę głosu na tekst w systemie Windows lub na Macu, to ten sam ekran skierowany na inne pytanie.
Modele wyłącznie angielskie — od starego laptopa po najwyższą dokładność
Jeśli dyktujesz wyłącznie po angielsku, modele wyłącznie angielskie są najwydajniejszym wyborem — porzucają maszynerię wielojęzyczną i przeznaczają cały budżet na angielski. Są cztery i układają się równo od „starego laptopa” po „najlepszy angielski, jaki da się uruchomić lokalnie”. Naciskasz skrót, mówisz, puszczasz — i transkrypcja wkleja się przy kursorze niezależnie od tego, który wybrałeś; jedyna różnica to szybkość i to, jak często model trafi trudne słowo. Mała kapsułka pojawia się, gdy mówisz, żebyś wiedział, że słucha:
Najmniejszy to Base, około 140 MB. To ten do wyboru na laptopie z 2016 roku albo na komputerze z 8 GB, gdzie chcesz dyktowania, które po prostu działa, bez myślenia o RAM-ie. Wyżej stoi Small, około 480 MB — zrównoważona opcja angielska. Wolniejsza niż Parakeet, ale obsługuje tłumaczenie na angielski i ukierunkowanie na słowa kluczowe, czego Parakeet nie potrafi. Dalej Medium, około 1,5 GB, który chce 16 GB RAM-u i daje najwyższą dokładność czystego angielskiego w tej rodzinie. (W publicznym benchmarku średni model angielski osiąga około 3% współczynnika błędu słów na czystym dźwięku; Small jest bliżej 5%. Rzeczywiste liczby zależą znacznie bardziej od twojego mikrofonu niż od tego, który z nich wybierzesz.)
Czwarty bywa mylący, więc powiem o nim wprost. Turbo, czyli model distil-large-v3, też waży około 1,5 GB i jest opisywany jako 6× szybszy od dużego modelu przy 99% jego dokładności. Brzmi jak darmowy lunch, a dla angielskiego niemal nim jest — to wybór, gdy chcesz dokładności bliskiej najlepszej bez kary szybkościowej pełnego dużego modelu. Haczyk tkwi w etykiecie „wyłącznie angielski”: te cztery znają angielski i tylko angielski. W chwili, gdy potrzebujesz drugiego języka, opuszczasz tę rodzinę całkowicie — o czym jest następny rozdział.
Modele wielojęzyczne — dla pozostałych 98 języków
W chwili, gdy dźwięk nie jest angielski, potrzebujesz modelu wielojęzycznego. Wielojęzyczne wersje Whisper obejmują 99 języków z automatycznym wykrywaniem i są jedyną lokalną drogą, która potrafi tłumaczyć mowę na angielski w trakcie transkrypcji. Modele wyłącznie angielskie tego nie potrafią, Parakeet też nie. Więc jeśli dyktujesz po ukraińsku, szkicujesz notatkę po japońsku albo chcesz, żeby hiszpańskie nagranie wyszło jako tekst angielski, ta rodzina jest odpowiedzią, kropka.
Tu również są cztery i odzwierciedlają rozmiary wersji angielskich. Small, około 480 MB, to szybka wielojęzyczna baza — domyślny model, z którym aplikacja jest dostarczana, bo to najbezpieczniejszy pierwszy strzał, dopóki nikt nie zna twojego języka. Medium, około 1,5 GB, wymienia szybkość na zauważalnie lepszą jakość. Large v3, około 3 GB, to najlepsza dokładność, jaką da się uzyskać lokalnie, i właściwy wybór do profesjonalnej pracy wielojęzycznej — pod warunkiem, że masz 16 GB RAM-u, by go nakarmić. A Large v3 Turbo, około 1,62 GB, to szybki poziom wielojęzyczny — większość jakości dużego modelu przy ułamku oczekiwania.
Słowo o liczbie języków, bo liczba bezpieczna marketingowo i ta prawdziwa różnią się w zależności od tego, co masz na myśli. Modele wielojęzyczne faktycznie obejmują 99 języków; modele wyłącznie angielskie obejmują dokładnie jeden. Jeśli mówisz głównie po angielsku i czasem trafia ci się drugi język europejski, masz opcję szybszą niż którykolwiek z nich — to Parakeet. To kolejna rzecz, którą warto zrozumieć, bo to model, który ludzie najczęściej wybierają przez pomyłkę albo przez pomyłkę pomijają.
Kiedy Parakeet bije Whisper, a kiedy nie

Parakeet wcale nie jest modelem Whisper — to silnik TDT firmy NVIDIA, około 600 MB, i najszybsza lokalna opcja w aplikacji, opisywana jako 5 do 10 razy szybsza od Whisper na CPU. Jeśli masz starszy lub laptopowy procesor bez wolnego GPU, ta różnica w szybkości decyduje o tym, czy dyktowanie wydaje się błyskawiczne, czy każe ci czekać. Do codziennej pracy po angielsku to ten, po który sięgam najpierw.
Obsługuje angielski plus 24 inne języki europejskie — 25 łącznie — więc dla wielu europejskich użytkowników to w zupełności wystarcza. Czego celowo nie robi, to rzeczy zastrzeżone dla Whisper: brak tłumaczenia na angielski, brak ukierunkowania na słowa kluczowe, brak podpowiedzi z własnym słownikiem. Jeśli twoja praca jest jednojęzyczna po angielsku (albo w jednym z tych 24 języków europejskich) i po prostu chcesz, żeby było szybko, Parakeet wygrywa i temat zamknięty. Więcej na jego temat znajdziesz w rozbiorze modelu Parakeet, jeśli chcesz pełnego obrazu.
Whisper wygrywa w chwili, gdy wychodzisz poza ten obszar. Potrzebujesz chińskiego, japońskiego albo koreańskiego? Wielojęzyczny Whisper, bo Parakeet ich nie zna. Musisz przetłumaczyć nagranie na angielski? Whisper wielojęzyczny, jedyna lokalna droga, która to robi. Chcesz ukierunkować model na listę nazw produktów albo żargonu, żeby przestał je przekręcać? Whisper, przez słowa kluczowe. Zasada kciuka: Parakeet do szybkości po angielsku, Whisper do języków, tłumaczenia i kontroli. Aplikacja dostarcza oba, bo żaden nie jest właściwą odpowiedzią dla wszystkich.
Rozmiar, szybkość i dokładność: jak ten kompromis naprawdę działa
Pomaga zobaczyć te trzy siły obok siebie, bo każdy model to po prostu inny punkt na tym samym trójkącie. Większe pliki są dokładniejsze i wolniejsze; mniejsze są szybsze i lżejsze dla RAM-u; a specjalne silniki naginają tę krzywą. Oto uczciwa wersja każdej z sił, skoro aplikacja każe ci wybierać, a wolę, żebyś wybierał, znając koszt.
Trzy sposoby na odczytanie tej listy, zależnie od tego, co cię uwiera:
- Jeśli problemem jest szybkość — sięgnij najpierw po Parakeet — około 600 MB i 5 do 10 razy szybszy od Whisper na CPU. Na komputerze bez GPU nic lokalnego mu nie dorówna w codziennym angielskim. Kosztem jest brak tłumaczenia na angielski i brak słów kluczowych.
- Jeśli problemem jest dokładność lub język — idź wyżej w rodzinie Whisper. Large v3 około 3 GB to najlepsza lokalna dokładność i obejmuje 99 języków, ale chce 16 GB RAM-u. Warianty Turbo dają większość tej jakości przy znacznie mniejszym czekaniu. Small i Medium to rozsądny środek.
- Jeśli problemem jest miejsce na dysku lub RAM — zostań przy małym (Base, około 140 MB) albo całkiem pomiń tryb lokalny i użyj trybu Cloud, który działa na dowolnym sprzęcie, bo to tylko zapytanie sieciowe do OpenAI z twoim własnym kluczem. Cloud jest częścią Whisper Pro i wymaga internetu.
Nudna prawda jest taka, że dla większości osób, na nowszym komputerze, różnica między modelami średniej wielkości jest mniejsza niż różnica, jaką robi twój mikrofon. Mikrofon USB za $20 robi dla dokładności więcej niż skok ze Small na Large — publiczne benchmarki Whisper to potwierdzają, a sam widziałem to na własnym biurku nieraz. Więc nie męcz się Medium kontra Large pierwszego dnia. Wybierz coś, co mieści się w twoim RAM-ie, zacznij dyktować i podmień model później, jeśli jakieś słowo uparcie wychodzi źle. Model, przy którym faktycznie zostaniesz, to ten dość szybki, żebyś zapomniał, że tam jest.
Spróbuj jednego, potem podmień w dwóch kliknięciach, jeśli się nie sprawdza
Oto część, która zdejmuje presję z całej decyzji: nie bierzesz ślubu z modelem, który wybierzesz najpierw. Zmiana to dwa kliknięcia w Ustawieniach, a jedyny realny koszt to pobranie tego modelu, na który się przesiadasz. Więc właściwa strategia to nie szukanie przez godzinę — to rozsądny pierwszy strzał, dyktowanie z nim przez dzień i zmiana, jeśli zacznie irytować. Cały lokalny mechanizm jest darmowy dla każdego zalogowanego konta, bez podawania metody płatności przy rejestracji, więc wypróbowanie kilku modeli nie kosztuje cię nic poza miejscem na dysku.
Krok 1 — Otwórz Ustawienia i znajdź panel Transkrypcja.
To tam mieszka lista modeli, podzielona na wyłącznie angielskie i wielojęzyczne, z Parakeet i Cloud obok. Nic nie jest wstępnie zaznaczone jako „najlepsze”.
Poznasz, że jesteś we właściwym miejscu, gdy zobaczysz listę modeli z rozmiarami przy każdej nazwie.
Krok 2 — Postaw pierwszy strzał na podstawie sekcji powyżej.
Angielski i zależy ci na szybkości: Parakeet. Angielski i zależy ci na dokładności: Small lub Medium angielski. Inne języki: model wielojęzyczny. Mało RAM-u: Base.
Poznasz, że się udało, gdy model skończy się pobierać i pokaże się jako gotowy.
Krok 3 — Dyktuj z nim przez dzień.
Użyj go w prawdziwej pracy, nie na zdaniu testowym. Z jednego popołudnia rzeczywistych notatek dowiesz się więcej niż z dowolnego wykresu benchmarkowego.
Poznasz, że to właściwy model, gdy przestaniesz go zauważać i po prostu mówisz.
Krok 4 — Zmień, jeśli się nie sprawdza.
Za wolno — wybierz coś mniejszego albo Parakeet. Brakuje języka albo przekręca słowa — przejdź na wielojęzyczny lub większy. Dwa kliknięcia, jedno pobranie, gotowe.
Poznasz, że się udało, gdy nowy model się załaduje, a twoje następne nagranie go użyje.
Ludzie traktują to jak drzwi w jedną stronę, a tak nie jest. Pierwszy model, jaki kiedykolwiek uruchomiłem, nie był tym, przy którym zostałem; zacząłem z modelu wielojęzycznego z przyzwyczajenia, zorientowałem się, że cały dzień dyktuję po angielsku, i przeniosłem się na Parakeet dla szybkości. Zajęło to dwa kliknięcia i pobieranie na czas wypicia kawy. Potraktuj swój pierwszy wybór jak szkic.
Szybka rekomendacja, jeśli przeskoczyłeś na koniec
Jeśli nie czytasz nic więcej, to masz tutaj. Angielski, ma być szybko, skromny komputer: Parakeet. Angielski, ma być najlepsza lokalna dokładność: model Medium angielski albo Turbo, jeśli chcesz tej dokładności bez czekania. Inny język albo potrzebujesz tłumaczenia: model wielojęzyczny — Small na początek, Large v3, jeśli dokładność ma znaczenie i masz 16 GB RAM-u. Mało miejsca na dysku lub RAM-u: Base. Chcesz dokładności najwyższej półki z dostępem do sieci i nie masz nic przeciwko użyciu własnego klucza OpenAI: Cloud. To cała mapa.
Cokolwiek wybierzesz, surowa transkrypcja wychodzi jako jeden ciąg bez przerw — i tak jest w każdym silniku mowy, nie tylko w naszym. Mówisz „okej, ustaw model spotkania na medium i przypomnij mi, żebym później przetestował ten duży”, a w odpowiedzi dostajesz tę nieinterpunkcyjną ścianę. Whisper może uruchomić przejście porządkujące AI, które poprawia interpunkcję i usuwa wypełniacze, zanim tekst wyląduje — powiedz frazę aktywacyjną „Hey whisper”, a on najpierw posprząta. Na modelu lokalnym działa to przez Ollama; w trybie chmury to domyślnie gpt-5-mini.
okej, ustaw model spotkania na medium i przypomnij mi, żebym później przetestował ten duży, no może parakeet do szybkich rzeczy
Okej, ustaw model spotkania na Medium i przypomnij mi, żebym później przetestował ten duży — może Parakeet do szybkich rzeczy.
Jedno uczciwe zastrzeżenie, które należy się na końcu każdego przewodnika „który model”: jeśli wszystko, co kiedykolwiek robisz, to wrzucenie 30-wyrazowej notatki do pola tekstowego, być może nie musisz w ogóle wybierać modelu. W systemie Windows wbudowany pasek pisania głosowego otwiera się klawiszem Windows + H tam, gdzie masz kursor — sam stawia interpunkcję i jest darmowy, choć przepuszcza dane przez serwery Microsoftu i potrzebuje internetu. Na Macu Dyktowanie w Ustawieniach systemowych robi to samo, a na Apple Silicon ogólny tekst można przetwarzać na urządzeniu. Poniżej progu, w którym dokładność i długość zaczynają boleć, używaj tego, co już masz na komputerze. Jesteśmy warci pobrania, gdy robisz prawdziwą ilość, chcesz prywatności bez internetu albo potrzebujesz języka i kontroli, których wbudowane narzędzia nie oferują. Nie zamierzam ci mówić, żebyś instalował aplikację do podyktowania listy zakupów.
„Najlepszy” model Whisper to ten, o którym przestajesz myśleć. Wybierz kompromis, na którym ci zależy, postaw pierwszy strzał i podmień w dwóch kliknięciach, jeśli zacznie irytować. Wdrażałem systemy, w których diagram architektury był błędny już przy drugim commicie, więc mam zdrowy szacunek do „po prostu spróbuj i dostosuj”. Twój wybór modelu ma niższą stawkę niż tamto i znacznie łatwiej go cofnąć. Zacznij gdziekolwiek. To pobieranie jest wolną częścią; decydowanie nie powinno być.
Wybierz model i zacznij mówić
Postaw pierwszy strzał, dyktuj przez dzień, podmień w dwóch kliknięciach, jeśli się nie sprawdza. Aplikacja pokazuje ci każdą opcję i pozwala wybrać.
Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.



