Wyjaśnienie
Model NVIDIA Parakeet
Parakeet to otwarty model zamiany mowy na tekst od NVIDIA. Aktualna wersja, parakeet-tdt-0.6b-v3, waży około 600 MB, działa offline i jest od 5 do 10 razy szybsza niż Whisper na CPU. Oto czym jest i jak wypada w porównaniu.
Ostatnia aktualizacja: czerwiec 2026

Model NVIDIA Parakeet to otwarty model zamiany mowy na tekst oparty na enkoderze FastConformer i dekoderze Token-and-Duration Transducer. Aktualne wydanie, parakeet-tdt-0.6b-v3, ma około 600 milionów parametrów, transkrybuje 25 europejskich języków w tym angielski i działa od 5 do 10 razy szybciej niż Whisper na CPU. Nie tłumaczy na angielski.
Większość ludzi spotyka słowo "Parakeet" spodziewając się nazwy papugi, a wychodzi z modelem zamiany mowy na tekst. Jest od NVIDIA, dostępny na otwartej licencji i ta wersja, która ma znaczenie w codziennym dyktowaniu, nazywa się parakeet-tdt-0.6b-v3. "0.6b" to liczba parametrów — około 600 milionów. Na dysku zajmuje około 600 MB. To wystarczająco mało, żeby mieszkał na laptopie i nigdy nie dzwonił do serwera.
Zajmuję się tym z prozaicznego powodu: dostarczamy go w naszym produkcie. Parakeet to jeden z lokalnych silników wbudowanych w Whisper, stojący tuż obok modeli Whisper od OpenAI, a pytanie, które słyszę najczęściej, brzmi: "który wybrać i dlaczego ten ptak jest taki szybki". Oto prosta odpowiedź — czym Parakeet naprawdę jest, jak jego dekoder sprawia, że działa tak szybko i dokładnie gdzie zamiast niego sięgnąłbym po Whisper.
Jest jedna rzecz, którą żargon kart modelu skutecznie ukrywa. Parakeet to model transkrypcji i tylko transkrypcji. Słucha dźwięku i zapisuje słowa — z interpunkcją i wielkimi literami. Nie streszcza, nie tłumaczy na angielski i nie obsługuje hotwords. To, co robi, robi bardzo szybko.
Dlatego przydatne ustawienie pytania to nie "Parakeet czy Whisper — kto wygrywa". To "do czego służy każdy z nich". Parakeet to szybki wybór dla angielskiego i języków europejskich, działający w pełni offline. Whisper to wybór dla 99 języków, tłumaczenia na angielski i precyzyjnej kontroli — ale wolniejszy na tym samym sprzęcie. Zaraz wyjaśnię skąd bierze się ta szybkość, podam pełną listę języków i pokażę, jak uruchomić Parakeet za darmo, lokalnie, w około dwie minuty.
Czym właściwie jest model Parakeet

Parakeet to rodzina modeli automatycznego rozpoznawania mowy wydanych przez NVIDIA. Ten, który dostarczamy i który większość ludzi ma na myśli, to parakeet-tdt-0.6b-v3, wydany w sierpniu 2025 roku na licencji CC-BY-4.0. "0.6b" oznacza 600 milionów parametrów. Pobieranie waży około 600 MB. Wewnątrz Whisper trafia jako model ONNX uruchamiany przez transcribe-rs, naszą warstwę transkrypcji napisaną w czystym Rust — bez środowiska Python i bez żadnego osobnego procesu do pilnowania.
Jego zadanie jest wąskie i jest on co do tego szczery. Parakeet przyjmuje dźwięk i zwraca tekst z automatyczną interpunkcją i wielkimi literami, a jeśli poprosisz — również ze znacznikami czasowymi na poziomie słowa. Sam wykrywa język — nie musisz mu mówić w czym mówisz. To, czego nie robi, jest równie ważne: brak tłumaczenia na angielski, brak dostosowania słownictwa, brak listy hotwords do podbijania konkretnych słów. Transkrybuje. To cały kontrakt.
Najciekawszy fragment w nazwie to "TDT" — i właśnie dlatego model jest szybki, a nie tylko mały. TDT to Token-and-Duration Transducer. Enkoder to FastConformer, czyli efektywna implementacja architektury Conformer, z której korzysta większość nowoczesnych modeli mowy autorstwa NVIDIA. To połączenie — szybki enkoder i sprytny dekoder — stoi za rekordową liczbą, i warto poświęcić mu osobną sekcję.
Jak Token-and-Duration Transducer osiąga taką szybkość
Starsze modele transduktorów przechodzą przez dźwięk klatka po klatce i przy każdej klatce pytają: "czy pojawia się tu nowy fragment słowa, czy nie". Przez większość czasu odpowiedź brzmi "nie" — emitują pusty symbol, przesuwają się o jedną klatkę i pytają od nowa. Ta pętla emitowania pustych symboli to większość pracy i większość straconego czasu. To odpowiednik czytania zdania piksel po pikselu.
Token-and-Duration Transducer zmienia pytanie. Zamiast tylko przewidywać kolejny token, przewiduje token i to, ile klatek ominąć przed następnym. Gdy pojawia się długa samogłoska lub pauza, model przeskakuje nad nią jednym krokiem zamiast mielić klatkę po klatce. Mniej kroków dekodowania, te same słowa na wyjściu. To właśnie predykcja czasu trwania jest sztuczką, na którą wskazuje nazwa "TDT", i to stamtąd bierze się szybkość.
Z Twojego fotela nic tego nie widać. Przytrzymujesz skrót klawiszowy, mówisz, puszczasz i tekst ląduje przy kursorze — kapsuła nakładki powyżej to jedyna rzecz, którą widzisz podczas słuchania. Matematyka dekodera to ukryte rury. Ale właśnie dlatego Parakeet kończy przetwarzać fragment dźwięku, gdy porównywalny model Whisper wciąż przeżuwa puste symbole — i na CPU ta różnica to przepaść między "natychmiastowo" a "poczekaj chwilę".
Parakeet vs. Whisper — bez marketingowej narracji
Ludzie traktują to jak pojedynek na śmierć i życie. Tak nie jest. To dwa narzędzia o różnym kształcie — w naszej aplikacji możesz mieć zainstalowane oba i przełączać je dla każdego nagrania. Najprostszy sposób, żeby to zapamiętać: Parakeet optymalizuje pod kątem szybkości i prostoty offline; Whisper optymalizuje pod kątem zasięgu i kontroli.
Parakeet jest szybszy — od 5 do 10 razy szybszy niż Whisper na CPU, według danych NVIDIA i naszych własnych testów. Obsługuje 25 języków, wszystkie europejskie, w tym angielski. Automatycznie dodaje interpunkcję i duże litery. Czego nie robi: nie tłumaczy innych języków na angielski, nie obsługuje hotwords ani dostosowania słownictwa i nie obsługuje dziesiątek języków spoza Europy — chińskiego, japońskiego, koreańskiego, arabskiego, hindi — z którymi wielojęzyczne wersje Whisper radzą sobie bez problemu.
Whisper w wielojęzycznych wersjach OpenAI obsługuje 99 języków i przetłumaczy każdy z nich na angielski. Udostępnia też pokrętła, których Parakeet nie ma: rozmiar wiązki, wstępny prompt, hotwords do nazw własnych i żargonu. Kosztem jest czas działania na tym samym sprzęcie, a większe modele potrzebują więcej RAM. Zasada kciuka jest prosta: jeśli mówisz po angielsku lub w innym europejskim języku i chcesz wyniku od razu — Parakeet. Jeśli potrzebujesz tłumaczenia, języka spoza Europy lub precyzyjnej kontroli — Whisper. Nudna prawda jest taka, że większość ludzi, którzy wypróbują oba, w końcu zatrzymuje oba.
Prawdziwe liczby: szybkość i 25 języków

Zacznijmy od szybkości, bo właśnie dlatego Parakeet w ogóle jest w naszej aplikacji. Deklaracja NVIDIA to 5 do 10 razy szybciej niż Whisper na CPU — i to zgadza się z tym, co sami obserwujemy. Na publicznym Open ASR Leaderboard model osiąga współczynnik czasu rzeczywistego rzędu tysięcy — co oznacza, że potrafi transkrybować znacznie szybciej niż czas odtwarzania dźwięku, gdy dostanie mocne GPU. Tego GPU nie będziesz mieć. Ale nawet na zwykłym CPU laptopa dekoder przeskakujący klatki sprawia, że krótkie dyktowanie czuć jako natychmiastowe, nie opóźnione.
Teraz lista języków — podana dokładnie, żebyś się nie rozczarował. Parakeet v3 obsługuje 25 języków, wszystkie europejskie, angielski wliczając — czyli angielski plus 24 inne, nie 99. Zestaw obejmuje te oczywiste (angielski, francuski, niemiecki, hiszpański, włoski, portugalski, niderlandzki, polski) przez języki nordyckie i bałtyckie aż po rosyjski i ukraiński. Automatycznie wykrywa, którym mówisz. Jeśli jakaś strona z modelem lub forum twierdzi, że Parakeet obsługuje 99 języków — myli go z Whisper. Obsługuje 25 i robi to szybko.
Dwa kolejne ograniczenia warte głośnego wymienienia, bo właśnie na nie ludzie się potykają. Parakeet nie ma trybu tłumaczenia na angielski — transkrybuje to, co powiedziałeś, w języku, w którym to powiedziałeś, kropka. I nie obsługuje hotwords, więc jeśli Twoje dyktowanie pełne jest nietypowych nazw produktów czy nazwisk, nie możesz ich wcześniej podać. Żadne z tych ograniczeń nie jest wadą — to po prostu granice szybkiego, skupionego modelu. (Dokładność na czystym angielskim jest naprawdę dobra — na standardowym benchmarku czystej mowy osiąga poniżej 2% word error rate — ale "dobra" i "strojona pod Twój specyficzny żargon" to różne obietnice.)
Uruchom Parakeet za darmo, lokalnie, w dwie minuty
Nie potrzebujesz konta NVIDIA, instalacji Pythona ani GPU, żeby to wypróbować. Potrzebujesz Maca na Apple Silicon lub komputera z Windows 10 lub nowszym, działającego mikrofonu i kilku minut. Cały lokalny pipeline — łącznie z Parakeet — jest bezpłatny dla każdego zalogowanego konta, bez konieczności podawania metody płatności przy rejestracji. Oto kolejność kroków.
Krok 1 — Zainstaluj Whisper i zaloguj się.
Pobierz ze strony pobierania, zainstaluj i utwórz darmowe konto. Bez karty. Cały lokalny pipeline transkrypcji jest od razu dostępny.
Wiedz, że zadziałało, gdy ikona aplikacji pojawi się w zasobniku i kreator konfiguracji zaproponuje wybór modelu.
Krok 2 — Wybierz Local Parakeet.
Aplikacja przedstawia trzy ścieżki i nie wybiera za Ciebie: Cloud, Local Parakeet, Local Whisper. Wybierz Local Parakeet i pozwól jednorazowo pobrać model ważący około 600 MB.
Wiedz, że zadziałało, gdy Parakeet skończy pobieranie i pokaże się jako gotowy.
Krok 3 — Potwierdź swój skrót klawiszowy.
Na Windows domyślnie to Ctrl+Space, na Macu Command+Option przytrzymane jako push-to-talk. Na Macu przyznaj uprawnienie Accessibility gdy zostaniesz o to poproszony — bez niego wklejanie przy kursorze nie dotrze do innych aplikacji.
Wiedz, że zadziałało, gdy nagranie testowe wklei się do dowolnego pola tekstowego.
Krok 4 — Postaw kursor gdziekolwiek i mów.
Kliknij w dowolne pole tekstowe — e-mail, dokument, czat — przytrzymaj skrót, powiedz zdanie, puść. Parakeet transkrybuje je, a tekst pojawia się tam, gdzie stoi kursor.
Wiedz, że zadziałało, gdy Twoje wypowiedziane zdanie siedzi w polu jako tekst, chwilę po tym jak puścisz klawisz.
Wolna część to jednorazowe pobieranie modelu. Wszystko po nim to cztery kroki powyżej, a gdy Parakeet jest już na dysku, nigdy nie dzwoni do domu — dźwięk i transkrypcja pozostają na Twoim komputerze. Jeśli kiedykolwiek konfigurowałeś dyktowanie na Windows lub na Macu, to jest ten sam przepływ, tylko z szybszym silnikiem pod spodem.
Dokładność, zlewy słów i porządkowanie tekstu
Surowe dyktowanie z każdego silnika, Parakeet nie jest wyjątkiem, wychodzi jako jeden długi ciąg bez przerw. Mówisz "okej więc przenieś standup na dziesiątą złóż projekt parakeet i napisz do marco", i taki nieprzestankowany blok tekstu dostajesz. Parakeet co prawda sam dodaje interpunkcję i wielkie litery — to więcej niż robi wiele modeli — ale nie usunie Twoich "yyy" ani nie przekształci chaotycznej myśli w porządne zdanie.
Właśnie tu wchodzi do gry przebieg przez AI. Wypowiedz frazę aktywacyjną "Hey whisper" a transkrybowany tekst zostanie udoskonalony zanim dotrze na miejsce — wypełniacze usunięte, zlewy podzielone, mówiony chaos zamieniony w coś, co faktycznie wyślesz. W lokalnej konfiguracji odbywa się to przez Ollama na Twoim własnym komputerze; w trybie chmury domyślnie przez gpt-5-mini. Parakeet słucha, udoskonalanie sprząta.
okay so move the standup to ten file the parakeet draft and ping marco um before lunch
Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.
Jeśli chodzi o samą dokładność, Parakeet jest naprawdę mocny w czystym angielskim — poniżej 2% word error rate na standardowym benchmarku, co plasuje go w okolicach Whisper, nie poniżej. Uczciwe zastrzeżenie jest takie, którego nikt nie reklamuje: żaden model nie naprawia złego dźwięku. Mikrofon USB za $20 zrobi więcej dla dokładności transkrypcji niż kiedykolwiek zmiana silnika. Nauczyłem się tego w nudny sposób — przez tydzień obwiniałem model za bełkot w nagraniach, który okazał się wbudowanym mikrofonem laptopa łapiącym zmywarkę.
Ten sam nawyk mów-potem-porządkuj procentuje daleko poza jedną aplikacją — możesz pisać całe e-maile i dokumenty głosem używając jednego skrótu klawiszowego, więc długi akapit zamienia się w kilka wypowiedzianych zdań zamiast czegoś, co żmudzisz na klawiaturze.
Kiedy wybrać Whisper zamiast Parakeet

Byłbym nieuczciwy, gdybym sprzedawał Parakeet jako odpowiedź na wszystko. To szybki wybór, nie uniwersalny, i są wyraźne przypadki, gdy sięgałbym obok niego po jeden z modeli Whisper — albo po darmowe dyktowanie już wbudowane w Twój system.
Wybierz Whisper zamiast Parakeet gdy zachodzi którykolwiek z tych warunków. Potrzebujesz języka spoza 25 obsługiwanych przez Parakeet — chińskiego, japońskiego, koreańskiego, arabskiego, hindi, czegokolwiek spoza Europy — bo Parakeet po prostu ich nie obsługuje. Potrzebujesz tłumaczenia na angielski, dla którego Parakeet nie ma żadnego trybu. Albo dyktuje dużo żargonu, nietypowych nazw lub terminów produktowych i chcesz hotwords, żeby je zablokować — co udostępnia tylko Whisper. W każdym z tych przypadków wielojęzyczne wersje Whisper i ich zasięg 99 języków to właściwe narzędzie, mimo że działają wolniej na tym samym laptopie.
A czasem właściwe narzędzie w ogóle nie jest nasze. Jeśli tylko wrzucasz 20-słowną notatkę do pola tekstowego, Twój system operacyjny już to robi za darmo: klawisz Windows + H otwiera Pisanie głosowe wszędzie tam, gdzie stoi kursor (potrzebuje internetu, więc nie jest offline), a na Macu Dyktowanie w Ustawienia systemowe → Klawiatura pisze wszędzie, przetwarzane na urządzeniu na Apple Silicon. Poniżej progu, gdzie szybkość, prywatność offline lub czysty przebieg przez AI faktycznie mają znaczenie, korzystaj z tego, co darmowe. Nie zamierzam mówić Ci, żebyś instalował silnik dla jednolinijkowego przypomnienia.
Jeśli wybierasz konfigurację konkretnie na komputerze Apple, kompromisy między Parakeet, Whisper i własnym dyktowaniem Apple zostały omówione w najlepszych opcjach zamiany mowy na tekst dla Maca, które przeprowadzają przez ten sam dylemat szybkości versus zasięgu od strony Maca.
Parakeet to model 600 MB nazwany po ptaku, który robi jedną rzecz — zamienia europejską mowę w tekst, szybko, na Twoim własnym komputerze — i odmawia udawania, że robi coś więcej. Ta powściągliwość jest dla mnie dziwnie uspokajająca w roku, gdy każde narzędzie twierdzi, że robi wszystko. Podyktowałem chaotyczny pierwszy szkic tego wyjaśnienia z Parakeet działającym lokalnie, potem pozwoliłem przebiegowi AI posprzątać zlewy słów, a potem przełączyłem się na model Whisper dla jednej cytowanej linii po ukraińsku, z którą Parakeet poradził sobie dobrze, ale chciałem ją przetłumaczyć. Dwa silniki, jeden skrót klawiszowy, żadnych serwerów. O to chodzi w posiadaniu obu.
Wypróbuj Parakeet na swoim komputerze
Przytrzymaj skrót, mów, puść. Parakeet transkrybuje lokalnie, a tekst ląduje przy Twoim kursorze — w każdej otwartej aplikacji.
Darmowy tryb lokalny dla każdego zalogowanego konta. Karta nie jest wymagana na start.



