Пояснення
Модель NVIDIA Parakeet
Parakeet — це відкрита модель розпізнавання мовлення від NVIDIA. Поточна збірка, parakeet-tdt-0.6b-v3, важить близько 600 МБ, працює офлайн і в 5–10 разів швидша за Whisper на CPU. Ось що це таке і як вона себе показує.
Оновлено: червень 2026

Модель NVIDIA Parakeet — це відкрита модель перетворення мовлення на текст на основі енкодера FastConformer і декодера Token-and-Duration Transducer. Поточний реліз, parakeet-tdt-0.6b-v3, містить близько 600 мільйонів параметрів, розпізнає 25 європейських мов включно з англійською і працює в 5–10 разів швидше за Whisper на CPU. Переклад на англійську вона не виконує.
Більшість людей чують слово «Parakeet» і думають про папугу — а виявляється, це модель для розпізнавання мовлення. Від NVIDIA, з відкритою ліцензією, і версія, яка реально важлива для диктування, називається parakeet-tdt-0.6b-v3. «0.6b» — це кількість параметрів, близько 600 мільйонів. На диску займає приблизно 600 МБ. Достатньо мало, щоб жити на ноутбуці і жодного разу не звертатись до сервера.
Мені це цікаво з прозаїчної причини: ми її постачаємо. Parakeet — один з локальних рушіїв всередині Whisper, поруч з моделями OpenAI Whisper, і найчастіше мені ставлять запитання: «яку вибрати, і чому ця пташка така швидка». Тому ось проста відповідь — що таке Parakeet насправді, чому її декодер такий швидкий, і де я б порадив перейти на Whisper.
Ось що ховається за технічним жаргоном карток моделей. Parakeet — це модель транскрипції, і тільки транскрипції. Вона слухає аудіо і записує слова — з пунктуацією та великими літерами. Вона не резюмує, не перекладає на англійську і не приймає гарячі слова. Але те, що вона робить, — робить дуже швидко.
Тому правильне формулювання — не «Parakeet проти Whisper: хто виграє». А «для чого кожна з них». Parakeet — швидкий вибір для англійської та європейських мов, що працює повністю офлайн. Whisper — це 99 мов, переклад на англійську та тонке налаштування, але повільніше на тому ж залізі. Зараз поясню швидкість, дам список мов прямо, і покажу, як запустити Parakeet безкоштовно, локально, за пару хвилин.
Що таке модель Parakeet насправді

Parakeet — це сімейство моделей автоматичного розпізнавання мовлення від NVIDIA. Та, яку ми постачаємо і яку більшість людей мають на увазі, — parakeet-tdt-0.6b-v3, випущена у серпні 2025 року за ліцензією CC-BY-4.0. «0.6b» — це 600 мільйонів параметрів. Завантаження займає близько 600 МБ. У Whisper вона надходить як ONNX-модель, що виконується через transcribe-rs — наш шар транскрипції на чистому Rust, без Python-рантайму і без окремого процесу, за яким треба наглядати.
Її завдання вузьке, і вона відверта щодо цього. Parakeet приймає аудіо і повертає текст з автоматичною пунктуацією та великими літерами, плюс мітки часу на рівні слів, якщо потрібно. Мову вона визначає сама — вам не треба їй говорити, якою ви розмовляєте. Що вона не робить — так само важливо: без перекладу на англійську, без прив'язки до власного словника, без списку гарячих слів «підсилити ці слова». Вона транскрибує. Це весь контракт.
«TDT» у назві — найцікавіше, і саме це робить модель швидкою, а не просто компактною. TDT означає Token-and-Duration Transducer. Енкодер — FastConformer, ефективна реалізація NVIDIA архітектури Conformer, яку використовує більшість сучасних мовних моделей. Саме ця пара — швидкий енкодер і розумний декодер — є інженерною основою заявлених цифр, і варто присвятити їй окремий розділ.
Як Token-and-Duration Transducer досягає швидкості
Старіші моделі-транздьюсери проходять через аудіо по одному крихітному фрейму і на кожному запитують: «тут є новий фрагмент слова чи ні». Найчастіше відповідь — «ні»: вони генерують порожній символ, зсуваються на один фрейм і питають знову. Цей цикл порожніх символів — це більша частина роботи і більша частина витраченого часу. Це як читати речення по одному пікселю.
Token-and-Duration Transducer змінює запитання. Замість того, щоб тільки передбачати наступний токен, він передбачає токен і кількість фреймів, які треба пропустити до наступного. Коли є довга голосна або пауза, модель перескакує через неї за один крок, а не перемелює фрейм за фреймом. Менше кроків декодування, ті самі слова на виході. Ось у чому суть «TDT» — і звідси швидкість.
З вашого боку нічого з цього не видно. Тримаєте гарячу клавішу, говорите, відпускаєте — і текст з'являється там, де курсор. Капсула оверлею вище — єдине, що ви бачите під час запису. Математика декодера прихована під капотом. Але саме вона пояснює, чому Parakeet завершує обробку фрагмента аудіо, поки порівнянна модель Whisper ще «пережовує» порожні фрейми — і на CPU ця різниця відчувається як «моментально» проти «почекай».
Parakeet проти Whisper — без маркетингу
Люди сприймають це як двобій. Це не так. Це два інструменти різної форми, і в нашому застосунку можна тримати обидва і перемикатись для кожного запису. Найпростіше формулювання: Parakeet оптимізована для швидкості та простоти офлайн-роботи; Whisper — для охоплення мов і гнучкого налаштування.
Parakeet швидша — в 5–10 разів швидша за Whisper на CPU, за словами NVIDIA і за нашими власними тестами. Охоплює 25 мов, усі європейські, включно з англійською. Пунктуація і великі літери — автоматично. Що вона не вміє: перекладати інші мови на англійську, не підтримує прив'язку до власного словника, і не торкається десятків неєвропейських мов — китайської, японської, корейської, арабської, гінді — з якими багатомовні збірки Whisper справляються без зусиль.
Whisper у багатомовних збірках OpenAI охоплює 99 мов і перекладає будь-яку з них на англійську. Вона також дає налаштування, яких немає в Parakeet: розмір пучка, початковий промпт, прив'язка гарячих слів для імен і жаргону. Ціна — час на тому ж залізі, і більші моделі потребують більше RAM. Тому правило просте: якщо ви розмовляєте англійською або іншою європейською мовою і хочете результат зараз — Parakeet. Якщо потрібен переклад, неєвропейська мова або точне налаштування — Whisper. Скучна правда: більшість тих, хто спробував обидві, зрештою залишає обидві.
Реальні цифри: швидкість і 25 мов

Починаємо зі швидкості, бо саме вона — причина, чому Parakeet взагалі є в нашому застосунку. Заявлена NVIDIA цифра — в 5–10 разів швидша за Whisper на CPU — збігається з тим, що ми бачимо. На публічному Open ASR Leaderboard модель показує коефіцієнт реального часу в тисячах, тобто на потужному GPU вона транскрибує значно швидше, ніж грає аудіо. Такого GPU у вас, швидше за все, немає. Але навіть на звичайному CPU ноутбука декодер із пропуском тривалості тримає короткий запис відчутно миттєвим.
Тепер список мов — точно, щоб не виникло непорозумінь. Parakeet v3 підтримує 25 мов, усі європейські, англійська серед них — тобто англійська плюс ще 24, не 99. Список охоплює очевидні (англійська, французька, німецька, іспанська, італійська, португальська, нідерландська, польська), скандинавські та балтійські мови, а також російську й українську. Мову визначає автоматично. Якщо на якійсь сторінці моделі чи форумі написано, що Parakeet підтримує 99 мов — це плутанина з Whisper. Їх 25, і з ними вона справляється швидко.
Ще два обмеження, про які варто сказати вголос, — саме вони найчастіше бентежать. У Parakeet немає режиму перекладу на англійську: вона транскрибує те, що сказано, мовою, якою сказано, і крапка. І гарячих слів вона не приймає — якщо ваш диктант рясніє незвичними назвами продуктів чи прізвищами, заздалегідь підказати їх не вийде. Це не вади — просто межі швидкої та сфокусованої моделі. (Точність для чистої англійської справді хороша — на стандартному бенчмарку з чистим мовленням рівень помилок за словами нижче 2%, але «хороша» і «налаштована під ваш специфічний жаргон» — різні обіцянки.)
Запустіть Parakeet безкоштовно, локально, за дві хвилини
Для цього не потрібен акаунт NVIDIA, Python чи GPU. Потрібен Mac на Apple Silicon або ПК з Windows 10 або новішою, робочий мікрофон і кілька хвилин. Весь локальний конвеєр — включно з Parakeet — безкоштовний для будь-якого залогіненого акаунту, без прив'язки картки при реєстрації. Ось послідовність.
Крок 1 — Встановіть Whisper і увійдіть.
Завантажте зі сторінки завантаження, встановіть і створіть безкоштовний акаунт. Без картки. Весь локальний конвеєр транскрипції відкривається одразу.
Все вийшло, якщо в треї з'явилась іконка застосунку і майстер налаштування запропонував вибрати модель.
Крок 2 — Оберіть Local Parakeet.
Застосунок пропонує три шляхи і не вибирає за вас: Cloud, Local Parakeet, Local Whisper. Оберіть Local Parakeet і дайте моделі завантажитись одного разу — близько 600 МБ.
Все вийшло, коли Parakeet завершить завантаження і відобразиться як готова.
Крок 3 — Підтвердьте гарячу клавішу.
На Windows за замовчуванням — Ctrl+Space, на Mac — Command+Option, утримувати як push-to-talk. На Mac надайте дозвіл Accessibility, коли запитають; без нього вставка тексту в інші застосунки не працюватиме.
Все вийшло, коли тестовий запис вставиться в будь-яке текстове поле.
Крок 4 — Поставте курсор куди завгодно і говоріть.
Клацніть у будь-яке текстове поле — лист, документ, чат — утримуйте гарячу клавішу, скажіть речення, відпустіть. Parakeet транскрибує, і текст з'являється там, де стоїть курсор.
Все вийшло, коли вимовлене речення з'явиться в полі як текст — одразу після того, як відпустите клавішу.
Повільний момент тут лише один — перше завантаження моделі. Все інше — чотири кроки вище, і після того, як Parakeet опиниться на диску, вона більше не звертається до мережі: аудіо і транскрипція залишаються на вашому пристрої. Якщо ви вже налаштовували диктування у Windows або на Mac — це той самий процес, тільки з швидшим рушієм під капотом.
Точність, злиті речення і чистка тексту
Сирий диктант з будь-якого рушія, включно з Parakeet, виходить суцільним потоком. Ви кажете «ну так перенеси стендап на десяту подай драфт parakeet і напиши марку» — і отримуєте цю стіну тексту без пунктуації. Parakeet додає власну пунктуацію і великі літери, що вже краще за більшість моделей, але вона не видалить ваші «ееее» і не переробить розмиту думку на чітке речення.
Ось де заробляє свій хліб AI-обробка. Скажіть активаційну фразу «Hey whisper» — і транскрибований текст буде вдосконалений перш ніж з'явитись: слова-паразити прибрані, злиті речення розбиті, мовний безлад перетворений на те, що не соромно надіслати. Локально це йде через Ollama на вашому пристрої; у хмарному режимі — через gpt-5-mini за замовчуванням. Parakeet слухає, покращення прибирає зайве.
okay so move the standup to ten file the parakeet draft and ping marco um before lunch
Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.
Щодо точності: Parakeet справді сильна на чистій англійській — рівень помилок за словами нижче 2% на стандартному бенчмарку, що на рівні Whisper, а не нижче. Чесне застереження, яке ніхто не рекламує: жодна модель не виправить поганий звук. Мікрофон за $20 на USB зробить для точності транскрипції більше, ніж будь-яка зміна рушія. Я дізнався це нудним шляхом — цілий тиждень звинувачував модель у «кашоподібних» записах, які виявились результатом того, що вбудований мікрофон ноутбука захоплював звук посудомийної машини.
Та сама звичка «говорити — потім чистити» добре окупається і за межами одного застосунку — ви можете писати цілі листи й документи голосом однією гарячою клавішею, і довгий абзац перетворюється на кілька вимовлених речень замість того, щоб вибивати їх на клавіатурі.
Коли краще обрати Whisper замість Parakeet

Я б зробив вам ведмежу послугу, якби продавав Parakeet як відповідь на всі випадки. Це швидкий вибір, а не універсальний, і є чіткі ситуації, де я б потягнувся до однієї з моделей Whisper — або до безкоштовного диктування, яке вже є на вашому пристрої.
Обирайте Whisper замість Parakeet, якщо виконується хоча б одна з умов. Вам потрібна мова поза 25-ма Parakeet — китайська, японська, корейська, арабська, гінді, будь-яка неєвропейська — Parakeet їх просто не підтримує. Вам потрібен переклад на англійську — у Parakeet немає такого режиму. Або ви диктуєте багато специфічного жаргону, незвичних імен чи назв продуктів і хочете прив'язати їх через гарячі слова — це є лише у Whisper. Для будь-якого з цих випадків багатомовні збірки Whisper з охопленням 99 мов — правильний інструмент, навіть якщо на тому самому залізі вони повільніші.
А іноді правильний інструмент — взагалі не наш. Якщо ви просто вставляєте 20-слівну нотатку в текстове поле, ваша операційна система вже робить це безкоштовно: клавіша Windows + H відкриває Голосовий ввід де завгодно, де стоїть курсор (потребує інтернету, тобто не офлайн), а на Mac Диктування у Системних налаштуваннях → Клавіатура вводить текст де завгодно й обробляється на пристрої на Apple Silicon. Якщо швидкість, офлайн-приватність або AI-обробка вам не потрібні — користуйтесь тим, що безкоштовно. Я не збираюся радити вам встановлювати рушій заради одного рядка нагадування.
Якщо ви вибираєте налаштування саме на Apple-пристрої, порівняння Parakeet, Whisper і власного диктування Apple розглянуто у статті найкращі варіанти розпізнавання мовлення для Mac — там та сама дилема швидкості проти охоплення, але з точки зору Mac.
Parakeet — це 600-мегабайтна модель, названа на честь пташки, яка робить одну річ: перетворює європейське мовлення на текст, швидко, на вашому пристрої — і не вдає, що вміє більше. Мені дивно приємно бачити таку стриманість у рік, коли кожен інструмент заявляє, що вміє все. Чернетку цього матеріалу я надиктував у Parakeet локально, потім дав AI-обробці прибрати злиті речення, а потім перейшов на модель Whisper для однієї цитати українською — Parakeet впоралась би, але я хотів переклад. Два рушії, одна гарячу клавіша, жодних серверів. У цьому і є сенс мати обидва.
Спробуйте Parakeet на власному пристрої
Утримуйте гарячу клавішу, говоріть, відпустіть. Parakeet транскрибує локально, і текст з'являється там, де курсор — у будь-якому застосунку.
Локальний режим безкоштовний для будь-якого залогіненого акаунту. Картка для початку не потрібна.



