Автор: Денис Медведєв

Пояснення

Яку модель Whisper мені обрати

Єдиної правильної моделі Whisper не існує — потрібна саме та, що відповідає тому, що для вас найважливіше: швидкість, точність, мова чи місце на диску. Цей посібник зіставляє кожну доступну модель із конкретним сценарієм, щоб ви могли визначитися приблизно за хвилину, і підказує, коли замість Whisper варто взяти Parakeet.

Останнє оновлення: червень 2026

Кілька підписаних перемикачів на темній панелі, що символізують вибір між варіантами

Найкраща модель Whisper залежить від завдання: візьміть малу англійську модель для щоденної диктовки англійською, багатомовну — для інших мов, велику — для максимальної точності або Turbo — для швидкості, близької до якості великої моделі. Якщо вам потрібна швидкість і переважно англійська, Parakeet випереджає Whisper. Застосунок показує всі варіанти й дає користувачеві обрати самому.

Це запитання мені ставлять частіше за будь-яке інше, зазвичай у формі «я завантажив застосунок, то яку модель тепер обрати». Питання справедливе, і чесна перша відповідь така: моделі, що перемагає завжди, не існує. Є модель, що перемагає для вашого комп'ютера, вашої мови й того, наскільки вам важлива зайва половина секунди очікування. Тому застосунок не обирає за вас. Він показує варіанти й не стає на заваді.

Це звучить як відмовка, поки ви не побачите розкид. Найменша англійська модель важить близько 140 МБ і працює на ноутбуці 2016 року. Найкраща багатомовна важить близько 3 ГБ і хоче 16 ГБ оперативної пам'яті. Між цими двома живуть ще шість варіантів плюс окремий рушій під назвою Parakeet. Оберете неправильно — або чекатимете надто довго, або транскрибуватимете не тією мовою. Оберете правильно — і забудете, що модель узагалі існує, а саме це й є метою.

Ось рамка, яка враз робить увесь список зрозумілим. Кожна модель — це компроміс між чотирма речами: швидкістю, точністю, кількістю мов, які вона знає, і тим, скільки місця на диску й оперативної пам'яті вона з'їдає. Усі чотири на максимум одночасно не вийдуть. Модель на 3 ГБ точніша й знає більше мов, але вона повільніша й не влізе в комп'ютер із 8 ГБ. Модель на 140 МБ миттєва, але знає лише англійську і то не блискуче.

Тож справжнє питання не «яка модель найкраща». Воно звучить як «який компроміс мені потрібен». Щойно ви розумієте, хто ви — диктувальник лише англійською на скромному ноутбуці, перекладач, що працює з дев'ятьма мовами, чи людина, якій просто потрібен найшвидший локальний варіант — вибір виходить сам собою. Я пройдуся англійськими моделями, багатомовними, поясню, де Parakeet випереджає їх усі, і дам однорядкову рекомендацію, якщо решту читати вам не хочеться.

Почніть з одного запитання: що для вас найважливіше?

Вивітрений дерев'яний дороговказ зі стрілками в різні боки на тлі ясного неба

Перш ніж називати будь-яку модель, дайте відповідь на одне запитання: що для вас зараз найважливіше — швидкість, точність, охоплення мов чи місце на диску? Пріоритет можна обрати лише один, бо моделі поступаються одна одній за цими параметрами. Більшість тих, хто мучиться з вибором, ще не вирішили, що саме оптимізують, — тому список і здається паралізуючим. Це не так. Це чотири короткі відповіді під вісьмома назвами.

Якщо вам потрібна швидкість і ви говорите англійською, ви опинитеся на малій англійській моделі або, найімовірніше, на Parakeet. Якщо вам потрібна мова, відмінна від англійської, ви в багатомовній родині, подобається вам це чи ні. Якщо вам потрібна найточніша транскрипція, яку можна отримати локально, і у вас є для неї оперативна пам'ять, це велика модель. А якщо місця на диску обмаль, найменша модель — ваш друг, і варіант на 3 ГБ відпадає. Ось і все дерево рішень, а решта посібника лише вписує сюди назви.

Одне застосунок робить навмисно: він ніколи не нав'язує вам стандартний вибір. Немає значка «рекомендовано», який підштовхує до моделі, що випадково гарно виглядає в нашому бенчмарку. Ви бачите Cloud, бачите Parakeet, бачите вісім моделей Whisper, поділених на англійські й багатомовні, і обираєте самі. Якщо ви вже налаштовували голос у текст на Windows чи на Mac раніше, це той самий екран, наведений на інше запитання.

Англійські моделі — від крихітного ноутбука до найвищої точності

Якщо ви диктуєте лише англійською, англійські моделі — найощадливіший вибір: вони відмовляються від багатомовного механізму й витрачають цей ресурс на саму англійську. Їх чотири, і вони акуратно вишиковуються від «старого ноутбука» до «найкращої англійської, яку можна запустити локально». Ви натискаєте гарячу клавішу, говорите, відпускаєте — і транскрипт вставляється там, де курсор, незалежно від обраної моделі; різниця лише у швидкості та в тому, як часто вона влучно розпізнає складне слово. Поки ви говорите, з'являється невеличка капсула, щоб ви знали, що вас слухають:

Cancel
Накладка запису: невеличка капсула, що з'являється, поки ви говорите, аби ви знали, що Whisper слухає.

Найменша — Base, близько 140 МБ. Її варто обрати на ноутбуці 2016 року чи комп'ютері з 8 ГБ, де ви хочете диктовку, яка просто працює без думок про оперативну пам'ять. Над нею стоїть Small, близько 480 МБ, — збалансований англійський варіант: повільніший за Parakeet, але підтримує переклад англійською та зміщення на ключові слова, чого Parakeet не вміє. Далі Medium на близько 1,5 ГБ, якій потрібно 16 ГБ оперативної пам'яті й яка дає найвищу точність простої англійської в цій родині. (У публічному бенчмарку середня англійська модель показує близько 3% помилок на слово на чистому аудіо; у Small ближче до 5%. Реальні цифри залежать значно більше від вашого мікрофона, ніж від того, яку з них ви оберете.)

Четверта плутає людей, тож скажу прямо. Turbo, тобто модель distil-large-v3, теж важить близько 1,5 ГБ і описується як у 6 разів швидша за велику модель із 99% її точності. Це звучить як безкоштовний сир, і для англійської це майже так і є — її варто обрати, коли потрібна точність, близька до найкращої англійської, без втрати швидкості повної великої моделі. Підступ у позначці «лише англійська»: ці чотири знають англійську й тільки англійську. Щойно вам потрібна друга мова, ви повністю залишаєте цю родину — про що й наступний розділ.

Багатомовні моделі — для решти 98 мов

Щойно ваше аудіо не англійською, вам потрібна багатомовна модель. Багатомовні збірки Whisper охоплюють 99 мов з автовизначенням, і це єдиний локальний шлях, що вміє перекладати мовлення англійською просто під час транскрибування. Англійські моделі цього не вміють, як і Parakeet. Тож якщо ви диктуєте українською, нотуєте японською чи хочете, щоб іспанський запис вийшов англійським текстом, ця родина — відповідь, і крапка.

Тут теж чотири моделі, і вони віддзеркалюють англійські розміри. Small, близько 480 МБ, — швидка багатомовна основа: загальна стандартна модель, з якою постачається застосунок, бо це найбезпечніший перший здогад, поки ніхто не знає вашої мови. Medium, близько 1,5 ГБ, міняє швидкість на помітно кращу якість. Large v3, близько 3 ГБ, — найвища точність, яку можна отримати локально, і правильний вибір для професійної багатомовної роботи, якщо у вас є 16 ГБ оперативної пам'яті, щоб її прогодувати. А Large v3 Turbo, близько 1,62 ГБ, — швидкий багатомовний рівень: майже вся якість великої моделі за частку очікування.

Кілька слів про кількість мов, бо безпечне для маркетингу число й реальне різняться залежно від того, що ви маєте на увазі. Багатомовні моделі справді охоплюють 99 мов; англійські — рівно одну. Якщо ви здебільшого говорите англійською й вряди-годи переходите на другу європейську мову, у вас є варіант швидший за будь-який із цих — це Parakeet, який і слід зрозуміти наступним, бо саме його найчастіше обирають помилково або помилково оминають.

Коли Parakeet перемагає Whisper, а коли ні

Бігун у розмитому русі на біговій доріжці, що передає швидкість і фору на старті

Parakeet — узагалі не модель Whisper: це рушій NVIDIA TDT, близько 600 МБ, і найшвидший локальний варіант, що постачається із застосунком, описаний як у 5–10 разів швидший за Whisper на процесорі. Якщо у вас старіший чи ноутбучний процесор без окремого GPU, ця різниця у швидкості — то різниця між диктовкою, що відчувається миттєвою, і диктовкою, яка змушує чекати. Для щоденної роботи англійською Parakeet — те, до чого я тягнуся першим.

Він охоплює англійську плюс 24 інші європейські мови — 25 загалом — тож для багатьох європейських користувачів цього досить. Чого він навмисно не робить — це фішок, властивих лише Whisper: жодного перекладу англійською, жодного зміщення на ключові слова, жодної підказки з власним словником. Якщо ваша робота — одномовна англійська (або одна з тих 24 європейських мов) і вам просто треба швидко, Parakeet перемагає, і питання закрите. Більше про нього є в розборі моделі Parakeet, якщо хочете повну картину.

Whisper перемагає тієї миті, коли ви виходите за ці межі. Потрібна китайська, японська чи корейська? Багатомовний Whisper, бо Parakeet ними не говорить. Потрібно перекласти запис англійською? Багатомовний Whisper — єдиний локальний шлях, що це робить. Хочете змістити модель до списку назв продуктів чи жаргону, щоб вона перестала їх калічити? Whisper, через ключові слова. Правило великого пальця: Parakeet — для швидкості англійською, Whisper — для мов, перекладу й контролю. Застосунок постачається з обома, бо жоден сам по собі не є правильною відповіддю для всіх.

Розмір, швидкість і точність: як насправді працює компроміс

Корисно побачити три сили поряд, бо кожна модель — це лише інша точка на тому самому трикутнику. Більші файли точніші й повільніші; менші — швидші й легші для оперативної пам'яті; а спеціальні рушії згинають криву. Ось чесна версія кожної сили, бо застосунок змушує вас обирати, і я волів би, щоб ви обирали, знаючи ціну.

Три способи прочитати лінійку, залежно від того, що вас тисне:

  • Якщо проблема у швидкостіберіть передусім Parakeet — близько 600 МБ і у 5–10 разів швидший за Whisper на процесорі. На комп'ютері без GPU ніщо локальне не зрівняється з ним для щоденної англійської. Ціна — немає перекладу англійською та ключових слів.
  • Якщо проблема в точності чи мовіберіть більше з родини Whisper. Large v3 на близько 3 ГБ — найкраща локальна точність і охоплення 99 мов, але йому потрібно 16 ГБ оперативної пам'яті. Варіанти Turbo дають вам більшість цієї якості з куди меншим очікуванням. Small і Medium — розважлива середина.
  • Якщо проблема в місці на диску чи оперативній пам'ятілишайтеся малими (Base на близько 140 МБ) або відмовтеся від локального зовсім і скористайтеся режимом Cloud, який працює на будь-якому залізі, бо це просто мережевий виклик до OpenAI з вашим власним ключем. Cloud входить до Whisper Pro і потребує інтернету.

Нудна правда в тому, що для більшості людей на сучасному комп'ютері різниця між середніми моделями менша за різницю, яку дає ваш мікрофон. USB-мікрофон за $20 робить для точності більше, ніж стрибок зі Small до Large — публічні бенчмарки Whisper це підтверджують, і я не раз спостерігав це на власному столі. Тож не мучтеся над вибором між Medium і Large першого дня. Оберіть те, що влізає у вашу оперативну пам'ять, починайте диктувати й оновіть модель пізніше, якщо якесь слово вперто виходить неправильним. Модель, яку ви насправді залишите, — та, що достатньо швидка, аби ви забули про її існування.

Спробуйте одну, а тоді перемкніться двома клацаннями, якщо не та

Ось частина, що знімає тиск з усього рішення: ви не одружуєтеся з тією моделлю, яку обрали першою. Перемикання — це два клацання в налаштуваннях, і єдина реальна ціна — завантаження тієї моделі, на яку ви переходите. Тож правильна стратегія — не досліджувати годину, а зробити розумний перший здогад, подиктувати ним день і перемкнутися, якщо дратує. Уся локальна частина безкоштовна для будь-якого облікового запису з входом, без запиту платіжних даних під час реєстрації, тож спробувати кілька моделей не коштує нічого, крім місця на диску.

Крок 1 — відкрийте налаштування й знайдіть панель Transcription.

Саме там живе список моделей, поділений на англійські й багатомовні, поряд із Parakeet і Cloud. Нічого не позначено наперед як «найкраще».

Ви зрозумієте, що ви в потрібному місці, коли побачите список моделей із розмірами поряд із кожною назвою.

Крок 2 — зробіть перший здогад на основі розділу вище.

Англійська і потрібна швидкість: Parakeet. Англійська і потрібна точність: Small або Medium English. Інші мови: багатомовна модель. Обмаль оперативної пам'яті: Base.

Ви зрозумієте, що спрацювало, коли модель завершить завантаження й покаже себе готовою.

Крок 3 — подиктуйте нею день.

Використовуйте її на реальній роботі, а не на тестовому реченні. Одне пообіддя справжніх нотаток навчить вас більше, ніж будь-який графік бенчмарку.

Ви зрозумієте, що це правильна модель, коли перестанете її помічати і просто говоритимете.

Крок 4 — перемкніться, якщо не та.

Надто повільно — оберіть щось менше або Parakeet. Бракує мови чи калічить слова — переходьте на багатомовну або більшу. Два клацання, одне завантаження, готово.

Ви зрозумієте, що спрацювало, коли нова модель завантажиться й ваш наступний запис скористається нею.

Whisper
Справжній застосунок Whisper для комп'ютера на екрані налаштувань, із панеллю Transcription, де ви обираєте й перемикаєте моделі.

Люди ставляться до цього як до дверей в один бік, але це не так. Перша модель, яку я колись запустив, не була тією, яку я залишив; я почав з багатомовної за звичкою, усвідомив, що цілий день диктую англійською, і перейшов на Parakeet заради швидкості. Це забрало два клацання й завантаження завдовжки з одну каву. Сприймайте перший вибір як чернетку.

Швидка рекомендація, якщо ви перескочили в кінець

Якщо ви не читали більше нічого, ось воно. Англійська, хочете швидко, скромний комп'ютер: Parakeet. Англійська, хочете найкращу локальну точність: модель Medium English або Turbo, якщо хочете цю точність без очікування. Інша мова чи потрібен переклад: багатомовна модель — Small на старт, Large v3, якщо точність важлива й у вас є 16 ГБ оперативної пам'яті. Обмаль місця чи оперативної пам'яті: Base. Хочете топову точність із доступом до інтернету й вас влаштовує власний ключ OpenAI: Cloud. Ось і вся карта.

Хоч би що ви обрали, сирий транскрипт виходить суцільним потоком — і це правда для будь-якого мовленнєвого рушія, не лише нашого. Ви кажете «окей то постав модель для зустрічей на medium і нагадай протестувати велику пізніше», і саме таку стіну без розділових знаків ви отримуєте назад. Whisper може прогнати прохід очищення штучним інтелектом, щоб виправити пунктуацію й прибрати слова-паразити перед тим, як текст приземлиться — скажіть фразу активації «Hey whisper», і він спершу все причепурить. На локальній моделі це працює через Ollama; у режимі cloud за замовчуванням це gpt-5-mini.

Thinking...
Накладка покращення: необов'язковий прохід штучного інтелекту очищає пунктуацію й слова-паразити перед тим, як текст приземлиться.
Сире

окей то постав модель для зустрічей на medium і нагадай протестувати велику пізніше ну може parakeet для швидких штук

Очищене

Окей, то постав модель для зустрічей на Medium і нагадай протестувати Large пізніше — може, Parakeet для швидких штук.

Одне чесне застереження, яке належить у кінець будь-якого посібника «яку модель»: якщо все, що ви робите, — це вкинути нотатку з 30 слів у текстове поле, можливо, вам узагалі не треба обирати модель. На Windows вбудована панель Voice Typing відкривається клавішею Windows + H там, де ваш курсор — вона сама ставить розділові знаки й безкоштовна, хоч і ходить через сервери Microsoft і потребує інтернету. На Mac диктовка в System Settings робить те саме, а на Apple Silicon загальний текст може оброблятися на пристрої. Нижче за поріг, де точність і довжина починають дошкуляти, користуйтеся тим, що вже є на вашому комп'ютері. Ми починаємо вартувати завантаження, коли ви працюєте з реальним обсягом, хочете офлайн-приватності або потребуєте мови й контролю, яких вбудовані засоби не пропонують. Я не казатиму вам ставити застосунок, щоб надиктувати список покупок.

«Найкраща» модель Whisper — та, про яку ви перестаєте думати. Оберіть компроміс, який вас турбує, зробіть перший здогад і перемкніться двома клацаннями, якщо дратує. Я постачав системи, де схема архітектури була неправильною вже на другому коміті, тож маю здорову повагу до «просто спробуй і підлаштуй». Ваш вибір моделі — нижчі ставки за це і його куди легше скасувати. Почніть звідкись. Завантаження — то повільна частина; визначення такою бути не повинно.

Оберіть модель і починайте говорити

Зробіть перший здогад, подиктуйте день, перемкніться двома клацаннями, якщо не та. Застосунок показує вам кожен варіант і дає обрати.

Безкоштовний локальний режим для будь-якого облікового запису з входом. Картка для початку не потрібна.

Фото Denys Medvediev

Denys Medvediev

Це я читаю нашу пошту підтримки, найімовірніше — диктуючи відповіді.

Що почитати далі