Пояснення
Наскільки точний Whisper насправді
Whisper дуже точний на чистому англійському аудіо і впевнено тримається в основних мовах, але не бездоганний. Найбільший вплив на вашу точність має мікрофон і тиха кімната, а не вибрана модель. ШІ-прохід виправляє пунктуацію і слова-паразити після запису.
Останнє оновлення: червень 2026

Whisper достатньо точний для щоденного диктування і професійних нотаток — близько 3% рівня помилок слів на чистій читаній англійській із моделлю medium. Точність знижується з акцентами, фоновим шумом, жаргоном і кількома голосами одночасно. Найкраще, що більшість людей може зробити, — це придбати кращий мікрофон і знайти тиху кімнату, а не завантажувати більшу модель.
«Наскільки точний Whisper» — одне з тих питань, де є чесна відповідь і маркетингова, і вони не збігаються. Маркетингова відповідь: «неймовірно точний, найсучасніший». Чесна відповідь: «дуже добрий на чистому записі, помітно гірший на поганому, і різниця між цими двома — здебільшого ваш мікрофон». Я сам бачив, як та сама модель ідеально транскрибує речення через USB-мікрофон за $20 і ламає його через вбудований мік ноутбука на шумній кухні.
Тому це не пост про рейтинги бенчмарків. Це відповідь, яку я дав би другу, що запитує, чи можна довіряти голосовому набору для справжньої роботи. Коротко: так, з застереженнями, які ви можете контролювати. Детально — нижче: одне число, яке справді важливе, і три речі, що непомітно руйнують точність незалежно від якості моделі.
Ось що більшість сторінок про «точність Whisper» оминають. Точність — це не одне число. Воно змінюється залежно від розміру моделі, мови, якою ви говорите, і — більше за обидва ці фактори — якості вхідного аудіо. Мала модель на чистому записі перевершить велику модель на приглушеному щоразу.
Дослідники вимірюють це через рівень помилок слів, зазвичай WER. Це відсоток слів, які система розпізнала неправильно. Опублікований WER Whisper на чистій англійській низький. Ваш WER у вівторок вдень із працюючою посудомийкою — зовсім інша історія. Я поясню, що означає це число, яких показників насправді досягає Whisper, що знижує точність, і нудне дешеве рішення, яке допомагає більше за будь-яке оновлення моделі.
Що «точність» насправді означає: рівень помилок слів

Коли люди кажуть, що система транскрипції «точна на 95%», вони майже завжди мають на увазі рівень помилок слів, або WER. Це найпростіша чесна міра: беремо відомий текст, система його транскрибує, потім рахуємо неправильні слова. WER 5% означає, що з кожних 100 слів 5 вийшли хибними — заміна, пропуск або вставка слова, якого не було. Менше — краще. Нуль був би ідеальним, але нічого реального до нуля не доходить.
Останнє важливо, тому скажу прямо. Жоден рушій розпізнавання мовлення не є досконалим, і будь-який продукт, що стверджує інше, округлює цифри для презентації. Люди теж не ідеальні транскриптори — професійні транскриптори досягають близько 4% WER на чистому аудіо і гірших показників на складних записах. Тому коли ви читаєте, що Whisper дає «3% WER», це приблизно людський рівень на такому аудіо, а не магія. Це інструмент, який правий більшість часу і помиляється іноді — як кожен інструмент.
Ще один нюанс, вартий тридцяти секунд. WER рахує кожне слово рівнозначно, що не відповідає тому, як ви насправді відчуваєте помилки. Якщо Whisper переплутав «їх» і «їхній» — це помилка в 1 слово, яка майже не помічається. Якщо неправильно почув ім'я клієнта або дозування ліків — теж помилка в 1 слово, що руйнує речення. Тому заголовне число показує загальну картину, але не каже, чи вижило те єдине слово, яке важливе. Ось чому фінальне перечитування ніколи не виходить з моди, хоч який би низький WER.
То наскільки точний Whisper на практиці
На чистій читаній англійській Whisper по-справжньому сильний. Задокументовані публічно бенчмарки ставлять модель medium на рівень близько 3% WER на стандартному наборі для чистого мовлення, а меншу модель — близько 5%. Простими словами: на пристойному записі чіткого мовлення ви матимете одне-два неправильних слова на кілька речень — зазвичай омофон або зайва кома, а не скалічений зміст. Для диктування листів, нотаток і чернеток це давно за порогом, де інструмент економить час, а не витрачає його.
Механіка в додатку однакова незалежно від того, яким вийде результат. Ви натискаєте гарячу клавішу, говорите, відпускаєте — і транскрипт вставляється в будь-який активний додаток прямо під курсором. Поки ви говорите, з'являється маленька капсула, щоб ви знали, що запис іде. Те, що ви бачите в капсулі, — живий запис. Питання точності вирішується за півсекунди після того, як ви відпустили клавішу, коли модель перетворює аудіо на текст.
Чесне застереження стоїть прямо поряд із гарним числом. Ці бенчмаркові цифри — чисте читане мовлення в лабораторії. Ваша кухня, ваш акцент, ваша звичка обривати речення на середині — нічого з цього немає в тестовому наборі. Бенчмарк показує стелю. Решта цього посібника — про те, наскільки близько до тієї стелі ви насправді опиняєтеся і від чого це залежить. Спойлер: найбільший важіль — не модель.
Що насправді рухає число вгору або вниз
Три речі формують вашу реальну точність значно більше, ніж назва моделі: аудіо, мова і самі слова. Якість аудіо — на першому місці з великим відривом. Вбудований мікрофон ноутбука, що підхоплює відлуння кімнати, гул вентилятора і питання дитини, чому місяць іноді не видно, ставить перед будь-якою моделлю набагато складніше завдання, ніж подкастний мікрофон у тихій кімнаті. Та сама модель, те саме речення може перейти від майже ідеального до помітно хибного лише через умови запису. Це важіль, який майже ніхто не крутить, — і він окупається найбільше.
Мова — другий важіль. Багатомовні збірки Whisper охоплюють 99 мов, але це покриття нерівномірне. Англійська підтримується найкраще, основні європейські та азійські мови — сильні, а маловикористовувані мови — ті, що мають менше навчальних даних в інтернеті, — слабші і більш схильні до помилок. Переклад на англійську — лише в багатомовному Whisper; англомовні збірки цього не роблять, і Parakeet з 25 мовами — теж. Тому «підтримує 99 мов» — правда, яка не означає, що всі 99 мов однаково точні. Перевірте свою конкретну мову на власному аудіо, перш ніж довіряти їй щось важливе.
Третій важіль — зміст. Акценти зсувають число — Whisper обробляє широкий діапазон без жодного «навчання», але сильний акцент у поєднанні з технічним жаргоном — найгірший сценарій для будь-якого рушія. Галузева лексика теж збиває: незвичні назви продуктів, медичні або юридичні терміни, прізвища, яких модель ніколи не бачила. А кілька голосів одночасно — справжня тверда стіна: Whisper розрахований на один голос, тому двоє людей, що говорять одночасно, дадуть кашу. У локальному Whisper можна протистояти цьому за допомогою власного словника і налаштування гарячих слів, підштовхуючи модель до потрібних назв і термінів. Parakeet гарячих слів не пропонує — і це вагома причина обрати Whisper, якщо ваша робота рясніє власними назвами.
Більша модель, більша точність, менша швидкість
Є реальний компроміс між точністю і швидкістю, і додаток не ховає його від вас. Як правило, чим більша модель Whisper, тим вона точніша і тим повільніше працює. Англомовна модель Small займає близько 480 МБ і швидка; Medium — приблизно 1,5 ГБ і точніша; багатомовна Large v3 — близько 3 ГБ і найточніша, але їй потрібно 16 ГБ оперативної пам'яті і сучасне залізо, щоб не відчувалося гальм. Вибирайте найбільшу модель, яка комфортно працює на вашому пристрої, а не найбільшу з існуючих.
Цікавий виняток — Turbo. Збірка Turbo (distil-large-v3) задокументована як приблизно у 6 разів швидша за Large v3 при збереженні близько 99% точності. Це золота середина, на якій зупиняється більшість людей: майже якість найбільшої моделі без очікування. Займає близько 1,5 ГБ. Якщо вам потрібна висока точність без спінера, Turbo — прагматичний вибір.
Ось що переосмислює весь компроміс. Розрив у точності між малою моделлю і найбільшою реальний, але менший, ніж ви думаєте, — кілька відсоткових пунктів WER на чистому аудіо. Розрив у точності між мікрофоном ноутбука і пристойним USB-мікрофоном на тій самій моделі — більший. Тому перш ніж завантажувати 3 ГБ в погоні за останнім пунктом точності, підключіть кращий мікрофон і запишіться десь у тихому місці. Нудна правда: більшість скарг «модель помилилася» насправді є «кімната помилилася».
Локально чи в хмарі: де живе найвища точність
Додаток не вибирає за вас. Він пропонує три шляхи і дозволяє вибрати залежно від того, що для вас важливо — швидкість, охоплення мов або максимальна точність. Якщо говорити конкретно про точність — ось як вони розташовуються, бо різниця реальна і варта розуміння до того, як ви довірите їй запис.
Три шляхи, ранжовані за реальною точністю:
- Локальний Parakeet — Рушій TDT від NVIDIA, близько 600 МБ, найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Точність хороша — не рівень Large-v3, але більш ніж достатньо для щоденного диктування англійською. Охоплює англійську та 24 європейські мови, 25 загалом. Немає перекладу на англійську, немає гарячих слів. Вибирайте, коли важлива швидкість і ви переважно говорите англійською.
- Локальний Whisper — повільніший за Parakeet на тому самому пристрої, але багатомовні збірки охоплюють 99 мов, перекладають на англійську і дозволяють налаштувати власний словник і гарячі слова — засоби контролю точності, що важливі для власних назв і жаргону. Найбільша збірка (Large v3) — найточніший локальний варіант. Вибирайте для багатомовної роботи, перекладу або тонкого налаштування.
- Хмара (OpenAI, BYOK) — найвища точність і доступ до вебу за допомогою вашого власного ключа OpenAI, рахунок виставляє безпосередньо OpenAI. За замовчуванням транскрипція виконується через gpt-4o-mini-transcribe. Потрібен інтернет, тому це єдиний шлях, де ваше аудіо залишає ваш пристрій. Хмарний режим — частина Whisper Pro.
Чесний рейтинг за «сирою» точністю виглядає приблизно так: хмара на першому місці, локальний Large v3 — відразу за ним, Parakeet — надійний третій для англійської. Але «найвища точність» виграє лише тоді, коли ваше аудіо досить чисте, щоб це мало значення. Хмара з приглушеним записом з іншого кінця кімнати не переможе локальний Whisper на чистому. Для більшості диктувань обидва локальні рушії повністю працюють на вашому пристрої без відправлення даних на сервер — і цього цілком достатньо. Звертайтеся до хмари, коли запис справді складний або коли потрібно витягнути факт із вебу прямо під час речення.
Чотири способи підвищити власну точність
Стеля Whisper встановлена моделлю. Ваша підлога — усім навколо неї, і саме тут більшість людей втрачає точність. Гарна новина: виправлення дешеві й займають кілька хвилин. Ось чотири, що мають значення, у порядку корисності.
Крок 1 — Спочатку виправте мікрофон.
USB-мікрофон за $20 дає більше для точності, ніж будь-яке оновлення моделі. Тримайте його близько, під кутом від рота, щоб уникнути хлопків, і подалі від вентилятора ноутбука. Це єдина зміна з найвищою віддачею.
Ви зрозумієте, що це спрацювало, коли те саме речення, що виходило спотвореним через мікрофон ноутбука, вийде чистим.
Крок 2 — Усуньте шум у кімнаті.
Зачиніть двері, призупиніть музику, дочекайтесь кінця циклу посудомийки. Фоновий шум і відлуння — це і є більшість моментів «модель помилилася». Тиха кімната безкоштовна.
Ви зрозумієте, що це спрацювало, коли слова-паразити і напівпочуті фрази перестануть з'являтися в транскрипті.
Крок 3 — Підберіть модель під завдання.
Вибирайте найбільшу модель, яка комфортно працює на вашому пристрої, або Turbo для близької до максимальної точності зі швидкістю. Для імен і жаргону в локальному Whisper додайте власний словник і гарячі слова, щоб модель схилялася до ваших термінів.
Ви зрозумієте, що це спрацювало, коли модель завершить завантаження, з'явиться як готова, і власні назви почнуть розпізнаватися правильно.
Крок 4 — Нехай ШІ-прохід все причепурить.
Сире диктування — це суцільний потік зі словами-паразитами. Whisper може запустити ШІ-прохід очищення, який виправляє пунктуацію, видаляє «ем», і приводить речення до ладу перед вставкою. Вимовте активаційну фразу «Hey whisper», щоб запустити його.
Ви зрозумієте, що це спрацювало, коли вставлений текст читатиметься як відредагована проза, а не транскрипт.
Останній крок варто побачити, бо він змінює саме значення «точності» для вашого результату. Транскрипція може бути слово в слово ідеальною і все одно читатися як суцільний потік — бо так люди говорять. Прохід очищення виправляє читабельність, яку WER ніколи не вимірює. На локальній моделі він працює через Ollama; у хмарному режимі — gpt-5-mini за замовчуванням. Ось те саме речення до і після проходу:
um so the accuracy mostly comes down to the mic not the model and like a quiet room helps more than people think
The accuracy mostly comes down to the mic, not the model — and a quiet room helps more than people think.
Зверніть увагу: очищення не змінило жодного значення — воно додало пунктуацію і прибрало слова-паразити, що були в сирому транскрипті. Саме це люди плутають із точністю, а не варто. Завдання моделі — правильно почути вас. Завдання ШІ-проходу — зробити правильні слова читабельними. Наведіть мікрофон і кімнату до ладу — і обидва завдання стануть простішими. Якщо хочете потік «говориш — отримуєш чисту прозу» в будь-якому додатку, та сама гаряча клавіша диктуватиме чисту прозу в будь-який додаток, а не лише в один.
Чесний вердикт щодо точності Whisper

Отже, пряма відповідь. Whisper достатньо точний, щоб довіряти йому реальну роботу — листи, нотатки, чернетки, підсумки нарад — на чистому аудіо з добре підтримуваною мовою. Він не досконалий і ніколи не претендує на це. Акценти, фоновий шум, важкий жаргон і кілька голосів одночасно — все це знижує число, і ніяка модель повністю не врятує поганий запис. Якщо ви прийшли сюди в пошуках «100% точності» — чесна відповідь: нічого такого не існує, і той, хто це продає, продає слайд.
Коли не варто гнатися за рівнем точності Whisper? Якщо ви диктуєте лише час від часу 30-слівний текст, ваша операційна система вже робить це безкоштовно. На Windows натисніть клавіші Windows + H, щоб відкрити «Голосовий набір» де завгодно — він сам розставляє розділові знаки, хоч і маршрутизує через сервери Microsoft і потребує інтернету, тобто не офлайн. На Mac, «Диктування» в системних налаштуваннях вводить текст у будь-яке поле, а на Apple Silicon загальний текст може оброблятися на пристрої. Для коротких фраз це чудово, і я не збираюся радити щось встановлювати заради однорядкового нагадування. Спеціалізований інструмент виправдовує себе при довших нотатках, багатомовній роботі, офлайн-приватності та засобах контролю точності — гарячих словах, виборі моделі, проході очищення — яких вбудовані функції не дають.
Якщо ви вибираєте між локальними рушіями, рішення «точність проти швидкості» — це і є весь вибір, і він простою мовою описаний у якій моделі Whisper використовувати та в огляді моделі Parakeet. Для більшості людей відповідь негламурна: модель середнього розміру, пристойний мікрофон, тиха кімната і прохід очищення. Ця комбінація наближає вас впритул до бенчмарку на аудіо, яке ви реально записуєте.
Якщо точність хвилює вас через бажання повністю уникнути хмари, компроміси в офлайн-розпізнаванні мовлення розкривають, як локальні моделі тримаються без мережі.
На початку я тиждень був переконаний, що оновлення моделі виправить мої транскрипти, завантажив 3 ГБ і виграв хіба що пункт WER. Потім купив USB-мікрофон за $20 і пересів із кухонного столу — і вже того ж вечора транскрипти стали помітно чистішими. Модель ніколи не була проблемою. Кімната була. Whisper дуже точний; чи побачите ви це — залежить від того, що ви йому подаєте.
Почуйте самі на своєму голосі
Завантажте Whisper, підключіть пристойний мікрофон і продиктуйте абзац. Точність набагато легше оцінити на власному аудіо, ніж на чужому бенчмарку.
Безкоштовний локальний режим для будь-якого авторизованого акаунту. Картка не потрібна для початку.



