What is a good word error rate for Whisper?

On clean, read English, Whisper's medium model is documented at around 3% word error rate and the small model around 5%. For context, professional human transcriptionists land near 4% on clean audio, so Whisper is roughly at human level on that kind of recording. Real-world WER is higher because everyday audio is noisier than a benchmark.

Is Whisper accurate enough for professional work?

Yes, for dictation, notes, drafts, and meeting recaps on clear audio in a well-supported language. It is not perfect, so anything high-stakes — names, numbers, legal or medical terms — deserves a final read-through. The headline accuracy number treats every word equally, but the one word that matters is the one you should always check.

What hurts Whisper's accuracy the most?

Background noise and a poor microphone are the biggest factors, ahead of the model you choose. After that come heavy accents on technical jargon, low-resource languages, and overlapping speakers, which Whisper handles worst because it's built for one voice at a time. A quiet room and a decent mic fix more than any model upgrade.

Does a bigger Whisper model mean better accuracy?

Generally yes — larger models are more accurate and slower, with Large v3 the most accurate local option. But the gap between a small and a large model on clean audio is only a few points of WER, smaller than the gap between a laptop mic and a USB mic. Turbo is a popular middle ground: about 6 times faster than Large v3 with roughly 99% of its accuracy.

How can I improve my own transcription accuracy?

Fix the microphone first, then quiet the room, then match the model to the job. A $20 USB mic does more for accuracy than any model upgrade. On local Whisper you can add custom vocabulary and hotwords to bias toward names and jargon, and an AI cleanup pass fixes punctuation and filler after the fact.

How accurate is Whisper for languages other than English?

Whisper's multilingual models cover 99 languages, with English best-supported and major European and Asian languages strong. Low-resource languages have less training data and are more error-prone. Translate-to-English is multilingual Whisper only — not the English-only builds, and not Parakeet, which covers 25 languages. Test your specific language on your own audio before trusting it.

Is cloud transcription more accurate than local Whisper?

Cloud mode (OpenAI, using your own key) generally has the edge in raw accuracy, with local Large v3 a close second. But accuracy is decided by your audio first: a clean local recording beats a muffled cloud one. For most dictation, local is plenty and keeps everything on your machine. Reach for cloud on genuinely hard recordings or when you need web access.

Does the AI cleanup pass improve accuracy?

It improves readability, not raw transcription accuracy. The model's job is to hear your words correctly; the cleanup pass adds punctuation, strips filler, and tidies run-ons so the correct words read like edited prose. It runs through Ollama locally or gpt-5-mini in cloud mode, triggered by the phrase "Hey whisper."

Автор: Денис Медведєв2 квітня 2026 р.

Пояснення

Наскільки точний Whisper насправді

Whisper дуже точний на чистому англійському аудіо і впевнено тримається в основних мовах, але не бездоганний. Найбільший вплив на вашу точність має мікрофон і тиха кімната, а не вибрана модель. ШІ-прохід виправляє пунктуацію і слова-паразити після запису.

Останнє оновлення: червень 2026

Синя звукова хвиля на темному екрані, яка символізує вимірювання точності розпізнавання мовлення

Whisper достатньо точний для щоденного диктування і професійних нотаток — близько 3% рівня помилок слів на чистій читаній англійській із моделлю medium. Точність знижується з акцентами, фоновим шумом, жаргоном і кількома голосами одночасно. Найкраще, що більшість людей може зробити, — це придбати кращий мікрофон і знайти тиху кімнату, а не завантажувати більшу модель.

«Наскільки точний Whisper» — одне з тих питань, де є чесна відповідь і маркетингова, і вони не збігаються. Маркетингова відповідь: «неймовірно точний, найсучасніший». Чесна відповідь: «дуже добрий на чистому записі, помітно гірший на поганому, і різниця між цими двома — здебільшого ваш мікрофон». Я сам бачив, як та сама модель ідеально транскрибує речення через USB-мікрофон за $20 і ламає його через вбудований мік ноутбука на шумній кухні.

Тому це не пост про рейтинги бенчмарків. Це відповідь, яку я дав би другу, що запитує, чи можна довіряти голосовому набору для справжньої роботи. Коротко: так, з застереженнями, які ви можете контролювати. Детально — нижче: одне число, яке справді важливе, і три речі, що непомітно руйнують точність незалежно від якості моделі.

Ось що більшість сторінок про «точність Whisper» оминають. Точність — це не одне число. Воно змінюється залежно від розміру моделі, мови, якою ви говорите, і — більше за обидва ці фактори — якості вхідного аудіо. Мала модель на чистому записі перевершить велику модель на приглушеному щоразу.

Дослідники вимірюють це через рівень помилок слів, зазвичай WER. Це відсоток слів, які система розпізнала неправильно. Опублікований WER Whisper на чистій англійській низький. Ваш WER у вівторок вдень із працюючою посудомийкою — зовсім інша історія. Я поясню, що означає це число, яких показників насправді досягає Whisper, що знижує точність, і нудне дешеве рішення, яке допомагає більше за будь-яке оновлення моделі.

Що «точність» насправді означає: рівень помилок слів

Крупний план хвилі аудіоредактора на темному моніторі, що ілюструє вимірювання помилок мовлення

Коли люди кажуть, що система транскрипції «точна на 95%», вони майже завжди мають на увазі рівень помилок слів, або WER. Це найпростіша чесна міра: беремо відомий текст, система його транскрибує, потім рахуємо неправильні слова. WER 5% означає, що з кожних 100 слів 5 вийшли хибними — заміна, пропуск або вставка слова, якого не було. Менше — краще. Нуль був би ідеальним, але нічого реального до нуля не доходить.

Останнє важливо, тому скажу прямо. Жоден рушій розпізнавання мовлення не є досконалим, і будь-який продукт, що стверджує інше, округлює цифри для презентації. Люди теж не ідеальні транскриптори — професійні транскриптори досягають близько 4% WER на чистому аудіо і гірших показників на складних записах. Тому коли ви читаєте, що Whisper дає «3% WER», це приблизно людський рівень на такому аудіо, а не магія. Це інструмент, який правий більшість часу і помиляється іноді — як кожен інструмент.

Ще один нюанс, вартий тридцяти секунд. WER рахує кожне слово рівнозначно, що не відповідає тому, як ви насправді відчуваєте помилки. Якщо Whisper переплутав «їх» і «їхній» — це помилка в 1 слово, яка майже не помічається. Якщо неправильно почув ім'я клієнта або дозування ліків — теж помилка в 1 слово, що руйнує речення. Тому заголовне число показує загальну картину, але не каже, чи вижило те єдине слово, яке важливе. Ось чому фінальне перечитування ніколи не виходить з моди, хоч який би низький WER.

То наскільки точний Whisper на практиці

На чистій читаній англійській Whisper по-справжньому сильний. Задокументовані публічно бенчмарки ставлять модель medium на рівень близько 3% WER на стандартному наборі для чистого мовлення, а меншу модель — близько 5%. Простими словами: на пристойному записі чіткого мовлення ви матимете одне-два неправильних слова на кілька речень — зазвичай омофон або зайва кома, а не скалічений зміст. Для диктування листів, нотаток і чернеток це давно за порогом, де інструмент економить час, а не витрачає його.

Механіка в додатку однакова незалежно від того, яким вийде результат. Ви натискаєте гарячу клавішу, говорите, відпускаєте — і транскрипт вставляється в будь-який активний додаток прямо під курсором. Поки ви говорите, з'являється маленька капсула, щоб ви знали, що запис іде. Те, що ви бачите в капсулі, — живий запис. Питання точності вирішується за півсекунди після того, як ви відпустили клавішу, коли модель перетворює аудіо на текст.

Cancel

Оверлей запису: маленька капсула, що з'являється під час говоріння, — знак того, що Whisper вас слухає.

Чесне застереження стоїть прямо поряд із гарним числом. Ці бенчмаркові цифри — чисте читане мовлення в лабораторії. Ваша кухня, ваш акцент, ваша звичка обривати речення на середині — нічого з цього немає в тестовому наборі. Бенчмарк показує стелю. Решта цього посібника — про те, наскільки близько до тієї стелі ви насправді опиняєтеся і від чого це залежить. Спойлер: найбільший важіль — не модель.

Що насправді рухає число вгору або вниз

Три речі формують вашу реальну точність значно більше, ніж назва моделі: аудіо, мова і самі слова. Якість аудіо — на першому місці з великим відривом. Вбудований мікрофон ноутбука, що підхоплює відлуння кімнати, гул вентилятора і питання дитини, чому місяць іноді не видно, ставить перед будь-якою моделлю набагато складніше завдання, ніж подкастний мікрофон у тихій кімнаті. Та сама модель, те саме речення може перейти від майже ідеального до помітно хибного лише через умови запису. Це важіль, який майже ніхто не крутить, — і він окупається найбільше.

Мова — другий важіль. Багатомовні збірки Whisper охоплюють 99 мов, але це покриття нерівномірне. Англійська підтримується найкраще, основні європейські та азійські мови — сильні, а маловикористовувані мови — ті, що мають менше навчальних даних в інтернеті, — слабші і більш схильні до помилок. Переклад на англійську — лише в багатомовному Whisper; англомовні збірки цього не роблять, і Parakeet з 25 мовами — теж. Тому «підтримує 99 мов» — правда, яка не означає, що всі 99 мов однаково точні. Перевірте свою конкретну мову на власному аудіо, перш ніж довіряти їй щось важливе.

Третій важіль — зміст. Акценти зсувають число — Whisper обробляє широкий діапазон без жодного «навчання», але сильний акцент у поєднанні з технічним жаргоном — найгірший сценарій для будь-якого рушія. Галузева лексика теж збиває: незвичні назви продуктів, медичні або юридичні терміни, прізвища, яких модель ніколи не бачила. А кілька голосів одночасно — справжня тверда стіна: Whisper розрахований на один голос, тому двоє людей, що говорять одночасно, дадуть кашу. У локальному Whisper можна протистояти цьому за допомогою власного словника і налаштування гарячих слів, підштовхуючи модель до потрібних назв і термінів. Parakeet гарячих слів не пропонує — і це вагома причина обрати Whisper, якщо ваша робота рясніє власними назвами.

Більша модель, більша точність, менша швидкість

Є реальний компроміс між точністю і швидкістю, і додаток не ховає його від вас. Як правило, чим більша модель Whisper, тим вона точніша і тим повільніше працює. Англомовна модель Small займає близько 480 МБ і швидка; Medium — приблизно 1,5 ГБ і точніша; багатомовна Large v3 — близько 3 ГБ і найточніша, але їй потрібно 16 ГБ оперативної пам'яті і сучасне залізо, щоб не відчувалося гальм. Вибирайте найбільшу модель, яка комфортно працює на вашому пристрої, а не найбільшу з існуючих.

Цікавий виняток — Turbo. Збірка Turbo (distil-large-v3) задокументована як приблизно у 6 разів швидша за Large v3 при збереженні близько 99% точності. Це золота середина, на якій зупиняється більшість людей: майже якість найбільшої моделі без очікування. Займає близько 1,5 ГБ. Якщо вам потрібна висока точність без спінера, Turbo — прагматичний вибір.

Ось що переосмислює весь компроміс. Розрив у точності між малою моделлю і найбільшою реальний, але менший, ніж ви думаєте, — кілька відсоткових пунктів WER на чистому аудіо. Розрив у точності між мікрофоном ноутбука і пристойним USB-мікрофоном на тій самій моделі — більший. Тому перш ніж завантажувати 3 ГБ в погоні за останнім пунктом точності, підключіть кращий мікрофон і запишіться десь у тихому місці. Нудна правда: більшість скарг «модель помилилася» насправді є «кімната помилилася».

Локально чи в хмарі: де живе найвища точність

Додаток не вибирає за вас. Він пропонує три шляхи і дозволяє вибрати залежно від того, що для вас важливо — швидкість, охоплення мов або максимальна точність. Якщо говорити конкретно про точність — ось як вони розташовуються, бо різниця реальна і варта розуміння до того, як ви довірите їй запис.

Три шляхи, ранжовані за реальною точністю:

Локальний Parakeet — Рушій TDT від NVIDIA, близько 600 МБ, найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Точність хороша — не рівень Large-v3, але більш ніж достатньо для щоденного диктування англійською. Охоплює англійську та 24 європейські мови, 25 загалом. Немає перекладу на англійську, немає гарячих слів. Вибирайте, коли важлива швидкість і ви переважно говорите англійською.
Локальний Whisper — повільніший за Parakeet на тому самому пристрої, але багатомовні збірки охоплюють 99 мов, перекладають на англійську і дозволяють налаштувати власний словник і гарячі слова — засоби контролю точності, що важливі для власних назв і жаргону. Найбільша збірка (Large v3) — найточніший локальний варіант. Вибирайте для багатомовної роботи, перекладу або тонкого налаштування.
Хмара (OpenAI, BYOK) — найвища точність і доступ до вебу за допомогою вашого власного ключа OpenAI, рахунок виставляє безпосередньо OpenAI. За замовчуванням транскрипція виконується через gpt-4o-mini-transcribe. Потрібен інтернет, тому це єдиний шлях, де ваше аудіо залишає ваш пристрій. Хмарний режим — частина Whisper Pro.

Чесний рейтинг за «сирою» точністю виглядає приблизно так: хмара на першому місці, локальний Large v3 — відразу за ним, Parakeet — надійний третій для англійської. Але «найвища точність» виграє лише тоді, коли ваше аудіо досить чисте, щоб це мало значення. Хмара з приглушеним записом з іншого кінця кімнати не переможе локальний Whisper на чистому. Для більшості диктувань обидва локальні рушії повністю працюють на вашому пристрої без відправлення даних на сервер — і цього цілком достатньо. Звертайтеся до хмари, коли запис справді складний або коли потрібно витягнути факт із вебу прямо під час речення.

Чотири способи підвищити власну точність

Стеля Whisper встановлена моделлю. Ваша підлога — усім навколо неї, і саме тут більшість людей втрачає точність. Гарна новина: виправлення дешеві й займають кілька хвилин. Ось чотири, що мають значення, у порядку корисності.

Крок 1 — Спочатку виправте мікрофон.

USB-мікрофон за $20 дає більше для точності, ніж будь-яке оновлення моделі. Тримайте його близько, під кутом від рота, щоб уникнути хлопків, і подалі від вентилятора ноутбука. Це єдина зміна з найвищою віддачею.

Ви зрозумієте, що це спрацювало, коли те саме речення, що виходило спотвореним через мікрофон ноутбука, вийде чистим.

Крок 2 — Усуньте шум у кімнаті.

Зачиніть двері, призупиніть музику, дочекайтесь кінця циклу посудомийки. Фоновий шум і відлуння — це і є більшість моментів «модель помилилася». Тиха кімната безкоштовна.

Ви зрозумієте, що це спрацювало, коли слова-паразити і напівпочуті фрази перестануть з'являтися в транскрипті.

Крок 3 — Підберіть модель під завдання.

Вибирайте найбільшу модель, яка комфортно працює на вашому пристрої, або Turbo для близької до максимальної точності зі швидкістю. Для імен і жаргону в локальному Whisper додайте власний словник і гарячі слова, щоб модель схилялася до ваших термінів.

Ви зрозумієте, що це спрацювало, коли модель завершить завантаження, з'явиться як готова, і власні назви почнуть розпізнаватися правильно.

Крок 4 — Нехай ШІ-прохід все причепурить.

Сире диктування — це суцільний потік зі словами-паразитами. Whisper може запустити ШІ-прохід очищення, який виправляє пунктуацію, видаляє «ем», і приводить речення до ладу перед вставкою. Вимовте активаційну фразу «Hey whisper», щоб запустити його.

Ви зрозумієте, що це спрацювало, коли вставлений текст читатиметься як відредагована проза, а не транскрипт.

Whisper

Справжній десктопний додаток Whisper на екрані налаштувань із відкритими панелями Транскрипція і ШІ.

Останній крок варто побачити, бо він змінює саме значення «точності» для вашого результату. Транскрипція може бути слово в слово ідеальною і все одно читатися як суцільний потік — бо так люди говорять. Прохід очищення виправляє читабельність, яку WER ніколи не вимірює. На локальній моделі він працює через Ollama; у хмарному режимі — gpt-5-mini за замовчуванням. Ось те саме речення до і після проходу:

Thinking...

Оверлей під час ШІ-проходу очищення — до того, як причепурений текст вставляється під курсор.

До

um so the accuracy mostly comes down to the mic not the model and like a quiet room helps more than people think

Після

The accuracy mostly comes down to the mic, not the model — and a quiet room helps more than people think.

Зверніть увагу: очищення не змінило жодного значення — воно додало пунктуацію і прибрало слова-паразити, що були в сирому транскрипті. Саме це люди плутають із точністю, а не варто. Завдання моделі — правильно почути вас. Завдання ШІ-проходу — зробити правильні слова читабельними. Наведіть мікрофон і кімнату до ладу — і обидва завдання стануть простішими. Якщо хочете потік «говориш — отримуєш чисту прозу» в будь-якому додатку, та сама гаряча клавіша диктуватиме чисту прозу в будь-який додаток, а не лише в один.

Чесний вердикт щодо точності Whisper

Терези на темній поверхні, що символізують чесне зважування переваг і обмежень

Отже, пряма відповідь. Whisper достатньо точний, щоб довіряти йому реальну роботу — листи, нотатки, чернетки, підсумки нарад — на чистому аудіо з добре підтримуваною мовою. Він не досконалий і ніколи не претендує на це. Акценти, фоновий шум, важкий жаргон і кілька голосів одночасно — все це знижує число, і ніяка модель повністю не врятує поганий запис. Якщо ви прийшли сюди в пошуках «100% точності» — чесна відповідь: нічого такого не існує, і той, хто це продає, продає слайд.

Коли не варто гнатися за рівнем точності Whisper? Якщо ви диктуєте лише час від часу 30-слівний текст, ваша операційна система вже робить це безкоштовно. На Windows натисніть клавіші Windows + H, щоб відкрити «Голосовий набір» де завгодно — він сам розставляє розділові знаки, хоч і маршрутизує через сервери Microsoft і потребує інтернету, тобто не офлайн. На Mac, «Диктування» в системних налаштуваннях вводить текст у будь-яке поле, а на Apple Silicon загальний текст може оброблятися на пристрої. Для коротких фраз це чудово, і я не збираюся радити щось встановлювати заради однорядкового нагадування. Спеціалізований інструмент виправдовує себе при довших нотатках, багатомовній роботі, офлайн-приватності та засобах контролю точності — гарячих словах, виборі моделі, проході очищення — яких вбудовані функції не дають.

Якщо ви вибираєте між локальними рушіями, рішення «точність проти швидкості» — це і є весь вибір, і він простою мовою описаний у якій моделі Whisper використовувати та в огляді моделі Parakeet. Для більшості людей відповідь негламурна: модель середнього розміру, пристойний мікрофон, тиха кімната і прохід очищення. Ця комбінація наближає вас впритул до бенчмарку на аудіо, яке ви реально записуєте.

Якщо точність хвилює вас через бажання повністю уникнути хмари, компроміси в офлайн-розпізнаванні мовлення розкривають, як локальні моделі тримаються без мережі.

На початку я тиждень був переконаний, що оновлення моделі виправить мої транскрипти, завантажив 3 ГБ і виграв хіба що пункт WER. Потім купив USB-мікрофон за $20 і пересів із кухонного столу — і вже того ж вечора транскрипти стали помітно чистішими. Модель ніколи не була проблемою. Кімната була. Whisper дуже точний; чи побачите ви це — залежить від того, що ви йому подаєте.

Почуйте самі на своєму голосі

Завантажте Whisper, підключіть пристойний мікрофон і продиктуйте абзац. Точність набагато легше оцінити на власному аудіо, ніж на чужому бенчмарку.

Завантажити Whisper Подивіться, як це працює

Безкоштовний локальний режим для будь-якого авторизованого акаунту. Картка не потрібна для початку.

Denys Medvediev

Саме я читаю нашу службову пошту підтримки — найімовірніше, диктуючи відповіді.

Додаткове читання

Часті запитання

На чистій читаній англійській модель medium Whisper задокументована з рівнем помилок слів близько 3%, а мала модель — близько 5%. Для порівняння: професійні транскриптори досягають близько 4% WER на чистому аудіо, тому Whisper приблизно на людському рівні для таких записів. Реальний WER вищий, бо повсякденне аудіо шумніше за бенчмарк.

Усі статті

Туторіал

Голосове введення у Word

Win+H і кнопка Dictate обидва дають голосове введення у Word — різні вимоги, однакова залежність від інтернету. Як увімкнути кожен, плюс офлайн-апгрейд.

Пояснення

Гаряча клавіша голосового набору в кожній ОС

Win+H у Windows, Ctrl+Shift+S у Google Docs, Option+F1 у Word, клавіша диктування на Mac — усі комбінації голосового набору в одній таблиці й одна гаряча клавіша для всіх застосунків.

Порівняння

Альтернатива голосовому введенню Google: диктуйте будь-де

Голосове введення Google зупиняється на межі Google Docs. Чесне порівняння з настільним застосунком, який друкує в кожному застосунку, розставляє розділові знаки за вас і працює офлайн.

Автор: Денис Медведєв2 квітня 2026 р.

Пояснення

Наскільки точний Whisper насправді

Останнє оновлення: червень 2026

Що «точність» насправді означає: рівень помилок слів

То наскільки точний Whisper на практиці

Cancel

Оверлей запису: маленька капсула, що з'являється під час говоріння, — знак того, що Whisper вас слухає.

Що насправді рухає число вгору або вниз

Більша модель, більша точність, менша швидкість

Локально чи в хмарі: де живе найвища точність

Три шляхи, ранжовані за реальною точністю:

Локальний Parakeet — Рушій TDT від NVIDIA, близько 600 МБ, найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Точність хороша — не рівень Large-v3, але більш ніж достатньо для щоденного диктування англійською. Охоплює англійську та 24 європейські мови, 25 загалом. Немає перекладу на англійську, немає гарячих слів. Вибирайте, коли важлива швидкість і ви переважно говорите англійською.
Локальний Whisper — повільніший за Parakeet на тому самому пристрої, але багатомовні збірки охоплюють 99 мов, перекладають на англійську і дозволяють налаштувати власний словник і гарячі слова — засоби контролю точності, що важливі для власних назв і жаргону. Найбільша збірка (Large v3) — найточніший локальний варіант. Вибирайте для багатомовної роботи, перекладу або тонкого налаштування.
Хмара (OpenAI, BYOK) — найвища точність і доступ до вебу за допомогою вашого власного ключа OpenAI, рахунок виставляє безпосередньо OpenAI. За замовчуванням транскрипція виконується через gpt-4o-mini-transcribe. Потрібен інтернет, тому це єдиний шлях, де ваше аудіо залишає ваш пристрій. Хмарний режим — частина Whisper Pro.