Усунення несправностей
Диктування вводить не ті слова? 5 способів виправити
Диктування вводить не ті слова, коли модель неправильно розпізнає один звук і вгадує. П'ять причин — четири з них можна усунути за десять хвилин.
Останнє оновлення: червень 2026

Диктування вводить не ті слова, коли мовна модель неправильно розпізнає один звук і переписує речення навколо свого здогаду. Зазвичай причина — слабкий мікрофон, фоновий шум, омофон, який модель не може розрізнити, неправильне налаштування мови або ім'я, якого вона ніколи не зустрічала. Спочатку виправте звук — потім навчіть інструмент своїй лексиці.
Ви кажете «deploy to staging». На екрані з'являється «destroy the stadium». Ви виправляєте. Наступне речення — те саме. На третьому виправленні ви вже друкуєте швидше, ніж говорите, — і весь сенс диктування зникає. Я спостерігав, як цей замкнений круг виводив із рівноваги письменника, менеджера з продажів і мою власну матір, яка одного разу спробувала диктування, а потім повернулась до двопальцьового друку — із принципу. Хороша новина: майже за кожним невірним словом стоїть одна з п'яти причин, і чотири з них ви можете усунути за наступні десять хвилин.
Ось те, про що зазвичай мовчать. Більшість інструментів диктування не зламані, коли так поводяться. Вони вгадують — у реальному часі, в поганих умовах, не маючи поняття, як звати вашого колегу або що «Kubernetes» — це взагалі слово. Локальний режим Whisper має налаштування, яке вирішує останню проблему одразу — поле «Власні слова», куди ви вносите імена та терміни, які хочете, щоб програма чула. Вона їх правильно напише замість того, щоб вигадувати щось схоже за звучанням. Це безкоштовно і працює офлайн. Ми до цього ще дійдемо. Але нудна правда в тому, що мікрофон важливіший за програму, тому почнемо з нього.
Ваше диктування не зламане. Воно вгадує.

Розпізнавання мовлення не чує букв. Воно чує звук і робить ставку на найімовірніші слова, які цей звук утворює, — а потім коригує ставку в міру надходження нових звуків. Саме тому диктування іноді переписує вже сказане. Програма неправильно розпізнає одне слово наприкінці речення, вирішує, що попереднє слово мало бути іншим, щоб граматика мала сенс, — і тихо змінює його.
«Коса» і «коза». «Гриб» і «грип». «Казка» і «каска». Це омофони — слова, що звучать однаково або дуже схоже, — і чіткіша вимова тут не допоможе, бо справа не в чіткості. Модель мусить здогадуватися з контексту, і часом здогадується невірно.
Є також слова, з якими модель ніколи не стикалась. Прізвище вашого керівника. Код продукту. «Remskill». Модель не може написати те, чого не знає, тому підставляє найближче реальне слово, яке їй відоме. Це не баг. Це прогалина у словниковому запасі — і для неї є конкретне рішення, яке ми розберемо нижче.
Мікрофон — головний підозрюваний

Перш ніж звинувачувати програму, подивіться, що їй подається на вхід. Вбудований мікрофон ноутбука знаходиться поруч із кулером, спрямований у стелю і вловлює звуки кімнати не гірше, ніж ваш голос. Сміття на вході — неправильні слова на виході.
Це єдина думка, на яку я готовий поставити всю статтю: «штучний інтелект» не виправляє поганий звук. USB-мікрофон за $20 дасть більше для точності розпізнавання, ніж будь-яке оновлення моделі. Я витратив тиждень, завантажуючи більші й повільніші моделі, щоб позбутися помилок, — поки не помітив, що мій мікрофон ноутбука був спрямований прямо на кулер. Мікрофон і був проблемою весь цей час. Я розробляю це програмне забезпечення як основну роботу. Витратьте гроші спочатку на залізо. Модель — це дешева частина.
Перевірочний тест: продиктуйте три однакових речення через вбудований мікрофон, а потім через гарнітуру або USB-мікрофон. Якщо кількість помилок зменшилась — винен мікрофон, і ви вже закінчили. Більшість людей зупиняються на цьому місці — і це нормально.
Фоновий шум і акустика приміщення

Посудомийна машина в сусідній кімнаті. Телефонна розмова колеги. Відкритий офіс, де чутно, як хтось хрумтить чіпсами через кілька столів. Модель не розрізняє ваш голос і фоновий шум — вона транскрибує те, що найгучніше, і іноді перемагають чіпси.
Огляд AI від Google саме з цієї проблеми називає фоновий шум основною причиною нарівні з акцентами та омофонами. Рішення — незвабливе: зачиніть двері, вимкніть кулер, відійдіть від відчиненого вікна. Тиха кімната робить більше, ніж розумний алгоритм.
Перевірка: спробуйте те саме диктування в тихому місці та у вашому звичайному. Якщо в тиші помилок стало менше — винен шум. Якщо тихого місця немає, направлений або шумозаглушувальний мікрофон, що слухає лише те, що прямо перед ним, — наступний найкращий крок. І знову ми повертаємось до заліза, куди й варто вкладати гроші.
Неправильна мова або невідповідність акценту

Якщо диктування налаштоване на автовизначення, а ви перемикаєтесь між мовами, модель витрачає зусилля на визначення мови ще до розпізнавання слів — і помилковий здогад щодо мови отруює все, що після нього. Встановлюйте мову явно, коли є така можливість.
У Whisper це Налаштування → Транскрипція → Мова. Явний вибір мови вмовлення пропускає крок визначення і допомагає моделі точніше розпізнавати слова. Залишайте автовизначення лише якщо ви справді переключаєтесь між мовами під час сесії. Багатомовні моделі Whisper підтримують 99 мов із автовизначенням; версії лише для англійської фіксуються на англійській — це саме те, що потрібно, якщо ви говорите тільки нею.
Невідповідність акценту — рідний брат цієї проблеми. Модель для американської англійської, натренована переважно на американських мовців, спотикатиметься на сильному регіональному акценті. Вибір найближчого регіонального варіанту, який пропонує ваш інструмент, разом із чистим сигналом скорочує цей розрив.
Виправлення на Windows, Mac і iPhone
Вбудоване диктування на кожній платформі має свої особливості й обмеження. На Windows голосовий ввід відкривається клавішею Windows плюс H, але курсор має стояти в текстовому полі, і потрібне інтернет-з'єднання — вбудований інструмент відправляє ваш аудіо в хмару для транскрипції. Якщо він пише нісенітницю — спочатку перевірте з'єднання; форуми підтримки Apple для тієї ж проблеми з невірними словами ставлять «перевірте інтернет-з'єднання» на перше місце. (Для детального покрокового розбору — читайте наш посібник голосовий ввід не працює на Windows.)
На Mac увімкніть диктування клавішею мікрофона в ряду функціональних клавіш, ярликом диктування або через Редагування → Почати диктування. Розвінчаємо один міф: сучасне macOS Dictation дозволяє диктувати текст будь-якої довжини без обмеження за часом — воно зупиняється лише після приблизно 30 секунд тиші, що люди помилково сприймають за жорсткий ліміт. Якщо невірні слова не зникають, наш посібник із усунення проблем із голосовим вводом на Mac розбирає все по кроках. На iPhone форуми Apple також рекомендують вимкнути передбачуваний текст, який іноді «виправляє» те, що диктування розпізнало правильно.
Жорсткіше обмеження: Windows Voice Typing (Win+H) не дає жодного способу додати власні слова чи навчити словник. Окремий інтерфейс диктування у Word дозволяє створити невеликий словник, але інструмент, до якого більшість тягнеться — Win+H — взагалі не можна навчити вашій лексиці. Що підводить нас до єдиного виправлення, яке справді вирішує проблему неправильних імен і термінів.
Навчіть його своїх слів: власний словник
Ось те, чого вбудовані інструменти не можуть дати. Коли ви запускаєте модель Whisper у локальному режимі, ви отримуєте поле «Власні слова» — список імен, термінів і жаргону через кому, які ви очікуєте почути. Вводите «Kubernetes, PostgreSQL, Remskill, Іван Петренко» — і транскрипція схиляється до правильного написання цих слів, коли вони звучать у вашій мові. Це в Налаштуваннях → Транскрипція, у безкоштовному локальному рівні — без картки, без хмари.
Одне застереження, варте уваги: «Власні слова» — це функція моделей Whisper. Parakeet, швидший локальний варіант, не приймає власних слів і підказок — у його описі це прямо сказано. Тому якщо навчання інструменту вашої лексики для вас важливе — вибирайте модель Whisper, а не Parakeet.
Я зрозумів, наскільки це важливо, завдяки своїй молодшій доньці. Я показав їй диктування одного разу — натиснути, сказати, відпустити. Вона одразу написала листа бабусі на 90 слів про зуб, який випав, і про «обмінний курс» зубної феї — без жодного запитання. А потім повернулась роздратована, бо програма постійно спотворювала ім'я її найкращої подруги. Вона не знала, що таке прогалина у словнику. Вона просто знала, що ім'я написано неправильно. Я додав ім'я до «Власних слів» — і скарги припинились. Середньостатистичній людині не потрібно розуміти, чому диктування неправильно пише ім'я. Їй потрібна коробочка, куди це ім'я вписати. Ця коробочка і є суттю всього цього розділу.
Ще один важіль, якщо хочете: Whisper пропонує налаштування профілю — «Швидко», «Збалансовано» або «Точно» — яке керує тим, наскільки уважно слухає модель. «Точно» повільніше, але вловлює більше. А вибір більшої моделі з восьми, які постачає Whisper, — від Base приблизно 140 MB до Large v3 приблизно 3 GB — обмінює швидкість на точність. Жоден із них не є «правильним вибором» для всіх — це ручки налаштування, і проблема з невірними словами підказує, яку з них крутити. Якщо не знаєте, яку завантажити — наш посібник із вибору моделі Whisper розкладе всі компроміси.
Прохід очищення, який виправляє решту
Навіть після того як звук стає чистим і словник завантажений, кілька залишкових помилок усе одно просочуються. Whisper може запустити необов'язковий прохід очищення від ШІ на сирому транскрипті до того, як той потрапить під курсор — він виправляє граматику, пунктуацію і регістр, а також прибирає слова-паразити на кшталт «ну», «е-е», «знаєте». Це працює на вашому пристрої безкоштовно або в хмарному режимі з OpenAI, якщо ви вказали власний ключ.
Це страховочна мережа, а не перший крок. Виправте мікрофон, заглушіть кімнату, встановіть мову, навчіть інструмент своїх слів — а потім дозвольте проходу очищення прибрати решту. Намагатися змусити ШІ-корекцію тексту компенсувати вбудований мікрофон, спрямований на кулер, — значить вирішувати не ту проблему дорогим інструментом. Знаю, бо я сам спочатку випустив прохід очищення, а потім — вибір мови, в точно зворотному порядку, і місяць дивувався, чому мій власний застосунок так поводиться. Для тих, хто хоче тонкого контролю, наш посібник із підказок для Whisper заглиблюється в формування виведення.
Гарячі клавіші для запису: Ctrl+Space на Windows і Command+Option на Mac — обидві можна змінити в Налаштуваннях, якщо вони конфліктують із чимось, що ви вже використовуєте.
Коли вбудований інструмент не підлягає виправленню
Іноді відповідь — не виправлення, а інший інструмент або його повна відсутність. Якщо ви час від часу надсилаєте коротке повідомлення на 30 слів, Apple Dictation і Windows Voice Typing безкоштовні й вбудовані, і прагнення до ідеальної точності — зайве. Користуйтеся тим, що вже є.
Але є реальна стеля. Windows Voice Typing потребує інтернету і не може вивчити вашу лексику. Якщо проблема з невірними словами полягає саме в тому, що інструмент постійно спотворює імена, терміни або технічний жаргон — і ви не можете додати ці слова будь-куди, — вбудований інструмент справді не можна виправити для вашого випадку. Саме тут навчуваний офлайновий інструмент заробляє своє місце. А якщо ви здебільшого транскрибуєте наради з кількома мовцями, а не диктуєте власний текст — це зовсім інша категорія інструментів: транскрипція нарад, а не диктування. Не треба намагатися використовувати застосунок для диктування там, де він не призначений.
Якої точності очікувати від диктування?
Ставте очікування чесно. Чистий звук, відома мова і завантажений словник доведуть вас до того рівня, коли виправлення стануть винятком, а не правилом. Публічні бенчмарки Whisper показують близько 3% помилок на рівні слів на чистій читаній мові з середньою англомовною моделлю. У реальному житті — з вашим акцентом, вашою кімнатою, вашою термінологією — цей показник вищий. Це нормально.
Мета — не нуль помилок. Мета — менше помилок, ніж виникло б при наборі за той самий час, а ця планка нижча, ніж люди думають. Диктування зі швидкістю 145 слів за хвилину перемагає друк зі швидкістю 40 — навіть якщо ви зупинились виправити слово-інше. Якщо ви виправляєте кожне друге слово — щось із наведеного переліку досі зламане. Якщо ви виправляєте кожне десяте слово — ви вже перемогли.
Якщо диктування продовжує вводити не ті слова — виправте звук, встановіть мову і навчіть його ваших імен. А потім дозвольте йому друкувати, поки ви займаєтесь іншим. Моя молодша донька досі називає його «комп'ютером, що говорить». Вона не здогадується ні про поле словника, ні про вибір мови, ні про вісім моделей, що стоять за схемою «натиснути — сказати — відпустити». Саме це й означає, що все працює — коли невірні слова зникають, і ви перестаєте помічати інструмент узагалі.
Хочете, щоб імена звучали правильно?
Завантажте Whisper, додайте перше власне слово і спостерігайте, як помилки зникають уже з першого речення.



