Усунення проблем
Чому моє диктування таке неточне?
Зазвичай диктування неточне через налаштування, а не тому, що програма зламана — поганий мікрофон, шумна кімната, не та мова або не та модель.
Останнє оновлення: червень 2026

Зазвичай диктування неточне через налаштування, а не тому, що програма зламана. Найчастіші винуватці — поганий мікрофон, шумна кімната, неправильно вибрана мова та модель, яка не підходить вашому комп'ютеру. Чистий звук у тихій кімнаті з правильною мовою дає більшості людей близько 95% точності — приблизно одне неправильне слово з двадцяти.
Одного разу я бачив, як родич жбурнув гарнітуру через усю кімнату. Це були кінці 1990-х, на столі стояв десктоп із Windows 98 і 64 МБ оперативної пам'яті, а програмою була Dragon NaturallySpeaking. Навчання тривало 45 хвилин — ти вголос зачитував список слів, щоб «відкалібрувати» її. Потім вона працювала, більш-менш, з точністю десь 70% і затримкою в чотири секунди на речення. П'ятнадцять хвилин, щоб надиктувати один абзац святкового листа. Гарнітура вціліла. Експеримент із диктуванням — ні.
Я згадую це, бо роздратування у вашому питанні старе, але причина змінилася. Сучасному диктуванню не потрібен 45-хвилинний ритуал калібрування. Коли воно зараз помиляється у словах, це майже ніколи не тому, що модель нерозумна. Це тому, що звук, який доходить до моделі, гірший, ніж вам здається — і дивовижно велику частину цього можна виправити менш ніж за хвилину. Власна точність Whisper у локальному режимі коливається між 95% і 99% на чистому англійському звуці — але ця цифра передбачає кілька речей, які часто не відповідають дійсності.
Це діагностика, а не список готових порад. Ми з'ясуємо, яка з п'яти речей псує вашу транскрипцію, приблизно в порядку того, як часто кожна з них є справжньою причиною. Якщо вам потрібен детальний розбір мікрофона та власних слів, цією темою займається наш посібник із виправлення диктування, яке друкує не ті слова. Ця стаття допоможе вам спершу знайти причину, щоб ви виправили саме те, що треба.
Яка точність насправді реалістична

Ось цифра, яку ніхто не виносить на свою маркетингову сторінку. Розпізнавання мовлення вимірюється через частку помилок у словах, або WER — частку слів, у яких система помиляється, рахуючи заміни, пропуски та вставки порівняно з тим, що ви насправді сказали. Чим менше, тим краще. WER, що дорівнює нулю, — це ідеальна транскрипція; точність слів — це просто одиниця мінус WER.
На чистому англійському еталоні LibriSpeech середня англійська модель Whisper показує близько 3% WER — приблизно 97% точності. Мала англійська модель тримається в районі 5,1% WER, близько 95%. Це цифри для чистого звуку: тиха кімната, хороший мікрофон, уважний читець. Реальне життя додає шум, акценти, перехресні розмови та жаргон, і кожна з цих речей цілком закономірно піднімає WER угору.
То що ж нормально? Близько 95% на пристойному англійському звуці — одне неправильне слово з двадцяти. Це не дефект. Це інструмент, який працює так, як задумано. Якщо ви сидите на 85% у шумній кухні з вбудованим мікрофоном ноутбука, програма не зламана — умови нижчі за те, що потрібно моделі. Виправляти треба умови, а не ставити більшу модель. Поставте планку на «одне маленьке виправлення на абзац» — і більша частина люті зникне з вашого досвіду.
П'ять підозрюваних, у порядку ймовірності

Коли диктування дає збій, причина майже завжди — одна з п'яти речей. Пройдіться цим списком по порядку. Перші дві охоплюють більшість випадків.
- Налаштування мови. Ви говорите однією мовою; інструмент слухає іншу або вгадує.
- Мікрофон. Вбудований мікрофон ноутбука за метр від вас чує радше кімнату, ніж ваш рот.
- Кімната. Фоновий шум, телевізор, лунка кухня — модель транскрибує все це.
- Модель. Ви вибрали надто важку для вашого заліза, тож вона повільна або захлинається.
- Очікування. Звук нормальний, інструмент нормальний; ви міряєте проти 100%, а цього не досягає ніщо.
Самоперевірка на 60 секунд: надиктуйте ті самі два речення тричі — раз у тихій кімнаті близько до мікрофона, раз через усю кімнату, раз із увімкненою музикою. Якщо точність сильно стрибає між цими дублями, ваша проблема — звук (підозрювані 2 і 3), і жодна зміна програми не переможе того, щоб присунути мікрофон ближче та зачинити двері. Якщо ж погано навіть на тихому ближньому дублі, дивіться на налаштування мови та модель. Цей один тест за хвилину розкладає по полицях більшість випадків.
Причина 1: неправильно вибрана мова

Це виправлення на десять секунд, яке ніхто не перевіряє першим. Якщо ви знаєте, якою мовою говорите, виберіть її явно в налаштуваннях, а не залишайте інструмент на автовизначенні. Коли ви задаєте конкретну мову, інструмент перестає намагатися вгадати, яку мову він чує, і вкладає всі зусилля в те, щоб правильно розпізнати слова — помітно швидше й надійніше.
Пастки з невідповідністю цілком реальні. Багатомовні моделі Whisper охоплюють 99 мов з автовизначенням, але моделі лише для англійської прив'язані до англійської — подайте їм іншу мову, і ви отримаєте нісенітницю. Локальний Parakeet працює з англійською плюс 24 європейські мови і нічим поза цим набором, тож диктувати в нього японською не вийде ніколи, хоч який чистий у вас мікрофон. А якщо ви справді перемикаєтеся між мовами посеред речення, вам потрібна багатомовна модель Whisper з автовизначенням, а не лише для англійської. Узгодьте налаштування зі словами, що виходять із вашого рота, і шматок «неточності» зникне ще до того, як ви до чогось торкнетеся.
Причина 2: ваш мікрофон шкодить більше, ніж акцент

Люди звинувачують свій акцент. Майже завжди винен мікрофон. Роками я звинувачував свій — виявилося, мій голос був нормальний, а проблемою був мікрофон ноутбука за $0. Ось думка, яку я готовий обстоювати: «ШІ» не виправляє поганий звук. USB-мікрофон за $20 робить для точності більше, ніж будь-яке оновлення моделі — мікрофон і тиха кімната є двома найбільшими важелями точності, важливішими за те, яку модель ви вибрали. Витратьте гроші на залізо, перш ніж витрачати їх на більше завантаження.
Механізм нудний і фізичний. Вбудований мікрофон ноутбука сидить за тридцять і більше сантиметрів від вашого рота й вловлює стіл, кулер і кімнату. Штанга гарнітури чи USB-мікрофон за п'ятнадцять сантиметрів чують ваш голос і небагато іншого. Інструмент може транскрибувати лише те, що до нього доходить, а змазаний, віддалений, шумний сигнал дає йому менше матеріалу — тож він вгадує, а вгадування — це і є те, як ви отримуєте не ті слова. Я не переказуватиму тут увесь посібник про мікрофон і словник; наш детальний розбір про диктування, що друкує не ті слова докладно охоплює розташування мікрофона, рівень вхідного сигналу та власний словник. Для цієї статті суть вужча: якщо ваш тест із трьох дублів показав, що точність обвалюється з відстанню, підозрюваний — ваш мікрофон, а не ваш голос.
Причина 3: кімната, а не слова

Мікрофон не може «не почути» кімнату. Якщо ввімкнено телевізор, працює посудомийка, за спиною — офіс відкритого простору, чи за два метри діти сперечаються про правила настільної гри, модель транскрибує цю енергію поряд із вашим голосом. Вона не знає, який звук — той, що ви мали на увазі.
Виправлення на диво просте: зачиніть двері, вимкніть музику, відійдіть від вентилятора. М'які поверхні допомагають — кімната з килимом і шторами добріша до мікрофона, ніж кахляна кухня з голими стінами, де ваш голос відбивається й приходить двічі. Вам не потрібен акустичний поролон. Вам потрібно, щоб посудомийка закінчила свій цикл. Я диктував шкільні листи, поки збирав ланчбокси, і модель добре встигала — але це тому, що кухня була тиха, а не тому, що програма чарівна. Щойно запускається блендер, точність падає, і це не баг, на який варто заводити заявку.
Причина 4: модель не підходить вашому залізу
Це те, що конкуренти подають як чорну скриньку, а воно має значення. Більше не завжди краще. Виберіть модель надто важку для вашого комп'ютера — і вона працює повільно, відстає, а досвід відчувається зламаним, навіть коли точність на папері нормальна.
Whisper by Remskill не вибирає модель за вас. Він пропонує три шляхи й дає вам обрати: хмарний режим із вашим власним ключем OpenAI, локальний Parakeet або локальний Whisper. Хмарний режим працює на будь-якому залізі, бо це просто мережевий запит. Локально вся математика крутиться навколо оперативної пам'яті. На машині з 8 ГБ Parakeet (~600 МБ), модель Base або модель Small працюють комфортно, а модель Medium буде натужно тягнутися. Найбільші моделі Whisper — Large v3 на ~3 ГБ або Turbo — хочуть 16 ГБ і більше та найбільше виграють від окремої відеокарти. Найточніший багатомовний варіант — Large v3, який підтримує 99 мов, але потребує тих самих 16 ГБ запасу.
Сценарій «натисни й говори» однаковий, який би шлях ви не вибрали — затисніть гарячу клавішу, говоріть, відпустіть, і текст вставляється під вашим курсором. Гаряча клавіша за замовчуванням — Ctrl+Space на Windows і акорд Command+Option на macOS, обидві змінюються в налаштуваннях. Не впевнені, яка модель пасує вашому ноутбуку? Наш посібник із вибору правильної моделі Whisper зіставляє кожну з них із залізом, яке їй потрібне. Правило великого пальця: модель, що пасує й працює швидко, перемагає більшу, що затинається.
Коли інструмент справді винен, а коли це просто фізика
Іноді ви зробили все правильно — мікрофон близько, кімната тиха, мова правильна, модель розумна — а воно все одно помиляється на одному слові з п'ятнадцяти. Це може бути справжньою стелею. Сильні акценти, яких модель бачила мало, щільний технічний жаргон, двоє людей, що говорять один поверх одного, динамік телефону на тому кінці — усе це цілком закономірно піднімає WER, і жодне налаштування цього повністю не виправить. Для імен і галузевого жаргону локальний Whisper і хмарний режим дають змогу додати список власних слів, який зміщує розпізнавання до правильного написання; Parakeet таких підказок не приймає. Але «вона вчить мій голос, що більше я нею користуюся» — це міф із епохи Dragon: сучасне перетворення мовлення на текст не пристосовується до вашого індивідуального голосу з часом, і жодна кількість повторень його не навчить. Важіль — це звук і налаштування, а не терпіння.
Коли для цього варто обійтися без Whisper
Якщо все, що вам потрібно, — це відправити повідомлення на 20 слів чи коротку нотатку, нічого не завантажуйте. Ваша операційна система вже вміє диктувати. На Mac Apple Dictation вбудоване й безкоштовне — натисніть клавішу мікрофона або сполучення клавіш, і на підтримуваних конфігураціях воно обробляє все на пристрої. Воно зупиняється саме після 30 секунд тиші, тож підходить радше для коротких сплесків, ніж для довгих текстів. У Word Microsoft Dictate робить те саме з мікрофоном та інтернет-з'єднанням.
Беріться за спеціальний інструмент, коли ви вже диктуєте цілі абзаци, хочете, щоб він працював офлайн, чи потребуєте точності в іменах і жаргоні, з якими вбудовані інструменти плутаються — наш огляд альтернатив Apple Dictation охоплює варіанти. Для відповіді в один рядок безкоштовний вбудований інструмент — правильний вибір.
Здебільшого відповідь на питання «чому моє диктування таке неточне» — це не зізнання про ваш голос. Це тридцять сантиметрів відстані до мікрофона та посудомийка, про яку ви забули, що вона працює. Виправте звук, виберіть правильну мову, візьміть модель, яку потягне ваш ноутбук, а тоді судіть її проти 95%, а не 100%. Родич із гарнітурою Dragon воював із 1999-м. Ви — ні. Ви здебільшого воюєте зі своєю кухнею.
Хочете дізнатися за хвилину?
Завантажте Whisper і проведіть тест на три дублі — за хвилину ви знатимете, у чому річ: в інструменті, у кімнаті чи просто у фізиці.



