Автор: Денис Медведєв

Посібник

Програми для голосового набору: безкоштовні вбудовані рішення проти платних інструментів

Найкращі програми для голосового набору вже встановлені на вашому комп'ютері. Ось яку з них обрати й коли справді має сенс платити за окремий застосунок.

Останнє оновлення: червень 2026

Елегантний ноутбук і склянка води на світлому офісному столі, готові до голосового набору без рук

Програми для голосового набору слухають через мікрофон і записують те, що ви говорите, перетворюючи мовлення на редагований текст зі швидкістю близько 145 слів за хвилину проти приблизно 40 при наборі на клавіатурі. Хороші інструменти працюють у всій системі, тож слова з'являються прямо біля курсора. Деякі безкоштовні й вбудовані у Windows та Mac; платні застосунки додають офлайн-режим і доопрацювання тексту за допомогою ШІ.

Говоріть — і слова з'являються біля курсора

Коли це спрацьовує вперше, відчуття — наче маленький фокус. Ви затискаєте клавішу, промовляєте речення, відпускаєте — і речення вже в листі. Без клавіатури. Моя молодша родичка якось продиктувала бабусі нотатку на 90 слів швидше, ніж я встиг пояснити, що таке диктування. Складність ніколи не була в самому говорінні. Два десятиліття складність полягала в тому, щоб програма стала достатньо хорошою, аби їй довіряти, і ось ця частина нарешті розв'язалася.

Ця стаття про те, які програми для голосового набору варті вашого часу, включно з безкоштовними варіантами, які у вас уже є.

Pasted
Накладка Whisper завершує диктування — текст вставляється біля вашого курсора.

Більшість людей застрягли за клавіатурою через звичку, а не через потребу. Набір — це засвоєний компроміс, спосіб перенести думки з голови в машину, яка не має вух. Програми для голосового набору прибирають цей компроміс. Питання перестало звучати як «чи це працює» десь близько 2022 року й перетворилося на «яку з них обрати й чи потрібно за неї платити».

Чесна відповідь залежить від трьох речей: як довго ви диктуєте, чи хочете, щоб це працювало в кожному застосунку, і чи важливо вам, щоб слова ніколи не залишали ваш ноутбук. До кінця статті ви знатимете, який шлях вам підходить, і я скажу вам, коли безкоштовного вбудованого варіанта цілком достатньо. Я читаю більшу частину листів у підтримку цього застосунку, і стабільна частка з них надходить від людей, які заплатили за інструмент, тоді як той, що вже стояв на їхньому комп'ютері, упорався б із завданням. Тож у мене є невеликий особистий інтерес відмовляти вас від покупки.

Що таке програми для голосового набору

Крупний план цифрового аудіоінтерфейсу з яскравою звуковою хвилею, що ілюструє мовлення, захоплене як дані

Програма для голосового набору — це застосунок, який захоплює звук із вашого мікрофона й перетворює його на письмовий текст за допомогою моделі розпізнавання мовлення. Стара назва — програми для диктування. Новіша маркетингова назва — ШІ-диктування, що здебільшого означає те саме, але з прикрученою мовною моделлю, яка виправляє пунктуацію й тон.

Існує три форми, у яких воно з'являється. Вбудоване диктування постачається разом із вашою операційною системою: голосовий набір Windows, Apple Dictation. Голосовий набір у браузері живе всередині одного застосунку, як-от голосовий набір Google Docs. А окремі настільні застосунки встановлюються окремо й працюють у всьому, де ви набираєте текст. Форма важить більше, ніж бренд. Браузерний інструмент, який пише лише всередині Google Docs, марний для ваших повідомлень у Slack, хоч би яким точним він був. Перше питання, яке варто поставити про будь-який інструмент, — не наскільки він точний, а де він дозволяє вам набирати. Точність для більшості з них уже розв'язана; охоплення — ні.

Те, що відрізняє серйозний інструмент від іграшки, — це куди він вставляє текст. Вбудовані й окремі настільні інструменти працюють у всій системі: натисніть гарячу клавішу в будь-якому текстовому полі — і текст з'явиться саме там. Ось і вся суть. Усе інше — точність, мови, доопрацювання ШІ — це лише надбудова над тим, чи набирає воно текст там, куди ви дивитеся.

Друга річ розділяє категорії: що саме модель здатна почути. Деякі інструменти працюють лише з англійською. Інші підтримують десятки мов і можуть перемикатися посеред речення. Англомовні моделі Whisper підтримують рівно одну мову, тоді як його багатомовні збірки охоплюють 99. Parakeet від NVIDIA посідає проміжне місце з 25 мовами — англійська плюс 24 європейські. Якщо ви завжди пишете лише англійською, усе це не має значення, і обирати варто за швидкістю. Якщо ж ви до обіду пишете двома мовами, це важить чимало. Більшість людей переоцінює, скільки мов їм потрібно, і недооцінює, наскільки їх турбує затримка. Лаг між відпусканням клавіші й появою тексту — це те, що ви відчуваєте щоразу.

Якщо ви радше побачите, як працює системна версія, ніж читатимете про категорію, сторінка голосового набору Whisper показує цикл «затисни гарячу клавішу» на Windows і Mac, з безкоштовними локальними рушіями включно.

Як це працює (і чому точність нарешті стала хорошою)

Під капотом конвеєр має три кроки. Ваш мікрофон записує короткий аудіофрагмент. Модель розпізнавання мовлення перетворює це аудіо на текст. Потім текст вставляється — іноді після того, як мовна модель його причепурить.

CancelTranscribing
Whisper посеред транскрипції — модель мовлення перетворює аудіо на текст.

Стрибок у точності, який усі помітили, стався завдяки моделі посередині. Модель Whisper із відкритим кодом від OpenAI змінила те, що означає «добре». Вона розуміє акценти, фоновий шум і 99 мов у багатомовних варіантах — без жодного етапу навчання. Саме ця остання частина — тиха революція. Ви не вчите сучасну програму голосового набору вашого голосу. Ви встановлюєте її й говорите.

Я достатньо старий, щоб пам'ятати, коли це було науковою фантастикою. Наприкінці 1990-х один родич запускав Dragon NaturallySpeaking на настільному комп'ютері з Windows 98 і 64 МБ оперативної пам'яті. Налаштування означало читати вголос список слів протягом 45 хвилин, щоб програма підлаштувалася під ваш голос. Потім воно ледь-ледь працювало — десь із 70% точності й затримкою в чотири секунди на речення. Продиктувати один абзац святкового листа займало п'ятнадцять хвилин. Гарнітуру жбурнули через кімнату. Гарнітура вціліла; експеримент — ні. Двадцять п'ять років по тому те саме завдання займає дев'яносто секунд і нуль навчання. Залізо нарешті наздогнало ідею.

Сьогодні існують два різновиди середнього кроку. Локальна обробка запускає модель на вашому власному комп'ютері, офлайн, тож ваше аудіо ніколи не залишає машину — так, як працює офлайн-перетворення мовлення на текст. Хмарна обробка надсилає аудіо на сервер, що може бути швидше на слабкому залізі, але означає, що ваші слова подорожують. Що саме вам потрібно, залежить від того, що ви диктуєте. Список покупок — кого це хвилює. Договір вашого клієнта — мабуть, варто перейматися.

Третій крок, доопрацювання, — це те, де живе ШІ в «ШІ-диктуванні». Сира транскрипція дає вам суцільну стіну слів без розбиття на абзаци й з випадковими «е-е». Мовна модель може виправити пунктуацію, прибрати слова-паразити й навіть підлаштуватися під тон, який ви попросите. У Whisper by Remskill цей крок необов'язковий і виконується локально через Ollama, або в хмарі через ваш власний ключ OpenAI, якщо ви ввімкнете Pro. Його також можна запустити голосом: промовте активаційну фразу, наразі це Hey whisper, — і текст передається моделі замість того, щоб вставлятися сирим. Жодне з цього не змінює основного фокуса. Воно лише вирішує, наскільки відшліфованими будуть слова, коли вони з'являться.

Безкоштовні варіанти, які у вас уже є: голосовий набір Windows, Apple Dictation, Google Docs

Перш ніж за щось платити, перевірте, що вже є на вашому комп'ютері. Три безкоштовні вбудовані варіанти покривають чимало завдань.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
Диктування, яке вже є на вашому комп'ютері, у двох різновидах — без жодного встановлення.

Голосовий набір Windows

У Windows 11 натисніть клавішу з логотипом Windows плюс H у будь-якому текстовому полі — і з'явиться панель голосового набору. Вона хороша для швидких повідомлень. Підступ: для роботи їй потрібні інтернет-з'єднання й робочий мікрофон, адже розпізнавання відбувається в хмарі. Вона підтримує 43 мови за списком Microsoft. Якщо ви офлайн у потягу, вона перестає працювати. Повний розбір є в нашому посібнику про перетворення голосу на текст у Windows.

Apple Dictation

На Mac увімкніть його в Системних параметрах, Клавіатура, Диктування, а потім запустіть клавішею мікрофона чи обраним вами скороченням. Поточна версія транскрибує текст будь-якої довжини й зупиняється лише після 30 секунд тиші, а не за жорстким часовим обмеженням. На Apple Silicon воно може обробляти ваше мовлення прямо на пристрої. Для коротких нотаток воно безкоштовне й цілком годиться; докладніше налаштування є в матеріалі про перетворення голосу на текст на Mac.

Голосовий набір Google Docs

Відкрийте документ Google у Chrome, Edge чи Safari, натисніть Інструменти, потім Голосовий набір — і з'явиться віконце з мікрофоном. Він підтримує понад 100 мов і регіональних варіантів. Жорстке обмеження прямо в назві: він пише лише всередині Google Docs та Slides. Він не набере ваш лист, ваш Slack чи ваш код.

Чесний спосіб прочитати ці три варіанти: це справжні інструменти, а не демо, і для великої частки людей вони — кінець пошуку. Там, де вони зупиняються, передбачувано. Голосовий набір Windows помирає тієї миті, коли ви втрачаєте сигнал. Голосовий набір Google Docs ніколи не виходить за межі документа. Apple Dictation чудовий на Mac і відсутній скрізь інде. Якщо ваша робота вкладається в ці межі, ви закінчили. Закрийте цю вкладку й натисніть клавішу. Платна категорія існує для роботи, яка не вкладається: цілоденне диктування, офлайн у літаку, кожен застосунок замість одного й аудіо, яке мусить залишатися на вашому власному диску.

Коли пропустити окремий застосунок і скористатися вбудованим

Ось частина, яку пропускає більшість статей про «найкращі програми». Якщо ви надсилаєте короткі повідомлення — текст на 30 слів, швидку відповідь у Slack — безкоштовного диктування, яке вже є на вашому комп'ютері, цілком достатньо. Голосовий набір Windows (клавіша Windows + H) і Apple Dictation безкоштовні, вбудовані й працюють. Не встановлюйте й не платіть ні за що, щоб написати одне речення. Окремий застосунок починає виправдовувати своє місце, коли ви диктуєте часто, потребуєте, щоб це працювало офлайн у літаку, хочете, щоб воно діяло в кожному застосунку, а не лише в одному, чи переймаєтеся, щоб ваші слова залишалися на вашому пристрої. Нижче цього порогу нудна правда в тому, що ви вже володієте потрібним інструментом.

Скільки коштує Whisper by Remskill

Whisper by Remskill безкоштовний для кожного авторизованого користувача в усьому локальному конвеєрі: локальний Whisper, Parakeet, доопрацювання ШІ на базі Ollama, історія, власна гаряча клавіша, завантаження моделей — і жодного способу оплати для реєстрації не потрібно. Whisper Pro додає Хмарну поверхню: хмарну транскрипцію OpenAI, хмарне покращення ШІ й голосовий вебпошук через ваш власний ключ OpenAI. Хмарний режим виставляє вам рахунок напряму через OpenAI; ми не беремо жодної комісії. Поточні плани й пробний період Pro є на сторінці цін. Я не цитуватиму вам тут цифри; сторінка робить це краще, ніж може абзац.

Що почитати далі

Мій родич жбурнув гарнітуру через кімнату 1999 року, бо диктування було 45-хвилинною мукою, що видавала мотлох. Гарнітура пережила експеримент. Двадцять п'ять років по тому мука зникла. Ви натискаєте клавішу й говорите — і слова з'являються. Єдине справжнє рішення, що лишилося, — який інструмент, і для багатьох людей правильна відповідь уже сидить на їхній машині, вимкнена, чекає. Мої власні діти ніколи не дізнаються, що колись це було складно, — і саме це є метою, навіть якщо через це історія за вечерею виходить гіршою.

Спершу спробуйте той, що у вас уже є

Якщо йому стане затісно, завантажте Whisper і оберіть рушій, який пасує вашому способу роботи.

Безкоштовно для авторизованих користувачів на повному локальному конвеєрі. Без картки під час реєстрації.

Фото Denys Medvediev

Denys Medvediev

Я той, хто читає листи нашої підтримки, найімовірніше — диктуючи відповіді.