Автор: Денис Медведєв

Посібник

Диктування в реальному часі для письменників

Застосунок для диктування в реальному часі дає змогу вимовити речення й одразу побачити його на місці курсора. З Whisper ви затискаєте гарячу клавішу, говорите, відпускаєте — і транскрипт вставляється туди, де ви пишете. На локальних моделях це займає близько півтори секунди.

Останнє оновлення: червень 2026

Руки письменника біля клавіатури та відкритого документа на темному столі — образ написання голосом

Застосунок для диктування в реальному часі перетворює мовлення на текст прямо в місці курсора — майже без затримки. Whisper працює в режимі «натисни й говори»: затиснути гарячу клавішу, вимовити речення, відпустити — і транскрипт вставиться в редактор. На локальних моделях між відпусканням клавіші та появою тексту минає близько 1,4 секунди. Працює офлайн, безкоштовно, в будь-якому настільному застосунку.

Я створив Whisper, бо набір тексту був найповільнішою частиною письма. Не обдумування, не редагування — буквальне переміщення пальців, аби встигнути за реченням, яке вже готове в голові. Голос вирішує цю проблему. Мовлення — приблизно 145 слів на хвилину; друк — може, 40. Ця різниця і є головним аргументом.

Але «в реальному часі» — вираз, що несе занадто багато змісту. Більшість сторінок, які рекламують диктування письменникам, дають уявити зовсім не те. Тому перш ніж щось завантажувати, хочу відверто сказати: що насправді означає «реальний час» тут, як відчувається затримка і де це вписується в справжній процес написання — довгої прози, постів у блозі, художньої літератури, листа, який ви весь час відкладаєте.

Ось чесна версія, яку більшість маркетингових сторінок оминає. Whisper — це «натисни й говори». Ви затискаєте гарячу клавішу, вимовляєте одне чи три речення, потім відпускаєте. Транскрипт вставляється в місці курсора в момент відпускання — не слово за словом під час мовлення, як на екрані стенографіста в суді. Одиниця вимірювання тут — висловлювання, а не склад.

Це розрізнення важливе, бо задає правильне очікування. Якщо ви уявляєте, як слова повзуть по сторінці в такт вашому рту — це живі субтитри, окремий інструмент для іншого завдання. Те, що Whisper дає письменнику, на практиці швидше: ви вимовляєте думку, вона з'являється, ви переходите до наступної. На локальній моделі цикл займає близько 1,4 секунди. Достатньо швидко, щоб перестати звертати на це увагу і просто писати.

Що «реальний час» насправді означає для письменника

Письменник за ноутбуком із блокнотом поруч — образ потоку написання, який замінює голос

Письменники тягнуться до диктування з тієї самої причини, що й я: чернетка вже є в голові, а клавіатура заважає. Перша чернетка має бути швидкою й недосконалою. Клавіатура робить її повільною й охайною — рівно навпаки. Мовлення дає змогу виплеснути безлад у темпі думання, а редагування — та частина, що насправді потребує пальців, — приходить після.

Тому коли письменник шукає «диктування в реальному часі», він зазвичай хоче ось що: вимовити речення і побачити його раніше, ніж забудеться наступне. Це і є справжня планка. Не буквальний потоковий вивід літера за літерою — просто менш ніж дві секунди, щоб слова були тут, поки думка не розвіялась. Whisper її досягає. Від відпускання гарячої клавіші до появи тексту у вашому документі — близько 1,4 секунди на локальній моделі на M1 Air, трохи більше двох секунд на середньому комп'ютері Windows із більшою моделлю. (Я бачив, як потік переривається, коли затримка перевищує дві секунди — мозок знову залучається до екрана, і нитка думки втрачається. Тому саме за цим числом я стежу.)

Ще одна річ, яку хочуть письменники, — ніколи не залишати документ. Довга чернетка — це стан потоку, а потік не переживає відкриття окремого вікна транскрипції, натискання кнопки запису, очікування, копіювання та вставки. Whisper вставляє в місці курсора в застосунку, де ви вже працюєте — Scrivener, Word, Google Docs у браузері, звичайний текстовий редактор, ваша CMS. Ви не перемикаєте вікна. Затискаєте клавішу — і продовжуєте писати. Саме це і створює відчуття реального часу, навіть якщо технічно текст вставляється в момент відпускання.

Затиснути гарячу клавішу, говорити, відпустити — текст вставляється сам

Механіка нудна — це найвища похвала, яку я можу дати програмному забезпеченню. Ви затискаєте гарячу клавішу, говорите, відпускаєте — і транскрипт вставляється в місці курсора туди, де зараз фокус. Whisper тримає коротке «хвостування» — 250 мілісекунд — після відпускання, щоб останнє слово не обрізалось. Оскільки вставка відбувається через курсор операційної системи, ваш рукопис — просто «текстове поле». Scrivener, Final Draft, Word, чернетка в Substack у браузері — однакова поведінка, без налаштувань для кожного застосунку.

Поки ви говорите, з'являється маленька капсула, щоб ви знали, що Whisper слухає, — а потім коротко показує крок транскрипції перед появою слів. Ось і весь цикл. Жодного окремого вікна для переключення, жодної кнопки запису, жодного файлу для експорту. Курсор у абзаці, ви говорите — речення з'являється в абзаці:

Cancel
Накладання запису: маленька капсула, яка з'являється, поки ви говорите, — щоб ви знали, що Whisper слухає.

Гаряча клавіша — єдине, що варто налаштувати одразу. На Windows це Ctrl+Space; на Mac — Command+Option, модифікатор режиму «натисни й говори», який ви тримаєте під час мовлення. Обидва можна змінити в Налаштуваннях — це важливо для письменників, бо багато редакторів захоплюють клавіші для власних скорочень. (Моя молодша донька одного разу сказала, що гаряча клавіша «не працює» у її застосунку для малювання. Це був конфлікт, не помилка — саме так я дізнався, що більшість людей поняття не мають, що таке конфлікт гарячих клавіш. Тому тепер усі гарячі клавіші змінюються.) Якщо ви вже налаштовували диктування на Windows або на Mac — тут та сама м'язова пам'ять, тільки спрямована на ваш редактор.

Налаштування за дві хвилини (Windows або Mac)

Потрібен Mac на Apple Silicon або ПК на Windows 10 чи новіше, робочий мікрофон і відкритий редактор, у якому ви пишете. Весь локальний конвеєр безкоштовний для будь-якого авторизованого акаунта — платіжний метод при реєстрації не потрібен. Ось послідовність кроків.

Крок 1 — Встановіть Whisper і увійдіть.

Завантажте зі сторінки завантаження, встановіть і створіть безкоштовний акаунт. Без картки. Весь локальний конвеєр транскрипції відкривається відразу.

Ви зрозумієте, що все спрацювало, коли в системному треї з'явиться іконка застосунку і майстер налаштування запропонує обрати модель.

Крок 2 — Оберіть шлях транскрипції.

Застосунок не обирає за вас. Є три варіанти: Cloud (OpenAI, власний ключ), Local Parakeet або Local Whisper. Для приватного написання починайте з локального — детальніше про вибір у двох розділах нижче.

Ви зрозумієте, що все спрацювало, коли модель завантажиться і відобразиться як готова.

Крок 3 — Підтвердіть гарячу клавішу.

На Windows за замовчуванням — Ctrl+Space, на Mac — Command+Option у режимі «натисни й говори». На Mac надайте дозвіл на доступ до функцій спеціальних можливостей, коли буде запропоновано; без нього вставка в місці курсора не дістанеться до вашого редактора.

Ви зрозумієте, що все спрацювало, коли тестовий запис вставиться в будь-яке текстове поле.

Крок 4 — Поставте курсор у чернетку і говоріть.

Відкрийте документ, клацніть там, де потрібне наступне речення, затисніть гарячу клавішу, скажіть його, відпустіть. Транскрипт з'явиться в місці курсора — прямо всередині абзацу.

Ви зрозумієте, що все спрацювало, коли вимовлене речення опиниться в чернетці у вигляді тексту.

Whisper
Справжній настільний застосунок Whisper на екрані налаштувань — відкриті панелі «Транскрипція» та «ШІ».

Найповільніша частина — завантаження моделі, а не саме налаштування. Усе інше — чотири кроки вище. Коли все запущено, перенесення речення на сторінку перестає бути задачею для пальців і стає задачею для голосу — а для довгої чернетки це різниця між вечором і ніччю.

голос у текст на Windows · на Mac

Яке відчуття від написання диктуванням насправді

Секрет диктування прози — перестати диктувати текст «з чернеткою в голові». Початківці намагаються вимовляти разом із комами й розривами абзаців і в результаті виявляються повільнішими за набір. Швидкий спосіб — говорити цілими думками: вимовте речення так, як сказали б другові, відпустіть, скажіть наступне. Нехай перший прохід буде грубим. Ви захоплюєте чернетку, а не набираєте текст. Пост у блозі на 1500 слів, який я набираю за дев'яносто хвилин, займає вдвічі менше часу в режимі диктування — і більша частина заощадження просто від того, що я не зупиняюся, аби виправити слово в середині речення.

Ритм «натисни й говори» відповідає тому, як письменники насправді думають. Ви тримаєте клавішу для однієї ідеї, відпускаєте, дивитеся на результат, вирішуєте наступне речення, тримаєте знову. Паузи між натисканнями — це час для думання, а не мертвий час. Інструмент не записує ваше «е-е» поки ви дивитеся в стелю й вирішуєте, куди піде сцена. Для художньої літератури це особливо близько до того, як діалог звучить у голові: ви «виконуєте» репліку, і вона вже є на сторінці, готова до редагування.

Дві практичні нотатки для довгих сесій. По-перше, диктуйте шматками по одному-три речення, а не цілими абзацами на одному диханні — короткі фрагменти вставляються швидше і їх легше виправити, якщо слово вийшло не таким. По-друге, мікрофон важливіший, ніж здається. USB-мікрофон за 20 доларів дає більше для точності, ніж будь-яке оновлення моделі, — бо модель працює саме з чистим звуком. Це нудна правда, яку ніхто, хто продає вам «точність ШІ», не поставить на перше місце. Коли слова з'являються так швидко, можна диктувати цілі чернетки голосом і сприймати клавіатуру як інструмент редагування — а саме для цього вона і підходить найкраще.

Локально чи в хмарі: який режим для практикуючого письменника

Для написання спочатку спробуйте локальний режим. Рукопис у процесі, пропозиція, яку ви ще не надіслали, запис у щоденнику — нічому з цього не потрібно залишати ноутбук, щоб стати текстом. Якщо ваш Mac — Apple Silicon або ПК відносно свіжий, локальний режим справляється з повсякденним диктуванням без нарікань, а хмара стає запасним варіантом, а не основним. Ось чим відрізняються три шляхи — бо застосунок змушує вибирати, і я хочу, щоб ви вибрали добре:

  • Local ParakeetTDT-рушій NVIDIA, близько 600 МБ, найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Охоплює англійську та 24 інші європейські мови, 25 загалом. Переклад на англійську відсутній. Якщо ви пишете англійською або іншою європейською мовою — це швидкий, повністю офлайновий вибір із мінімальною затримкою.
  • Local WhisperПовільніший за Parakeet на тому самому комп'ютері, але багатомовні збірки охоплюють 99 мов і можуть перекладати на англійську. Збірки «тільки англійська» підтримують лише англійську, а не 99. Оберіть цей варіант, якщо пишете китайською, японською або корейською (Parakeet їх не підтримує), потрібен переклад, або хочете налаштувати гарячі слова для імен персонажів та вигаданих термінів. Стандартна модель для англійської — близько 480 МБ.
  • Cloud (OpenAI, BYOK)Найвища точність і доступ до вебу — за допомогою власного ключа OpenAI, який оплачується напряму через OpenAI. Транскрипція за замовчуванням через gpt-4o-mini-transcribe. Потребує інтернету, тому це єдиний шлях, коли дані залишають ваш комп'ютер. Входить до складу Whisper Pro.

Нудна правда: для більшості прози локального режиму цілком достатньо — обидва локальні рушії працюють повністю на вашому комп'ютері, нічого не відправляючи на сервер. Хмара виправдовує себе, коли потрібна максимальна точність для складного запису або коли в середині речення треба отримати факт із мережі. Хмара також має найнижчу затримку на хорошому з'єднанні — близько 1,1 секунди, бо мережевий цикл обганяє локальні обчислення на повільнішому ноутбуці. Починайте з локального; переходьте до хмари, тільки якщо локальний не задовольняє.

Одна думка, за якою я стою: диктування виключно в хмарі — це катастрофа для конфіденційності, яка чекає свого часу. Одного разу я спостерігав, як команда накопичила п'ятизначний рахунок у хмарі за квартал — переважно через «розумний повтор», що перетранскрибував ті самі записи чотири рази. Фінансовий директор відкрив дашборд на квартальному огляді — і в кімнаті стало дуже тихо. Вашій першій чернетці не потрібно жити в логах постачальника, щоб стати текстом. У вашому ноутбуці вже є мікрофон і процесор.

Як перетворити продиктовану чернетку на чисту прозу

Сирий текст диктування виходить суцільним потоком. Ви кажете «окей значить глава починається на вокзалі вона спізнилась пропустила пересадку ну і все воно звідти і поїхало» — і саме таку стіну без розділових знаків будь-який рушій мовлення вам і повертає. Для чернетки це нормально — ви все одно будете редагувати. Але є шлях до читабельності швидше.

Windows Voice Typing додає розділові знаки під час мовлення, а macOS Dictation обробляє основне, коли ви вимовляєте «кома» або «крапка». Для глибшого очищення — видалення «е-е», виправлення потоків, перетворення мовленнєвого абзацу на щось, що варто залишити — Whisper може запустити прохід ШІ. Скажіть активаційну фразу «Hey whisper» — і текст покращиться ще до того, як з'явиться. На локальній моделі це відбувається через Ollama; у хмарному режимі за замовчуванням — gpt-5-mini.

Thinking...
Сирий

окей значить глава починається на вокзалі вона спізнилась пропустила пересадку ну і все воно звідти і поїхало

Очищений

Окей, значить, глава починається на вокзалі. Вона спізнилась — пропустила пересадку — і все воно звідти і поїхало.

Застереження, яке письменникам варто почути особливо: очищення ШІ — це прохід розділових знаків і слів-паразитів, а не співавтор. Він виправляє механіку; він не переписує ваш голос — і ви не повинні йому це дозволяти. Для художньої літератури або будь-чого з виразним стилем я запускаю легше локальне покращення або взагалі пропускаю його на першій чернетці та редагую вручну — бо весь сенс швидкого диктування в тому, що груба чернетка є вашою. Використовуйте очищення, щоб нотатки стали читабельними. Власне письмо — ваша справа.

Той самий потік «говорю — очищую» працює будь-де, де є текст — саме так я диктую нотатки та фіксую ідеї між сесіями написання: дослідницька думка або поворот сюжету переходить із усного відступу в охайний рядок без зупинки в роботі.

Коли застосунок для диктування в реальному часі не підходить

Дві стрілки крейдою на асфальті вказують у різні боки — ілюстрація вибору інструменту

Іноді чесна відповідь: вам потрібно щось інше — і я краще скажу це, ніж продам вам невідповідний інструмент. Whisper — це диктування з режимом «натисни й говори» прямо в застосунок, де ви пишете. Це не живі субтитри, не транскрипція інтерв'ю і не телефонний інструмент.

Якщо вам справді потрібен потік слів на екрані під час мовлення — субтитри до живої доповіді, плаврядок під час трансляції, доріжка субтитрів для доступності — це справжні живі субтитри, окрема категорія, розрахована на безперервний потік, а не диктування «натисни й відпусти». Візьміть інструмент для субтитрів. Якщо є записане інтерв'ю або двогодинна нарада, яку потрібно перетворити на транскрипт, — це файлова транскрипція з мітками спікерів; такий сервіс, як Otter.ai або Rev, підходить краще, ніж гаряча клавіша диктування. Різні категорії — не змушуйте інструмент для письма виконувати роботу транскрипції. А якщо ви диктуєте лише 30-слівну нотатку на ходу — мікрофон клавіатури телефону безкоштовний і вже у вашій кишені; Whisper — настільний інструмент для Windows і macOS, тому його немає сенсу встановлювати для цього.

Беріть застосунок для диктування в реальному часі, коли завдання — писати: довга проза, пост у блозі, розділ, лист, який ви весь час уникаєте — за столом, у застосунку, яким вже користуєтесь, де говорити швидше, ніж друкувати, і де хочеться бачити слова в місці курсора через секунду. Для всього меншого — використовуйте те, що безкоштовне. Я не буду радити запускати настільний застосунок, щоб надіслати однорядкове повідомлення.

Більшість письменників, з якими я спілкуюся, працюють на одній із платформ, тому якщо потрібен покроковий огляд під конкретну платформу — налаштування в програмному забезпеченні для диктування для письменників охоплює весь робочий процес від початку до кінця: від вибору моделі до того, щоб не торкатися клавіатури протягом цілої сесії.

«Реальний час» для письменника не означає, що літери повзуть по сторінці в такт вашому рту. Це означає: ви вимовляєте речення — і воно вже там, до того як забудеться наступне. Приблизно півтори секунди, у застосунку, де ви вже працюєте, нічого нікуди не відправляючи. Ось і весь фокус — тихий і непоказний. Більшу частину цього посібника я продиктував по одному реченню, відпускаючи клавішу між думками і спостерігаючи, як слова з'являються, поки я придумував наступний рядок. Клавіатура весь цей час просто стояла — корисна лише для правок. Саме там їй і місце.

Продиктуйте наступну чернетку прямо на сторінку

Затисніть гарячу клавішу, вимовте речення, відпустіть. Слова з'являться в місці курсора в будь-якому редакторі — приблизно через півтори секунди, нікуди нічого не відправляючи.

Безкоштовний локальний режим для будь-якого авторизованого акаунта. Картка не потрібна.

Фото Дениса Медведєва

Denys Medvediev

Я той, хто читає нашу службову пошту — найімовірніше, диктуючи відповіді.

Додаткові матеріали