Інструкція
Аудіо в субтитри: що справді працює
Генератор субтитрів з аудіо перетворює звуковий файл на синхронізований SRT або VTT. Ось реальний робочий процес, інструменти, які дійсно вивантажують такий файл, і безкоштовний офлайн-варіант, що не завантажує ваше аудіо нікуди.
Останнє оновлення: червень 2026

Генератор субтитрів з аудіо бере звуковий файл — MP3, WAV або подкаст-експорт — і записує синхронізований файл субтитрів. Кожен рядок тексту має мітку початку й кінця. Вебінструменти VEED, Kapwing і Descript роблять це прямо в браузері. Безкоштовний інструмент командного рядка OpenAI Whisper робить те саме офлайн, на вашому комп'ютері.
Якось я витратив сорок хвилин на ручне додавання субтитрів до десятихвилинного подкасту: зупинявся кожні три секунди, щоб надрукувати текст і вгадати тайм-коди. Маю ступінь магістра з програмної інженерії. Але математика невблаганна: субтитрування вручну займає в кілька разів більше, ніж тривалість самого аудіо. Сучасний генератор субтитрів робить ту саму роботу приблизно за час, рівний тривалості файлу плюс одна кава. Але є нюанс, про який зазвичай не кажуть одразу: правильний інструмент залежить від одного питання. Вам потрібен синхронізований файл для завантаження чи просто текст?
«Генератор субтитрів» використовують для двох різних завдань, і хибний вибір інструменту коштує цілого дня. Ринок ділиться на браузерні інструменти, що експортують синхронізовані файли, і офлайн-інструменти, які роблять те саме безкоштовно, якщо ви готові відкрити термінал. Цей посібник розповідає, як влаштований процес, які інструменти справді виводять .srt-файл лише з аудіо, що означають SRT, VTT і TXT, і де застосунок для диктування на кшталт нашого — хибний вибір. До кінця ви знатимете, який інструмент відкривати для свого завдання. Більшість плутанини, яку я читаю в нашій підтримці, від людей, що обрали інструмент для диктування, хоч потребували файлу субтитрів. Рік таких листів — головна причина існування цієї статті.
Вам потрібні тайм-коди, а не просто текст
Файл субтитрів — це не транскрипт. Транскрипт — це слова. Файл субтитрів — це слова плюс синхронізація. Кожен блок субтитрів каже: «показуй цей рядок з 00:01:04 по 00:01:07». Саме ця синхронізація і є головним завданням. Вона дозволяє відеоплеєру показувати потрібні слова в потрібну секунду.
Більшість інструментів «голос у текст», включно з нашим, видають лише слова — і нічого більше. Вони вставляють чистий абзац у місце курсора і на цьому зупиняються. Генератор субтитрів з аудіо має зробити більше: розбити мовлення на короткі блоки розміру субтитрів, синхронізувати кожен блок із аудіодоріжкою і записати все це у строгому форматі, який зможе прочитати плеєр. Якщо ваш результат — файл для завантаження на YouTube, до відеоредактора або навчальної платформи, вам потрібні тайм-коди. Якщо ваш результат — текст у документі, вони вам не потрібні, і платити за інструмент субтитрів для цього не варто.
Як згенерувати субтитри з аудіофайлу: три кроки

Процес однаковий майже в кожному інструменті — у браузері чи офлайн.
Завантажте аудіофайл або вкажіть шлях до нього. Більшість інструментів приймають MP3, WAV, M4A і FLAC — відео не потрібне. VEED приймає MP3, WAV, записи подкастів, аудіо інтерв'ю і голосові нотатки. Якщо у вас є лише відео, інструмент сам витягне з нього аудіо.
Дозвольте йому транскрибувати й синхронізувати мовлення. Інструмент пропускає аудіо через мовну модель, ділить результат на рядки розміру субтитрів і ставить кожному мітку початку й кінця. Ручна версія займає в кілька разів більше, ніж тривалість аудіо. Машинна — приблизно стільки, скільки триває файл.
Перевірте і збережіть файл. Прочитайте транскрипт один раз (модель дає хороший результат, але не ідеальний), виправте спотворені імена — і експортуйте. Тут ви обираєте формат: SRT, VTT або звичайний TXT.
Ось і весь цикл. Різниця між інструментами зводиться до ціни, мовного покриття, куди потрапляє ваше аудіо і чи є третій крок безкоштовним.
SRT проти VTT проти TXT: який файл вам потрібен
У кожному меню експорту є три формати, і люди постійно обирають не той.
- SRT (SubRip) — стандартний формат файлу субтитрів. Це текстовий файл із пронумерованими блоками, кожен із діапазоном тайм-коду і одним-двома рядками тексту. Його читає YouTube, більшість відеоредакторів і майже кожен плеєр. Якщо не знаєте, що обрати, — обирайте SRT.
- VTT (WebVTT) — вебаналог SRT. Та сама ідея, трохи інший синтаксис, плюс підтримка стилів і позиціонування. Використовуйте VTT, коли вебсайт або HTML5-відеоплеєр явно запитує саме його.
- TXT — лише слова, без тайм-кодів. Цей формат потрібен, коли ви пишете статтю, робите конспект чи цитуєте інтерв'ю. Він єдиний із трьох, який може дати звичайний інструмент для диктування.
Моє просте правило: SRT для відео, TXT для документів, VTT коли вебплатформа прямо про нього просить. Більшість інструментів експортують усі три: VEED, Kapwing і Descript.
Інструменти, що перетворюють аудіо на файли субтитрів
Ось де знаходиться кожен браузерний інструмент — із характеристиками, взятими прямо з їхніх сторінок.
- VEED — це вебта мобільний автоматичний генератор субтитрів, що транскрибує лише з аудіофайлу й дозволяє завантажити результат як SRT, VTT або TXT. Початок безкоштовний. Завантаження файлу субтитрів і субтитрування довших відео переводять вас на платний рівень.
- Kapwing рекламує «субтитри з точністю 99%, готові за секунди». Це власна маркетингова цифра Kapwing, а не незалежний тест. Приймає будь-яке відео або аудіо, включно з MP3, може перекладати субтитри більш ніж 100 мовами, експортує SRT, VTT і TXT. Безкоштовний акаунт дає до 10 хвилин субтитрів і водяний знак; Pro знімає водяний знак.
- Descript генерує субтитри більш ніж 22 мовами, приймає лише аудіофайли й експортує «м'які» субтитри як SRT або VTT через Publish → Export → Subtitles. Працює за freemium-моделлю: безкоштовний рівень дає одну годину медіа на місяць.
Ось як ці чотири виглядають за параметрами, які можна перевірити до того, як зробити вибір. Цифр точності й швидкості немає — ніхто не тестував їх на одному аудіо пліч-о-пліч:
| Інструмент | Платформа | Локально або хмара | Офлайн-режим | Модель ціноутворення | Мови | Найкраще для |
|---|---|---|---|---|---|---|
| VEED | Вебта мобільний | Хмара | Ні | Безкоштовний старт, платний експорт | Понад 40 варіантів, без зазначення загальної кількості | Швидкий прохід у браузері з завантаженням |
| Kapwing | Вебпlatform | Хмара | Ні | Безкоштовний рівень (водяний знак), Pro | Перекладає більш ніж 100 мовами | Швидкі субтитри з перекладом |
| Descript | Вебplatform | Хмара | Ні | Freemium, одна медіагодина безкоштовно | 22+ | Одночасне редагування аудіо та субтитрів |
| OpenAI Whisper CLI | Windows, macOS, Linux | Локально | Так | Безкоштовно, відкритий вихідний код | 99 багатомовних, 1 для .en-збірок | Безкоштовно, приватно, без завантаження |
Всі три браузерні інструменти завантажують ваше аудіо на чужий сервер. Для маркетингового кліпу це нормально. Але якщо це записаний дзвінок із клієнтом або щось із цифрами зарплати — читайте далі.
Ці інструменти мають приблизно однаковий вигляд інтерфейсу:
Завантажте, натисніть «Генерувати», виберіть формат, збережіть. Ось така панель — не наша — і є тим, як виглядає генератор субтитрів з аудіо.
Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Якщо ви не хочете нічого завантажувати, інструмент командного рядка OpenAI з відкритим вихідним кодом Whisper записує файли субтитрів прямо на вашому комп'ютері — безкоштовно. Прапор --output_format приймає txt, vtt, srt, tsv, json або all, і за замовчуванням виводить all. Тож одна команда — whisper interview.mp3 --model turbo — створює .srt-файл офлайн, без акаунту й без завантаження.
Відкритий Whisper — це інший проект, відмінний від Whisper by Remskill, і варто розуміти різницю. Це модель командного рядка від OpenAI, яка працює на вашому комп'ютері й видає синхронізовані файли субтитрів. Вона поставляється у шести розмірах (tiny, base, small, medium, large і turbo) з англомовними варіантами для чотирьох менших. Багатомовні моделі охоплюють 99 мов; .en-варіанти — лише англійську.
Ось позиція, за якою я стою: для будь-чого чутливого аудіо не повинно покидати ваш ноутбук. Запис оцінки роботи, продиктовані нотатки лікаря, юридичний допит — жодне з цього не повинно потрапляти до журналів обробки постачальника просто тому, що вам були потрібні тайм-коди.
Якось я спостерігав, як команда накопичила п'ятизначний рахунок за хмарний ШІ за один квартал, транскрибуючи записи стендапів. Реакція фінансового директора на наступному огляді була не «оптимізуємо запит», а «чому ми взагалі надсилаємо аудіо нарад на сервер?». У вашому ноутбуку вже є процесор і мікрофон. Для приватних матеріалів офлайн Whisper CLI — правильна відповідь, і коштує вона нічого.
Є швидший локальний порт — whisper.cpp, чиста збірка Whisper на C/C++ без залежностей, що працює лише на CPU під відкритою ліцензією. Кажуть, що він теж вміє записувати файли субтитрів, хоча я б рекомендував офіційний OpenAI Whisper CLI для перевіреного шляху до .srt, а whisper.cpp розглядати як прискорення після того, як освоїтеся.
Коли Whisper by Remskill — не той інструмент
Ось та частина, яку більшість продуктових блогів пропускає. Якщо ваше завдання — завантажити .srt або .vtt файл, наш застосунок не той інструмент, і я краще скажу вам про це зараз, ніж ви витратите час на завантаження.
Whisper by Remskill — це насамперед диктування. Ви утримуєте гарячу клавішу (Ctrl+Space на Windows, Command+Option на macOS), говорите, відпускаєте — і транскрипт вставляється в місце курсора в будь-якому відкритому застосунку. Він не ділить мовлення на блоки субтитрів, не синхронізує текст із аудіодоріжкою і не записує синхронізований файл субтитрів. Дайте йому інтерв'ю — отримаєте чистий абзац, а не SRT. Я десятки разів уявляв меню експорту й так і не випустив його, тому що синхронізовані субтитри — це окремий продукт, і робити їх погано нікому не допоможе.
Для файлів субтитрів користуйтесь інструментами вище. Наш застосунок — для суміжного завдання: перетворити власне мовлення на текст у ту саму мить, коли він вам потрібен. Листа, чернетку, підпис для публікації в соцмережах, який ви введете вручну. Він працює на двох чистих Rust-рушіях — OpenAI Whisper і NVIDIA Parakeet — без Python і без завантаження. Різні завдання — різні інструменти. Правильний вибір і є головним сенсом цієї статті.
Перш ніж відкривати будь-який інструмент, дайте відповідь на питання, що вирішує все: ви відправляєте файл чи текст? Файл — це тайм-коди, тобто справжній генератор субтитрів. VEED або Kapwing для швидкого проходу в браузері, Whisper CLI — безкоштовно й приватно. Текст — це транскрипт, а це вже інший інструмент. Я зробив застосунок для диктування й все одно відправлю вас деінде, коли деінде — правильне місце. Минулого тижня моя семирічна донька запитала, що я роблю на роботі. Чесна відповідь: допомагаю людям менше друкувати. Їй це здалося абсолютно нецікавим. А той вечір, який ви збережете, — це і є той вечір, який я провів, субтитруючи подкаст вручну, по три секунди за раз.
Хочете диктування замість субтитрів?
Якщо ваше завдання — слова в місці курсора, а не файл субтитрів, Whisper перетворює ваше власне мовлення на текст у ту саму мить, коли він вам потрібен, повністю офлайн.
Безкоштовне локальне диктування для кожного авторизованого користувача. Для файлів субтитрів використовуйте інструменти вище.



