Автор: Денис Медведєв

Інструкція

Аудіо в субтитри: що справді працює

Генератор субтитрів з аудіо перетворює звуковий файл на синхронізований SRT або VTT. Ось реальний робочий процес, інструменти, які дійсно вивантажують такий файл, і безкоштовний офлайн-варіант, що не завантажує ваше аудіо нікуди.

Останнє оновлення: червень 2026

Аудіохвилі на екрані, що ілюструють перетворення звукового файлу на доріжку субтитрів

Генератор субтитрів з аудіо бере звуковий файл — MP3, WAV або подкаст-експорт — і записує синхронізований файл субтитрів. Кожен рядок тексту має мітку початку й кінця. Вебінструменти VEED, Kapwing і Descript роблять це прямо в браузері. Безкоштовний інструмент командного рядка OpenAI Whisper робить те саме офлайн, на вашому комп'ютері.

Якось я витратив сорок хвилин на ручне додавання субтитрів до десятихвилинного подкасту: зупинявся кожні три секунди, щоб надрукувати текст і вгадати тайм-коди. Маю ступінь магістра з програмної інженерії. Але математика невблаганна: субтитрування вручну займає в кілька разів більше, ніж тривалість самого аудіо. Сучасний генератор субтитрів робить ту саму роботу приблизно за час, рівний тривалості файлу плюс одна кава. Але є нюанс, про який зазвичай не кажуть одразу: правильний інструмент залежить від одного питання. Вам потрібен синхронізований файл для завантаження чи просто текст?

«Генератор субтитрів» використовують для двох різних завдань, і хибний вибір інструменту коштує цілого дня. Ринок ділиться на браузерні інструменти, що експортують синхронізовані файли, і офлайн-інструменти, які роблять те саме безкоштовно, якщо ви готові відкрити термінал. Цей посібник розповідає, як влаштований процес, які інструменти справді виводять .srt-файл лише з аудіо, що означають SRT, VTT і TXT, і де застосунок для диктування на кшталт нашого — хибний вибір. До кінця ви знатимете, який інструмент відкривати для свого завдання. Більшість плутанини, яку я читаю в нашій підтримці, від людей, що обрали інструмент для диктування, хоч потребували файлу субтитрів. Рік таких листів — головна причина існування цієї статті.

Вам потрібні тайм-коди, а не просто текст

Файл субтитрів — це не транскрипт. Транскрипт — це слова. Файл субтитрів — це слова плюс синхронізація. Кожен блок субтитрів каже: «показуй цей рядок з 00:01:04 по 00:01:07». Саме ця синхронізація і є головним завданням. Вона дозволяє відеоплеєру показувати потрібні слова в потрібну секунду.

Більшість інструментів «голос у текст», включно з нашим, видають лише слова — і нічого більше. Вони вставляють чистий абзац у місце курсора і на цьому зупиняються. Генератор субтитрів з аудіо має зробити більше: розбити мовлення на короткі блоки розміру субтитрів, синхронізувати кожен блок із аудіодоріжкою і записати все це у строгому форматі, який зможе прочитати плеєр. Якщо ваш результат — файл для завантаження на YouTube, до відеоредактора або навчальної платформи, вам потрібні тайм-коди. Якщо ваш результат — текст у документі, вони вам не потрібні, і платити за інструмент субтитрів для цього не варто.

Як згенерувати субтитри з аудіофайлу: три кроки

Ноутбук із програмою для редагування аудіо і навушники на столі в домашньому офісі

Процес однаковий майже в кожному інструменті — у браузері чи офлайн.

1

Завантажте аудіофайл або вкажіть шлях до нього. Більшість інструментів приймають MP3, WAV, M4A і FLAC — відео не потрібне. VEED приймає MP3, WAV, записи подкастів, аудіо інтерв'ю і голосові нотатки. Якщо у вас є лише відео, інструмент сам витягне з нього аудіо.

2

Дозвольте йому транскрибувати й синхронізувати мовлення. Інструмент пропускає аудіо через мовну модель, ділить результат на рядки розміру субтитрів і ставить кожному мітку початку й кінця. Ручна версія займає в кілька разів більше, ніж тривалість аудіо. Машинна — приблизно стільки, скільки триває файл.

3

Перевірте і збережіть файл. Прочитайте транскрипт один раз (модель дає хороший результат, але не ідеальний), виправте спотворені імена — і експортуйте. Тут ви обираєте формат: SRT, VTT або звичайний TXT.

Ось і весь цикл. Різниця між інструментами зводиться до ціни, мовного покриття, куди потрапляє ваше аудіо і чи є третій крок безкоштовним.

SRT проти VTT проти TXT: який файл вам потрібен

У кожному меню експорту є три формати, і люди постійно обирають не той.

  • SRT (SubRip) — стандартний формат файлу субтитрів. Це текстовий файл із пронумерованими блоками, кожен із діапазоном тайм-коду і одним-двома рядками тексту. Його читає YouTube, більшість відеоредакторів і майже кожен плеєр. Якщо не знаєте, що обрати, — обирайте SRT.
  • VTT (WebVTT) — вебаналог SRT. Та сама ідея, трохи інший синтаксис, плюс підтримка стилів і позиціонування. Використовуйте VTT, коли вебсайт або HTML5-відеоплеєр явно запитує саме його.
  • TXT — лише слова, без тайм-кодів. Цей формат потрібен, коли ви пишете статтю, робите конспект чи цитуєте інтерв'ю. Він єдиний із трьох, який може дати звичайний інструмент для диктування.

Моє просте правило: SRT для відео, TXT для документів, VTT коли вебплатформа прямо про нього просить. Більшість інструментів експортують усі три: VEED, Kapwing і Descript.

Інструменти, що перетворюють аудіо на файли субтитрів

Ось де знаходиться кожен браузерний інструмент — із характеристиками, взятими прямо з їхніх сторінок.

  • VEED — це вебта мобільний автоматичний генератор субтитрів, що транскрибує лише з аудіофайлу й дозволяє завантажити результат як SRT, VTT або TXT. Початок безкоштовний. Завантаження файлу субтитрів і субтитрування довших відео переводять вас на платний рівень.
  • Kapwing рекламує «субтитри з точністю 99%, готові за секунди». Це власна маркетингова цифра Kapwing, а не незалежний тест. Приймає будь-яке відео або аудіо, включно з MP3, може перекладати субтитри більш ніж 100 мовами, експортує SRT, VTT і TXT. Безкоштовний акаунт дає до 10 хвилин субтитрів і водяний знак; Pro знімає водяний знак.
  • Descript генерує субтитри більш ніж 22 мовами, приймає лише аудіофайли й експортує «м'які» субтитри як SRT або VTT через Publish → Export → Subtitles. Працює за freemium-моделлю: безкоштовний рівень дає одну годину медіа на місяць.

Ось як ці чотири виглядають за параметрами, які можна перевірити до того, як зробити вибір. Цифр точності й швидкості немає — ніхто не тестував їх на одному аудіо пліч-о-пліч:

ІнструментПлатформаЛокально або хмараОфлайн-режимМодель ціноутворенняМовиНайкраще для
VEEDВебта мобільнийХмараНіБезкоштовний старт, платний експортПонад 40 варіантів, без зазначення загальної кількостіШвидкий прохід у браузері з завантаженням
KapwingВебпlatformХмараНіБезкоштовний рівень (водяний знак), ProПерекладає більш ніж 100 мовамиШвидкі субтитри з перекладом
DescriptВебplatformХмараНіFreemium, одна медіагодина безкоштовно22+Одночасне редагування аудіо та субтитрів
OpenAI Whisper CLIWindows, macOS, LinuxЛокальноТакБезкоштовно, відкритий вихідний код99 багатомовних, 1 для .en-збірокБезкоштовно, приватно, без завантаження

Всі три браузерні інструменти завантажують ваше аудіо на чужий сервер. Для маркетингового кліпу це нормально. Але якщо це записаний дзвінок із клієнтом або щось із цифрами зарплати — читайте далі.

Ці інструменти мають приблизно однаковий вигляд інтерфейсу:

interview-audio.mp3Авто-субтитри
SRTVTTTXTЗавантажити

Завантажте, натисніть «Генерувати», виберіть формат, збережіть. Ось така панель — не наша — і є тим, як виглядає генератор субтитрів з аудіо.

Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Код на екрані комп'ютера в темному режимі, що натякає на роботу в командному рядку для субтитрів

Якщо ви не хочете нічого завантажувати, інструмент командного рядка OpenAI з відкритим вихідним кодом Whisper записує файли субтитрів прямо на вашому комп'ютері — безкоштовно. Прапор --output_format приймає txt, vtt, srt, tsv, json або all, і за замовчуванням виводить all. Тож одна команда — whisper interview.mp3 --model turbo — створює .srt-файл офлайн, без акаунту й без завантаження.

Відкритий Whisper — це інший проект, відмінний від Whisper by Remskill, і варто розуміти різницю. Це модель командного рядка від OpenAI, яка працює на вашому комп'ютері й видає синхронізовані файли субтитрів. Вона поставляється у шести розмірах (tiny, base, small, medium, large і turbo) з англомовними варіантами для чотирьох менших. Багатомовні моделі охоплюють 99 мов; .en-варіанти — лише англійську.

Ось позиція, за якою я стою: для будь-чого чутливого аудіо не повинно покидати ваш ноутбук. Запис оцінки роботи, продиктовані нотатки лікаря, юридичний допит — жодне з цього не повинно потрапляти до журналів обробки постачальника просто тому, що вам були потрібні тайм-коди.

Якось я спостерігав, як команда накопичила п'ятизначний рахунок за хмарний ШІ за один квартал, транскрибуючи записи стендапів. Реакція фінансового директора на наступному огляді була не «оптимізуємо запит», а «чому ми взагалі надсилаємо аудіо нарад на сервер?». У вашому ноутбуку вже є процесор і мікрофон. Для приватних матеріалів офлайн Whisper CLI — правильна відповідь, і коштує вона нічого.

Є швидший локальний порт — whisper.cpp, чиста збірка Whisper на C/C++ без залежностей, що працює лише на CPU під відкритою ліцензією. Кажуть, що він теж вміє записувати файли субтитрів, хоча я б рекомендував офіційний OpenAI Whisper CLI для перевіреного шляху до .srt, а whisper.cpp розглядати як прискорення після того, як освоїтеся.

Коли Whisper by Remskill — не той інструмент

Pasted
Оверлей Whisper у завершеному стані — він вставляє чистий абзац у місце курсора, а не синхронізований файл субтитрів. Синій віджет розташовується поверх будь-якого застосунку.

Ось та частина, яку більшість продуктових блогів пропускає. Якщо ваше завдання — завантажити .srt або .vtt файл, наш застосунок не той інструмент, і я краще скажу вам про це зараз, ніж ви витратите час на завантаження.

Whisper by Remskill — це насамперед диктування. Ви утримуєте гарячу клавішу (Ctrl+Space на Windows, Command+Option на macOS), говорите, відпускаєте — і транскрипт вставляється в місце курсора в будь-якому відкритому застосунку. Він не ділить мовлення на блоки субтитрів, не синхронізує текст із аудіодоріжкою і не записує синхронізований файл субтитрів. Дайте йому інтерв'ю — отримаєте чистий абзац, а не SRT. Я десятки разів уявляв меню експорту й так і не випустив його, тому що синхронізовані субтитри — це окремий продукт, і робити їх погано нікому не допоможе.

Для файлів субтитрів користуйтесь інструментами вище. Наш застосунок — для суміжного завдання: перетворити власне мовлення на текст у ту саму мить, коли він вам потрібен. Листа, чернетку, підпис для публікації в соцмережах, який ви введете вручну. Він працює на двох чистих Rust-рушіях — OpenAI Whisper і NVIDIA Parakeet — без Python і без завантаження. Різні завдання — різні інструменти. Правильний вибір і є головним сенсом цієї статті.

Перш ніж відкривати будь-який інструмент, дайте відповідь на питання, що вирішує все: ви відправляєте файл чи текст? Файл — це тайм-коди, тобто справжній генератор субтитрів. VEED або Kapwing для швидкого проходу в браузері, Whisper CLI — безкоштовно й приватно. Текст — це транскрипт, а це вже інший інструмент. Я зробив застосунок для диктування й все одно відправлю вас деінде, коли деінде — правильне місце. Минулого тижня моя семирічна донька запитала, що я роблю на роботі. Чесна відповідь: допомагаю людям менше друкувати. Їй це здалося абсолютно нецікавим. А той вечір, який ви збережете, — це і є той вечір, який я провів, субтитруючи подкаст вручну, по три секунди за раз.

Хочете диктування замість субтитрів?

Якщо ваше завдання — слова в місці курсора, а не файл субтитрів, Whisper перетворює ваше власне мовлення на текст у ту саму мить, коли він вам потрібен, повністю офлайн.

Безкоштовне локальне диктування для кожного авторизованого користувача. Для файлів субтитрів використовуйте інструменти вище.

Фото Дениса Медведєва

Denys Medvediev

Саме я читаю нашу пошту підтримки — і, найімовірніше, диктую відповіді.

Додаткові матеріали