Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Автор: Денис Медведєв23 квітня 2026 р.

Інструкція

Аудіо в субтитри: що справді працює

Генератор субтитрів з аудіо перетворює звуковий файл на синхронізований SRT або VTT. Ось реальний робочий процес, інструменти, які дійсно вивантажують такий файл, і безкоштовний офлайн-варіант, що не завантажує ваше аудіо нікуди.

Останнє оновлення: червень 2026

Аудіохвилі на екрані, що ілюструють перетворення звукового файлу на доріжку субтитрів

Генератор субтитрів з аудіо бере звуковий файл — MP3, WAV або подкаст-експорт — і записує синхронізований файл субтитрів. Кожен рядок тексту має мітку початку й кінця. Вебінструменти VEED, Kapwing і Descript роблять це прямо в браузері. Безкоштовний інструмент командного рядка OpenAI Whisper робить те саме офлайн, на вашому комп'ютері.

Якось я витратив сорок хвилин на ручне додавання субтитрів до десятихвилинного подкасту: зупинявся кожні три секунди, щоб надрукувати текст і вгадати тайм-коди. Маю ступінь магістра з програмної інженерії. Але математика невблаганна: субтитрування вручну займає в кілька разів більше, ніж тривалість самого аудіо. Сучасний генератор субтитрів робить ту саму роботу приблизно за час, рівний тривалості файлу плюс одна кава. Але є нюанс, про який зазвичай не кажуть одразу: правильний інструмент залежить від одного питання. Вам потрібен синхронізований файл для завантаження чи просто текст?

«Генератор субтитрів» використовують для двох різних завдань, і хибний вибір інструменту коштує цілого дня. Ринок ділиться на браузерні інструменти, що експортують синхронізовані файли, і офлайн-інструменти, які роблять те саме безкоштовно, якщо ви готові відкрити термінал. Цей посібник розповідає, як влаштований процес, які інструменти справді виводять .srt-файл лише з аудіо, що означають SRT, VTT і TXT, і де застосунок для диктування на кшталт нашого — хибний вибір. До кінця ви знатимете, який інструмент відкривати для свого завдання. Більшість плутанини, яку я читаю в нашій підтримці, від людей, що обрали інструмент для диктування, хоч потребували файлу субтитрів. Рік таких листів — головна причина існування цієї статті.

Вам потрібні тайм-коди, а не просто текст

Файл субтитрів — це не транскрипт. Транскрипт — це слова. Файл субтитрів — це слова плюс синхронізація. Кожен блок субтитрів каже: «показуй цей рядок з 00:01:04 по 00:01:07». Саме ця синхронізація і є головним завданням. Вона дозволяє відеоплеєру показувати потрібні слова в потрібну секунду.

Більшість інструментів «голос у текст», включно з нашим, видають лише слова — і нічого більше. Вони вставляють чистий абзац у місце курсора і на цьому зупиняються. Генератор субтитрів з аудіо має зробити більше: розбити мовлення на короткі блоки розміру субтитрів, синхронізувати кожен блок із аудіодоріжкою і записати все це у строгому форматі, який зможе прочитати плеєр. Якщо ваш результат — файл для завантаження на YouTube, до відеоредактора або навчальної платформи, вам потрібні тайм-коди. Якщо ваш результат — текст у документі, вони вам не потрібні, і платити за інструмент субтитрів для цього не варто.

Як згенерувати субтитри з аудіофайлу: три кроки

Ноутбук із програмою для редагування аудіо і навушники на столі в домашньому офісі

Процес однаковий майже в кожному інструменті — у браузері чи офлайн.

Завантажте аудіофайл або вкажіть шлях до нього. Більшість інструментів приймають MP3, WAV, M4A і FLAC — відео не потрібне. VEED приймає MP3, WAV, записи подкастів, аудіо інтерв'ю і голосові нотатки. Якщо у вас є лише відео, інструмент сам витягне з нього аудіо.

Дозвольте йому транскрибувати й синхронізувати мовлення. Інструмент пропускає аудіо через мовну модель, ділить результат на рядки розміру субтитрів і ставить кожному мітку початку й кінця. Ручна версія займає в кілька разів більше, ніж тривалість аудіо. Машинна — приблизно стільки, скільки триває файл.

Перевірте і збережіть файл. Прочитайте транскрипт один раз (модель дає хороший результат, але не ідеальний), виправте спотворені імена — і експортуйте. Тут ви обираєте формат: SRT, VTT або звичайний TXT.

Ось і весь цикл. Різниця між інструментами зводиться до ціни, мовного покриття, куди потрапляє ваше аудіо і чи є третій крок безкоштовним.

SRT проти VTT проти TXT: який файл вам потрібен

У кожному меню експорту є три формати, і люди постійно обирають не той.

SRT (SubRip) — стандартний формат файлу субтитрів. Це текстовий файл із пронумерованими блоками, кожен із діапазоном тайм-коду і одним-двома рядками тексту. Його читає YouTube, більшість відеоредакторів і майже кожен плеєр. Якщо не знаєте, що обрати, — обирайте SRT.
VTT (WebVTT) — вебаналог SRT. Та сама ідея, трохи інший синтаксис, плюс підтримка стилів і позиціонування. Використовуйте VTT, коли вебсайт або HTML5-відеоплеєр явно запитує саме його.
TXT — лише слова, без тайм-кодів. Цей формат потрібен, коли ви пишете статтю, робите конспект чи цитуєте інтерв'ю. Він єдиний із трьох, який може дати звичайний інструмент для диктування.

Моє просте правило: SRT для відео, TXT для документів, VTT коли вебплатформа прямо про нього просить. Більшість інструментів експортують усі три: VEED, Kapwing і Descript.

Інструменти, що перетворюють аудіо на файли субтитрів

Ось де знаходиться кожен браузерний інструмент — із характеристиками, взятими прямо з їхніх сторінок.

VEED — це вебта мобільний автоматичний генератор субтитрів, що транскрибує лише з аудіофайлу й дозволяє завантажити результат як SRT, VTT або TXT. Початок безкоштовний. Завантаження файлу субтитрів і субтитрування довших відео переводять вас на платний рівень.
Kapwing рекламує «субтитри з точністю 99%, готові за секунди». Це власна маркетингова цифра Kapwing, а не незалежний тест. Приймає будь-яке відео або аудіо, включно з MP3, може перекладати субтитри більш ніж 100 мовами, експортує SRT, VTT і TXT. Безкоштовний акаунт дає до 10 хвилин субтитрів і водяний знак; Pro знімає водяний знак.
Descript генерує субтитри більш ніж 22 мовами, приймає лише аудіофайли й експортує «м'які» субтитри як SRT або VTT через Publish → Export → Subtitles. Працює за freemium-моделлю: безкоштовний рівень дає одну годину медіа на місяць.

Ось як ці чотири виглядають за параметрами, які можна перевірити до того, як зробити вибір. Цифр точності й швидкості немає — ніхто не тестував їх на одному аудіо пліч-о-пліч:

Інструмент	Платформа	Локально або хмара	Офлайн-режим	Модель ціноутворення	Мови	Найкраще для
VEED	Вебта мобільний	Хмара	Ні	Безкоштовний старт, платний експорт	Понад 40 варіантів, без зазначення загальної кількості	Швидкий прохід у браузері з завантаженням
Kapwing	Вебпlatform	Хмара	Ні	Безкоштовний рівень (водяний знак), Pro	Перекладає більш ніж 100 мовами	Швидкі субтитри з перекладом
Descript	Вебplatform	Хмара	Ні	Freemium, одна медіагодина безкоштовно	22+	Одночасне редагування аудіо та субтитрів
OpenAI Whisper CLI	Windows, macOS, Linux	Локально	Так	Безкоштовно, відкритий вихідний код	99 багатомовних, 1 для .en-збірок	Безкоштовно, приватно, без завантаження

Всі три браузерні інструменти завантажують ваше аудіо на чужий сервер. Для маркетингового кліпу це нормально. Але якщо це записаний дзвінок із клієнтом або щось із цифрами зарплати — читайте далі.

Ці інструменти мають приблизно однаковий вигляд інтерфейсу:

interview-audio.mp3Авто-субтитри

SRTVTTTXTЗавантажити

Завантажте, натисніть «Генерувати», виберіть формат, збережіть. Ось така панель — не наша — і є тим, як виглядає генератор субтитрів з аудіо.

Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Код на екрані комп'ютера в темному режимі, що натякає на роботу в командному рядку для субтитрів

Якщо ви не хочете нічого завантажувати, інструмент командного рядка OpenAI з відкритим вихідним кодом Whisper записує файли субтитрів прямо на вашому комп'ютері — безкоштовно. Прапор --output_format приймає txt, vtt, srt, tsv, json або all, і за замовчуванням виводить all. Тож одна команда — whisper interview.mp3 --model turbo — створює .srt-файл офлайн, без акаунту й без завантаження.

Відкритий Whisper — це інший проект, відмінний від Whisper by Remskill, і варто розуміти різницю. Це модель командного рядка від OpenAI, яка працює на вашому комп'ютері й видає синхронізовані файли субтитрів. Вона поставляється у шести розмірах (tiny, base, small, medium, large і turbo) з англомовними варіантами для чотирьох менших. Багатомовні моделі охоплюють 99 мов; .en-варіанти — лише англійську.

Ось позиція, за якою я стою: для будь-чого чутливого аудіо не повинно покидати ваш ноутбук. Запис оцінки роботи, продиктовані нотатки лікаря, юридичний допит — жодне з цього не повинно потрапляти до журналів обробки постачальника просто тому, що вам були потрібні тайм-коди.

Якось я спостерігав, як команда накопичила п'ятизначний рахунок за хмарний ШІ за один квартал, транскрибуючи записи стендапів. Реакція фінансового директора на наступному огляді була не «оптимізуємо запит», а «чому ми взагалі надсилаємо аудіо нарад на сервер?». У вашому ноутбуку вже є процесор і мікрофон. Для приватних матеріалів офлайн Whisper CLI — правильна відповідь, і коштує вона нічого.

Є швидший локальний порт — whisper.cpp, чиста збірка Whisper на C/C++ без залежностей, що працює лише на CPU під відкритою ліцензією. Кажуть, що він теж вміє записувати файли субтитрів, хоча я б рекомендував офіційний OpenAI Whisper CLI для перевіреного шляху до .srt, а whisper.cpp розглядати як прискорення після того, як освоїтеся.

Коли Whisper by Remskill — не той інструмент

Pasted

Оверлей Whisper у завершеному стані — він вставляє чистий абзац у місце курсора, а не синхронізований файл субтитрів. Синій віджет розташовується поверх будь-якого застосунку.

Ось та частина, яку більшість продуктових блогів пропускає. Якщо ваше завдання — завантажити .srt або .vtt файл, наш застосунок не той інструмент, і я краще скажу вам про це зараз, ніж ви витратите час на завантаження.

Whisper by Remskill — це насамперед диктування. Ви утримуєте гарячу клавішу (Ctrl+Space на Windows, Command+Option на macOS), говорите, відпускаєте — і транскрипт вставляється в місце курсора в будь-якому відкритому застосунку. Він не ділить мовлення на блоки субтитрів, не синхронізує текст із аудіодоріжкою і не записує синхронізований файл субтитрів. Дайте йому інтерв'ю — отримаєте чистий абзац, а не SRT. Я десятки разів уявляв меню експорту й так і не випустив його, тому що синхронізовані субтитри — це окремий продукт, і робити їх погано нікому не допоможе.

Для файлів субтитрів користуйтесь інструментами вище. Наш застосунок — для суміжного завдання: перетворити власне мовлення на текст у ту саму мить, коли він вам потрібен. Листа, чернетку, підпис для публікації в соцмережах, який ви введете вручну. Він працює на двох чистих Rust-рушіях — OpenAI Whisper і NVIDIA Parakeet — без Python і без завантаження. Різні завдання — різні інструменти. Правильний вибір і є головним сенсом цієї статті.

Перш ніж відкривати будь-який інструмент, дайте відповідь на питання, що вирішує все: ви відправляєте файл чи текст? Файл — це тайм-коди, тобто справжній генератор субтитрів. VEED або Kapwing для швидкого проходу в браузері, Whisper CLI — безкоштовно й приватно. Текст — це транскрипт, а це вже інший інструмент. Я зробив застосунок для диктування й все одно відправлю вас деінде, коли деінде — правильне місце. Минулого тижня моя семирічна донька запитала, що я роблю на роботі. Чесна відповідь: допомагаю людям менше друкувати. Їй це здалося абсолютно нецікавим. А той вечір, який ви збережете, — це і є той вечір, який я провів, субтитруючи подкаст вручну, по три секунди за раз.

Хочете диктування замість субтитрів?

Якщо ваше завдання — слова в місці курсора, а не файл субтитрів, Whisper перетворює ваше власне мовлення на текст у ту саму мить, коли він вам потрібен, повністю офлайн.

Подивитися, як працює Whisper Переглянути ціни

Безкоштовне локальне диктування для кожного авторизованого користувача. Для файлів субтитрів використовуйте інструменти вище.

Denys Medvediev

Саме я читаю нашу пошту підтримки — і, найімовірніше, диктую відповіді.

Додаткові матеріали

Часті запитання

Так. VEED, Kapwing, Descript і відкритий Whisper CLI — усі транскрибують з аудіофайлу: MP3, WAV, M4A, FLAC. Відеодоріжка не потрібна; інструмент сам синхронізує мовлення.

Усі статті

Туторіал

Голосове введення у Word

Win+H і кнопка Dictate обидва дають голосове введення у Word — різні вимоги, однакова залежність від інтернету. Як увімкнути кожен, плюс офлайн-апгрейд.

Пояснення

Гаряча клавіша голосового набору в кожній ОС

Win+H у Windows, Ctrl+Shift+S у Google Docs, Option+F1 у Word, клавіша диктування на Mac — усі комбінації голосового набору в одній таблиці й одна гаряча клавіша для всіх застосунків.

Порівняння

Альтернатива голосовому введенню Google: диктуйте будь-де

Голосове введення Google зупиняється на межі Google Docs. Чесне порівняння з настільним застосунком, який друкує в кожному застосунку, розставляє розділові знаки за вас і працює офлайн.

Автор: Денис Медведєв23 квітня 2026 р.

Інструкція

Аудіо в субтитри: що справді працює

Останнє оновлення: червень 2026

Вам потрібні тайм-коди, а не просто текст

Як згенерувати субтитри з аудіофайлу: три кроки

Процес однаковий майже в кожному інструменті — у браузері чи офлайн.

SRT проти VTT проти TXT: який файл вам потрібен

У кожному меню експорту є три формати, і люди постійно обирають не той.

SRT (SubRip) — стандартний формат файлу субтитрів. Це текстовий файл із пронумерованими блоками, кожен із діапазоном тайм-коду і одним-двома рядками тексту. Його читає YouTube, більшість відеоредакторів і майже кожен плеєр. Якщо не знаєте, що обрати, — обирайте SRT.
VTT (WebVTT) — вебаналог SRT. Та сама ідея, трохи інший синтаксис, плюс підтримка стилів і позиціонування. Використовуйте VTT, коли вебсайт або HTML5-відеоплеєр явно запитує саме його.
TXT — лише слова, без тайм-кодів. Цей формат потрібен, коли ви пишете статтю, робите конспект чи цитуєте інтерв'ю. Він єдиний із трьох, який може дати звичайний інструмент для диктування.

Інструменти, що перетворюють аудіо на файли субтитрів

Ось де знаходиться кожен браузерний інструмент — із характеристиками, взятими прямо з їхніх сторінок.

VEED — це вебта мобільний автоматичний генератор субтитрів, що транскрибує лише з аудіофайлу й дозволяє завантажити результат як SRT, VTT або TXT. Початок безкоштовний. Завантаження файлу субтитрів і субтитрування довших відео переводять вас на платний рівень.
Kapwing рекламує «субтитри з точністю 99%, готові за секунди». Це власна маркетингова цифра Kapwing, а не незалежний тест. Приймає будь-яке відео або аудіо, включно з MP3, може перекладати субтитри більш ніж 100 мовами, експортує SRT, VTT і TXT. Безкоштовний акаунт дає до 10 хвилин субтитрів і водяний знак; Pro знімає водяний знак.
Descript генерує субтитри більш ніж 22 мовами, приймає лише аудіофайли й експортує «м'які» субтитри як SRT або VTT через Publish → Export → Subtitles. Працює за freemium-моделлю: безкоштовний рівень дає одну годину медіа на місяць.

Інструмент	Платформа	Локально або хмара	Офлайн-режим	Модель ціноутворення	Мови	Найкраще для
VEED	Вебта мобільний	Хмара	Ні	Безкоштовний старт, платний експорт	Понад 40 варіантів, без зазначення загальної кількості	Швидкий прохід у браузері з завантаженням
Kapwing	Вебпlatform	Хмара	Ні	Безкоштовний рівень (водяний знак), Pro	Перекладає більш ніж 100 мовами	Швидкі субтитри з перекладом
Descript	Вебplatform	Хмара	Ні	Freemium, одна медіагодина безкоштовно	22+	Одночасне редагування аудіо та субтитрів
OpenAI Whisper CLI	Windows, macOS, Linux	Локально	Так	Безкоштовно, відкритий вихідний код	99 багатомовних, 1 для .en-збірок	Безкоштовно, приватно, без завантаження

Ці інструменти мають приблизно однаковий вигляд інтерфейсу:

interview-audio.mp3Авто-субтитри

SRTVTTTXTЗавантажити

Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Коли Whisper by Remskill — не той інструмент

Pasted

Хочете диктування замість субтитрів?

Подивитися, як працює Whisper Переглянути ціни

Denys Medvediev

Саме я читаю нашу пошту підтримки — і, найімовірніше, диктую відповіді.

Додаткові матеріали

Часті запитання

Усі статті

Туторіал

Голосове введення у Word

Пояснення

Гаряча клавіша голосового набору в кожній ОС

Порівняння

Аудіо в субтитри: що справді працює

Вам потрібні тайм-коди, а не просто текст

Як згенерувати субтитри з аудіофайлу: три кроки

SRT проти VTT проти TXT: який файл вам потрібен

Інструменти, що перетворюють аудіо на файли субтитрів

Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Коли Whisper by Remskill — не той інструмент

Хочете диктування замість субтитрів?

Додаткові матеріали

Часті запитання

Читати далі

Голосове введення у Word

Гаряча клавіша голосового набору в кожній ОС

Альтернатива голосовому введенню Google: диктуйте будь-де

Аудіо в субтитри: що справді працює

Вам потрібні тайм-коди, а не просто текст

Як згенерувати субтитри з аудіофайлу: три кроки

SRT проти VTT проти TXT: який файл вам потрібен

Інструменти, що перетворюють аудіо на файли субтитрів

Безкоштовно й офлайн: генеруємо SRT з відкритим Whisper

Коли Whisper by Remskill — не той інструмент

Хочете диктування замість субтитрів?

Додаткові матеріали

Часті запитання

Читати далі

Голосове введення у Word

Гаряча клавіша голосового набору в кожній ОС

Альтернатива голосовому введенню Google: диктуйте будь-де