How do I convert audio to text?

Pick a converter, give it your audio, and read back the text. Web tools want you to upload a file; a desktop app like Whisper can transcribe a recording locally or dictate live at the cursor with a hotkey. The text comes back editable.

Can AI transcribe audio to text accurately?

Yes, on clear audio. Vendors quote 96 to 99% on clean recordings, though those are marketing figures, not independent benchmarks. Accuracy drops on noisy audio, heavy accents, and overlapping speakers. A decent microphone helps more than a bigger model.

Does audio to text work offline?

With the right tool, yes. Whisper's local mode processes everything on your computer and needs no internet after a one-time model download of about 140 MB to 3 GB. The free web converters in this search all require an upload, so they need a connection.

Is there a free audio to text converter?

Several, with limits. HappyScribe offers 10 free minutes with no card; AudioConvert.ai gives 30 minutes a day. Whisper's entire local pipeline is free for authenticated users with no payment method at signup.

What audio formats can I convert to text?

Most tools take the common ones. The OpenAI transcription API accepts mp3, mp4, mpeg, mpga, m4a, wav, and webm. NoteGPT lists MP3, WAV, MP4, and AVI. Cloud uploads also hit a 25 MB ceiling per request on the OpenAI endpoint.

Does it support multiple languages?

Depends on the model. Whisper's multilingual models cover 99 languages with auto-detect; its English-only builds are locked to English. The faster Parakeet engine covers English plus 24 European languages, with no Asian languages and no translate-to-English.

Can I transcribe audio from a video file?

Yes. Transcription only cares about the audio track, so the OpenAI endpoint accepts mp4. For a video on your own drive, local transcription keeps the file off any server while it works.

Автор: Денис Медведєв13 березня 2026 р.

Посібник

Конвертер аудіо в текст, як він працює

Безкоштовні вебінструменти, офлайн-програми для комп'ютера та хмара з власним ключем — усі вони перетворюють звук на текст. Насправді важливе одне: де саме обробляється ваше аудіо.

Останнє оновлення: червень 2026

Великий план цифрового аудіоінтерфейсу зі сяйливою звуковою хвилею на темному екрані

Конвертер аудіо в текст перетворює запис або живу мову на текст, який можна редагувати й шукати, за допомогою моделі розпізнавання мовлення. Важливе одне: де обробляється аудіо. Безкоштовні вебінструменти завантажують файли на сервер, тоді як програма на кшталт Whisper здатна розшифрувати все просто на вашому комп'ютері, офлайн, і вставити результат туди, де стоїть ваш курсор.

Більшість безкоштовних інструментів для перетворення аудіо в текст дають вам перші 10–30 хвилин розшифровки, а потім просять картку. Це чесно. Сервери коштують грошей. Те, про що вголос не говорять, — що ваше аудіо спершу мусило потрапити на ці сервери. Голосова нотатка лікаря, запис засідання правління, файл із підготовкою до слухання щодо опіки: усе це завантажено до постачальника, з яким ви ніколи не зустрічалися.

У мене є думка щодо цього, і я до неї дійду.

Конвертер аудіо в текст робить одну річ: слухає звук і записує слова. Цікаві відмінності — у тому, як він слухає (модель), де він слухає (ваш комп'ютер чи сервер) і що робить із текстом потім (зберігає у файл чи вставляє туди, де ви вже друкуєте). Три безкоштовні конвертери з найвищими позиціями за цим запитом — усі однакового типу «завантаж файл і чекай». Whisper by Remskill — зовсім інша історія. Він орієнтований на диктування: ви натискаєте гарячу клавішу, говорите, і текст з'являється біля курсора в будь-якій програмі.

Цей посібник пояснює, як працюють конвертери, проходить три кроки для готового запису й каже, коли вебконвертер — правильний вибір, а коли ні. Після року читання нашої служби підтримки можу сказати: більша частина листів — від людей, які обрали хмарний інструмент для аудіо, що ніколи не мало б залишати їхній ноутбук.

Конвертер аудіо в текст перетворює записи на слова, які можна редагувати

Whisper

Справжня програма Whisper — поклацайте в Налаштуваннях, щоб побачити, як налаштовується локальна й хмарна розшифровка.

Під капотом кожен конвертер запускає те саме: модель розпізнавання мовлення. Вона бере хвилю вашого аудіо й передбачає слова, фрагмент за фрагментом. Саме в моделі живе точність. Велика відкрита модель, що стоїть за багатьма з цих інструментів, — це Whisper від OpenAI, який у мультимовних варіантах підтримує 99 мов. Та сама OpenAI Speech-to-Text API дає доступ до whisper-1, а також новіших моделей gpt-4o-transcribe і gpt-4o-mini-transcribe.

На виході — звичайний текст, який можна редагувати. Ви можете виправити ім'я, знайти фразу, вставити її в лист. У цьому вся суть. Звук важко переглядати, а текст — легко. Whisper видає такий самий редагований текст, але замість файлу для завантаження він може вставити його просто в ту програму, де ви зараз працюєте. Програма, вбудована вище, — це справжній застосунок для комп'ютера, а не макет.

Вибір моделі — це і є рішення про точність, а відкрита модель Whisper та Google Cloud Speech-to-Text потрапляють у різні точки; наше порівняння Whisper і Google Speech-to-Text ставить ці два рушії поруч за точністю, охопленням мов і тим, куди потрапляє ваше аудіо.

Як перетворити аудіофайл на текст за три кроки

Для готового запису шлях короткий. Безкоштовні вебконвертери описують його так: завантаж, натисни, скачай.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

Типовий вебконвертер: перетягуєте файл, чекаєте на завантаження, скачуєте розшифровку.

Оберіть, де це виконується. Хмарним конвертерам потрібно, щоб ви завантажили файл на їхній сервер. Whisper у локальному режимі виконує розшифровку на вашому власному комп'ютері, тож файл ніколи його не залишає.

Виберіть модель під свою мову. Файли лише англійською найшвидше обробляє менша модель. Мультимовне або змішане аудіо потребує мультимовної моделі, яка охоплює 99 мов.

Отримайте текст і відредагуйте його. Розшифровка повертається у вигляді звичайного тексту. Виправте друкарські помилки, які модель завжди робить на власних назвах, — і готово.

CancelTranscribing

Whisper розшифровує запис локально — файл ніколи не залишає вашого комп'ютера.

Один нюанс варто знати: хмарні API мають обмеження на розмір. Кінцева точка транскрипції OpenAI обмежує завантаження до 25 МБ на запит. Довгий запис наради у форматі WAV перевищить цю межу дуже швидко. У локальної обробки таких обмежень немає — лише ваш диск і ваше терпіння.

Готові файли проти живого диктування: що саме вам потрібно?

Ось питання, яке більшість сторінок про конвертери пропускає. Ви розшифровуєте файл, що вже існує, чи намагаєтеся написати щось нове голосом?

Якщо у вас є запис (інтерв'ю, лекція, подкаст), файловий конвертер — правильний інструмент. Завантажте його, отримайте розшифровку, рухайтеся далі. Три найкращі безкоштовні інструменти впораються з цим, з добовими лімітами хвилин на безкоштовному тарифі.

Cancel

Накладка живого запису Whisper — утримуйте гарячу клавішу, говоріть, відпускайте.

Якщо ви пишете новий лист, нотатку чи документ, файл вам взагалі не потрібен. Вам потрібно, щоб слова з'являлися просто під час мовлення. Це диктування, і працює воно інакше. У Whisper ви утримуєте гарячу клавішу, говорите й відпускаєте. У Windows за замовчуванням це Ctrl+Space, а в macOS — акорд push-to-talk Command+Option (утримуйте обидві клавіші, відпустіть будь-яку, щоб зупинити). Розшифрований текст вставляється біля вашого курсора в будь-якій програмі. Жодного завантаження, жодного скачування, жодного перемикання вкладок. Накладка вище — це те, що ви бачите, поки програма слухає.

Більшість людей, які шукають конвертер аудіо в текст, хочуть першого, а виявляють, що їм потрібне ще й друге. Ви записуєте менше речей, ніж пишете. Минулого року я два тижні шукав кращий файловий конвертер, тоді як насправді мені потрібно було припинити друкувати відповіді одним пальцем під час плавання моєї доньки.

Локально проти хмари: де обробляється ваше аудіо (і чому це важливо)

Ряди серверних стійок у дата-центрі з активним обладнанням, що символізують хмарну обробку аудіо

Розвилка, яка має значення, тут — і саме про неї безкоштовні інструменти мовчать найтихіше. Вебконвертер обробляє ваше аудіо на своїх серверах. AudioConvert.ai каже, що файли видаляються протягом 24 годин. HappyScribe і NoteGPT теж завантажують усе в хмару. Це звична практика, і для публічного подкасту вона нормальна.

А тепер думка, яку я обіцяв. Конвертація аудіо лише через хмару — це катастрофа з приватністю, що чекає, поки її розшифрують. У команді, з якою я колись працював, підрядник збудував внутрішній прототип диктування, що для кожного висловлювання звертався до хмарного ШІ. Менеджер відкрив панель витрат наприкінці кварталу й побачив п'ятизначний рахунок, більшість якого пішла на те, що записи щоденних стендапів розшифровувалися по чотири рази через надто агресивну логіку повторних спроб. Відповідь фіндиректора була короткою: або ми могли б не платити за завантаження нарад, у яких уже є нотатки. Гроші були меншою проблемою. Більшою було те, що квартали внутрішніх дзвінків тепер жили на чужих серверах.

Локальний режим Whisper дає на це відповідь. У локальному режимі все аудіо обробляється на вашому комп'ютері й нічого не залишає пристрій; після одноразового завантаження моделі (приблизно від 140 МБ до 3 ГБ залежно від моделі) він повністю працює офлайн. На пристрої працюють два рушії: моделі Whisper і Parakeet від NVIDIA, який у 5–10 разів швидший за Whisper на CPU, але охоплює лише англійську та 24 європейські мови й не вміє перекладати англійською. Якщо ви віддаєте перевагу хмарі, у Whisper є режим OpenAI із власним ключем на gpt-4o-mini-transcribe або gpt-4o-transcribe (ті самі моделі, що дає API), за який OpenAI виставляє рахунок безпосередньо, без націнки з нашого боку. Суть у тому, що вибираєте ви. Безкоштовні вебінструменти вибирають за вас, і відповідь завжди одна — їхній сервер. Більше про те, як узагалі обійтися без хмари, читайте в нашому посібнику з офлайн-перетворення мовлення на текст.

Вибір точності: яка модель упорається з вашим акцентом і мовою

Точність — здебільшого питання моделі, а модель — питання мови. Безкоштовні конвертери рекламують великі цифри. AudioConvert.ai стверджує до 99% точності на чистому аудіо, HappyScribe каже до 96%. Це маркетингові заяви постачальників без опублікованої методики, тож сприймайте їх як рекламний буклет, а не як еталон.

Точність зростає тоді, коли модель відповідає вашому аудіо. Whisper постачається з 8 локальними моделями, поділеними на лише англійські та мультимовні. Збірки лише для англійської (Base від ~140 МБ до Medium на ~1,5 ГБ) фіксують вибір мови на англійській і добре роблять цю одну справу. Мультимовні збірки (Small, Medium, Large v3 на ~3 ГБ і Large v3 Turbo) охоплюють 99 мов з автовизначенням. Змішані українська й англійська в одному реченні? Тут потрібна мультимовна модель. Чиста голосова нотатка англійською? Англійська модель Base швидша й легша.

Whisper

Вибір моделі та мови у справжній програмі Whisper — збірки лише для англійської й мультимовні поруч.

Нудна правда, якої не визнає жодна сторінка про моделі: дешевий мікрофон-кліпса дає для точності більше, ніж будь-яке оновлення моделі. Сміття на вході — сміття в тексті на виході. Жодний ШІ не виправить запис, зроблений поряд із працюючою посудомийкою. Я витратив вихідні на налаштування параметрів моделі, щоб очистити власне каламутне аудіо, перш ніж зрозумів, що проблема — у мікрофоні ноутбука за п'ятнадцять сантиметрів від вентилятора. У мене є ступінь магістра. Панель налаштувань вище — це місце, де ви обираєте модель і мову.

Коли пропустити вебконвертер (і взяти щось інше)

Охайний робочий стіл із блокнотом, окулярами й ручками, що натякає на ручне ведення нотаток як альтернативу

Іноді вебконвертер — кращий вибір, і я радше скажу вам про це, ніж дам боротися не з тим інструментом. Якщо у вас один короткий запис (п'ятихвилинний фрагмент інтерв'ю, одна голосова нотатка) і вам байдуже, що він торкнеться сервера, безкоштовний конвертер на кшталт HappyScribe дасть перші 10 хвилин без картки. Відкрийте сторінку, завантажте, готово. Встановлювати програму заради цього — це занадто.

Пропустіть вебконвертер, коли справджується одне з трьох: аудіо чутливе (медичне, юридичне, фінансове), файл достатньо великий, щоб упертися в хмарне обмеження 25 МБ, або ви пишете щось нове, а не розшифровуєте щось старе. Перші два випадки потребують локальної обробки. Третій потребує диктування, а не конвертера взагалі. Для розшифровки нарад із кількома мовцями та підсумками краще пасує спеціалізований інструмент із тієї категорії, ніж будь-що з названого, — це інша задача, про яку йдеться в нашому огляді програм для транскрипції.

Скільки це коштує

Whisper безкоштовний для всіх для всього локального конвеєра (обидва рушії розшифровки, ШІ-очищення тексту, історія та власна гаряча клавіша), і для реєстрації не потрібен спосіб оплати. Хмарна частина з власним ключем — це платний рівень Pro, і OpenAI виставляє вам рахунок безпосередньо за реальні хвилини, які ви розшифровуєте. Безкоштовні вебконвертери з цього запиту працюють за моделлю freemium з лімітом хвилин: HappyScribe дає 10 безкоштовних хвилин, AudioConvert.ai — 30 хвилин на день. Whisper уже сьогодні працює на Windows і на macOS з Apple Silicon. Точні цифри тарифів у письмовому вигляді є на сторінці цін.

Безкоштовні конвертери добре роблять те, що роблять, — перетягни файл, почекай, скопіюй текст. Скористайтеся одним для фрагмента подкасту, яким вам не шкода поділитися. Але записи, що важать найбільше, — це зазвичай ті, які ви найменше хотіли б завантажувати, і саме тоді конвертер, що працює на вашому власному ноутбуці, перестає бути просто приємним доповненням.

Спробуйте запис, який ніколи не залишає вашого комп'ютера

Моя молодша донька минулої суботи продиктувала лист на 90 слів своїй бабусі й запитала мене, куди поділися слова. Нікуди, відповів я. Вони залишилися просто тут. Ця відповідь — і є вся причина, чому я це створив.

Завантажити Whisper Подивіться, як це працює

Безкоштовно для всього локального конвеєра. Для реєстрації не потрібен спосіб оплати.

Denys Medvediev

Я той, хто читає нашу пошту підтримки, найімовірніше — диктуючи відповіді.

Що почитати далі

Часті запитання

Виберіть конвертер, дайте йому своє аудіо й прочитайте текст у відповідь. Вебінструменти хочуть, щоб ви завантажили файл; програма на кшталт Whisper може розшифрувати запис локально або диктувати наживо біля курсора за допомогою гарячої клавіші. Текст повертається придатним для редагування.

Усі статті

Туторіал

Голосове введення у Word

Win+H і кнопка Dictate обидва дають голосове введення у Word — різні вимоги, однакова залежність від інтернету. Як увімкнути кожен, плюс офлайн-апгрейд.

Пояснення

Гаряча клавіша голосового набору в кожній ОС

Win+H у Windows, Ctrl+Shift+S у Google Docs, Option+F1 у Word, клавіша диктування на Mac — усі комбінації голосового набору в одній таблиці й одна гаряча клавіша для всіх застосунків.

Порівняння

Альтернатива голосовому введенню Google: диктуйте будь-де

Голосове введення Google зупиняється на межі Google Docs. Чесне порівняння з настільним застосунком, який друкує в кожному застосунку, розставляє розділові знаки за вас і працює офлайн.

Автор: Денис Медведєв13 березня 2026 р.

Посібник

Конвертер аудіо в текст, як він працює

Останнє оновлення: червень 2026

У мене є думка щодо цього, і я до неї дійду.

Конвертер аудіо в текст перетворює записи на слова, які можна редагувати

Whisper

Як перетворити аудіофайл на текст за три кроки

Для готового запису шлях короткий. Безкоштовні вебконвертери описують його так: завантаж, натисни, скачай.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

Типовий вебконвертер: перетягуєте файл, чекаєте на завантаження, скачуєте розшифровку.

CancelTranscribing

Whisper розшифровує запис локально — файл ніколи не залишає вашого комп'ютера.

Готові файли проти живого диктування: що саме вам потрібно?

Cancel

Накладка живого запису Whisper — утримуйте гарячу клавішу, говоріть, відпускайте.

Локально проти хмари: де обробляється ваше аудіо (і чому це важливо)

Вибір точності: яка модель упорається з вашим акцентом і мовою

Whisper

Вибір моделі та мови у справжній програмі Whisper — збірки лише для англійської й мультимовні поруч.

Коли пропустити вебконвертер (і взяти щось інше)

Скільки це коштує

Спробуйте запис, який ніколи не залишає вашого комп'ютера

Завантажити Whisper Подивіться, як це працює

Безкоштовно для всього локального конвеєра. Для реєстрації не потрібен спосіб оплати.

Denys Medvediev

Я той, хто читає нашу пошту підтримки, найімовірніше — диктуючи відповіді.

Що почитати далі

Часті запитання

Усі статті

Туторіал

Голосове введення у Word

Пояснення

Гаряча клавіша голосового набору в кожній ОС

Порівняння

Конвертер аудіо в текст, як він працює

Конвертер аудіо в текст перетворює записи на слова, які можна редагувати

Як перетворити аудіофайл на текст за три кроки

Готові файли проти живого диктування: що саме вам потрібно?

Локально проти хмари: де обробляється ваше аудіо (і чому це важливо)

Вибір точності: яка модель упорається з вашим акцентом і мовою

Коли пропустити вебконвертер (і взяти щось інше)

Скільки це коштує

Спробуйте запис, який ніколи не залишає вашого комп'ютера

Що почитати далі

Часті запитання

Читати далі

Голосове введення у Word

Гаряча клавіша голосового набору в кожній ОС

Альтернатива голосовому введенню Google: диктуйте будь-де

Конвертер аудіо в текст, як він працює

Конвертер аудіо в текст перетворює записи на слова, які можна редагувати

Як перетворити аудіофайл на текст за три кроки

Готові файли проти живого диктування: що саме вам потрібно?

Локально проти хмари: де обробляється ваше аудіо (і чому це важливо)

Вибір точності: яка модель упорається з вашим акцентом і мовою

Коли пропустити вебконвертер (і взяти щось інше)

Скільки це коштує

Спробуйте запис, який ніколи не залишає вашого комп'ютера

Що почитати далі

Часті запитання

Читати далі

Голосове введення у Word

Гаряча клавіша голосового набору в кожній ОС

Альтернатива голосовому введенню Google: диктуйте будь-де