Автор: Денис Медведєв

Гайд

Інструменти ШІ-транскрипції, простими словами

Що насправді таке інструмент ШІ-транскрипції, як працює конвеєр перетворення мовлення на текст, наскільки він точний насправді, коли запис зроблено не в студії, і єдине рішення (локально чи хмара), яке важить більше, ніж те, який логотип ви оберете.

Останнє оновлення: червень 2026

Великий план цифрового аудіоінтерфейсу з яскравою звуковою хвилею, що символізує мовлення, записане для транскрипції

Інструмент ШІ-транскрипції — це програма, яка перетворює усне мовлення на письмовий текст за допомогою моделей розпізнавання голосу. Вона слухає запис або живе мовлення, передбачає найімовірніші слова й видає транскрипт. Цю саму технологію називають перетворенням мовлення на текст або автоматичним розпізнаванням мовлення, і більшість сучасних інструментів працюють на моделі з родини OpenAI Whisper.

Десять років тому я бачив, як мій родич намагався продиктувати святкового листа на машині з Windows 98. Спершу програмі потрібно було 45 хвилин «навчання», далі вона працювала з точністю десь 70% і затримкою в чотири секунди на кожне речення. Один абзац зайняв п'ятнадцять хвилин. Гарнітура полетіла через усю кімнату. Гарнітура вціліла, експеримент — ні. Сьогодні моя семирічна донька диктує бабусі електронного листа за 90 секунд і після демонстрації не ставить жодного запитання. Ця прірва — і є вся історія ШІ-транскрипції, і вона зникла швидше, ніж майже хтось передбачав.

Ось чого маркетингові сторінки не розповідають: перетворення мовлення на текст колись було науковою проблемою, а потім у 2022 році вийшла відкрита модель Whisper — і для більшості людей вона тихо перестала такою бути. Інструмент ШІ-транскрипції тепер означає модель, достатньо хорошу, щоб переважно не заважати, загорнуту в програму, яка вирішує, куди прямує ваше аудіо й що далі відбувається з текстом. Ця стаття пояснює, як працює той конвеєр, наскільки він точний, коли запис — це не подкаст-студія, і яке єдине рішення (локально чи хмара) важить більше, ніж те, який логотип ви оберете. Я читаю кожен лист підтримки, який ми отримуємо, і люди, які лишаються незадоволені, майже завжди помилилися саме в цьому одному рішенні, а не в інструменті.

Інструмент ШІ-транскрипції перетворює мовлення на текст. Оце і вся його робота.

Заберіть усі дашборди й брендинг «розмовного рушія знань» — і кожен інструмент у цій категорії робить одне: аудіо на вході, текст на виході. Уся різниця — в тому, що обгортає це ядро: де працює модель, що вона робить із транскриптом і скільки за це бере.

Pasted
Накладка запису Whisper у завершеному стані — невеликий плаваючий віджет, який повертає готовий текст у ту мить, коли ви перестаєте говорити. Реальний робочий інтерфейс, а не макет.

Домінують три форми продукту. Записувач нотаток зустрічей приєднується до вашого дзвінка, записує всіх і видає підсумок зі списком завдань. Otter — хрестоматійний приклад, із 300 безплатними хвилинами транскрипції на місяць. Сервіс завантаження файлів дає змогу вкинути аудіофайл і пізніше завантажити транскрипт. Тут живуть Rev і Sonix, причому Rev ще й продає транскрипцію живими людьми як високоточну запасну опцію. Інструмент диктування сидить у фоні й вставляє текст туди, де стоїть курсор, у мить, коли ви перестаєте говорити. Саме це робить Whisper by Remskill: натисніть глобальну гарячу клавішу, говоріть — і розшифрований текст з'являється в тій програмі, де ви вже працюєте.

Робота під капотом одна. Три абсолютно різні щоденні досвіди. Більшість плутанини в цій категорії виникає, коли записувач нотаток зустрічей порівнюють з інструментом диктування так, наче вони конкурують. Вони не конкурують — не більше, ніж автобус конкурує з велосипедом.

Як насправді працює ШІ-транскрипція (і де вона все ще спотикається)

Механізм простіший, ніж натякає брендинг. Ваш мікрофон захоплює звук як хвилю — потік чисел, що описують тиск повітря в часі. Модель розбиває цей потік на короткі фрагменти, перетворює кожен фрагмент на числове представлення його акустичних ознак, а потім передбачає, токен за токеном, найімовірнішу послідовність тексту, що породила ці звуки. Вона робить статистику над аудіо, а не розуміє зміст. Перший тиждень на цьому проєкті я малював конвеєр як охайну блок-схему ще до того, як хоч раз запустив модель. До другого коміту схема вже була хибною. Моделі було байдуже до моєї схеми.

CancelTranscribing
Накладка у стані транскрипції — модель перетворює звукову хвилю на текст, на вашій машині, поки ви чекаєте ту секунду чи дві, що для цього потрібні.

Саме ця деталь пояснює, де спотикається ШІ-транскрипція. Модель передбачає найімовірніші слова, а не правильні. Дайте їй чисте мовлення й чітку дикцію — і найімовірніше збігається з правильним. Дайте їй перебивання, важкий акцент, який вона рідко бачила в навчанні, галузевий жаргон чи поганий мікрофон — і ці два поняття розходяться. Чесна версія, яку AI Overview на цьому самому пошуковому запиті каже вголос, така: ці інструменти можуть вигадувати слова, яких ніхто не вимовляв, плутати одного мовця з іншим і тихцем перекручувати фразу на щось, що читається бездоганно, а означає протилежне.

Один трюк із перекладом варто знати. Багатомовні моделі Whisper можуть транскрибувати 99 мов і можуть перекладати неанглійське мовлення на англійський текст за один прохід. Англомовні варіанти моделей — збірки .en — цього не вміють і роблять лише англійську, що робить їх трохи гострішими в ній. Нічого з цього не вимагає, щоб ви щось «навчали». Якщо інструмент усе ще просить вас прочитати калібрувальний скрипт, перш ніж запрацювати, він живе на припущеннях 1999 року.

Наскільки він точний насправді? Чесна відповідь.

Лупа над надрукованим документом, що ілюструє ретельну перевірку точності транскрипції

Чесна відповідь така: достатньо точний, щоб зекономити вам реальний час, але недостатньо точний, щоб публікувати не читаючи. Наш власний оприлюднений діапазон для локальної транскрипції — від 95% до 99%, причому більші моделі дають вищі показники. Але одне число точності саме по собі майже нічого не означає, бо число, яке важить, — це число для вашого аудіо: вашого акценту, вашої кімнати, вашого мікрофона, вашого словника.

Ставтеся скептично до круглих заяв без жодних умов. Сторінка продукту, що каже «точність 99%» без жодної згадки про якість аудіо, цитує найкращий випадок, а не обіцянку. Коли Rev рекламує 99%, ця цифра прив'язана до його живих транскрипціоністів, а не до ШІ-моделі. Маркетингова версія сплющує цілу криву в одну улесливу точку.

Ось найдешевше поліпшення точності, яке вам ніхто не продає: мікрофон. Перехід від вбудованого мікрофона ноутбука до базового USB-мікрофона дає вашому транскрипту більше, ніж стрибок від малої моделі до найбільшої. ШІ не виправляє погане аудіо. Він просто впевненіше вгадує. Я витратив два вечори на тестування найбільшої моделі, яку зміг завантажити, перш ніж помітив, що говорю в петлю ноутбука з відстані метр; мікрофон за дванадцять доларів виправив більше, ніж зайві два гігабайти. Витратьте двадцять доларів на залізо, перш ніж витрачати вечір на завантаження тригігабайтної моделі. Для відповідальної роботи — читайте транскрипт. Для повідомлення у Slack — просто відправляйте.

Локально проти хмари: куди прямує ваше аудіо — має значення

Куди прямує ваше аудіо — це рішення, яке важить найбільше, і воно не має нічого спільного з точністю.

Хмарний інструмент транскрипції надсилає ваше аудіо на сервери компанії, запускає там модель і повертає текст. Локальний інструмент один раз завантажує модель і запускає її на вашій власній машині. Після цього він працює офлайн, і ніщо не залишає ваш комп'ютер. Whisper by Remskill робить і те, і те, а перемикач — це один тумблер. У локальному режимі аудіо обробляється цілком на вашій машині, і нічого не надсилається на жоден сервер. У хмарному режимі аудіо йде прямо з вашого комп'ютера до OpenAI через ваш власний API-ключ, і ми ніколи не стоїмо посередині.

Whisper
Реальний застосунок Whisper, запущений наживо — і локальна, і хмарна поверхні в одному вікні. Зайдіть у Налаштування й оберіть рушій; перемикач між локальним і хмарним — це один тумблер.

Я заявлю свою позицію тут, бо маркетингові сторінки не заявлять: лише-хмарне диктування — це катастрофа приватності, яка лише чекає, щоб її транскрибували. Команда, з якою я колись працював, доручила підряднику зробити внутрішній прототип хмарно-ШІ-диктування. Він викликав API на кожне висловлювання, зокрема й записи стендапів, які він перетранскрибовував по чотири рази, бо логіка «розумного повтору» була надто агресивною. Менеджер відкрив дашборд витрат наприкінці кварталу й побачив п'ятизначний рахунок. Виправлення підрядника було «оптимізувати промпт». Виправлення фіндиректора було «припинити надсилати на сервер зустрічі, нотатки яких у нас уже є». Зарплатна таблиця вашого начальника, лист до школи вашої дитини, юридична записка, яку ви складаєте, — нічому з цього не місце в логах постачальника лише через те, що ви захотіли друкувати голосом. У вашого ноутбука вже є мікрофон і процесор. Для більшості абзаців йому не потрібен сервер у ланцюжку. Якщо хочете повну аргументацію, ми виклали її в нашому гайді про офлайн перетворення мовлення на текст.

Утім, хмара не лиходій. Це компроміс. Хмарний режим дає вам найновіші моделі OpenAI, доступ до вебу й нульове навантаження на залізо. Локальний дає приватність і офлайн-надійність. Суть не в тому, що один із них правильний. Суть у тому, що ви маєте обирати свідомо, а не виявити постфактум, що ваші записи живуть на чужому диску.

Інші інструменти, про які варто знати

Ви побачите ті самі назви в кожному огляді, і вони розкладаються по чітких смугах.

ІнструментСмугаЩо варто знати
Otter.aiНотатки зустрічей300 безплатних хвилин на місяць, підсумки й позначки мовців; шість названих мов.
RevЗавантаження файлів + людинаБезплатний ШІ-рівень — це 45 хвилин на місяць; продає живих транскрипціоністів для відповідального аудіо.
OpenAI WhisperВідкрита модельЛіцензія MIT; рушій, на якому працює більшість інших інструментів, а не готовий застосунок.
Хмарний API OpenAIAPI для розробниківЛіміт завантаження 25 МБ; gpt-4o-transcribe і whisper-1; оплата за хвилину.
Notta, Sonix, Fireflies, Descript, RiversideЗмішаніОрієнтовані на зустрічі та редагування; чинні ліміти дивіться на сторінці кожного інструмента.
Ті самі назви в кожному огляді, розкладені по своїх смугах. Більшість — це інструменти для зустрічей чи редагування, і більшість працюють на моделі з родини Whisper під брендингом.

Зауваження щодо останнього рядка: у кожного з цих п'яти є власні ціни й мовні деталі, які часто змінюються, тож я не цитуватиму числа, які сьогодні не звірив із їхніми ж сторінками. Але закономірність тримається: більшість із них — це інструменти для зустрічей чи редагування, і більшість працюють на моделі з родини Whisper під брендингом.

Whisper by Remskill стоїть у зовсім іншій смузі, ніж усі вони. Це інструмент диктування, а не записувач нотаток зустрічей. Ми назвали себе на честь відкритої моделі, на якій працюємо; якщо ви порівнювали лише-хмарні застосунки диктування, наш розбір альтернатив Otter.ai і ширший гайд із програм для транскрипції детальніше розкривають ці смуги.

Коли варто взагалі обійтися без інструмента ШІ-транскрипції

Стіл зі статуеткою правосуддя, дипломом і документами, що символізує відповідальну роботу, де перемагає ручна транскрипція

Іноді правильний інструмент — це жоден інструмент. Якщо аудіо відповідальне й має юридичну силу (свідчення в суді, медичний запис, регульована заява), заплатіть людині. Сервіс живих транскрипціоністів Rev існує саме тому, що п'ятивідсоткова похибка в контракті — це судовий позов, а не одрук. А якщо все, що вам потрібно, — це текстова відповідь на 30 слів, диктування, уже вбудоване у ваш телефон чи Mac, безплатне й цілком годиться; не завантажуйте нічого. ШІ-транскрипція заробляє своє місце посередині: довше за повідомлення, нижча ставка, ніж у свідченні, достатньо часто, щоб бути вартою гарячої клавіші. Поза цією смугою звертайтеся до людини або до безплатної штуки, що вже є на вашому пристрої.

Скільки це коштує

Ціни в цій категорії розкидані від безплатних до по-справжньому дорогих, і цей розкид підказує, що саме продає кожен інструмент. Безплатні рівні справжні, але з лічильником — Otter обмежує свій безплатний план 300 хвилинами на місяць, безплатний ШІ-рівень Rev — 45 хвилинами, а відкрита модель Whisper безплатна назавжди, якщо ви готові запускати її самі. Хмарні API беруть оплату за хвилину, що нормально, поки розбіглий цикл повторів не перетворює квартал на п'ятизначний рахунок. Whisper by Remskill безплатний для всього локального конвеєра, щойно ви маєте акаунт, без потреби вказувати спосіб оплати, щоб почати; хмарні функції — за Whisper Pro. Точні числа, плани й те, що входить у Pro, — на сторінці цін — я волів би, щоб ви звірили живу цифру, ніж довіряли числу, яке я вписав у блог-пост.

Поки ви дочитаєте це, моя донька встигне продиктувати три листи й двічі запитати мене, чому місяця іноді не видно. Технологія більше не є складною частиною. Єдиний справжній вибір, що лишився, — чи слова залишаться на вашій машині, чи вирушать у подорож на чужу — і це вибір, який варто зробити, перш ніж натиснути запис, а не після.

Хочете спробувати, не надсилаючи свій голос нікуди?

Завантажте Whisper, оберіть локальний режим, утримуйте гарячу клавішу — і дивіться, як транскрипт з'являється в тій програмі, де ви вже працюєте. Ніщо не залишає вашу машину.

Безплатна локальна транскрипція для кожного користувача, який увійшов. Pro додає хмарні функції в окремому пробному періоді.

Фото Denys Medvediev

Denys Medvediev

Я той, хто читає нашу пошту підтримки — найімовірніше, диктуючи відповіді.

Що почитати далі