Автор: Денис Медведєв

Посібник

Програми для транскрибування нарад

Один пошуковий запит — два зовсім різних завдання. Одні інструменти надсилають бота на ваш дзвінок і ведуть спільні нотатки. Інші працюють із готовим записом, офлайн, прямо на вашому ноутбуці. Ось як зрозуміти, що саме вам потрібно.

Останнє оновлення: червень 2026

Порожній конференц-стіл із мікрофонами та моніторами, підготовлений для наради, яку запише програмне забезпечення

Програми для транскрибування нарад перетворюють усну мову з дзвінків на текст, придатний для пошуку. Є два режими: в реальному часі — транскрипт з'являється під час розмови — і після наради, коли запис обробляється і перетворюється на чисті нотатки з позначенням мовців та таймстемпами. Більшість інструментів автоматично приєднуються до дзвінків через синхронізацію календаря й бота-учасника; деякі працюють без бота — з будь-яким готовим записом.

Коли я вперше побачив, як команда накопичила п'ятизначний рахунок за транскрибування нарад, виявилося, що нотатки для цих нарад уже існували. Підрядник підключив внутрішній прототип AI-диктування, який звертався до хмарного API на кожну фразу — і з настільки агресивною логікою повторних спроб, що той самий запис щоденної планірки транскрибувався чотири рази. Менеджер відкрив дешборд витрат наприкінці кварталу. У кімнаті стало тихо.

Нудна правда про цю категорію: вибір не того інструменту обходиться дорого — грошима, конфіденційністю або часом. І зазвичай це помічають занадто пізно.

Власне, для цього й написана ця стаття. Команди хочуть автоматичних нотаток з нарад уже десять років — і тепер інструменти нарешті справляються з цим завданням. Але під одним пошуковим запитом ховаються зовсім різні рішення. Одні приєднуються до відеодзвінка як бот і ведуть спільні нотатки для всіх. Інші обробляють готовий запис, офлайн, прямо на вашому ноутбуці.

Далі я розбираю обидва підходи, називаю інструменти, які варто знати, і чесно говорю про те, чого наш застосунок не робить: він не є ботом для нарад. Як людина, яка читає наші листи до підтримки, можу сказати: більшість плутанини в цій категорії виникає через те, що люди з першого дня обирають не той тип інструменту. Я відповідав на таке повідомлення досить часто, щоб впізнавати його ще за темою листа.

Що роблять програми для транскрибування нарад (і два способи роботи)

Якщо відкинути маркетинг, усі інструменти тут роблять одне: беруть аудіо і перетворюють його на текст. Аудіо — це мова людей на нараді. Текст — це транскрипт. Все інше — підсумки, завдання, підпис мовця, пошук — це надбудова над цим одним перетворенням.

Категорія ділиться залежно від того, коли це перетворення відбувається.

  • Транскрибування в реальному часі відбувається під час розмови. Слова з'являються на екрані з затримкою в одну-дві секунди. Саме так працюють субтитри в Zoom або Microsoft Teams, а також боти-нотувальники, що показують транскрипт під час дзвінка. Це корисно в моменті: для доступності, щоб стежити за розмовою, щоб впіймати ім'я, яке пропустили.
  • Транскрибування після наради обробляє запис після завершення дзвінка. Інструмент має весь файл, тому може не поспішати. Він прибирає хибні старти, визначає, хто що сказав, додає таймстемпи й збирає читабельний документ. Обробка після наради дає чистіший, підписаний мовцями та прив'язаний до часу текст, ніж версія в реальному часі. Єдиний компроміс — доводиться почекати.

Більшість відомих інструментів (Otter, Fireflies, Fathom, tl;dv) підтримують обидва режими й отримують аудіо однаково: бот приєднується до дзвінка. Ви підключаєте Google або Outlook-календар, інструмент бачить нараду з посиланням на відео й надсилає учасника в кімнату, щоб слухати й записувати. Той маленький тайл запису, який ви бачили в сітці Zoom, — це вся модель в одному кадрі.

За пошуковим запитом ховається ще один, тихіший шлях: транскрибування готового запису прямо на своїй машині, без бота й без дзвінка. Це вже програмне забезпечення для диктування і транскрибування, а не нотувальник нарад — і саме тут живе наш застосунок. Докладніше нижче, включно з чесним поясненням, коли це неправильний вибір.

Коли бот для наради — правильний вибір (і коли Whisper — ні)

Нотувальник · Щотижневий синкЗапис
У дзвінку
Марія (ведуча)
Том
Прія
Бот-нотувальник
Живий транскрипт

Марія 10:02 Починаємо з дати запуску.

Том 10:02 Думаю, зсуваємось на тиждень.

Автоприєднання: календар синхронізовано · Підсумок + завдання після дзвінка
Бот-нотувальник: автоматично приєднується до дзвінка з вашого календаря, з'являється у списку учасників і веде спільний живий транскрипт для всіх. Whisper цього не робить.

Якщо ваша задача — «щось має приєднатись до мого дзвінка в Zoom, Teams або Google Meet, записати всіх і після дзвінка передати всій команді спільні нотатки», вам потрібен бот-нотувальник. Whisper цього не робить. Він не приєднується до дзвінків автоматично, не записує інших учасників і не виконує діаризацію кількох мовців у відеонараді. Казати інше — значить витрачати ваш час даремно.

Для цього завдання підходять боти-нотувальники. Otter.ai приєднується до Zoom, Microsoft Teams і Google Meet, автоматично веде і поширює нотатки, і має безкоштовний план Basic, якщо хочете спробувати перед оплатою. Fireflies.ai підключається за запрошенням або автоматично через календар; безкоштовний рівень включає необмежене транскрибування з обмеженою кількістю AI-підсумків. tl;dv записує Google Meet, Zoom і Teams, пропонує режим без бота й безкоштовний тарифний план без обмежень часу. Fathom має безкоштовний план з необмеженою кількістю записів і вибором між режимом без бота (бета) та звичайним ботом.

Ось та частина статті, де я навмисно відправляю вас в інший бік. Otter — для нарад. Whisper — для написання. Це різні категорії, і платити не за той інструмент — найпоширеніша помилка в цьому просторі. Якщо вам потрібна діаризація кількох мовців у записаному дзвінку, автоматичне приєднання через календар і підсумок у командному каналі до того, як нарада закінчилась, — бот-нотувальник робить роботу, для якої наш застосунок ніколи не створювався. Ми робимо диктування голосом швидким; вони роблять фіксацію кімнати автоматичною. Спочатку виберіть категорію, потім — інструмент.

Наскільки точне AI-транскрибування нарад насправді?

Чесна відповідь: краще, ніж ви очікуєте, на чистому аудіо — і гірше, ніж хотілося б, на реальній нараді. Категорія в цілому показує від 85 до 95 відсотків точності на зрозумілому однорідному аудіо; показник падає через фоновий шум, акценти, жаргон і одночасні розмови. Сервіси з перевіркою людиною повертаються до рівня близько 99 відсотків — тому що людина виправляє те, що пропустила модель.

Наш власний локальний режим зазвичай показує точність від 95 до 99 відсотків, причому більші моделі дають кращий результат. Хочу бути обережним у формулюваннях. Це наші власні виміри, а не незалежне порівняння з Otter чи Fireflies — і я не збираюся таке вигадувати. Хто називає вам одне число точності для транскрибування нарад, не уточнюючи умови запису, — той продає, а не вимірює.

Ось те, що ніхто не рекламує, бо в цьому немає апселу. Мікрофон важить більше, ніж модель. Двадцятидоларовий USB-мікрофон дасть кращий транскрипт, ніж перехід із маленької моделі на найбільшу. Більшість поганих транскриптів, які я бачив, — це не збій моделі. Це мікрофон ноутбука, що підхоплює кондиціонер, четверо людей в одній кімнаті з одним гучномовцем або Bluetooth-гарнітура, що з'їдає перше слово кожної фрази. Спочатку виправте аудіо. AI не може «відчути», що чайника не було, якщо він уже записав його шум.

Ще дві речі впливають на точність за лаштунками. Перша — як інструмент визначає, де один мовець закінчує, а інший починає; це стає складнішим, коли люди говорять одночасно (саме тому транскрипт вечері з моєю родиною читався б як один суцільний абзац на 400 слів). Друга — підтримка власного словника: можливість додати назви продуктів, прізвища та абревіатури, яких жодна загальна модель ніколи не бачила. Whisper дозволяє задати власний словник і зробити акцент на гарячих словах для локального рушія Whisper — так само як і більшість ботів-нотувальників. Якщо на ваших нарадах багато галузевого жаргону, це одне налаштування важить більше, ніж оновлення моделі.

Без бота й офлайн: транскрибування готового запису

Ось шлях, про який пошукові запити мовчать — і саме для нього створений наш застосунок. Програма, що приєднується до наради, потрібна не завжди. Іноді запис уже є: голосова нотатка з особистої зустрічі, інтерв'ю, вебінар, кліп від колеги — і вам просто потрібен чистий текст із нього, на своїй машині, без жодного бота в чиємусь дзвінку.

Програмне забезпечення для диктування і транскрибування, таке як Whisper, підходить саме для цього, і виправдовує себе насамперед у питаннях конфіденційності. У локальному режимі все працює на вашому ноутбуці. Аудіо не покидає пристрій: жодного сервера в ланцюжку, жодних логів постачальника, жодного лічильника хмарних витрат. Розмова про зарплату керівника, юридичний запис, розмова з HR: нічому з цього не місце у сховищі третіх сторін лише тому, що вам потрібен транскрипт. Локальний пріоритет тут — не просто функція. Це ключова суть.

Whisper
Справжній застосунок Whisper, що працює локально — можна натискати та взаємодіяти. Це шлях без бота: вкажіть на готовий запис і отримайте чистий текст прямо на своїй машині.

Whisper використовує два локальні рушії — обидва написані чистим Rust через transcribe-rs, без Python-сайдкару, що сповільнює запуск. Перший — відкрита модель Whisper від OpenAI: у багатомовній версії підтримує 99 мов і може перекладати на англійську; розміри моделей варіюються від Base приблизно 140 МБ до Large v3 приблизно 3 ГБ. Версії лише для англійської — саме такі, лише для англійської — і зазвичай трохи легші. Другий рушій — NVIDIA Parakeet TDT, приблизно 600 МБ; у застосунку вказано, що він у 5–10 разів швидший за Whisper на CPU, підтримує англійську та 24 європейські мови (25 загалом) без перекладу на англійську. Обирайте Parakeet для швидкості, якщо переважно працюєте англійською. Обирайте Whisper, якщо потрібен переклад або мова, якої Parakeet не підтримує.

CancelTranscribing
Оверлей Whisper під час обробки запису — маленький плаваючий віджет, без будь-якого бота в дзвінку.

Взаємодія та сама, яку я використовую весь день. Утримуєте гарячу клавішу — Ctrl+Space на Windows або акорд Command+Option для режиму «тримати та говорити» на Mac, утримуючи обидві клавіші й відпускаючи будь-яку для зупинки — говорите, і текст з'являється під курсором у будь-якому активному застосунку. Маленький оверлей показує стан під час роботи. Для запису замість живої мови — просто вкажіть застосунку на файл і отримайте транскрипт. Якщо вас цікавить саме функція диктування, наш посібник з офлайн-розпізнавання мовлення детально розповідає, як запустити все на пристрої.

Є й хмарний режим — для тих, хто хоче найновіші моделі OpenAI та голосовий веб-пошук в одному інструменті. Підключіть власний ключ OpenAI, скажіть «Hey whisper» — і текст пройде через AI. Але для транскрибування готового запису локальний режим — найкращий варіант, і він безкоштовний для будь-якого авторизованого користувача.

Інші інструменти, які варто знати

Ця категорія переповнена, і результати пошуку заповнені списками з шести-десяти інструментів кожен. Ось проста карта, щоб не читати десять оглядів, щоб зрозуміти, для чого кожен. Усі характеристики нижче взяті з офіційних сторінок самих інструментів.

  • Otter.aiстандартний нотувальник нарад. Бот приєднується до Zoom, Teams і Meet; безкоштовний план Basic — 300 хвилин на місяць, вище — платні рівні Pro і Business. Транскрибування шістьма мовами: англійська, іспанська, французька, німецька, японська, китайська.
  • Fireflies.aiбот підключається за запрошенням або автоматично через календар. Безкоштовний план з необмеженим транскрибуванням і обмеженою кількістю AI-підсумків; заявлено підтримку 100+ мов на всіх рівнях.
  • tl;dvзаписує Meet, Zoom і Teams, пропонує режим без бота, транскрибує 30+ мовами, безкоштовний безстроковий план без обмежень часу та без картки.
  • Fathomбезкоштовний безстроковий план з необмеженою кількістю записів; вибір між режимом без бота (бета) та ботом; платні рівні Premium, Team і Business.
  • Nottaмає бота для Zoom, Teams і Meet і безкоштовний рівень; власний центр довідки вказує на підтримку приблизно 58 мов.
  • Zoom і Teams — вбудованеперш ніж купувати щось нове, перевірте, що вже є у вашій підписці. Zoom транскрибує хмарні записи й пропонує AI Companion для транскрибування в реальному часі 46 мовами на відповідних платних планах. Microsoft Teams має вбудоване живе транскрибування приблизно 50+ розмовними мовами; живе перекладне транскрибування потребує Teams Premium.

Ось та сама карта у вигляді таблиці — лише те, що можна перевірити на власних сторінках кожного інструменту. Жодних цифр точності чи швидкості: ніхто не тестував їх пліч-о-пліч на одному аудіо, і я не буду вигадувати такий тест.

Порівняння інструментів для транскрибування нарад: метод запису, де працює, підтримка офлайн, модель ціноутворення, кількість мов і для чого кожен підходить найкраще.
ІнструментЗаписЛокально/ХмараОфлайнМодель ціноутворенняМовиНайкраще для
Otter.aiБот приєднується до дзвінкаХмараНіБезкоштовний рівень + платний за користувача6Стандартний нотувальник команди
Fireflies.aiБот за запрошенням або автоматичноХмараНіБезкоштовний рівень + платний за користувача100+Щедре безкоштовне транскрибування
tl;dvЗаписує дзвінок, режим без ботаХмараНіБезкоштовний безстроковий + платний30+Без бота в сітці учасників
FathomБез бота (бета) або з ботомХмараНіБезкоштовний безстроковий + платнийНе зазначено на сторінці ціноутворенняНеобмежені безкоштовні записи
NottaБот приєднується до дзвінкаХмараНіБезкоштовний рівень + платний~58 (центр довідки)Бот і безкоштовний рівень разом
Zoom / Teams (вбудоване)Нативне для дзвінкаХмараНіВключено у відповідні платні планиZoom 46, Teams 50+Те, за що вже платите
Whisper by RemskillБез дзвінка; транскрибує файл або диктуванняЛокально (хмара опційно)ТакБезкоштовний локальний рівень + Pro99 багатомовних, 25 ParakeetПриватно, без бота, на пристрої

Якщо ваші наради вже проходять на платному плані Zoom або Teams, вбудованого транскрибування може бути цілком достатньо — і вам не доведеться додавати ще одну підписку чи ще одного бота на дзвінок.

Що б я обрав для кожної ситуації

Я читаю листи до підтримки — тому досить часто бачу жаль через неправильно обраний інструмент. Ось як я б підходив до вибору.

  • Вам потрібні нотатки з командного відеодзвінка — автоматично, для всіх учасників. Використовуйте бот-нотувальник. Otter — якщо потрібен відшліфований стандарт, Fireflies або Fathom — якщо важливий щедрий безкоштовний рівень, tl;dv — якщо ви не хочете бота в сітці учасників.
  • Ви вже на платному плані Zoom або Teams. Спробуйте вбудоване транскрибування, перш ніж платити за третій інструмент.
  • У вас є запис, і ви хочете чистий текст — приватно, на своїй машині. Це шлях без бота, офлайн: Whisper або інший інструмент для локального транскрибування. Аудіо залишається на пристрої.
  • Ви хочете писати голосом (листи, документи, нотатки — під час або після наради) прямо під курсором, у будь-якому застосунку. Це диктування — і саме для цього створений Whisper. Наше порівняння програм для транскрибування детально пояснює різницю між диктуванням і нотатками з нарад.
  • Вам потрібен гарантовано бездоганний транскрипт для юридичного або комплаєнс-запису. Використовуйте сервіс із перевіркою людиною. AI сам по собі не досягає 99 відсотків на реальному аудіо.

Помилка, якої треба уникати, — платити за бот для нарад, щоб він виконував диктування, або очікувати від інструменту для диктування, що він приєднається до вашого дзвінка. Різні категорії. Виберіть ту, що відповідає завданню. Я пишу програмне забезпечення п'ятнадцять років — і минулого року сам купив не той інструмент для завдання. Тож це не нотація від того, хто зробив усе правильно з першого разу.

Ціни в конкретних числах

Більшість інструментів тут мають безкоштовний рівень, який варто спробувати до того, як дістати картку. Otter, Fireflies, tl;dv і Fathom — усі пропонують безкоштовний план, а платні рівні підключаються, коли потрібно більше хвилин, місць або необмежене сховище. Боти-нотувальники зазвичай беруть плату за користувача на місяць, і це швидко накопичується для великої команди.

Whisper безкоштовний для кожного авторизованого користувача в рамках усього локального конвеєра — обидва рушії, AI-покращення через Ollama, історія, пресети, власний словник, гаряча клавіша, все це — без прив'язки платіжного методу при реєстрації. Платний рівень додає хмарний доступ для тих, хто хоче моделі OpenAI та голосовий веб-пошук. Точні цифри для місячного, річного, довічного планів і командних місць — на сторінці цін. Краще починайте безкоштовно й оцінюйте самі, ніж орієнтуйтесь на ціну поза контекстом.

Визначте тип інструменту до того, як обирати бренд. Якщо бот має приєднатись до вашого дзвінка — використовуйте нотувальник. Якщо запис на ноутбуці має стати приватним текстом — використовуйте щось офлайн. П'ятизначний рахунок, який я спостерігав, виник через те, що ніхто не запитав, за яке завдання вони платять. І це була нарада, транскрипт якої нікому не був потрібен.

Спробуйте шлях без бота на записі, який уже маєте

Завантажте Whisper, вкажіть на запис — і отримайте чистий текст на своїй машині, без жодного бота в чиємусь дзвінку.

Безкоштовно для кожного авторизованого користувача в рамках усього локального конвеєра. Без платіжного методу при реєстрації.

Фото Дениса Медведєва

Denys Medvediev

Я той, хто читає наші листи до підтримки — найімовірніше, диктуючи відповіді.

Додаткове читання