Автор: Денис Медведєв

Гайд

Як транскрибувати інтерв'ю

Щоб автоматично транскрибувати інтерв'ю, пропустіть запис через інструмент розпізнавання мовлення: безкоштовний відкритий варіант — Buzz або OpenAI Whisper на вашому комп'ютері (для приватності), або хмарний сервіс, якщо потрібні ще й мітки мовців і зручний редактор. Виберіть локальний варіант — безкоштовно й приватно; хмару — для діаризації.

Останнє оновлення: червень 2026

Стіл у подкаст-студії з мікрофонами та аудіомікшером, підготовлений для запису розмови

Щоб автоматично транскрибувати інтерв'ю, пропустіть запис через інструмент розпізнавання мовлення: безкоштовний відкритий варіант — Buzz або OpenAI Whisper на вашому комп'ютері (для приватності), або хмарний сервіс, якщо потрібні ще й мітки мовців і зручний редактор. Виберіть локальний варіант — безкоштовно й приватно; хмару — для діаризації.

Почну з незручної правди — вона збереже вам десять хвилин. Whisper by Remskill, додаток якому належить цей блог, не транскрибує записані інтерв'ю. Це живе диктування: тримаєте гарячу клавішу, говорите — і слова з'являються в курсорі будь-якого застосунку. Це зовсім інша задача, ніж завантажити годинний запис двох людей і отримати розмічений транскрипт. Тому цей гайд — про інструменти, які насправді справляються з інтерв'ю. Написаний людиною, яка краще відправить вас до правильного інструменту, ніж вдаватиме, що ним є ми.

Транскрипт інтерв'ю складніший, ніж здається, з однієї причини: мовці. Звичайний інструмент транскрипції дає суцільний текст. А зазвичай потрібно «Інтерв'юер:» і «Співрозмовник:» на початку кожної репліки. Це називається діаризація, і не кожен інструмент її підтримує. Головне розмежування — локальний варіант проти хмарного. Локальні інструменти працюють на вашому ноутбуці, нічого не коштують і ніколи не вивантажують аудіо. Хмарні сервіси вивантажують файл, але зазвичай мають мітки мовців та редактор. Далі — чесна карта варіантів, і частина, де я розповідаю, де саме ми підходимо, а де — ні.

Безкоштовний і приватний спосіб: усе на вашому комп'ютері

Якщо інтерв'ю чутливе — джерело потребує захисту, пацієнт, топ-менеджер — запис не повинен залишати ваш комп'ютер. Безкоштовні інструменти з відкритим кодом транскрибують повністю на пристрої.

OpenAI Whisper — модель, на якій побудована більшість таких інструментів. Вона виходить під ліцензією MIT, встановлюється однією командою pip і транскрибує аудіофайли з командного рядка. Модель постачається у шести розмірах, чотири з яких мають варіанти тільки для англійської, тож ви обираєте між швидкістю й точністю залежно від залізка. Вона багатомовна і навіть може перекладати мовлення на англійську під час транскрипції. Але є нюанс для інтерв'ю: базовий Whisper записує слова, але не позначає, хто їх вимовив. Для діаризації мовців потрібні додаткові інструменти або хмарний сервіс, де це вже вбудовано.

Якщо командний рядок вас лякає, Buzz — найпростіший варіант. Це графічний застосунок, який транскрибує й перекладає аудіо офлайн на вашому комп'ютері, працює на базі Whisper, поширюється під ліцензією MIT і доступний на macOS, Windows і Linux. Перетягніть запис, виберіть модель, зачекайте — і читайте транскрипт. Для більшості тих, хто хоче транскрибувати інтерв'ю безкоштовно, це найкоротший шлях.

Ще два варіанти, про які варто знати. whisper.cpp — це порт Whisper на чистому C/C++, який працює тільки на CPU і сильно оптимізований під Apple Silicon: швидший, без Python, але збирати й запускати доведеться з командного рядка. MacWhisper — це Mac-застосунок, побудований навколо локального Whisper і Parakeet від NVIDIA, де на першому плані — транскрипція файлів, що саме й потрібно для інтерв'ю. Усі ці інструменти тримають аудіо на вашому комп'ютері. Але жоден із них сам по собі не дасть вам чистих міток мовців.

Хмарні сервіси додають мітки мовців і редактор

Тут ви вирішуєте, скільки для вас коштує приватність. Спеціалізовані сервіси транскрипції вивантажують запис на свої сервери, обробляють його й повертають транскрипт — зазвичай із іменами мовців — у редактор, де можна виправити назви й експортувати результат. Це справді зручно, і для публічного подкасту чи панельної дискусії, яку ви готові ділитися, хмара — кращий вибір.

Якщо вам потрібні саме це (мітки кількох мовців, мітки часу, зручний редактор) — шукайте серед спеціалізованих сервісів для запису нарад і розмов, а не серед інструментів диктування. Я розібрав цю категорію у статті про альтернативи Otter.ai та у статті про альтернативи Rev; обидві охоплюють хмарні інструменти, які справді роблять діаризацію й редагування.

Ось думка, і до неї додається рахунок. Одна команда, з якою я колись працював, найняла підрядника для розробки внутрішнього прототипу диктування, що звертався до хмарного ШІ при кожному реченні. Наприкінці кварталу менеджер відкрив дашборд витрат і побачив п'ятизначне число — більшість із них з'їло повторне транскрибування записів щоденних стендапів по чотири рази через надто агресивну логіку повторних спроб. Відповідь фінансового директора була короткою: або ми перестаємо платити за завантаження нарад, до яких вже є нотатки. Гроші були меншою проблемою. Більшою виявилося те, що чверть внутрішніх дзвінків тепер зберігається на серверах стороннього постачальника. Хмарна транскрипція справді виправдана для міток мовців і редагування. Але вона не виправдана для запису, який ви б ніколи не хотіли виносити за межі компанії. Вибирайте за цим критерієм, а не за маркетингом.

Як вибрати — в одному реченні

На цю сторінку потрапляють три типи людей: ті, хто дбає про приватність, ті, кому горять терміни, і ті, кому просто потрібні імена мовців без зайвих роздумів. Двоє з трьох мають іти до локального варіанту.

  • Потрібно безкоштовно й приватноBuzz (найпростіший) або Whisper на вашому комп'ютері. Аудіо нікуди не вивантажується.
  • Потрібні мітки мовців і зручний редакторХмарний сервіс транскрипції. Аудіо вивантажується — ось ціна.
  • Mac, і потрібен застосунок для файлівMacWhisper, локально.

Чесний критерій вибору: якщо запис чутливий — відповідь однозначна: локально. Якщо це публічний виступ і ви хочете, щоб діаризацію зробили за вас, хмара окупається. Більшість транскрипцій інтерв'ю — це перший випадок, саме тому я починаю з безкоштовних локальних інструментів. Якщо ж вас хвилює швидкість, гайд із швидкої транскрипції аудіо розбирає всі важелі прискорення.

Де насправді підходить Whisper by Remskill

Pasted
Оверлей після диктування — так виглядає одне живе, повністю локальне диктування щойно воно завершилось. Кнопки «завантажити запис» тут немає.

Тепер — частина, де я чітко проводжу межу, бо найгірший результат цієї статті — якщо ви завантажите наш застосунок, очікуючи, що він переживе годинний запис. Не переживе. Whisper by Remskill — це передусім диктування: гаряча клавіша запускає живе розпізнавання вашої мови, яка транскрибується й вставляється в курсор будь-якого застосунку. Немає кнопки «завантажити файл інтерв'ю» і немає діаризації мовців, бо застосунок побудований для одного голосу — вашого, тут і зараз.

То де інтерв'юер може його використати? Навколо інтерв'ю, а не під час нього. Продиктувати підготовчі запитання в документ перед зустріччю. Наговорити нотатки за підсумками розмови одразу після — поки враження свіжі, а в руках ще кава. Набросати текст статті голосом, коли транскрипт вже є. Стандартна гаряча клавіша на Windows — Ctrl+Space, повністю змінювана, і весь локальний пайплайн безкоштовний для будь-якого зареєстрованого користувача — картка при реєстрації не потрібна. Є також платний хмарний рівень, що додає транскрипцію на базі OpenAI та веб-пошук для живого диктування, але це все одно про набір тексту голосом, а не про транскрипцію запису двох людей.

Whisper
Ось реальний десктопний застосунок — бічна панель, панель транскрипції та картки AI-інструкцій. Не скриншот.

Використовуйте його для написання матеріалу навколо інтерв'ю. Для самого запису — Buzz або хмарний сервіс. Різні інструменти, різні задачі. Краще, щоб ви знали це до того, як щось встановите.

Останнє слово

Більшість записів інтерв'ю, які варто транскрибувати, — це саме ті, які ви найменше хотіли б вивантажувати: репліка не для запису, джерело, що вам довірилося, пацієнт. Саме тому безкоштовні локальні інструменти займають своє місце — файл залишається на вашому ноутбуці. Якось я витратив вихідні на налаштування параметрів моделі, щоб виправити власний каламутний звук, перш ніж помітив справжню проблему: мікрофон ноутбука стояв за п'ятнадцять сантиметрів від вентилятора. У мене є магістерський ступінь. Спочатку купіть мікрофон.

А коли транскрипт готовий і настав час писати — ось тоді наш застосунок перестає бути стороннім спостерігачем.

Продиктуйте статтю, коли транскрипт готовий

Транскрибуйте інтерв'ю за допомогою Buzz або хмарного сервісу. Потім завантажте Whisper by Remskill і продиктуйте матеріал — саме ця частина робочого процесу і є нашою. Локальний пайплайн безкоштовний, картка при реєстрації не потрібна.

Локальне диктування — безкоштовно назавжди. Без платіжних даних при реєстрації. Ми не транскрибуємо записи — для цього використовуйте локальний інструмент або хмарний сервіс.

Фото Дениса Медведєва

Denys Medvediev

Це я читаю нашу підтримку — і, швидше за все, диктую відповіді.

Додаткове читання