Автор: Денис Медведєв

Посібник

OpenAI Whisper для Windows

OpenAI Whisper — це безкоштовна модель розпізнавання мовлення з відкритим кодом під ліцензією MIT. У Windows вона зазвичай працює через Python і командний рядок, щоб транскрибувати аудіофайли. Whisper by Remskill упаковує ці моделі в десктопний застосунок, щоб ви могли натомість диктувати наживо просто в будь-який застосунок.

Останнє оновлення: червень 2026

Ноутбук на Windows на столі з відкритим редактором коду — образ охайного робочого простору для диктування

OpenAI Whisper — це безкоштовна модель розпізнавання мовлення з відкритим кодом, випущена під ліцензією MIT. У Windows вона зазвичай працює через Python і командний рядок, транскрибуючи аудіофайли, які ви їй вкажете. Whisper by Remskill упаковує ці моделі в десктопний застосунок, щоб ви могли натомість диктувати наживо просто в будь-який застосунок.

OpenAI Whisper — безкоштовна модель з відкритим кодом. На щойно встановленій Windows офіційна версія вимагає Python, ffmpeg і командного рядка, щоб транскрибувати файли. Якщо у вас є готовий файл, із цим впораються безкоштовні застосунки з графічним інтерфейсом, як-от Buzz чи Whisper Desktop. Якщо ж ви хочете говорити й бачити, як слова з’являються прямо біля курсора в будь-якому застосунку, Whisper by Remskill упаковує ті самі моделі — без жодного складання та з безкоштовним локальним тарифом.

Що люди мають на увазі під «OpenAI Whisper для Windows»

Нудна правда в тому, що «OpenAI Whisper» — це дві різні речі під однією назвою, і пошукові результати щодня їх плутають.

Перша річ — це модель. Whisper — це модель розпізнавання мовлення, яку OpenAI відкрила під ліцензією MIT, тож і код, і навчені ваги можна безкоштовно завантажити та використовувати. Вона постачається в шести розмірах (tiny, base, small, medium, large і turbo), чотири з яких мають англомовний варіант, що міняє швидкість на точність. Вона багатомовна й може перекладати мовлення англійською за допомогою одного прапорця. Це справді вражає, і це справді безкоштовно.

Друга річ — це те, як ви її насправді запускаєте. Офіційний Whisper — це пакет на Python. Ви встановлюєте його через pip, поряд встановлюєте інструмент командного рядка ffmpeg, а потім згодовуєте йому аудіофайл із термінала. Якщо «термінал», «pip» і «ffmpeg» уже звучать як субота, яку ви собі не планували, то ви знайшли саме ту прогалину, про яку вся ця стаття. Командний рядок — це інструмент, у якому ви набираєте команди для комп’ютера замість того, щоб клацати мишею. Більшість людей на Windows жодного разу не відкривали його навмисно.

Тож коли хтось вводить у Google «OpenAI Whisper для Windows», зазвичай він хоче однієї з двох відповідей. Або: як мені змусити цю безкоштовну модель транскрибувати мої файли без диплома з комп’ютерних наук? Або: я просто хочу говорити, а слова щоб з’являлися самі — воно так уміє? Це різні потреби, і для них потрібні різні інструменти. Я відповім на обидві й чесно скажу, який інструмент перемагає в кожному випадку.

Безкоштовна модель — чудова. Налаштування — оце вже заковика.

Ось та частина, яку сторінки продуктів оминають. Whisper-модель не коштує нічого. А от Whisper-досвід на щойно встановленій Windows коштує вам половини дня.

Щоб запустити офіційний OpenAI Whisper, ви встановлюєте Python, потім встановлюєте пакет Whisper, потім встановлюєте ffmpeg і дбаєте, щоб Windows його знайшла, а потім відкриваєте термінал і запускаєте команду для кожного файлу. Тут нічого складного для розробника. І все це — стіна для всіх інших: для письменника, юриста, студента, продавця, для моєї власної мами, яка погодилася спробувати диктування з третьої демонстрації й погодилася б рівно на нуль демонстрацій, де лунає фраза «додайте ffmpeg до вашого PATH».

Є й приязніші входи, і про них варто знати. Whisper.cpp — це звичайний порт тієї самої моделі на C/C++: під ліцензією MIT, швидкий і лише для CPU, узагалі без Python. Але ви все одно складаєте його з джерел або запускаєте з командного рядка. Це чудовий витвір інженерії, націлений прямісінько на тих, кому подобаються компілятори. Решта цієї статті — для тих, кому ні.

Коли вам натомість потрібен Whisper із командного рядка (або транскрибатор файлів)

Зараз я відправлю вас деінде, бо це чесна частина.

Якщо насправді у вас є аудіофайл (записане інтерв’ю, епізод подкасту, збережений дзвінок у Teams, голосова нотатка), то наш застосунок — неправильний інструмент, і я радше скажу вам про це, ніж продам невідповідність. Ми робимо диктування наживо: ви говорите, слова з’являються біля вашого курсора. Ми не беремо наявний файл і не транскрибуємо його. Інша робота.

Для цієї роботи є три безкоштовні інструменти, які справді добрі й створені саме для неї:

  • Buzz транскрибує й перекладає аудіофайли офлайн, працює на основі Whisper від OpenAI, ліцензований під MIT і запускається на Windows. Якщо вам потрібне справжнє вікно з кнопками замість термінала — починайте звідси.
  • Whisper Desktop (Const-me) це застосунок із графічним інтерфейсом для Windows. Ви розпаковуєте архів, запускаєте WhisperDesktop.exe, вказуєте на файл, і він транскрибує за допомогою вашого GPU через DirectCompute. Ліцензований під MPL-2.0 і швидкий на пристойній відеокарті.
  • whisper.cpp це лаконічний варіант, якщо ви впевнено почуваєтеся в командному рядку й хочете чисту швидкість без Python.

Це не дипломатія заради дипломатії. Те, що я відправляю вас до правильного інструмента, навіть коли він не наш, — це і є вся причина, чому варто довіряти решті сказаного. Якщо у вас файл — користуйтеся Buzz. Якщо у вас мікрофон і речення в голові — читайте далі.

Що Whisper by Remskill насправді робить на Windows

Ми взяли ті самі моделі Whisper із відкритим кодом плюс другий рушій і загорнули їх у застосунок для Windows — так, щоб нічого не треба було складати й нічого набирати в терміналі.

Ви встановлюєте один застосунок, близько 25 МБ. Входите в обліковий запис. Натискаєте гарячу клавішу — за замовчуванням це Ctrl + Space, і її повністю можна переназначити. Говорите. Відпускаєте. Текст з’являється біля курсора в тому застосунку, де ви вже були: у Word, Outlook, браузері, Slack, редакторі коду, полі пошуку. Жодного файлу, жодного термінала, GPU не потрібен; усе локальне транскрибування виконується на вашому CPU.

Whisper
Живий застосунок Whisper by Remskill — бічна панель, панель транскрибування та картки AI-інструкцій. Це справжній інтерфейс, а не знімок екрана.

Під капотом ви обираєте один із трьох шляхів, бо ми не обираємо модель за вас:

  • Локальний Whisper (8 моделей) це той самий Whisper із відкритим кодом, по який ви прийшли, — упакований і готовий до роботи. Оптимізований під англійську від Base (~140 МБ) до Medium (~1,5 ГБ), плюс багатомовні збірки аж до Large v3 (~3 ГБ). Багатомовні збірки охоплюють 99 мов і можуть перекладати англійською.
  • Parakeet (NVIDIA TDT, ~600 МБ) це окремий рушій, у 5–10 разів швидший за Whisper на CPU, який охоплює англійську та ще 24 європейські мови. Без перекладу англійською. Обирайте його, якщо хочете швидкості й здебільшого працюєте англійською.
  • Хмара (OpenAI, BYOK) дає змогу підключити власний ключ OpenAI для найвищої точності й вебпошуку; ми не беремо жодного відсотка. Це єдина функція Pro.

Локальний конвеєр (кожна модель Whisper, Parakeet, AI-доопрацювання через Ollama, історія, пресети, власна гаряча клавіша, завантаження моделей) безкоштовний для будь-якого користувача, який увійшов, без картки під час реєстрації. Хмарний шлях — це платний тариф Pro; цифри можна побачити на сторінці цін.

Чому справжній застосунок диктування на Windows складніший за pip install

Ось те, про що ніхто не попереджає, коли каже «просто загорни Whisper в інтерфейс».

Модель — це легка частина. Змусити гарячу клавішу нормально поводитися на Windows — ні. Перша версія нашого обробника гарячих клавіш викликала функцію зупинки запису шість разів на одне реальне натискання. На Mac усе працювало бездоганно. На чистій інсталяції Windows усе працювало бездоганно. А на справжніх машинах клієнтів усе розсипалося — на тих, де ввімкнено метод введення для якоїсь мови, який на Windows генерує примарні події відпускання Ctrl + Space у непередбачувані моменти. Знадобилися дні телеметрії, потім дебаунс на 50 мс, якого не вистачило, потім дебаунс на 300 мс, якого нарешті вистачило. Я дізнався про фреймворк методів введення Windows більше, ніж будь-яка людина мала б, а в мене є диплом магістра. Вердикт моєї старшої доньки, коли я їй пояснив: «ось чому татові листи тривають вічність».

Pasted
Накладка, що з’являється після диктування у фінальній версії — як виглядає одне безкоштовне, повністю локальне диктування в момент завершення.

Ось у чому різниця між моделлю та продуктом. Безкоштовний Whisper дає вам транскрипцію файлу. А застосунок диктування мусить вижити на справжньому робочому столі Windows, у справжніх застосунках, поки ви займаєтеся чимось іншим. Модель ніколи не бачить цієї боротьби. Ми бачимо — і спершу програвали її десь тиждень.

Коли вбудованого інструмента Windows цілком достатньо

Скажіть людям, коли НЕ варто купувати вашу річ, і вони, можливо, повірять вам у решті. Тож: якщо ви лише вряди-годи диктуєте коротку нотатку, усе це вам може бути й не потрібне. У Windows 11 є вбудований інструмент голосового набору, який відкривається через Win + H. Він безкоштовний і цілком годиться для пари рядків, хоча й надсилає ваше аудіо до онлайн-розпізнавання мовлення Microsoft, а не виконує його на вашій машині. Для швидкої відповіді в Teams цього вдосталь.

Ми починаємо бути вартими встановлення приблизно тоді, коли ви пишете справжні тексти (довгі листи, юридичні документи, конспекти лекцій, коментарі до коду, варіанти маркетингових текстів) і хочете, щоб усе лишалося на вашій машині, 99 мовами, з однією й тією ж гарячою клавішею всюди. Якщо ваш день — це двохрядкові переписки, на цьому все. Якщо ваш день — це писання, лишайте застосунок.

Що почитати далі

OpenAI Whisper — безкоштовна модель з відкритим кодом, і на Windows вона зазвичай вимагає Python, ffmpeg і термінала, щоб транскрибувати файли. Якщо у вас є файл, Buzz або Whisper Desktop зроблять це безкоштовно в справжньому вікні. Якщо ж насправді ви хочете говорити й бачити, як слова з’являються біля курсора в будь-якому застосунку — без жодного складання, без командного рядка, локально на вашому CPU, — то це саме те, що ми зробили.

Розгорнутіший погляд на ландшафт «безкоштовне проти платного» дивіться в перетворення голосу на текст на Windows. Щоб обрати між нашими двома локальними рушіями, дивіться Whisper проти Parakeet.

Продиктуйте своє перше речення приблизно за хвилину

Завантажте Whisper by Remskill для Windows, увійдіть без картки, натисніть Ctrl + Space і говоріть. Локальний конвеєр безкоштовний на весь час, поки ви ним користуєтеся.

Безкоштовне локальне транскрибування назавжди. Жодного способу оплати під час реєстрації. Хмарний тариф — єдина платна функція.

Фото Denys Medvediev

Denys Medvediev

Я той, хто читає нашу пошту підтримки — найімовірніше, диктуючи відповіді.