Автор: Денис Медведєв

Пояснення

Як запустити Whisper локально

Є два чесних способи запустити Whisper на власному комп'ютері: шлях розробника через Python і командний рядок, або десктопний застосунок, який зробить усе за вас без термінала. Обидва залишають ваш аудіозапис на вашому комп'ютері. Тут розглядаємо кожен із них і коли який обрати.

Останнє оновлення: червень 2026

Ноутбук на темному столі з рядками коду у вікні терміналу, що нагадує налаштування через командний рядок

Запустити Whisper локально означає розпізнавати аудіо на власному комп'ютері, а не на хмарному сервері. Є два шляхи: встановити Whisper з відкритим кодом від OpenAI через Python, pip і ffmpeg і запускати з командного рядка — або скористатися десктопним застосунком на кшталт Whisper by Remskill, який сам завантажує моделі та диктує текст у місці курсора без термінала. Обидва варіанти зберігають аудіо на пристрої.

Whisper — це модель розпізнавання мовлення з відкритим кодом від OpenAI, випущена під ліцензією MIT. Причина, чому запит «як запустити Whisper локально» такий популярний, проста: вона справді працює на вашому залізі безкоштовно. Жодного API-ключа, жодної поминутної оплати, жодного аудіо, що покидає ваш ноутбук. Це реально вигідна пропозиція, і офіційний проєкт на GitHub віддасть вам усе.

Підводний камінь — у тому, що означає «запустити». Офіційний спосіб — це інструмент командного рядка. Ви встановлюєте Python, виконуєте `pip install openai-whisper`, встановлюєте ffmpeg і вказуєте термінал на аудіофайл. Це ідеально, якщо у вас є папка із записами для пакетної обробки. Але якщо насправді ви хотіли надиктовувати текст в email — це вже інша задача. Дві різні роботи, і я чесно розгляну обидві.

Ось розвилка, яку більшість статей обходить стороною. «Запустити Whisper локально» може означати дві абсолютно різні речі залежно від того, хто питає. Для розробника це: завантажити модель на диск і транскрибувати файли зі скрипта. Для автора чи менеджера з продажу це: перестати друкувати і перетворити голос на текст у будь-якому застосунку.

Тому справжнє питання не просто «як встановити Whisper». Воно звучить так: «Який локальний Whisper мені потрібен — CLI для пакетних задач і скриптів, чи гарячі клавіші для диктування в місці курсора?» Перше — це офіційний проєкт OpenAI, і він чудово справляється зі своєю роботою. Друге — десктопний застосунок, що запускає ту саму сімейство моделей без командного рядка. Я налаштую обидва варіанти, покажу, що потрібно для заліза, і скажу прямо, коли термінал є кращим вибором.

Що насправді означає «запустити Whisper локально»

Людина за ноутбуком за столом — символ обробки на пристрої замість хмари

Запустити Whisper локально означає, що транскрибування відбувається на процесорі вашого комп'ютера, а не десь на сервері. Ви подаєте аудіо, модель перетворює його на текст, і нічого не залишає машину. Ось у чому принадність. Зарплатна таблиця боса, прочитана вголос, листа до школи дитини, запис розмови з клієнтом — нічого з цього не потрапить до логів постачальника, бо ви вирішили друкувати голосом. Спочатку локально, або не варто братись — це моя особиста позиція, і далі я її обґрунтую.

Whisper сам по собі — просто модель. OpenAI навчила її і опублікувала ваги під ліцензією MIT, саме тому будь-хто може завантажити і запустити без оплати. Є кілька розмірів моделі: від крихітної з 39 мільйонами параметрів до великої з 1,55 мільярда, і ви обираєте, виходячи з потрібної точності та можливостей вашого заліза. Модель однакова — запускаєте з терміналу чи з застосунку. Змінюється лише обгортка навколо неї.

І обгортка — це ключове питання. Їх дві, обидві законні. Офіційний інструмент командного рядка від OpenAI: безкоштовний, підтримує скрипти, заснований на Python, створений для транскрибування файлів. І десктопні застосунки, що завантажують ту саму модель за звичайним вікном — ви натискаєте клавішу і говорите замість того, щоб друкувати команду. Сумна правда в тому, що більшість людей, які шукають цей запит, хочуть один із цих двох варіантів і ще не знають, який саме. Наступні два розділи — якраз про ці два шляхи.

Шлях розробника: Python, pip і ffmpeg

Якщо ви комфортно почуваєтесь у терміналі, офіційний проєкт — найчистіша відповідь, і він справді безкоштовний. Вам потрібні три речі: Python (проєкт підтримує версії 3.8–3.11), сам пакет Whisper і ffmpeg — аудіоінструмент, на який спирається Whisper для читання файлів. Встановлення — дві команди. `pip install -U openai-whisper` підтягне пакет і залежність від PyTorch. Потім ffmpeg — залежно від вашої ОС: `brew install ffmpeg` на Mac, `choco install ffmpeg` або `scoop install ffmpeg` на Windows, `sudo apt install ffmpeg` на Ubuntu.

Після встановлення запускаєте проти файлу. `whisper audio.mp3 --model turbo` транскрибує запис і виводить текст. Додайте `--language Japanese`, щоб пропустити автовизначення мови, або `--task translate`, щоб нeanglomovnyy запис вийшов англійською. Це основа. Інструмент типу «файл на вхід — текст на виході», і він відмінно справляється саме з цим. Направте його на папку з голосовими нотатками на ніч — вранці все буде готово без вашої участі.

Ось де очікування стикаються з реальністю. Офіційні розміри моделей: tiny (39M параметрів), base (74M), small (244M), medium (769M), large (1,55B) і turbo (809M). Вимоги до VRAM розкажуть правду: приблизно 1 ГБ для tiny, близько 2 ГБ для small, близько 5 ГБ для medium і приблизно 10 ГБ для large. Ці цифри розраховані на GPU. Менші моделі можна запускати на CPU, але дискретна відеокарта робить більші моделі стерпними. Я колись красиво схемував налаштування «просто запускаю large на ноутбуці», а потім дивився, як воно повзе на інтегрованій графіці. Схема завжди хибна вже після другого коміту. CPU врешті впорається; large на тонкому ноутбуці — це не план на буденний вечір.

Шлях без термінала: запустити Whisper у десктопному застосунку

Якщо ви ніколи не хочете бачити командний рядок — ось інший чесний шлях. Whisper by Remskill — десктопний застосунок для Windows 10 і новіших версій та Mac на Apple Silicon, який запускає Whisper локально за вас: моделі завантажуються прямо в застосунку, без pip, ffmpeg і Python. Він також запускає Parakeet — другий локальний рушій, про який я розповім далі. Весь локальний конвеєр безкоштовний для будь-якого авторизованого акаунту — картка при реєстрації не потрібна. Ось послідовність дій.

Крок 1 — Встановіть Whisper і увійдіть в акаунт.

Завантажте з сторінки завантаження, встановіть і створіть безкоштовний акаунт. Картка не потрібна. Локальний конвеєр транскрибування відкривається одразу.

Ви зрозумієте, що все спрацювало, коли з'явиться іконка застосунку в треї і майстер налаштування запропонує вибрати модель.

Крок 2 — Оберіть шлях транскрибування і завантажте модель.

Застосунок не вибирає за вас. Є три варіанти: Cloud (OpenAI, власний ключ), Local Parakeet або Local Whisper. Для роботи на власному комп'ютері оберіть один із двох локальних рушіїв і дозвольте моделі завантажитись у застосунку.

Ви зрозумієте, що все спрацювало, коли модель завершить завантаження і відобразиться як готова.

Крок 3 — Підтвердіть гарячу клавішу.

На Windows за замовчуванням це Ctrl+Space, на Mac — Command+Option, утримується для режиму push-to-talk. На Mac надайте дозвіл «Спеціальні можливості» за підказкою; без нього вставка в місці курсора не зможе дістатися інших застосунків.

Ви зрозумієте, що все спрацювало, коли тестовий запис вставиться в будь-яке текстове поле.

Крок 4 — Поставте курсор будь-де і говоріть.

Клікніть у будь-яке текстове поле — листа, документ, чат — утримуйте гарячу клавішу, скажіть речення, відпустіть. Транскрипт з'явиться там, де стоїть курсор.

Ви зрозумієте, що все спрацювало, коли ваше вимовлене речення з'явиться у текстовому полі як текст.

Whisper
Реальний десктопний застосунок Whisper на екрані налаштувань із відкритими панелями «Транскрибування» та «ШІ».

Найповільніший етап — завантаження моделі, як і у випадку з CLI: ваги є ваги. Все інше — це чотири кроки вище. Різниця в тому, що між вами і моделлю немає терміналу, і замість «файл на вхід — текст на виході» ви отримуєте гарячу клавішу, яка диктує туди, де стоїть курсор. Той самий Whisper всередині, інша задача зверху.

Яка модель і яке залізо потрібні

Обидва шляхи вимагають вибору моделі, і вибір зводиться до одного й того самого компромісу: більші моделі точніші й повільніші, менші — швидші й легші. У офіційному CLI large-модель потребує приблизно 10 ГБ VRAM, small — близько 2 ГБ, тому відеокарта визначає стелю. У десктопному застосунку моделі Whisper поділяються на лише для англійської та багатомовні: стандартна англійська модель важить близько 480 МБ на диску, найбільша багатомовна — близько 3 ГБ. Багатомовні збірки охоплюють 99 мов і можуть перекладати на англійську; лише-англійські — тільки англійська.

Інший локальний рушій застосунку варто знати, бо він вирішує апаратну проблему для багатьох. Parakeet — TDT-модель NVIDIA, близько 600 МБ, і вона працює у 5–10 разів швидше за Whisper на CPU. Охоплює англійську плюс 24 інші європейські мови, 25 загалом, без перекладу на англійську. Якщо ви переважно говорите англійською і у вас немає потужного GPU — Parakeet найшвидший локальний варіант. Якщо потрібні китайська, японська, корейська або переклад — це територія багатомовного Whisper, куди Parakeet не потрапить. Поки ви говорите, з'являється невелика капсула, що сигналізує про прослуховування:

Cancel
Оверлей запису: невелика капсула, що з'являється, поки ви говорите, — так ви знаєте, що застосунок слухає.

Найкраще, що ви можете зробити для точності, — це зовсім не більша модель. USB-мікрофон за 20 доларів дасть більше для транскрибування, ніж перехід на дві моделі вгору: чисте аудіо на вхід перемагає важку модель, яку годують шумом від вбудованого мікрофона ноутбука. Спершу витратьтесь на мікрофон, а тоді вже думайте про модель. Це єдина апаратна порада, яку я готовий поставити під своїм ім'ям.

Локально чи хмара: який режим для якої задачі

Якщо у вас Apple Silicon або ПК кількох останніх років — спробуйте спочатку локальний варіант. Хмара — це запасний вихід, а не типовий вибір. Але десктопний застосунок змушує вибирати між трьома шляхами, і краще обрати свідомо — ось чим вони відрізняються.

Ось як відрізняються три шляхи, бо застосунок змушує вибирати:

  • Local ParakeetTDT-рушій NVIDIA, близько 600 МБ, і найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Охоплює англійську плюс 24 інші європейські мови, 25 загалом. Перекладу на англійську немає. Якщо ви диктуєте англійською чи іншою європейською мовою і хочете швидкості без GPU — це повністю офлайновий варіант.
  • Local Whisperповільніший за Parakeet на тому самому залізі, але багатомовні збірки охоплюють 99 мов і можуть перекладати на англійську. Лише-англійські збірки — тільки англійська, не 99. Оберіть для китайської, японської, корейської або будь-якої роботи з перекладом, чого Parakeet не вміє. Стандартна англійська модель — близько 480 МБ; найбільша багатомовна — близько 3 ГБ.
  • Cloud (OpenAI, BYOK)найвища точність і доступ до вебу з вашим власним ключем OpenAI, який тарифікується безпосередньо OpenAI. Транскрибування за замовчуванням через gpt-4o-mini-transcribe. Потребує інтернету — це єдиний шлях, що виходить за межі вашого комп'ютера. Хмарна поверхня входить до складу Whisper Pro.

Нудна правда: для щоденного диктування локального режиму цілком вистачає, і обидва локальні рушії повністю працюють на вашому комп'ютері, нічого не надсилаючи на сервер. Хмара виправдовує себе, коли потрібна найвища точність для складного запису або коли модель має підтягнути факт із мережі посеред речення. Яким би шляхом ви не запустили Whisper локально — CLI чи застосунок — з точки зору приватності все однаково: аудіо залишається на місці. Якщо перебування офлайн — це головна причина, чому ви тут, офлайн-розпізнавання мовлення розкриє тему глибше.

Точність, пунктуація та очищення сирого транскрипту

Хоч би що запускало Whisper, сирий результат диктування виходить суцільним потоком. Ви кажете «добре отже транскрибуй запис стендапу потім надішли резюме команді до обіду» — і саме такий рядок без розділових знаків видасть вам будь-який голосовий рушій. Офіційний CLI дає вам цей текст і зупиняється — прибирання за вами, у скрипті або вручну. Для пакетного транскрибування, де ви все одно обробляєте вихідні дані пізніше, це нормально.

Десктопний застосунок може виконати прохід очищення за вас до того, як текст потрапить на місце. Скажіть фразу активації «Hey whisper» — і ШІ-прохід видалить слова-паразити, виправить суцільний потік і додасть пунктуацію. На локальній моделі це проходить через Ollama на вашому комп'ютері; у хмарному режимі за замовчуванням використовується gpt-5-mini. Різниця між сирим і очищеним — це різниця між транскриптом, який треба редагувати, і тим, який можна одразу надіслати:

Thinking...
Сирий

okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager

Очищений

Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.

Точність — переважно питання моделі та мікрофона, про мікрофон я вже сказав. З боку моделі більші багатомовні збірки Whisper впевнено працюють у 99 мовах, а хмарний режим додає транскрибування найвищого рівня від OpenAI, якщо запис справді складний. Але для чистого аудіо і звичайного мовлення навіть малі моделі стабільні — а гонитва за найбільшою моделлю на слабкому залізі дасть лише повільніший результат, різницю в точності якого ви навряд чи помітите. Підбирайте модель під задачу, а не під табличку з характеристиками.

Якщо ваша головна мета — говорити замість того, щоб цілий день друкувати, той самий потік «сказав — очистив» дозволяє вам перетворювати голос на текст у Windows не відкриваючи жодного разу термінала — ось у чому сенс шляху без CLI.

Коли командний рядок — правильний вибір

Два шляхи, що розходяться, — ілюстрація вибору між командним рядком і десктопним застосунком

Іноді термінал справді є кращим інструментом, і вдавати інакше, щоб продати вам застосунок, було б нечесно. Офіційний CLI від OpenAI безкоштовний, ліцензований за MIT і створений для задачі, яку десктопний застосунок не виконує: транскрибування файлів, пакетно, зі скрипта. Якщо це ваша задача — пропускайте застосунок.

Беріться за командний рядок, коли у вас є папка записів для нічної пакетної обробки, коли потрібен Whisper всередині більшого Python-конвеєра або на контрольованому вами сервері, коли потрібен конкретний прапор моделі, який GUI не надає, або коли ви просто вже живете в терміналі і не хочете зайвого вікна. Також правильний вибір на Linux, для якого десктопний застосунок не виходить. CLI запускається скрізь, де є Python і ffmpeg. Жодне з цього — не закид на адресу застосунку; просто форма задачі інша.

Беріться за десктопний застосунок, коли задача — диктування, а не обробка файлів: ви хочете говорити в листи, документи, чати і щоб слова з'являлися в місці курсора одним натисканням. CLI не може вставляти в місце курсора в іншій програмі — це ніколи не було його завданням. Тому чесний поділ такий: файли і скрипти — термінал; говорити замість друкувати — застосунок. Більшість людей, як тільки розуміє, чого вони справді хотіли, одразу знає, на якому боці вони знаходяться.

Та сама логіка «на пристрої, без хмари» переноситься і на Mac — покроковий посібник у голос у текст на Mac охоплює Apple Silicon, включно з дозволом «Спеціальні можливості», потрібним для гарячих клавіш.

Whisper на власному комп'ютері — одна з найкращих пропозицій у світі програмного забезпечення прямо зараз: модель, яку OpenAI роздає безкоштовно, та сама, яку тихцем використовують великі хмарні інструменти, лежить на вашому диску задарма. Єдине реальне рішення — яка обгортка підходить вашому дню. CLI я запускаю, коли маю файли для обробки, а застосунок — решті 95% часу, бо я перемикаюсь між програмами приблизно сорок разів на годину і не хочу щоразу набирати команду. Більшу частину цього посібника я надиктував гарячою клавішею, у текстовому полі, яке не було терміналом, поки модель працювала на тому самому ноутбуці.

Запустіть Whisper локально без термінала

Утримайте гарячу клавішу, говоріть, відпустіть. Модель працює на вашому комп'ютері, а транскрипт з'являється там, де стоїть курсор — без Python, pip і ffmpeg.

Безкоштовний локальний режим для будь-якого авторизованого акаунту. Картка не потрібна для початку.

Фото Дениса Медведєва

Denys Medvediev

Я той, хто читає наш службовий email — і, мабуть, диктую відповіді.

Додаткове читання