Автор: Денис Медведєв

Інструкція

Голосовий ввід у GitHub: як це працює насправді

У GitHub немає власної диктовки — поля для задач, пул-реквестів, коментарів і markdown — це звичайні веб-текстові поля. Програма із загальносистемною гарячою клавішею утримує клавішу, розпізнає сказане й вставляє текст у те поле, на якому стоїть фокус.

Останнє оновлення: червень 2026

Відкритий ноутбук із вихідним кодом на дерев'яному столі в затишному сучасному робочому просторі

Голосовий ввід у GitHub — це диктовка тексту в текстові поля GitHub за допомогою програми із загальносистемною гарячою клавішею, адже власної диктовки в GitHub немає. Поля для задач, пул-реквестів, коментарів і markdown — це звичайні веб-текстові поля. Інструмент на кшталт Whisper утримує гарячу клавішу, розпізнає сказане й вставляє текст там, де стоїть курсор — у задачу, пул-реквест чи нотатку до рев'ю, на яких ви тримаєте фокус.

Минулого року я цілий тиждень був переконаний, що GitHub тихцем додав кудись у редактор задач голосову кнопку. Не додав. Тіло задачі — це текстове поле. Опис пул-реквесту — текстове поле. Коментар до рев'ю, поле в Discussions, редактор README — усе це текстові поля, того самого типу, що й у формі зворотного зв'язку. Жодної іконки мікрофона, схованої десь у меню. Нудна правда в тому, що весь текст, який ви пишете навколо свого коду на GitHub, — це звичайне введення тексту, і будь-який пристойний інструмент диктовки може його заповнити.

І це хороша новина, бо означає, що ви не чекаєте, доки GitHub зробить цю функцію. Свій голосовий шар ви приносите самі. На Windows чи Mac Whisper працює на рівні операційної системи, тож одна й та сама гаряча клавіша діє в редакторі задач, в описі пул-реквесту, у гілці код-рев'ю, у вашому IDE і в Slack — усюди, де блимає курсор. Ви клацаєте по полю, утримуєте клавішу, говорите й відпускаєте. Одне важливе застереження одразу, і я повторюватиму його не раз: це для тексту, а не для коду.

У GitHub немає голосового вводу. Усю роботу робить ваша гаряча клавіша.

Розробник працює над кодом за столом із двома моніторами в сучасному офісі

Відповім на запитання, яке люди насправді вбивають у Google. Ні, у GitHub немає вбудованого голосового вводу. Жодної рідної диктовки в редакторі задач, формі пул-реквесту, панелі рев'ю, Discussions чи вікі. Це стандартні веб-текстові поля. Щоб диктувати в них, голос має надходити звідкись іще: з вашої операційної системи, з браузера або зі сторонньої програми.

GitHub ніколи не блокує диктовку. Він просто не дає жодної своєї. Тож варіантів у вас приблизно три. У вашій ОС диктовка вбудована — голосовий ввід Windows на Win+H або диктовка macOS. Браузерне розширення на кшталт Voice In може набирати текст у вкладці Chrome чи Edge. Або загальносистемна десктопна програма на кшталт Whisper диктує в будь-яке поле в будь-якій програмі — у браузері й поза ним.

Різниця між цими трьома — у засягу. Диктовка від ОС безкоштовна, працює на одній платформі за раз, а якість буває різна. Браузерне розширення живе тільки всередині вкладки — воно не піде за вами у ваше IDE чи в GitHub CLI, і працює в хмарі. Десктопна програма на кшталт Whisper не прив'язана до вкладки; оскільки вона працює на рівні ОС, то диктує в GitHub у Chrome, Firefox, Safari чи Edge, а ще й у повідомлення коміту в GitHub Desktop.

Що ви справді можете надиктувати (і єдине, що не можете)

Ось межа, яку я не дам вам випадково перетнути. Whisper диктує текст навколо вашого коду. Сам код він не напише.

А це, чесно кажучи, охоплює більшу частину дня розробника за клавіатурою. Звіти про задачі. Описи пул-реквестів. Нотатки до код-рев'ю. Відповіді в Discussions. README й markdown-документацію. Текст, що пояснює зміну, а не саму зміну. Коли ви проговорюєте абзац про те, чому міграція ризикована, Whisper упорається без проблем. А коли спробуєте надиктувати саму міграцію — на вас чекає кепський вечір.

Причина проста. Проговорений код не переживає цю подорож. Назви функцій, JSON, snake_case проти camelCase, прапорець kubectl, шлях до API — усе це виходить як англійський текст «як вийшло» і потребує ручного виправлення. Голосова модель чує «user underscore I D» і пише «user ID», і ось ви вже це виправляєте. Тож диктуйте речення на кшталт «цей PR виправляє перевірку на null в auth middleware», а сам ідентифікатор наберіть руками. Більшість тіл задач і пул-реквестів усе одно на 80% складаються з пояснень і на 20% — зі сніпетів коду. Надиктуйте 80, наберіть 20.

Натисніть гарячу клавішу, говоріть — і текст з'явиться в полі з фокусом

Cancel
Накладка запису: маленька капсула, що з'являється, поки ви говорите, щоб ви знали, що Whisper слухає.

Механіка та сама, що й у будь-якій іншій програмі, — і в цьому весь сенс. Клацніть у поле GitHub, яке хочете заповнити. Утримуйте гарячу клавішу. Говоріть. Відпустіть. Розшифровка з'являється там, де курсор.

Гаряча клавіша за замовчуванням — Ctrl+Space на Windows і Command+Option на macOS. Обидві працюють у режимі push-to-talk: утримуйте, поки говорите, відпустіть, щоб зупинити. Їх можна змінити в налаштуваннях, якщо вони з чимось конфліктують — а якщо ви колись воювали з конфліктом гарячих клавіш, то знаєте, чому це налаштування заслужило своє місце (про це нижче).

Одна чесна деталь щодо охоплення. Whisper вставляє текст в одне поле, на якому стоїть фокус, по одному за раз. Він не заповнює всю форму задачі GitHub на одному диханні. Тож порядок для нової задачі такий: клацнути на заголовок, надиктувати його, клацнути на тіло, надиктувати й це. Два поля, два натискання. Це менше схоже на магію і більше на швидкого друкаря, який ніколи не торкається клавіатури. Саме така правильна ментальна модель.

Уся програма, наживо

Whisper
Справжня десктопна програма Whisper, що працює прямо тут — поклацайте по налаштуваннях, вибору гарячої клавіші й вибору моделей.

Це справжня програма, що працює прямо тут, — не скріншот. Покопайтеся. Налаштування, вибір гарячої клавіші, вибір моделей — усе справжнє.

Кілька речей, які варто знати, поки клацаєте. Тут немає окремої вкладки для GitHub і немає «режиму GitHub», бо їх і не потрібно. Для Whisper опис пул-реквесту GitHub — це таке саме текстове поле, як будь-яке інше. Те саме налаштування, що диктує в редактор задач, диктує і в вашу пошту, і у ваше IDE. Ви налаштовуєте його один раз. Засяг — ось у чому й фішка.

Де це окупається: задачі, описи PR, рев'ю, обговорення

Окупається це на нудному, повторюваному писанні — на тому, що ви відкладаєте, бо набирати це руками — морока.

Задачі. Хороший звіт про баг — це здебільшого розповідь: що ви зробили, чого очікували, що сталося натомість. Це рідна стихія диктовки. Проговоріть кроки відтворення так, ніби пояснюєте їх колезі за сусіднім столом, а тоді вставте стектрейс руками.

Описи пул-реквестів. Тіло PR, яке всі ліняться писати, бо діф «говорить сам за себе» (ні, не говорить). Надиктуйте «чому» — контекст, потрібний рев'юеру, — і нехай діф розкаже «що».

Код-рев'ю. Коментарі до рев'ю — це там, де важливий тон і де люди недопояснюють. Проговорена нотатка до рев'ю зазвичай виходить людянішою й повнішою, ніж набрана між зустрічами. Ви напишете «це працює, але зламається, коли список порожній» замість просто «граничний випадок?».

Обговорення і документація. Довгий текст — а це саме те, у чому голос гарний, і саме те, що ніхто не хоче набирати. Вступ до README, відповідь у Discussions, посібник з міграції — надиктуйте чернетку, а markdown причешіть потім. Та сама логіка стосується диктовки в тікети Jira та інші трекери; GitHub — це просто ще одне поле в купі.

Автоматично причешіть диктовку

Thinking...
Стан покращення: необов'язковий прохід ШІ прибирає слова-паразити, розставляє пунктуацію й регістр, перш ніж текст з'явиться.

У сирій диктовці є зайве. «Е-е», «ну розумієш», речення, яке ви почали двічі. У Whisper є необов'язковий прохід ШІ для очищення, що виправляє слова-паразити, пунктуацію й регістр, тож задача чи PR читаються так, ніби ви писали їх старанно.

Є два варіанти. У безкоштовному локальному рівні очищення працює на вашій машині через Ollama. У Pro ви приносите власний ключ OpenAI, і очищення працює в хмарі — з доступними веб-відповідями на додачу. У будь-якому разі це необов'язково: вимкніть його — і отримаєте сиру розшифровку. Для описів PR я лишаю його ввімкненим, а для швидких коментарів — вимкненим, бо швидкий коментар не потребує редагування, а опис PR — потребує.

Одне, чого очищення не зробить, — це не врятує проговорений код. Воно шліфує англійський текст. Воно не знає, що ви мали на увазі getUserById, коли сказали «get user by I D». Диктуйте далі текст; ідентифікатори далі набирайте руками.

Офлайн і приватно: у локальному режимі ніщо не залишає вашу машину

Синій навісний замок на дерев'яній хвіртці, крізь яку пробивається сонячне світло — символ приватної локальної обробки

Якщо ви диктуєте задачі й пул-реквести про код, який не є публічним, то куди йде звук — має значення. У локальному режимі Whisper розпізнавання відбувається повністю на вашій машині. Ніщо зі сказаного вами не надсилається в хмарний сервіс. Під час розпізнавання інтернет узагалі не потрібен — у мережу ви виходите лише раз, щоб одноразово завантажити модель, розмір якої коливається приблизно від 140 МБ до 3 ГБ залежно від обраної моделі.

Ось єдине місце, де я висловлю вам справжню думку. Диктовка лише в хмарі — це катастрофа приватності, яка тільки й чекає, щоб її розшифрували. Якось я спостерігав, як внутрішня команда за один квартал набила п'ятизначний хмарний рахунок, бо саморобний прототип диктовки надсилав кожне промовлене слово в API — і гірше за рахунок було те, що нотатки всіх про неанонсований продукт тепер жили в логах постачальника. Зарплатна таблиця вашого керівника, проблема безпеки, яку ви приватно заводите, пропрієтарна архітектура, яку ви описуєте в PR, — ніщо з цього не повинно залишати ваш ноутбук лише тому, що ви захотіли набрати абзац голосом. У вашій машині вже є мікрофон і процесор. Для одного абзацу їй не потрібен сервер у ланцюжку. Якщо ваш інструмент працює лише в хмарі — саме це я виправляв би в першу чергу.

Для чого це не призначено (писати код)

Великий план клавіатури ноутбука, підсвіченої синім світлом, — натяк на безпосереднє кодування

Можливо, ви прийшли сюди в пошуках способу писати код голосом, або пам'ятаєте «Hey, GitHub!» і дивуєтеся, куди воно поділося. Дві чесні відповіді.

«Hey, GitHub!» і GitHub Copilot Voice були технічним превʼю GitHub Next. GitHub закрив це превʼю у 2024 році. Воно так і не стало продуктом; здобуте перейшло в розширення VS Code Speech. Тож якщо допис у блозі радить вам сьогодні ввімкнути «Hey GitHub», він застарів на пару років.

Смуга «голос для коду» досі існує — просто живе вона у вашому редакторі й терміналі, а не на github.com. Розширення VS Code Speech (іноді його називають «Hey Code») дає змогу говорити з редактором і з Copilot Chat для коду й команд. А GitHub Copilot CLI нещодавно додав локальний голосовий ввід, що керує агентом Copilot у терміналі. Обидва призначені керувати кодом і ШІ-агентом. Жоден з них не диктує текст у задачу GitHub у вашому браузері. Це інша смуга — і саме нею володіє Whisper: текст навколо коду.

Коли пропустити Whisper у вашому робочому процесі GitHub

Я радше волів би, щоб ви користувалися правильним інструментом, а не тим, що роблю я. Тож ось коли Whisper варто пропустити.

Якщо вам насправді потрібно керувати Copilot чи редактором голосом — «виправ цю функцію», «запусти тести», «поясни цей блок» — це смуга коду й агента, а не тексту. Користуйтеся натомість розширенням VS Code Speech або голосовим вводом GitHub Copilot CLI. Вони говорять із машиною; Whisper пише слова, які читає людина.

Якщо ви лише зрідка диктуєте однорядковий коментар, ваша ОС уже робить це безкоштовно. Натисніть Win+H на Windows або ввімкніть диктовку на macOS — і можете кинути швидке речення в поле GitHub, нічого не встановлюючи. Whisper починає виправдовувати себе, коли ви пишете справжні абзаци в багатьох програмах, хочете, щоб це працювало офлайн, або хочете одну гарячу клавішу всюди замість функції ОС, яка покриває лише деякі поля. Нижче за цю планку вбудований варіант цілком годиться, і я не вдаватиму, що це не так.

Безкоштовно локально, а Pro — для хмари

Локальний конвеєр — розпізнавання, очищення ШІ на пристрої, гаряча клавіша, усе, що потрібно для диктовки в GitHub, — безкоштовний для авторизованих користувачів, і картка під час реєстрації не потрібна. Ви встановлюєте програму, входите й починаєте диктувати.

Whisper Pro додає хмарну частину: хмарне розпізнавання OpenAI, хмарне очищення ШІ з вашим власним ключем і веб-відповіді, з коротким пробним періодом для цього рівня. Для диктовки задач і пул-реквестів безкоштовного локального рівня вистачає на всю роботу. Цифри для Pro живуть на сторінці цін; я не цитуватиму їх вам посеред абзацу.

Ще одне про ту гарячу клавішу

Кілька слів про те, чому гаряча клавіша налаштовується, — адже це зв'язує все докупи. Перша версія Whisper надсилала зупинку запису шість разів на одне натискання на певних машинах Windows — фантомні події відпускання від фреймворка введення, з тих, що працюють на чистій інсталяції й ламаються на реальній. Знадобився дебаунс на 300 мс і більше часу, ніж я зізнаюся, щоб зробити це надійним. Я дізнався про обробку введення у Windows більше, ніж будь-коли хотів. Урок засів: гаряча клавіша має прогинатися під вашу машину, а не навпаки. Клацніть у поле, утримуйте клавішу, говоріть. Код ви досі набираєте самі — і, гадаю, це чесна версія угоди.

Надиктуйте свою наступну задачу в GitHub

Клацніть у поле, утримуйте клавішу, говоріть, відпустіть. Розшифровка з'явиться там, де ваш курсор, — у редакторі задач, в описі PR і в усіх інших програмах теж.

Безкоштовний локальний режим для будь-якого авторизованого акаунта. Картка для старту не потрібна.

Фото Дениса Медведєва

Денис Медведєв

Це я читаю нашу пошту підтримки — найімовірніше, надиктовуючи відповіді.