Гайд
Голос у текст у Roam Research
У Roam Research немає вбудованого диктування. Рішення — системний інструмент: натискаєте гарячу клавішу, говорите, і розшифровка вставляється під курсором у будь-якому блоці Roam. Диктування вашої ОС теж згодиться для коротких нотаток.
Останнє оновлення: червень 2026

Голос у текст у Roam Research працює через системний інструмент, а не через сам Roam. У Roam Research немає вбудованого диктування. Рішення — інструмент на кшталт Whisper: натискаєте гарячу клавішу, говорите, і розшифровка вставляється під курсором у будь-якому блоці Roam. Власне диктування операційної системи теж згодиться для коротких нотаток.
Я веду сторінку щоденних нотаток у Roam, бо зв'язане мислення справді змінило те, як я тримаю ідеї — кожен блок є вузлом, кожна [[сторінка]] — ниткою, за яку можна потягнути пізніше. Єдине, чого я завжди хотів, — це наговорити думку в блок, а не друкувати її. Я пішов шукати потрібне налаштування. Налаштування немає. У Roam немає кнопки мікрофона, і після чималого пошуку я впевнений, що він її від мене не ховає.
Люди шукають «голос у текст у Roam Research», нічого не знаходять у застосунку й вирішують, що проґавили якийсь перемикач. Ні. Перемикача ніколи й не було. Гарна новина в тому, що рішення займає близько двох хвилин, працює повністю офлайн, якщо ви цього хочете, і як бонус працює в кожному іншому застосунку, який ви відкриваєте.
Ось річ, яку більшість сторінок, що крутяться навколо цього запиту, не скажуть прямо. Блок Roam — це просто текстове поле, таке саме, як у Gmail чи в рядку пошуку. Диктуванню, що вставляє текст під курсором, байдуже, у якому застосунку перебуває курсор.
Тож справжнє питання не «як увімкнути голосовий набір у Roam». Перемикача немає. Питання — «який інструмент диктування запустити поверх Roam», і відповідь залежить від того, чи хочете ви безкоштовне-і-вбудоване, чи одну офлайн-гарячу клавішу, що поводиться однаково всюди. Я розберу все це, налаштую один варіант за дві хвилини й підкажу, коли спеціальний інструмент можна пропустити.
Чи є в Roam Research вбудоване диктування?

Ні. У Roam Research немає вбудованого перетворення мовлення на текст, диктування чи голосового набору для запису в блок голосом. Немає кнопки мікрофона на блоці, немає голосової команди, немає прихованого налаштування. Roam приймає набраний текст. Якщо ви прочісували меню в пошуках перемикача диктування — можете зупинитися. Його там немає.
Що справді існує — це жменька розширень Roam Depot і Live AI Assistant зі словом «speech» в описі, і саме тут люди заплутуються. Вони розшифровують аудіофайл, який ви вже записали — нараду, інтерв'ю, кліп, завантажений через /upload — на текст постфактум, зазвичай викликаючи OpenAI Whisper API з вашим власним ключем. Вони корисні, але це не живе диктування. Ви не можете поставити курсор у сьогоднішню щоденну нотатку, заговорити й дивитися, як з'являються слова. Вони обробляють запис; вони не друкують за вас, поки ви думаєте. Плутати ці дві речі коштує цілого пообіддя, і я волів би, щоб ви це пообіддя не витрачали.
Із мобільними пристроями ситуація окрема, і про неї варто сказати одне речення, щоб ви не ганялися за цим не на тому пристрої: є застосунки-компаньйони для захоплення, що надсилають нотатку з розпізнаного мовлення у ваш граф із телефона, але це функція телефона, а на телефоні ви б усе одно просто скористалися мікрофоном клавіатури. На настільному графі, де насправді живе більшість людей, потрібен інструмент, що сидить поверх Roam. Є кілька чесних категорій, і решта цього гайда їх розкриває.
Натисніть гарячу клавішу, говоріть — текст з'являється в блоці
Ось і вся механіка, і вона нудна в найкращому сенсі. Ви натискаєте гарячу клавішу, говорите, відпускаєте — і розшифровка вставляється під курсором, у те текстове поле, яке має фокус. Whisper утримує короткий хвіст після того, як ви відпустили клавішу, тож ваше останнє слово не обрізається. Оскільки вставка відбувається під курсором ОС, блок Roam — це просто «будь-яке текстове поле». Браузерний застосунок чи десктопна оболонка — поведінка однакова, Roam навіть не помітить різниці.
Саме цю частину лендинги переускладнюють. Немає розширення, яке треба встановлювати в Roam, немає API-токена, який треба вставляти, немає завдання синхронізації, за яким треба наглядати. Курсор у блоці, ви говорите — слова з'являються в блоці. Поки ви говорите, з'являється невелика капсула, щоб ви знали, що йде запис:
Гаряча клавіша — це те єдине, що варто одразу налаштувати правильно. У Windows це Ctrl+Space; на Mac — Command+Option, push-to-talk лише з модифікаторами, який ви утримуєте під час мовлення. Обидва можна змінити в Налаштуваннях, якщо вони конфліктують із чимось, що ви вже використовуєте. (Моя молодша донька якось сказала мені, що гаряча клавіша «не працює» в її застосунку для малювання. Це був конфлікт, а не баг — і так я зрозумів, що пересічна людина гадки не має, що таке конфлікт гарячих клавіш. Тож тепер кожну гарячу клавішу можна налаштувати.) Якщо ви колись налаштовували диктування на Mac, то це та сама м'язова пам'ять, лише спрямована на інший застосунок.
Налаштування за дві хвилини (Windows або Mac)
Вам потрібен Mac на Apple Silicon або ПК на Windows 10 чи новішій, робочий мікрофон і відкритий Roam у браузері. Уся локальна обробка безкоштовна для будь-якого облікового запису з входом, без жодного запиту платіжного методу під час реєстрації. Ось послідовність.
Крок 1 — Установіть Whisper і увійдіть.
Завантажте зі сторінки завантаження, установіть і створіть безкоштовний обліковий запис. Без картки. Уся локальна обробка транскрипції відкривається одразу.
Ви зрозумієте, що спрацювало, коли в треї з'явиться значок застосунку, а майстер налаштування запропонує вибрати модель.
Крок 2 — Виберіть спосіб транскрипції.
Застосунок не обирає за вас. Маєте три варіанти: Хмара (OpenAI, зі своїм ключем), локальний Parakeet або локальний Whisper. Для приватних щоденних нотаток почніть із локального — про це детальніше через два розділи.
Ви зрозумієте, що спрацювало, коли модель завершить завантаження й покаже статус «готово».
Крок 3 — Підтвердьте гарячу клавішу.
У Windows за замовчуванням Ctrl+Space, на Mac — Command+Option, утримувані як push-to-talk. На Mac надайте дозвіл «Спеціальні можливості», коли система його запросить; без нього вставка під курсором не зможе дістатися вашого браузера.
Ви зрозумієте, що спрацювало, коли тестовий запис вставиться в будь-яке текстове поле.
Крок 4 — Поставте курсор у блок Roam і говоріть.
Відкрийте граф, клацніть у блок, утримуйте гарячу клавішу, скажіть речення, відпустіть. Розшифровка з'являється там, де стоїть курсор — у блоці.
Ви зрозумієте, що спрацювало, коли ваше сказане речення опиниться в блоці Roam як текст.
Повільна частина — це завантаження моделі, а не налаштування. Усе інше — чотири кроки вище. Щойно все запрацює, фіксація думки у вашому графі перестає бути завданням друку й стає завданням розмови.
Розширення Roam проти системної гарячої клавіші
Більшість сторінок, що ранжуються за цим запитом, скеровують вас на розширення Roam Depot — Live AI Assistant, імпортер Otter, щось зі словом «speech» у назві. Це непогані інструменти, але всі вони мають одну спільну структурну ваду. Вони розшифровують аудіо, яке ви вже записали — файл наради, сесію Otter, кліп, завантажений у блок, — а не живе мовлення в блок, який ви редагуєте просто зараз. Ви записуєте, потім транскрибуєте, потім чистите результат. Це робочий процес транскрипції, а не диктування. Вони вирішують задачу «у мене є година аудіо», а не «я хочу наговорити це речення у свою щоденну нотатку».
Системна гаряча клавіша повністю обходить це. Вона вставляє текст під курсором ОС незалежно від того, яке вікно ним володіє, тож та сама клавіша, що наповнює блок Roam, наповнює й поле написання листа в Gmail, повідомлення в Slack і повідомлення коміту. Один інструмент, кожне текстове поле, і в Windows, і на Mac. Ви нічого не переучуєте, перемикаючись між застосунками, і нічому не треба знати, що це Roam — інтеграцію робить курсор.
Якщо у вас здебільшого є записи, які треба розшифрувати — дзвінки, лекції, голосові нотатки, які ви вже зафіксували, — розширення Depot, що викликає Whisper для файлу, має правильну форму й варте уваги. Щойно ж вам насправді потрібно подумати вголос у свіжий блок, наживо, — перемагає системний шлях. Я б тягнувся до однієї гарячої клавіші, бо перемикаюся між застосунками приблизно сорок разів на годину й не хочу пам'ятати сорок різних кнопок диктування.
Локально чи хмара: який режим для приватного графа
Для Roam спершу спробуйте локальний режим. Граф наповнюється нефільтрованим — напівсформованою ідеєю, підсумком наради, записом у щоденнику, який ви нізащо не хотіли б бачити на чужому сервері. Якщо ви двічі подумали б, перш ніж опублікувати блок прилюдно, то, мабуть, двічі подумали б і про те, щоб пропускати свій голос через хмару, аби його записати. Якщо ваш Mac на Apple Silicon або ваш ПК останніх кількох років, локальний режим без проблем впорається з повсякденним диктуванням, а хмара стане запасним виходом, а не варіантом за замовчуванням.
Ось чим відрізняються ці три шляхи, бо застосунок змушує вас вибрати, і я волів би, щоб ви вибрали добре:
- Локальний Parakeet — Рушій TDT від NVIDIA, близько 600 МБ, і найшвидший локальний варіант — у 5–10 разів швидший за Whisper на CPU. Підтримує англійську плюс 24 інші європейські мови, 25 загалом. Без перекладу на англійську. Якщо ви ведете щоденник англійською чи іншою європейською мовою, це швидкий, повністю офлайновий вибір.
- Локальний Whisper — повільніший за Parakeet на тій самій машині, але багатомовні збірки покривають 99 мов і вміють перекладати на англійську. Англомовні збірки — лише англійською, не 99. Вибирайте цей варіант для китайської, японської, корейської чи будь-якого перекладу, чого Parakeet не вміє. Стандартна англійська модель — близько 480 МБ.
- Хмара (OpenAI, BYOK) — найкраща точність і доступ до вебу, з використанням вашого власного ключа OpenAI, рахунок за який виставляє безпосередньо OpenAI. Транскрипція за замовчуванням працює на gpt-4o-mini-transcribe. Потребує інтернету, тож це єдиний шлях, який залишає вашу машину. Хмарна поверхня входить у Whisper Pro.
Нудна правда в тому, що для того тексту, який більшість людей кладе в Roam, локального режиму цілком досить. Обидва локальні рушії працюють повністю на вашій машині, нічого не надсилаючи на сервер. Хмара заслуговує своє місце, коли вам потрібна точність найвищого рівня на складному записі або коли модель має витягнути факт із вебу посеред речення. Для звички вести щоденні нотатки почніть із локального й тягніться до хмари лише тоді, коли локального вам забракне.
Пунктуація, блоки та синтаксис Roam голосом
Сире диктування виходить суцільним потоком. Ви кажете «окей перевір документ архітектури познач його project alpha і нагадай мені в четвер», і це той непунктуований мур, який вам видасть будь-який рушій розпізнавання. Очищення цього — там, де шляхи розходяться.
Голосовий набір Windows додає пунктуацію, поки ви говорите, а Диктування macOS опрацьовує базову пунктуацію, коли ви кажете «кома» чи «крапка». Для серйознішого очищення — прибрати «емм», виправити суцільні потоки, перетворити наговорений абзац на щось, що ви справді залишили б у графі, — Whisper може зробити прохід ШІ. Скажіть фразу-активацію «Hey whisper», і текст покращується, перш ніж потрапити на місце. На локальній моделі це працює через Ollama; у хмарному режимі за замовчуванням gpt-5-mini.
окей перевір документ архітектури познач його project alpha і нагадай мені в четвер емм перед стендапом
Окей, перевір документ архітектури, познач його Project Alpha і нагадай мені в четвер перед стендапом.
Щодо власної структури Roam — вкладених блоків, посилань #tag і [[page]], маркерів TODO — чесна відповідь така: голос дає вам текст, а власний синтаксис Roam дає вам структуру. Продиктуйте речення, а потім наберіть Tab, щоб зробити відступ блоку, # для тегу або [[ для посилання на сторінку — так, як завжди. Жоден інструмент диктування не викличе синтаксис структури Roam до життя за командою; хто обіцяє «скажи подвійна квадратна дужка project alpha і дивись, як воно зв'яжеться», той продає вам демо, а не вівторок. Швидко зафіксуйте слова голосом, а форму блокам надайте клавішами, які ви вже знаєте.
Той самий потік «сказати-потім-очистити» добре окуповується далеко за межами вашого графа — ви також можете диктувати чисту прозу в будь-який застосунок однією гарячою клавішею, тож довгий блок стає кількома сказаними реченнями замість абзацу, який ви набираєте вручну.
Коли для Roam Research варто пропустити інструмент диктування

Іноді правильний інструмент — це безкоштовний, який уже є на вашій машині, і вдавати інакше було б нечесно. Якщо ви лише кидаєте в Roam короткі нотатки — швидкий рядок у щоденну нотатку, нагадування з двох слів — ваша операційна система впорається з цим задарма.
У Windows натисніть клавішу Windows + H, і вбудована панель голосового набору відкриється там, де стоїть курсор, зокрема й у блоці Roam. Вона сама ставить пунктуацію й годиться для коротких сплесків. Підступ: вона працює через сервери Microsoft і потребує підключення до інтернету, тож це не офлайновий варіант, що важить більше, ніж зазвичай, коли ваш граф повний напівприватних думок. На Mac Диктування дає змогу говорити, щоб вводити текст усюди, де можна друкувати, налаштовується в Системних параметрах у розділі «Клавіатура», а на Apple Silicon загальний текст може оброблятися на пристрої. А якщо те, що у вас справді є, — це записане аудіо (дзвінок, лекція), розширення Roam Depot, що транскрибує файл, підійде краще за будь-який інструмент живого диктування.
Тягніться до спеціального системного інструмента, коли вбудовані починають заважати: довгі нотатки, багатомовна робота, офлайн-приватність у Windows або бажання мати одну гарячу клавішу, що поводиться однаково в Roam, вашій пошті й вашому редакторі. Нижче цієї межі — користуйтеся тим, що безкоштовне. Я не казатиму вам встановлювати застосунок заради нагадування в один рядок.
Той самий компроміс виринає, якщо ви також ведете нотатки деінде — логіка в диктуванні в Obsidian ідентична, бо й там справжньою інтеграцією є курсор, а не плагін.
Що почитати далі
Roam так і не випустив кнопку мікрофона, і після написання цього я майже впевнений, що ніколи й не випустить. Це йому й не потрібно, бо інтеграцією є курсор. Наговоріть у блок, отримайте текст, надайте йому форму за допомогою [[ і #, які ви вже знаєте. Більшу частину цього гайда я продиктував у текстове поле, що не було Roam, інструментом, якому байдуже, що це за поле, а потім вставив усе у власний граф. Ось і весь фокус.
Спробуйте у своєму наступному блоці Roam
Утримуйте гарячу клавішу, говоріть, відпустіть. Розшифровка потрапляє в той блок, де стоїть ваш курсор, — і в кожному іншому застосунку теж.
Безкоштовний локальний режим для будь-якого облікового запису з входом. Картка для початку не потрібна.



