Autor: Denys Medvediev

Poradnik

Głos na tekst w Roam Research

Roam Research nie ma wbudowanego dyktowania. Rozwiązaniem jest narzędzie działające w całym systemie: naciskasz skrót, mówisz, a transkrypcja wkleja się w miejscu kursora w dowolnym bloku Roam. Dyktowanie z systemu też zadziała, do krótkich notatek.

Ostatnia aktualizacja: czerwiec 2026

Otwarty notes i długopis obok laptopa na ciemnym biurku, kojarzące się z połączonym notowaniem myśli i dyktowaniem

Głos na tekst w Roam Research działa dzięki narzędziu obejmującemu cały system, a nie dzięki samemu Roam. Roam Research nie ma wbudowanego dyktowania. Rozwiązaniem jest narzędzie takie jak Whisper: naciskasz skrót, mówisz, a transkrypcja wkleja się w miejscu kursora w dowolnym bloku Roam. Dyktowanie wbudowane w system operacyjny też się sprawdzi, do krótkich notatek.

Prowadzę w Roam stronę z notatkami dziennymi, bo to połączone myślenie naprawdę zmieniło sposób, w jaki trzymam pomysły — każdy blok to węzeł, każda [[strona]] to wątek, do którego mogę później wrócić. Jednej rzeczy zawsze brakowało: chciałem wmówić myśl do bloku, zamiast ją wpisywać. Poszedłem szukać ustawienia. Takiego ustawienia nie ma. Roam nie ma przycisku mikrofonu, a po dłuższym grzebaniu jestem pewien, że żadnego przede mną nie ukrywa.

Ludzie szukają „głos na tekst w Roam Research”, nic w aplikacji nie znajdują i zakładają, że przeoczyli jakiś przełącznik. Nie przeoczyli. Tego przełącznika nigdy nie zbudowano. Dobra wiadomość jest taka, że rozwiązanie zajmuje jakieś dwie minuty, działa w pełni offline, jeśli tego chcesz, a w bonusie działa w każdej innej aplikacji, którą otworzysz.

Oto rzecz, której większość stron krążących wokół tego hasła nie powie wprost. Blok w Roam to po prostu pole tekstowe, tak samo jak Gmail czy pasek wyszukiwania. Dyktowanie, które wkleja w miejscu kursora, nie obchodzi, w jakiej aplikacji ten kursor się znajduje.

Prawdziwe pytanie nie brzmi więc „jak włączyć pisanie głosem w Roam”. Nie ma takiego przełącznika. Pytanie brzmi „które narzędzie do dyktowania uruchomić na wierzchu Roam”, a odpowiedź zależy od tego, czy chcesz czegoś darmowego i wbudowanego, czy jednego skrótu działającego offline tak samo wszędzie. Przejdę przez wszystko, skonfiguruję narzędzie w dwie minuty i powiem, kiedy dedykowaną drogę można pominąć.

Czy Roam Research ma wbudowane dyktowanie?

Dłonie piszące w papierowym notesie obok klawiatury, kontrastujące pisanie z dyktowaniem

Nie. Roam Research nie ma żadnej wbudowanej funkcji zamiany mowy na tekst, dyktowania ani pisania głosem, która pozwalałaby zapisywać głosem do bloku. Nie ma przycisku mikrofonu na bloku, nie ma komendy głosowej, nie ma ukrytego ustawienia. Roam przyjmuje tekst wpisany z klawiatury. Jeśli przeczesujesz menu w poszukiwaniu przełącznika dyktowania, możesz przestać. Tam go nie ma.

To, co faktycznie istnieje, to garść rozszerzeń z Roam Depot oraz Live AI Assistant ze słowem „speech” w opisie — i właśnie tutaj ludzie się gubią. Te narzędzia transkrybują plik audio, który już nagrałeś — spotkanie, wywiad, klip wgrany przez /upload — na tekst po fakcie, zwykle wołając OpenAI Whisper API z twoim własnym kluczem. Są przydatne, ale to nie jest dyktowanie na żywo. Nie ustawisz kursora w dzisiejszej notatce dziennej, nie powiesz słów i nie zobaczysz, jak się pojawiają. One przetwarzają nagranie; nie piszą za ciebie, gdy myślisz. Mylenie tych dwóch rzeczy kosztuje całe popołudnie, a wolałbym, żebyś to popołudnie sobie darował.

Sprawa mobilna to osobny temat, wart jednego zdania, żebyś nie gonił go na złym urządzeniu: istnieją towarzyszące aplikacje do zapisu, które wysyłają notatkę z mowy na tekst do twojego grafu z telefonu, ale to funkcja telefonu, a na telefonie i tak użyjesz mikrofonu z klawiatury. Na grafie na komputerze, w którym większość ludzi faktycznie żyje, potrzebujesz narzędzia działającego na wierzchu Roam. Są dwie uczciwe kategorie, a reszta tego poradnika je omawia.

Naciśnij skrót, mów, tekst ląduje w bloku

To cały mechanizm i jest nudny w najlepszym tego słowa znaczeniu. Naciskasz skrót, mówisz, puszczasz, a transkrypcja wkleja się w miejscu kursora, w jakimkolwiek polu tekstowym, które ma fokus. Whisper trzyma krótki ogon po tym, jak zwolnisz klawisz, więc twoje ostatnie słowo nie zostaje obcięte. Ponieważ wklejanie następuje w miejscu kursora systemowego, blok Roam to po prostu „dowolne pole tekstowe”. Aplikacja w przeglądarce czy desktopowa nakładka — to samo zachowanie, nie ma żadnej różnicy, którą Roam w ogóle mógłby wychwycić.

To właśnie część, którą strony docelowe niepotrzebnie komplikują. Nie ma rozszerzenia do zainstalowania w Roam, nie ma tokenu API do wklejenia, nie ma zadania synchronizacji do pilnowania. Kursor jest w bloku, mówisz, a słowa pojawiają się w bloku. Mała kapsułka pojawia się, gdy mówisz, więc wiesz, że narzędzie słucha:

Cancel
Nakładka nagrywania: mała kapsułka, która pojawia się, gdy mówisz, żebyś wiedział, że Whisper słucha.

Skrót to jedyna rzecz, którą warto od razu dobrze ustawić. W Windowsie to Ctrl+Space; na Macu to Command+Option, push-to-talk z samymi modyfikatorami, który trzymasz podczas mówienia. Oba można zmienić w Ustawieniach, jeśli kolidują z czymś, czego już używasz. (Moja młodsza córka powiedziała mi kiedyś, że skrót „nie działa” w jej aplikacji do rysowania. To był konflikt, nie błąd — i tak nauczyłem się, że przeciętny człowiek nie ma pojęcia, czym w ogóle jest konflikt skrótów. Dlatego teraz każdy skrót da się dostosować). Jeśli kiedykolwiek konfigurowałeś dyktowanie na Macu, to ta sama pamięć mięśniowa skierowana na inną aplikację.

Skonfiguruj w dwie minuty (Windows lub Mac)

Potrzebujesz Maca z Apple Silicon albo komputera z Windowsem 10 lub nowszym, działającego mikrofonu i otwartego Roam w przeglądarce. Cały lokalny proces jest darmowy dla każdego zalogowanego konta, bez pytania o metodę płatności przy rejestracji. Oto kolejność.

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i załóż darmowe konto. Bez karty. Cały lokalny proces transkrypcji otwiera się od razu.

Poznasz, że się udało, gdy w zasobniku systemowym pojawi się ikona aplikacji, a kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz ścieżkę transkrypcji.

Aplikacja nie wybiera za ciebie. Masz trzy możliwości: Chmura (OpenAI, własny klucz), lokalny Parakeet albo lokalny Whisper. Do prywatnych notatek dziennych zacznij od trybu lokalnego — więcej o tym dwie sekcje niżej.

Poznasz, że się udało, gdy model skończy się pobierać i pokaże się jako gotowy.

Krok 3 — Potwierdź swój skrót.

Windows domyślnie używa Ctrl+Space, Mac — Command+Option trzymanego jako push-to-talk. Na Macu przyznaj uprawnienie Dostępność, gdy pojawi się monit; bez niego wklejanie w miejscu kursora nie dotrze do twojej przeglądarki.

Poznasz, że się udało, gdy testowe nagranie wklei się w dowolne pole tekstowe.

Krok 4 — Ustaw kursor w bloku Roam i mów.

Otwórz swój graf, kliknij w blok, przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja pojawi się tam, gdzie jest kursor, w bloku.

Poznasz, że się udało, gdy wypowiedziane zdanie znajdzie się w bloku Roam jako tekst.

Whisper
Prawdziwa aplikacja desktopowa Whisper na ekranie ustawień, z otwartymi panelami Transcription i AI.

Tym, co trwa, jest pobranie modelu, a nie konfiguracja. Cała reszta to te cztery kroki powyżej. Gdy już działa, zapisywanie myśli do grafu przestaje być pisaniem, a staje się mówieniem.

głos na tekst w Windowsie · na Macu

Rozszerzenie Roam kontra skrót działający w całym systemie

Większość stron rankujących na to hasło kieruje cię do rozszerzenia z Roam Depot — Live AI Assistant, importer Otter, coś ze słowem „speech” w nazwie. To dobre narzędzia, ze wspólnym, strukturalnym haczykiem. Transkrybują audio, które już nagrałeś — plik ze spotkania, sesję Otter, klip wgrany do bloku — a nie mowę na żywo do bloku, który właśnie edytujesz. Nagrywasz, potem transkrybujesz, potem porządkujesz wynik. To proces transkrypcji, a nie dyktowanie. Rozwiązują problem „mam godzinę audio”, a nie „chcę wmówić to zdanie do swojej notatki dziennej”.

Skrót działający w całym systemie omija to całkowicie. Wkleja w miejscu kursora systemowego niezależnie od tego, do którego okna on należy, więc ten sam klawisz, który wypełnia blok Roam, wypełnia też okno tworzenia wiadomości w Gmailu, wiadomość na Slacku i treść commita. Jedno narzędzie, każde pole tekstowe, na Windowsie i na Macu. Niczego nie uczysz się od nowa, gdy przełączasz aplikacje, i nic nie musi wiedzieć, że to Roam — to kursor robi całą integrację.

Jeśli masz głównie nagrania do transkrypcji — rozmowy, wykłady, notatki głosowe, które już zapisałeś — rozszerzenie z Depot wołające Whisper na pliku ma właściwy kształt i warto na nie zerknąć. W momencie, gdy naprawdę chcesz myśleć na głos prosto do świeżego bloku, na żywo, wygrywa droga ogólnosystemowa. Sięgnąłbym po jeden skrót, bo przełączam aplikacje jakieś czterdzieści razy na godzinę i nie chcę pamiętać czterdziestu różnych przycisków dyktowania.

Lokalnie czy w chmurze: który tryb do prywatnego grafu

Do Roam spróbuj najpierw trybu lokalnego. Graf zapełnia się rzeczami niefiltrowanymi — na wpół uformowanym pomysłem, podsumowaniem spotkania, wpisem w dzienniku, którego nigdy nie chciałbyś na cudzym serwerze. Jeśli zastanowiłbyś się dwa razy, zanim opublikowałbyś blok publicznie, to pewnie zastanowiłbyś się dwa razy, zanim przepuściłbyś swój głos przez chmurę, żeby go zapisać. Jeśli twój Mac ma Apple Silicon albo komputer jest z ostatnich kilku lat, tryb lokalny ogarnia codzienne dyktowanie bez narzekania, a chmura staje się wyjściem awaryjnym, a nie domyślnym wyborem.

Oto jak różnią się te trzy ścieżki, bo aplikacja każe ci wybrać, a wolałbym, żebyś wybrał dobrze:

  • Lokalny ParakeetSilnik TDT od NVIDIA, około 600 MB, najszybsza opcja lokalna — 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne języki europejskie, łącznie 25. Bez tłumaczenia na angielski. Jeśli prowadzisz dziennik po angielsku albo w innym języku europejskim, to szybki, w pełni offline wybór.
  • Lokalny Whisperwolniejszy niż Parakeet na tej samej maszynie, ale wersje wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski. Wersje tylko angielskie są tylko angielskie, nie obejmują 99. Wybierz to do chińskiego, japońskiego, koreańskiego albo jakiejkolwiek pracy z tłumaczeniem, czego Parakeet nie potrafi. Domyślny model angielski ma około 480 MB.
  • Chmura (OpenAI, własny klucz)najlepsza dokładność i dostęp do sieci, z użyciem twojego własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza twoją maszynę. Powierzchnia Chmury jest częścią Whisper Pro.

Nudna prawda jest taka, że dla rodzaju tekstu, jaki większość ludzi wrzuca do Roam, tryb lokalny w zupełności wystarcza. Oba lokalne silniki działają w całości na twojej maszynie, nic nie jest wysyłane na serwer. Chmura zarabia na swoje miejsce, gdy chcesz najwyższej klasy dokładności na trudnym nagraniu albo gdy potrzebujesz, żeby model w połowie zdania wyciągnął fakt z sieci. Do nawyku notatek dziennych zacznij od trybu lokalnego i sięgnij po chmurę dopiero wtedy, gdy lokalny tryb zostawi cię z niedosytem.

Interpunkcja, bloki i składnia Roam głosem

Surowe dyktowanie wychodzi jako jeden ciąg bez przerw. Mówisz „okej więc przejrzyj dokument architektury otaguj to projekt alfa i przypomnij mi w czwartek”, i to jest właśnie ten pozbawiony interpunkcji mur, jaki podaje ci każdy silnik mowy. Posprzątanie tego to miejsce, w którym ścieżki się rozchodzą.

Pisanie głosem w Windowsie dodaje interpunkcję, gdy mówisz, a Dyktowanie w macOS obsługuje podstawową interpunkcję, gdy powiesz „przecinek” albo „kropka”. Do cięższego porządkowania — usunięcia „yyy”, naprawienia ciągów bez przerw, zamiany mówionego akapitu w coś, co naprawdę chciałbyś zostawić w grafie — Whisper może przepuścić tekst przez AI. Powiedz frazę aktywującą „Hey whisper”, a tekst zostanie ulepszony, zanim wyląduje. Na modelu lokalnym działa to przez Ollama; w trybie chmury domyślnie jest to gpt-5-mini.

Thinking...
Surowy

okej więc przejrzyj dokument architektury otaguj to projekt alfa i przypomnij mi w czwartek yyy przed standupem

Oczyszczony

Okej, więc przejrzyj dokument architektury, otaguj to jako Projekt Alfa i przypomnij mi w czwartek przed standupem.

Co do własnej struktury Roam — zagnieżdżonych bloków, linków #tag i [[strona]], znaczników TODO — uczciwa odpowiedź jest taka, że głos daje ci tekst, a własna składnia Roam daje ci strukturę. Podyktuj zdanie, a potem wpisz Tab, żeby wciąć blok, # dla taga albo [[ dla linku do strony, tak jak zawsze. Żadne narzędzie do dyktowania nie wyczaruje składni konspektu Roam na zawołanie; ktokolwiek obiecuje „powiedz podwójny nawias projekt alfa i patrz, jak się linkuje”, sprzedaje ci demo, a nie zwykły wtorek. Szybko zapisz słowa głosem, a bloki ukształtuj klawiszami, które już znasz.

Ten sam przepływ mów-potem-czyść opłaca się daleko poza twoim grafem — możesz też dyktować czysty tekst do dowolnej aplikacji jednym skrótem, więc długi blok staje się kilkoma wypowiedzianymi zdaniami zamiast akapitu wystukiwanego na klawiaturze.

Kiedy pominąć narzędzie do dyktowania w Roam Research

Dwie strzałki narysowane kredą na chodniku wskazujące różne kierunki, ilustrujące wybór narzędzia

Czasem właściwym narzędziem jest to darmowe, które już masz na maszynie, a udawanie, że jest inaczej, byłoby nieuczciwe. Jeśli wrzucasz do Roam tylko krótkie zapisy — szybką linijkę notatki dziennej, dwuwyrazowe przypomnienie — twój system operacyjny ogarnia to za darmo.

W Windowsie naciśnij klawisz Windows + H, a wbudowany pasek Pisania głosem otworzy się tam, gdzie jest twój kursor, włącznie z blokiem Roam. Sam stawia interpunkcję i nadaje się do krótkich zrywów. Haczyk: przepuszcza dane przez serwery Microsoftu i potrzebuje połączenia z internetem, więc nie jest opcją offline — co ma większe znaczenie niż zwykle, gdy twój graf jest pełen na wpół prywatnych przemyśleń. Na Macu Dyktowanie pozwala wprowadzać tekst głosem wszędzie tam, gdzie da się pisać, konfiguruje się je w Ustawieniach systemowych w sekcji Klawiatura, a na Apple Silicon ogólny tekst może być przetwarzany na urządzeniu. A jeśli to, co naprawdę masz, to nagrane audio — rozmowa, wykład — rozszerzenie z Roam Depot transkrybujące plik pasuje lepiej niż jakiekolwiek narzędzie do dyktowania na żywo.

Sięgnij po dedykowane, ogólnosystemowe narzędzie, gdy wbudowane zaczynają boleć: długie notatki, praca wielojęzyczna, prywatność offline na Windowsie albo chęć posiadania jednego skrótu, który działa tak samo w Roam, w mailu i w edytorze. Poniżej tego progu korzystaj z tego, co darmowe. Nie zamierzam ci kazać instalować aplikacji do jednolinijkowego przypomnienia.

Ten sam kompromis pojawia się, jeśli trzymasz notatki także gdzie indziej — logika w dyktowaniu do Obsidian jest identyczna, bo tam również to kursor, a nie wtyczka, jest prawdziwą integracją.

Do dalszej lektury

Roam nigdy nie wypuścił przycisku mikrofonu, a po napisaniu tego jestem dość pewien, że nigdy nie wypuści. Nie musi, bo to kursor jest integracją. Mów do bloku, zdobądź tekst, ukształtuj go za pomocą [[ i #, które już znasz. Większość tego poradnika podyktowałem do pola tekstowego, które nie było Roam, narzędziem, którego nie obchodzi, jakie to pole, a potem wkleiłem całość do własnego grafu. To cała sztuczka.

Wypróbuj to w swoim następnym bloku Roam

Przytrzymaj skrót, mów, puść. Transkrypcja ląduje w bloku, w którym jest twój kursor — i w każdej innej aplikacji też.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam nasze maile wsparcia, najpewniej dyktując odpowiedzi.