작성자: Denys Medvediev

가이드

음성을 텍스트로 Roam Research에서

Roam Research에는 기본 받아쓰기 기능이 없습니다. 해결책은 시스템 전체에서 작동하는 도구입니다. 단축키를 누르고 말하면, 받아쓴 내용이 어떤 Roam 블록이든 커서 위치에 붙여넣어집니다. 짧은 메모라면 운영체제의 받아쓰기 기능도 쓸 수 있습니다.

마지막 업데이트: 2026년 6월

어두운 책상 위 노트북 옆에 펼쳐진 노트와 펜이 놓여 있어, 연결된 노트 정리와 받아쓰기를 연상시키는 모습

Roam Research의 음성-텍스트 변환은 Roam 자체가 아니라 시스템 전체 도구를 통해 작동합니다. Roam Research에는 기본 받아쓰기 기능이 없습니다. 해결책은 Whisper 같은 도구입니다. 단축키를 누르고 말하면, 받아쓴 내용이 어떤 Roam 블록이든 커서 위치에 붙여넣어집니다. 짧은 메모라면 운영체제 자체의 받아쓰기 기능도 쓸 수 있습니다.

저는 Roam에 매일 메모 페이지를 씁니다. 생각을 연결해 정리하는 방식이 제가 아이디어를 다루는 방법을 실제로 바꿔놓았기 때문이죠. 모든 블록은 하나의 노드이고, 모든 [[페이지]]는 나중에 끌어올 수 있는 실마리입니다. 늘 하나 바랐던 건, 생각을 타이핑하는 대신 블록에 말로 풀어놓는 거였어요. 설정을 찾아봤습니다. 그런 설정은 없었어요. Roam에는 마이크 버튼이 없고, 한참 뒤져본 끝에 어딘가 숨겨져 있는 게 아니라고 확신하게 됐습니다.

사람들은 "Roam Research 음성 텍스트 변환"을 검색하고, 앱에서 아무것도 못 찾고는, 자기가 토글을 놓쳤다고 짐작합니다. 놓친 게 아닙니다. 그 토글은 애초에 만들어진 적이 없어요. 다행인 건, 해결하는 데 약 2분이면 충분하고, 원한다면 완전히 오프라인으로 돌아가며, 덤으로 여러분이 여는 다른 모든 앱에서도 똑같이 작동한다는 점입니다.

이 키워드 주변을 빙빙 도는 대부분의 글이 솔직하게 말하지 않는 게 있습니다. Roam 블록은 그냥 텍스트 상자입니다. Gmail이나 검색창과 똑같아요. 커서 위치에 붙여넣는 받아쓰기는 커서가 어느 앱에 있는지 신경 쓰지 않습니다.

그러니 진짜 질문은 "Roam에서 음성 입력을 어떻게 켜느냐"가 아닙니다. 그런 스위치는 없으니까요. 질문은 "Roam 위에서 어떤 받아쓰기 도구를 돌릴 것인가"이고, 답은 무료·기본 내장 방식을 원하는지, 아니면 어디서나 똑같이 작동하는 오프라인 단축키 하나를 원하는지에 달려 있습니다. 전부 짚어드리고, 2분 만에 하나 설정해 보고, 전용 도구를 건너뛰어도 되는 경우도 알려드리겠습니다.

Roam Research에 기본 받아쓰기 기능이 있나요?

키보드 옆에서 종이 노트에 손으로 글씨를 쓰는 모습, 타이핑과 받아쓰기를 대비시키는 장면

없습니다. Roam Research에는 블록에 음성으로 글을 쓰는 음성-텍스트 변환, 받아쓰기, 음성 입력 기능이 기본으로 들어 있지 않습니다. 블록에 마이크 버튼도 없고, 음성 명령도 없으며, 숨겨진 환경설정도 없습니다. Roam은 타이핑한 입력만 받습니다. 받아쓰기 토글을 찾아 메뉴를 샅샅이 뒤지고 있었다면, 이제 그만해도 됩니다. 거기엔 없으니까요.

실제로 존재하는 건 "speech"라는 단어가 설명에 들어간 Roam Depot 확장 몇 개와 Live AI Assistant인데, 바로 여기서 사람들이 헷갈립니다. 그것들은 여러분이 이미 녹음해 둔 오디오 파일 — 회의, 인터뷰, /upload로 올린 클립 — 을 사후에 텍스트로 옮겨주는 도구로, 대개 여러분 자신의 키로 OpenAI Whisper API를 호출합니다. 유용하지만, 실시간 받아쓰기는 아닙니다. 오늘 자 일일 노트에 커서를 두고 말하면서 단어가 나타나는 걸 지켜볼 수는 없어요. 그것들은 녹음을 처리하는 거지, 여러분이 생각하는 동안 대신 타이핑해 주지 않습니다. 이 둘을 뒤섞으면 오후 한나절을 날립니다. 저는 여러분이 그 오후를 건너뛰길 바랍니다.

모바일 쪽은 또 별개의 이야기이고, 엉뚱한 기기에서 헛수고하지 않도록 한 문장만 짚고 가겠습니다. 휴대폰에서 음성-텍스트 메모를 여러분의 그래프로 보내주는 동반 캡처 앱들이 있긴 하지만, 그건 휴대폰 기능이고, 휴대폰에서는 어차피 키보드의 마이크를 쓰면 됩니다. 대부분의 사람이 실제로 머무는 데스크톱 그래프에서는, Roam 위에 얹히는 도구가 필요합니다. 정직하게 나눌 수 있는 몇 가지 부류가 있고, 이 가이드의 나머지가 그것들을 다룹니다.

단축키를 누르고, 말하면, 텍스트가 블록에 떨어진다

이게 메커니즘의 전부이고, 가장 좋은 의미로 지루합니다. 단축키를 누르고, 말하고, 손을 떼면, 받아쓴 내용이 — 어떤 텍스트 필드에 포커스가 있든 — 커서 위치에 붙여넣어집니다. Whisper는 여러분이 키에서 손을 뗀 뒤에도 잠깐의 꼬리 시간을 유지해서, 마지막 단어가 잘리지 않게 합니다. OS 커서 위치에 붙여넣기 때문에, Roam 블록은 그저 "아무 텍스트 상자"일 뿐입니다. 브라우저 앱이든 데스크톱 래퍼든 동작은 같습니다. Roam은 그게 무엇인지 분간조차 못 합니다.

바로 그 부분을 랜딩 페이지들이 지나치게 복잡하게 만듭니다. Roam에 설치할 확장도, 붙여넣을 API 토큰도, 돌봐야 할 동기화 작업도 없습니다. 커서가 블록에 있고, 말하면, 단어가 블록에 나타납니다. 말하는 동안 작은 캡슐이 떠올라서 듣고 있다는 걸 알려줍니다:

Cancel
녹음 오버레이: 말하는 동안 떠오르는 작은 캡슐로, Whisper가 듣고 있다는 걸 알려줍니다.

단축키는 처음에 제대로 잡아둘 가치가 있는 한 가지입니다. Windows에서는 Ctrl+Space, Mac에서는 Command+Option으로, 말하는 동안 누르고 있는 수정키 전용 푸시투토크 방식입니다. 둘 다 이미 쓰는 다른 것과 충돌하면 설정에서 바꿀 수 있습니다. (둘째 딸아이가 한번은 그림 그리는 앱에서 단축키가 "안 된다"고 하더군요. 버그가 아니라 충돌이었어요. 그렇게 저는 보통 사람은 단축키 충돌이 뭔지조차 모른다는 걸 배웠습니다. 그래서 지금은 모든 단축키를 바꿀 수 있게 해뒀습니다.) Mac에서 받아쓰기를 설정해 본 적이 있다면, 이건 똑같이 손에 익은 동작을 다른 앱에 겨눈 것일 뿐입니다.

2분 만에 설정하기 (Windows 또는 Mac)

Apple Silicon Mac이나 Windows 10 이상 PC, 작동하는 마이크, 그리고 브라우저에 열린 Roam이 필요합니다. 로컬 파이프라인 전체는 로그인한 모든 계정에 무료이고, 가입 시 결제 수단을 묻지 않습니다. 순서는 이렇습니다.

1단계 — Whisper 설치하고 로그인하기.

다운로드 페이지에서 받아 설치하고, 무료 계정을 만드세요. 카드 필요 없습니다. 로컬 전사 파이프라인 전체가 바로 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사가 모델을 고르라고 제안하면 잘 된 겁니다.

2단계 — 전사 방식 고르기.

앱이 대신 골라주지 않습니다. 세 가지가 있습니다: Cloud (OpenAI, 본인 키 사용), Local Parakeet, 또는 Local Whisper. 비공개 일일 노트라면 로컬로 시작하세요. 두 섹션 뒤에서 더 자세히 다룹니다.

모델 다운로드가 끝나고 준비 완료로 표시되면 잘 된 겁니다.

3단계 — 단축키 확인하기.

Windows는 기본값이 Ctrl+Space, Mac은 푸시투토크로 누르고 있는 Command+Option입니다. Mac에서는 안내가 뜰 때 손쉬운 사용(Accessibility) 권한을 허용하세요. 없으면 커서 위치 붙여넣기가 브라우저에 닿지 못합니다.

테스트 녹음이 아무 텍스트 필드에든 붙여넣어지면 잘 된 겁니다.

4단계 — Roam 블록에 커서를 두고 말하기.

그래프를 열고, 블록을 클릭해 들어가, 단축키를 누른 채로 한 문장 말하고, 손을 떼세요. 받아쓴 내용이 커서가 있는 자리, 곧 그 블록에 나타납니다.

말한 문장이 텍스트로 Roam 블록에 들어앉아 있으면 잘 된 겁니다.

Whisper
실제 Whisper 데스크톱 앱의 설정 화면으로, 전사(Transcription)와 AI 패널이 열려 있는 모습.

느린 부분은 모델 다운로드이지, 설정이 아닙니다. 나머지는 전부 위의 네 단계가 전부입니다. 일단 돌아가기 시작하면, 생각을 그래프에 담는 일이 타이핑 작업이 아니라 말하는 작업이 됩니다.

Windows에서 음성을 텍스트로 · Mac에서

Roam 확장 vs. 시스템 전체 단축키

이 키워드로 상위에 오르는 대부분의 글은 Roam Depot 확장 — Live AI Assistant, Otter 임포터, 이름에 "speech"가 들어간 무언가 — 로 안내합니다. 괜찮은 도구들이지만, 구조적으로 공통된 함정이 하나 있습니다. 그것들은 여러분이 지금 편집하는 블록에 들어가는 실시간 음성이 아니라, 이미 녹음해 둔 오디오 — 회의 파일, Otter 세션, 블록에 올린 클립 — 를 옮깁니다. 녹음하고, 옮기고, 그 결과를 다듬습니다. 그건 받아쓰기가 아니라 전사 워크플로입니다. "이 문장을 일일 노트에 말로 풀고 싶다"가 아니라 "한 시간짜리 오디오가 있다"를 해결하는 거죠.

시스템 전체 단축키는 그걸 통째로 비켜갑니다. 어느 창이 차지하고 있든 OS 커서 위치에 붙여넣으므로, Roam 블록을 채우는 그 키가 Gmail 작성 칸, Slack 메시지, 그리고 커밋 메시지도 똑같이 채웁니다. 하나의 도구가, 모든 텍스트 필드에서, Windows와 Mac 양쪽에서. 앱을 바꿔도 새로 배울 게 없고, 어떤 것도 자기가 Roam이라는 걸 알 필요가 없습니다 — 통합을 해주는 건 커서입니다.

전사할 녹음이 주로 있다면 — 통화, 강의, 이미 담아둔 음성 메모 — 파일에 대고 Whisper를 호출하는 Depot 확장이 알맞은 형태이고, 한번 살펴볼 만합니다. 하지만 정작 하고 싶은 게 새 블록에 실시간으로 생각을 소리 내어 풀어놓는 거라면, 시스템 전체 방식이 이깁니다. 저는 한 시간에 대략 마흔 번 앱을 갈아타는데, 기억해야 할 받아쓰기 버튼을 마흔 개나 두고 싶지 않아서 단축키 하나에 손을 뻗습니다.

로컬이냐 클라우드냐: 비공개 그래프엔 어느 모드가

Roam이라면 로컬 모드를 먼저 써보세요. 그래프는 걸러지지 않은 것들로 채워집니다 — 덜 여문 아이디어, 회의 요약, 남의 서버에는 절대 두고 싶지 않은 일기 같은 것들이요. 블록을 공개적으로 올리기 전에 두 번 망설일 정도라면, 그걸 쓰려고 목소리를 클라우드로 흘려보내는 것도 두 번 망설일 겁니다. Mac이 Apple Silicon이거나 PC가 최근 몇 년 안에 산 거라면, 로컬이 일상적인 받아쓰기를 군말 없이 처리하고, 클라우드는 기본값이 아니라 비상 탈출구가 됩니다.

세 가지 방식이 어떻게 다른지 정리해 드립니다. 앱이 고르라고 시키니, 이왕이면 잘 고르시면 좋겠어요:

  • Local ParakeetNVIDIA의 TDT 엔진으로, 약 600 MB이며, 가장 빠른 로컬 옵션입니다 — CPU에서 Whisper보다 5~10배 빠릅니다. 영어와 다른 유럽어 24개, 합쳐서 25개 언어를 지원합니다. 영어로의 번역은 없습니다. 영어나 다른 유럽어로 일기를 쓴다면, 이게 빠르고 완전히 오프라인인 선택입니다.
  • Local Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 99개가 아니라 영어만 됩니다. 중국어, 일본어, 한국어, 또는 Parakeet이 못 하는 번역 작업에는 이걸 고르세요. 기본 영어 모델은 약 480 MB입니다.
  • Cloud (OpenAI, BYOK)최고의 정확도와 웹 접근을 제공하며, 여러분 자신의 OpenAI 키를 써서 OpenAI에 바로 청구됩니다. 전사는 기본적으로 gpt-4o-mini-transcribe로 돌아갑니다. 인터넷이 필요하므로, 여러분의 기기를 떠나는 유일한 방식입니다. Cloud 영역은 Whisper Pro의 일부입니다.

지루한 진실은, 대부분의 사람이 Roam에 넣는 종류의 텍스트라면 로컬이면 충분하다는 겁니다. 두 로컬 엔진 모두 서버로 아무것도 보내지 않고 여러분 기기에서 온전히 돌아갑니다. 클라우드는 까다로운 녹음에서 최고 수준의 정확도가 필요하거나, 문장 도중에 모델이 웹에서 사실을 끌어와야 할 때 제값을 합니다. 일일 메모 습관이라면, 로컬로 시작하고 로컬이 아쉬울 때만 클라우드에 손을 뻗으세요.

구두점, 블록, 그리고 Roam 문법을 음성으로

다듬지 않은 받아쓰기는 죽 이어진 한 덩어리로 나옵니다. "좋아 그러니까 아키텍처 문서 검토하고 프로젝트 알파로 태그 달고 목요일에 알려줘"라고 말하면, 어떤 음성 엔진이든 구두점 없는 그 벽을 건넵니다. 그걸 정리하는 지점에서 방식이 갈립니다.

Windows 음성 입력은 말하는 대로 구두점을 넣어주고, macOS 받아쓰기는 "쉼표"나 "마침표"라고 말하면 기본 구두점을 처리합니다. 더 무거운 정리 — "음" 같은 군말 빼기, 이어진 문장 고치기, 말한 문단을 그래프에 실제로 둘 만한 것으로 바꾸기 — 에는 Whisper가 AI 패스를 돌릴 수 있습니다. 활성화 문구 "Hey whisper"라고 말하면, 텍스트가 떨어지기 전에 다듬어집니다. 로컬 모델에서는 Ollama를 통해 돌아가고, 클라우드 모드에서는 기본값이 gpt-5-mini입니다.

Thinking...
원문

okay so review the architecture doc tag it project alpha and remind me thursday um before the standup

정리됨

Okay, so review the architecture doc, tag it Project Alpha, and remind me Thursday before the standup.

Roam 고유의 구조 — 중첩 블록, #태그와 [[페이지]] 링크, TODO 마커 — 에 대해 정직하게 답하자면, 음성은 텍스트를 얻게 해주고 구조는 Roam 자체 문법으로 얻습니다. 문장을 받아쓴 다음, 늘 하던 대로 Tab을 쳐서 블록을 들여쓰고, 태그에는 #를, 페이지 링크에는 [[를 입력하세요. 어떤 받아쓰기 도구도 명령 한마디로 Roam의 아웃라인 문법을 불러내지 못합니다. "이중 대괄호 프로젝트 알파라고 말하면 링크가 걸린다"고 약속하는 사람은 화요일의 현실이 아니라 데모를 파는 겁니다. 단어는 음성으로 빠르게 받아내고, 블록은 이미 아는 키로 모양을 잡으세요.

바로 그 말하고-나서-다듬는 흐름은 그래프 밖에서도 큰 값을 합니다 — 같은 단축키 하나로 어떤 앱에든 깔끔한 글을 받아쓸 수 있어서, 긴 블록이 타이핑하는 한 문단이 아니라 몇 마디 말한 문장이 됩니다.

Roam Research에서 받아쓰기 도구를 건너뛰어도 될 때

포장도로에 분필로 그려진 서로 다른 방향을 가리키는 두 화살표, 도구 선택을 비유하는 장면

때로는 알맞은 도구가 이미 여러분 기기에 있는 무료 도구이고, 아닌 척하는 건 정직하지 못한 일입니다. Roam에 짧은 캡처만 떨어뜨린다면 — 빠른 일일 메모 한 줄, 두 단어짜리 알림 — 운영체제가 공짜로 처리해 줍니다.

Windows에서는 Windows 키 + H를 누르면 내장 음성 입력 막대가 커서가 있는 곳 어디서나 — Roam 블록을 포함해 — 열립니다. 스스로 구두점을 찍고 짧게 끊어 쓰는 데 무리가 없습니다. 함정은: Microsoft 서버를 거치고 인터넷 연결이 필요해서 오프라인 옵션이 아니라는 점인데, 그래프가 절반쯤 사적인 생각으로 가득할 때는 이게 평소보다 더 중요합니다. Mac에서는 받아쓰기로 타이핑할 수 있는 어디서든 말로 텍스트를 입력할 수 있고, 시스템 설정의 키보드 항목에서 설정하며, Apple Silicon에서는 일반 텍스트를 기기에서 직접 처리할 수 있습니다. 그리고 정작 가진 게 녹음된 오디오 — 통화, 강의 — 라면, 파일을 전사하는 Roam Depot 확장이 어떤 실시간 받아쓰기 도구보다 잘 맞습니다.

내장 기능이 아쉬워지기 시작할 때 — 긴 메모, 다국어 작업, Windows에서의 오프라인 프라이버시, 또는 Roam과 이메일과 에디터에서 똑같이 작동하는 단축키 하나가 필요할 때 — 전용 시스템 전체 도구에 손을 뻗으세요. 그 선 아래라면, 공짜인 걸 쓰세요. 한 줄짜리 알림 때문에 앱을 설치하라고 하진 않겠습니다.

메모를 다른 곳에도 둔다면 같은 절충이 똑같이 나타납니다 — Obsidian에 받아쓰기의 논리도 동일합니다. 거기서도 진짜 통합을 해주는 건 플러그인이 아니라 커서이기 때문이죠.

더 읽어보기

Roam은 마이크 버튼을 한 번도 내놓은 적이 없고, 이 글을 쓰고 나니 앞으로도 그러지 않으리라고 꽤 확신합니다. 그럴 필요가 없거든요. 통합은 커서가 해주니까요. 블록에 말하고, 텍스트를 얻고, 이미 아는 [[와 #로 모양을 잡으세요. 저는 이 가이드의 대부분을 Roam이 아닌 텍스트 상자에, 어느 상자든 신경 쓰지 않는 도구로 받아쓴 다음, 그 전부를 제 그래프에 붙여넣었습니다. 그게 비결의 전부입니다.

다음 Roam 블록에서 직접 해보세요

단축키를 누른 채로 말하고, 손을 떼세요. 받아쓴 내용이 커서가 있는 블록에 떨어집니다 — 그리고 다른 모든 앱에서도요.

로그인한 모든 계정에 무료 로컬 모드. 시작하는 데 카드가 필요 없습니다.

Denys Medvediev의 사진

Denys Medvediev

저는 우리 지원 이메일을 읽는 사람이고, 답장도 십중팔구 받아쓰기로 합니다.