Guia
Voz para texto no Roam Research
O Roam Research não tem ditado nativo. A solução é uma ferramenta para o sistema inteiro: aperte um atalho, fale, e a transcrição é colada no cursor, em qualquer bloco do Roam. O ditado do seu sistema operacional também funciona, para anotações rápidas.
Última atualização: junho de 2026

Voz para texto no Roam Research funciona por meio de uma ferramenta para o sistema inteiro, não pelo próprio Roam. O Roam Research não tem ditado nativo. A solução é uma ferramenta como o Whisper: aperte um atalho, fale, e a transcrição é colada no cursor, em qualquer bloco do Roam. O próprio ditado do sistema operacional também funciona, para notas curtas.
Mantenho uma página de notas diárias no Roam porque a ideia do pensamento conectado realmente mudou a forma como eu guardo ideias — cada bloco é um nó, cada [[página]] é um fio que eu posso puxar depois. A única coisa que sempre quis foi falar um pensamento dentro de um bloco em vez de digitá-lo. Fui procurar a configuração. Não existe configuração. O Roam não tem botão de microfone e, depois de fuçar bastante, tenho certeza de que ele não está escondendo um de mim.
As pessoas pesquisam por "voz para texto no Roam Research", não encontram nada no app e acham que deixaram passar algum botão. Não deixaram. O botão nunca foi criado. A boa notícia é que a solução leva uns dois minutos, roda totalmente offline se você quiser e, de quebra, funciona em todos os outros apps que você abrir.
Aqui está a coisa que a maioria das páginas que dançam em torno dessa palavra-chave não vai dizer com clareza. Um bloco do Roam é só uma caixa de texto, igual ao Gmail ou a uma barra de busca. O ditado que cola no cursor não se importa em qual app o cursor está.
Então a pergunta de verdade não é "como eu ativo a digitação por voz no Roam". Não existe interruptor. A pergunta é "qual ferramenta de ditado eu rodo por cima do Roam", e a resposta depende de você querer algo gratuito e já embutido, ou um atalho offline que se comporta igual em todo lugar. Vou passar por tudo isso, configurar uma em dois minutos e te dizer quando pular o caminho da ferramenta dedicada.
O Roam Research tem ditado nativo?

Não. O Roam Research não tem nenhum recurso nativo de fala para texto, ditado ou digitação por voz para escrever dentro de um bloco falando. Não há botão de microfone em um bloco, nem comando de voz, nem preferência escondida. O Roam aceita entrada digitada. Se você anda vasculhando os menus atrás de um botão de ditado, pode parar. Ele não está lá.
O que existe é um punhado de extensões da Roam Depot e um Live AI Assistant com "fala" na descrição, e é aqui que as pessoas se perdem. Esses transcrevem um arquivo de áudio que você já gravou — uma reunião, uma entrevista, um trecho que você subiu com /upload — em texto, depois do fato, normalmente chamando a API do OpenAI Whisper com a sua própria chave. São úteis, mas não são ditado ao vivo. Você não consegue colocar o cursor na nota diária de hoje, falar e ver as palavras aparecerem. Eles processam uma gravação; não digitam para você enquanto você pensa. Confundir as duas coisas custa uma tarde, e eu prefiro te poupar dessa tarde.
O cenário do celular é um caso à parte, e vale uma frase para você não correr atrás disso no dispositivo errado: existem apps complementares de captura que enviam uma nota de fala para texto para o seu grafo a partir do telefone, mas isso é um recurso do telefone, e no telefone você usaria de qualquer jeito o microfone do teclado. No grafo de desktop onde a maioria das pessoas realmente vive, você precisa de uma ferramenta que fica por cima do Roam. Existem algumas categorias honestas, e o resto deste guia cobre todas elas.
Aperte um atalho, fale, o texto cai no bloco
Essa é toda a mecânica, e ela é entediante no melhor sentido. Você aperta um atalho, fala, solta, e a transcrição é colada no cursor, em qualquer campo de texto que esteja em foco. O Whisper segura um pequeno rabicho depois de você soltar a tecla, para que a sua última palavra não seja cortada. Como ele cola no cursor do sistema operacional, um bloco do Roam é só "qualquer caixa de texto". O app no navegador ou um wrapper de desktop, o mesmo comportamento — não há diferença que o Roam consiga sequer perceber.
Essa é a parte que as landing pages complicam demais. Não tem extensão para instalar no Roam, nem token de API para colar, nem tarefa de sincronização para ficar de babá. Seu cursor está em um bloco, você fala, as palavras aparecem no bloco. Uma pequena cápsula surge enquanto você fala, para você saber que ele está ouvindo:
O atalho é a única coisa que vale acertar logo de cara. No Windows é Ctrl+Space; no Mac é Command+Option, um aperte-para-falar só de modificadores que você segura enquanto fala. Ambos podem ser alterados nas Configurações se conflitarem com algo que você já usa. (Minha filha mais nova uma vez me disse que um atalho "não funcionava" no app de desenho dela. Era um conflito, não um bug, e foi assim que aprendi que a pessoa comum não faz ideia do que é um conflito de atalho. Então agora todo atalho é personalizável.) Se você já configurou ditado no Mac, essa é a mesma memória muscular apontada para um app diferente.
Configure em dois minutos (Windows ou Mac)
Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais novo, um microfone funcionando e o Roam aberto no seu navegador. Todo o pipeline local é gratuito para qualquer conta autenticada, sem pedir forma de pagamento no cadastro. Aqui vai a sequência.
Passo 1 — Instale o Whisper e faça login.
Baixe pela página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline local de transcrição abre na hora.
Você vai saber que funcionou quando o ícone do app aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha um caminho de transcrição.
O app não escolhe por você. Você tem três: Nuvem (OpenAI, com a sua própria chave), Parakeet local ou Whisper local. Para notas diárias privadas, comece pelo local — mais sobre isso duas seções abaixo.
Você vai saber que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme o seu atalho.
O Windows usa Ctrl+Space por padrão, o Mac usa Command+Option segurado como aperte-para-falar. No Mac, conceda a permissão de Acessibilidade quando for solicitado; sem ela, a colagem no cursor não consegue alcançar o seu navegador.
Você vai saber que funcionou quando uma gravação de teste for colada em qualquer campo de texto.
Passo 4 — Coloque o cursor em um bloco do Roam e fale.
Abra o seu grafo, clique dentro de um bloco, segure o atalho, diga uma frase, solte. A transcrição aparece onde o cursor está, no bloco.
Você vai saber que funcionou quando a frase que você falou estiver no bloco do Roam como texto.
A parte lenta é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Depois que estiver rodando, o ato de capturar um pensamento no seu grafo deixa de ser uma tarefa de digitação e passa a ser uma tarefa de fala.
Uma extensão do Roam vs. um atalho para o sistema inteiro
A maioria das páginas que ranqueiam para essa palavra-chave aponta para uma extensão da Roam Depot — o Live AI Assistant, o importador do Otter, algo com "fala" no nome. São ferramentas legais, com uma pegadinha estrutural em comum. Elas transcrevem áudio que você já gravou — um arquivo de reunião, uma sessão do Otter, um trecho subido para dentro de um bloco — e não fala ao vivo no bloco que você está editando agora. Você grava, depois transcreve, depois limpa o resultado. Isso é um fluxo de transcrição, não de ditado. Elas resolvem "eu tenho uma hora de áudio" em vez de "eu quero falar esta frase na minha nota diária".
Um atalho para o sistema inteiro contorna isso por completo. Ele cola no cursor do sistema operacional independentemente de qual janela o controla, então a mesma tecla que preenche um bloco do Roam também preenche a sua caixa de redação do Gmail, uma mensagem no Slack e uma mensagem de commit. Uma ferramenta, todos os campos de texto, no Windows e no Mac. Você não reaprende nada quando troca de app, e nada precisa saber que é o Roam — o cursor é quem faz a integração.
Se você tem principalmente gravações para transcrever — chamadas, palestras, memos de voz que você já capturou — uma extensão da Depot que chama o Whisper no arquivo é o formato certo, e vale dar uma olhada. No momento em que o que você realmente quer é pensar em voz alta dentro de um bloco novo, ao vivo, o caminho para o sistema inteiro vence. Eu pegaria o atalho único porque troco de app umas quarenta vezes por hora e não quero quarenta botões de ditado diferentes para lembrar.
Local ou nuvem: qual modo para um grafo privado
Para o Roam, experimente o modo local primeiro. Um grafo se enche das coisas sem filtro — uma ideia pela metade, o resumo de uma reunião, uma entrada de diário que você nunca quereria no servidor de outra pessoa. Se você pensaria duas vezes antes de postar um bloco publicamente, provavelmente pensaria duas vezes antes de rotear a sua voz por uma nuvem para escrevê-lo. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos anos, o local dá conta do ditado do dia a dia sem reclamar, e a nuvem vira a saída de emergência em vez do padrão.
Aqui está como os três caminhos diferem, porque o app faz você escolher e eu prefiro que você escolha bem:
- Parakeet local — O motor TDT da NVIDIA, em torno de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápida que o Whisper na CPU. Cobre o inglês mais 24 outras línguas europeias, 25 no total. Sem tradução para o inglês. Se você escreve seu diário em inglês ou outra língua europeia, esta é a escolha rápida e totalmente offline.
- Whisper local — mais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 línguas e podem traduzir para o inglês. As versões só em inglês são só em inglês, não 99. Escolha esta para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão em inglês tem em torno de 480 MB.
- Nuvem (OpenAI, BYOK) — a melhor precisão e acesso à web, usando a sua própria chave da OpenAI cobrada diretamente pela OpenAI. A transcrição roda no gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina. A camada de Nuvem faz parte do Whisper Pro.
A verdade entediante é que, para o tipo de texto que a maioria das pessoas coloca no Roam, o local já basta. Os dois motores locais rodam totalmente na sua máquina sem nada enviado a um servidor. A nuvem ganha o seu lugar quando você quer precisão de primeira em uma gravação difícil ou precisa que o modelo busque um dado na web no meio da frase. Para um hábito de notas diárias, comece pelo local e só recorra à nuvem quando o local deixar você na mão.
Pontuação, blocos e a sintaxe do Roam por voz
O ditado cru sai como um amontoado sem fim. Você diz "ok então revisar o documento de arquitetura marcar como projeto alpha e me lembrar quinta", e essa é a parede sem pontuação que qualquer motor de fala te entrega. Limpar isso é onde os caminhos se separam.
A Digitação por Voz do Windows adiciona pontuação enquanto você fala, e o Ditado do macOS lida com pontuação básica quando você diz "vírgula" ou "ponto final". Para uma limpeza mais pesada — tirar os "éééh", consertar o amontoado, transformar um parágrafo falado em algo que você realmente guardaria no seu grafo — o Whisper pode rodar uma passada de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de cair. Em um modelo local isso roda pelo Ollama; no modo nuvem é o gpt-5-mini por padrão.
ok então revisar o documento de arquitetura marcar como projeto alpha e me lembrar quinta éééh antes da daily
Ok, então revisar o documento de arquitetura, marcar como Projeto Alpha e me lembrar na quinta antes da daily.
Para a própria estrutura do Roam — blocos aninhados, os links #tag e [[página]], marcadores TODO — a resposta honesta é que a voz te dá o texto e a própria sintaxe do Roam te dá a estrutura. Dite a frase, depois aperte Tab para indentar o bloco, o # para uma tag, ou o [[ para um link de página do jeito que você sempre faz. Nenhuma ferramenta de ditado conjura a sintaxe de outline do Roam por comando; quem promete "diga colchete-duplo projeto alpha e veja o link aparecer" está te vendendo uma demo, não uma terça-feira. Coloque as palavras no papel rápido por voz, dê forma aos blocos com as teclas que você já conhece.
Esse mesmo fluxo de falar-e-limpar vale bem além do seu grafo — você também pode ditar texto limpo em qualquer app com o atalho único, então um bloco longo vira algumas frases faladas em vez de um parágrafo que você digita inteiro.
Quando dispensar uma ferramenta de ditado para o Roam Research

Às vezes a ferramenta certa é a gratuita que já está na sua máquina, e fingir o contrário seria desonesto. Se você só joga capturas curtas no Roam — uma linha rápida na nota diária, um lembrete de duas palavras — o seu sistema operacional cobre isso de graça.
No Windows, aperte tecla Windows + H e a barra de Digitação por Voz embutida abre onde quer que o seu cursor esteja, inclusive em um bloco do Roam. Ela pontua sozinha e dá conta de rajadas curtas. A pegadinha: ela passa pelos servidores da Microsoft e precisa de conexão com a internet, então não é uma opção offline, o que importa mais que o normal quando o seu grafo está cheio de pensamentos meio privados. No Mac, o Ditado deixa você falar para inserir texto em qualquer lugar onde você possa digitar, configurado em Ajustes do Sistema, em Teclado, e no Apple Silicon o texto geral pode ser processado no dispositivo. E se o que você realmente tem é áudio gravado — uma chamada, uma palestra — uma extensão da Roam Depot que transcreve o arquivo se encaixa melhor que qualquer ferramenta de ditado ao vivo.
Recorra a uma ferramenta dedicada para o sistema inteiro quando os recursos embutidos começarem a doer: notas longas, trabalho multilíngue, privacidade offline no Windows, ou a vontade de um atalho único que se comporta igual no Roam, no seu e-mail e no seu editor. Abaixo dessa linha, use o que é gratuito. Eu não vou te dizer para instalar um app por causa de um lembrete de uma linha.
O mesmo dilema aparece se você também guarda notas em outro lugar — a lógica em ditar no Obsidian é idêntica, porque lá também o cursor, não um plugin, é a verdadeira integração.
Leitura complementar
O Roam nunca lançou um botão de microfone e, depois de escrever isto, estou bem certo de que nunca vai lançar. Ele não precisa, porque o cursor é a integração. Fale dentro do bloco, receba o texto, dê forma a ele com o [[ e o # que você já conhece. Ditei a maior parte deste guia em uma caixa de texto que não era o Roam, com uma ferramenta que não se importa com qual caixa é, e depois colei tudo no meu próprio grafo. Esse é todo o truque.
Experimente no seu próximo bloco do Roam
Segure o atalho, fale, solte. A transcrição cai em qualquer bloco em que o seu cursor estiver — e em todos os outros apps também.
Modo local gratuito para qualquer conta autenticada. Sem cartão para começar.



