Guía
Voz a texto en Roam Research
Roam Research no tiene dictado integrado. La solución es una herramienta que funciona en todo el sistema: pulsas un atajo, hablas y la transcripción se pega en el punto del cursor, en cualquier bloque de Roam. El dictado de tu sistema operativo también sirve, para capturas cortas.
Última actualización: junio de 2026

La voz a texto en Roam Research funciona a través de una herramienta que actúa en todo el sistema, no dentro de Roam. Roam Research no tiene dictado integrado. La solución es una herramienta como Whisper: pulsas un atajo, hablas y la transcripción se pega en el cursor, en cualquier bloque de Roam. El dictado del propio sistema operativo también sirve, para notas cortas.
Mantengo una página de notas diarias en Roam porque lo del pensamiento enlazado de verdad cambió la forma en que sostengo las ideas: cada bloque es un nodo y cada [[página]] es un hilo del que puedo tirar más tarde. Lo único que siempre quise fue hablar una idea dentro de un bloque en lugar de escribirla. Busqué el ajuste. No existe ese ajuste. Roam no tiene botón de micrófono y, tras bastante rato hurgando, estoy convencido de que no me lo está escondiendo.
La gente busca "voz a texto en Roam Research", no encuentra nada en la aplicación y da por hecho que se le pasó algún interruptor. No se les pasó. Ese interruptor nunca se construyó. La buena noticia es que la solución tarda unos dos minutos, funciona totalmente sin conexión si así lo quieres y, de regalo, sirve en todas las demás aplicaciones que abras.
Aquí está lo que la mayoría de las páginas que rondan esta palabra clave no dice con claridad. Un bloque de Roam es solo una caja de texto, igual que Gmail o una barra de búsqueda. A un dictado que pega en el punto del cursor le da igual en qué aplicación esté ese cursor.
Así que la verdadera pregunta no es "cómo activo la escritura por voz en Roam". No hay ningún interruptor. La pregunta es "qué herramienta de dictado ejecuto encima de Roam", y la respuesta depende de si quieres algo gratis e integrado o un único atajo sin conexión que se comporta igual en todas partes. Lo voy a repasar todo, configuraré una herramienta en dos minutos y te diré cuándo saltarte la opción dedicada.
¿Tiene Roam Research dictado integrado?

No. Roam Research no tiene ninguna función de voz a texto, dictado o escritura por voz para escribir dentro de un bloque hablando. No hay botón de micrófono en un bloque, ni comando de voz, ni preferencia oculta. Roam recibe entrada escrita. Si has estado revisando los menús en busca de un interruptor de dictado, puedes parar. No está ahí.
Lo que sí existe es un puñado de extensiones de Roam Depot y un Live AI Assistant con la palabra "speech" en la descripción, y aquí es donde la gente se lía. Esas transcriben un archivo de audio que ya grabaste —una reunión, una entrevista, un clip que subiste con /upload— a texto después del hecho, normalmente llamando a la API de OpenAI Whisper con tu propia clave. Son útiles, pero no son dictado en vivo. No puedes poner el cursor en la nota diaria de hoy, hablar y ver cómo aparecen las palabras. Procesan una grabación; no escriben por ti mientras piensas. Confundir las dos cosas cuesta una tarde, y prefiero que te ahorres esa tarde.
Lo del móvil es harina de otro costal, y merece una frase para que no lo persigas en el dispositivo equivocado: hay aplicaciones de captura complementarias que envían una nota de voz a texto a tu grafo desde el teléfono, pero eso es una función del teléfono, y en un teléfono usarías de todos modos el micrófono del teclado. En el grafo de escritorio donde de verdad vive la mayoría de la gente, necesitas una herramienta que se sitúe encima de Roam. Hay un par de categorías honestas, y el resto de esta guía las cubre.
Pulsa un atajo, habla, el texto aterriza en el bloque
Este es todo el mecanismo, y es aburrido en el mejor sentido. Pulsas un atajo, hablas, sueltas y la transcripción se pega en el punto del cursor, en cualquier campo de texto que tenga el foco. Whisper retiene una pequeña cola después de que sueltes la tecla, para que tu última palabra no quede cortada. Como pega en el cursor del sistema operativo, un bloque de Roam es simplemente "cualquier caja de texto". La aplicación en el navegador o una envoltura de escritorio se comportan igual; no hay ninguna diferencia que Roam pueda siquiera notar.
Esa es la parte que las páginas de aterrizaje complican de más. No hay ninguna extensión que instalar en Roam, ningún token de API que pegar, ningún trabajo de sincronización que vigilar. El cursor está en un bloque, hablas y las palabras aparecen en el bloque. Una pequeña cápsula aparece mientras hablas para que sepas que está escuchando:
El atajo es lo único que conviene dejar bien claro desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un pulsar-para-hablar que solo usa modificadores y que mantienes presionado mientras hablas. Ambos se pueden cambiar en Ajustes si chocan con algo que ya usas. (Mi hija menor me dijo una vez que un atajo "no funcionaba" en su aplicación de dibujo. Era un conflicto, no un fallo, y así aprendí que la persona promedio no tiene ni idea de qué es un conflicto de atajos. Así que ahora todos los atajos son personalizables). Si alguna vez has configurado el dictado en Mac, esto es la misma memoria muscular apuntando a otra aplicación.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o más nuevo, un micrófono que funcione y Roam abierto en tu navegador. Todo el flujo local es gratis para cualquier cuenta con sesión iniciada, sin que se pida método de pago al registrarte. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descárgalo desde la página de descarga, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo de transcripción local se abre de inmediato.
Sabrás que funcionó cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.
Paso 2 — Elige una vía de transcripción.
La aplicación no elige por ti. Tienes tres: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para notas diarias privadas, empieza en local; más sobre esto dos secciones más abajo.
Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma tu atajo.
Windows usa Ctrl+Space por defecto; Mac, Command+Option mantenido como pulsar-para-hablar. En Mac, concede el permiso de Accesibilidad cuando te lo pida; sin él, el pegado en el cursor no puede llegar a tu navegador.
Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Pon el cursor en un bloque de Roam y habla.
Abre tu grafo, haz clic dentro de un bloque, mantén el atajo, di una frase y suelta. La transcripción aparece donde está el cursor, en el bloque.
Sabrás que funcionó cuando tu frase hablada esté como texto en el bloque de Roam.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, el acto de capturar una idea en tu grafo deja de ser una tarea de teclear y pasa a ser una tarea de hablar.
Una extensión de Roam frente a un atajo en todo el sistema
La mayoría de las páginas que posicionan para esta palabra clave te apuntan a una extensión de Roam Depot: el Live AI Assistant, el importador de Otter, algo con "speech" en el nombre. Son herramientas correctas, con una pega estructural en común. Transcriben audio que ya grabaste —un archivo de reunión, una sesión de Otter, un clip subido a un bloque—, no habla en vivo dentro del bloque que estás editando ahora mismo. Grabas, luego transcribes, luego limpias el resultado. Eso es un flujo de transcripción, no de dictado. Resuelven "tengo una hora de audio", no "quiero hablar esta frase dentro de mi nota diaria".
Un atajo en todo el sistema esquiva eso por completo. Pega en el cursor del sistema operativo sin importar qué ventana lo posea, así que la misma tecla que llena un bloque de Roam también llena tu cuadro de redacción de Gmail, un mensaje de Slack y un mensaje de commit. Una sola herramienta, cualquier campo de texto, tanto en Windows como en Mac. No tienes que reaprender nada al cambiar de aplicación, y nada necesita saber que es Roam: el cursor hace la integración.
Si lo que tienes son sobre todo grabaciones que transcribir —llamadas, clases, notas de voz que ya capturaste—, una extensión de Depot que llama a Whisper sobre el archivo es la forma correcta, y vale la pena echarle un ojo. En el momento en que lo que de verdad quieres es pensar en voz alta dentro de un bloque nuevo, en vivo, gana la vía en todo el sistema. Yo tiraría del único atajo porque cambio de aplicación unas cuarenta veces a la hora y no quiero recordar cuarenta botones de dictado distintos.
Local o nube: qué modo para un grafo privado
Para Roam, prueba primero el modo local. Un grafo se llena de cosas sin filtrar: una idea a medio formar, un resumen de reunión, una entrada de diario que nunca querrías en el servidor de otra persona. Si te lo pensarías dos veces antes de publicar un bloque en público, probablemente te lo pensarías dos veces antes de enrutar tu voz por una nube para escribirlo. Si tu Mac es Apple Silicon o tu PC es de los últimos años, lo local maneja el dictado diario sin quejarse, y la nube se convierte en la salida de emergencia y no en la opción por defecto.
Así es como difieren las tres vías, porque la aplicación te obliga a elegir y prefiero que elijas bien:
- Parakeet local — El motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si escribes tu diario en inglés u otro idioma europeo, esta es la elección rápida y totalmente sin conexión.
- Whisper local — más lento que Parakeet en la misma máquina, pero las compilaciones multilingües cubren 99 idiomas y pueden traducir al inglés. Las compilaciones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo en inglés por defecto ronda los 480 MB.
- Nube (OpenAI, con tu propia clave) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción corre en gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única vía que sale de tu máquina. La superficie de Nube forma parte de Whisper Pro.
La verdad aburrida es que, para el tipo de texto que la mayoría de la gente pone en Roam, lo local sobra. Ambos motores locales corren por completo en tu máquina sin enviar nada a un servidor. La nube se gana su sitio cuando quieres precisión de primer nivel en una grabación difícil o necesitas que el modelo saque un dato de la web a media frase. Para un hábito de notas diarias, empieza en local y solo recurre a la nube cuando lo local te deje con ganas de más.
Puntuación, bloques y sintaxis de Roam por voz
El dictado en bruto sale como una parrafada sin pausas. Dices "vale entonces revisar el documento de arquitectura etiquétalo proyecto alfa y recuérdame el jueves", y eso es el muro sin puntuar que cualquier motor de voz te entrega. Limpiarlo es donde las vías se separan.
La Escritura por Voz de Windows añade puntuación mientras hablas, y el Dictado de macOS maneja la puntuación básica cuando dices "coma" o "punto". Para una limpieza más pesada —quitar los "emmm", arreglar las parrafadas, convertir un párrafo hablado en algo que de verdad guardarías en tu grafo—, Whisper puede ejecutar una pasada de IA. Di la frase de activación "Hey whisper" y el texto se mejora antes de aterrizar. En un modelo local eso corre a través de Ollama; en modo nube es gpt-5-mini por defecto.
vale entonces revisar el documento de arquitectura etiquétalo proyecto alfa y recuérdame el jueves emmm antes de la reunión rápida
Vale, entonces revisar el documento de arquitectura, etiquetarlo como Proyecto Alfa y recordarme el jueves antes de la reunión rápida.
Para la estructura propia de Roam —bloques anidados, los enlaces #etiqueta y [[página]], los marcadores TODO—, la respuesta honesta es que la voz te da el texto y la sintaxis propia de Roam te da la estructura. Dicta la frase y luego escribe el Tab para indentar el bloque, el # para una etiqueta o el [[ para un enlace de página como siempre lo haces. Ninguna herramienta de dictado invoca la sintaxis de esquema de Roam por arte de magia; cualquiera que te prometa "di doble-corchete proyecto alfa y míralo enlazarse" te está vendiendo una demo, no un martes cualquiera. Suelta las palabras rápido por voz y dale forma a los bloques con las teclas que ya conoces.
Ese mismo flujo de hablar-y-luego-limpiar da buenos frutos mucho más allá de tu grafo: también puedes dictar prosa limpia en cualquier aplicación con el único atajo, así que un bloque largo se convierte en unas pocas frases habladas en lugar de un párrafo que tecleas entero.
Cuándo saltarte una herramienta de dictado para Roam Research

A veces la herramienta correcta es la gratis que ya está en tu máquina, y fingir lo contrario sería deshonesto. Si solo dejas capturas cortas en Roam —una línea rápida de nota diaria, un recordatorio de dos palabras—, tu sistema operativo lo cubre por nada.
En Windows, pulsa la tecla Windows + H y la barra de Escritura por Voz integrada se abre allá donde esté tu cursor, un bloque de Roam incluido. Puntúa por sí sola y va bien para ráfagas cortas. La pega: pasa por los servidores de Microsoft y necesita conexión a internet, así que no es una opción sin conexión, lo cual importa más de lo habitual cuando tu grafo está lleno de pensamiento medio privado. En Mac, el Dictado te deja hablar para escribir texto allá donde puedas teclear, se configura en Ajustes del Sistema dentro de Teclado, y en Apple Silicon el texto general puede procesarse en el dispositivo. Y si lo que de verdad tienes es audio grabado —una llamada, una clase—, una extensión de Roam Depot que transcribe el archivo encaja mejor que cualquier herramienta de dictado en vivo.
Recurre a una herramienta dedicada que actúe en todo el sistema cuando las integradas empiecen a doler: notas largas, trabajo multilingüe, privacidad sin conexión en Windows, o querer un único atajo que se comporte igual en Roam, tu correo y tu editor. Por debajo de ese listón, usa lo que es gratis. No te voy a decir que instales una aplicación para un recordatorio de una línea.
El mismo dilema aparece si además guardas notas en otro sitio: la lógica de dictar en Obsidian es idéntica, porque allí también el cursor, y no un plugin, es la verdadera integración.
Para seguir leyendo
Roam nunca lanzó un botón de micrófono y, después de escribir esto, estoy bastante seguro de que nunca lo hará. No le hace falta, porque el cursor es la integración. Habla dentro del bloque, obtén el texto y dale forma con el [[ y el # que ya conoces. Dicté la mayor parte de esta guía en una caja de texto que no era Roam, con una herramienta a la que le da igual qué caja sea, y luego pegué todo en mi propio grafo. Ese es todo el truco.
Pruébalo en tu próximo bloque de Roam
Mantén el atajo, habla, suelta. La transcripción aterriza en el bloque donde esté tu cursor, y también en todas las demás aplicaciones.
Modo local gratis para cualquier cuenta con sesión iniciada. Sin tarjeta para empezar.



