Por Denys Medvediev

Guía

Voz a texto para tomar notas

Captura notas hablando en lugar de teclear. Un atajo de teclado que funciona en todo el sistema pega tus palabras en el cursor de cualquier app de notas: Notion, Obsidian, Apple Notes, OneNote, texto plano. Sin cambiar de aplicación, sin plugin por app. Después, una pasada de IA pone en orden el torrente de ideas.

Última actualización: junio de 2026

Cuaderno abierto y bolígrafo junto a un portátil sobre un escritorio oscuro, evocando la toma de notas y el dictado

La voz a texto para tomar notas funciona a través de una herramienta que actúa en todo el sistema, no dentro de la app de notas. Pulsas un atajo, hablas y la transcripción se pega en el cursor de la app que tengas en primer plano: Notion, Obsidian, Apple Notes, OneNote o un archivo de texto plano. Funciona sin conexión y gratis con modelos locales, y una pasada de IA limpia el borrador hablado.

La mayoría de la toma de notas no es más que teclear con pasos de más. Tienes una idea, abres la app, buscas la página correcta, escribes la idea, y para cuando tus dedos la alcanzan ya se ha evaporado a medias. La forma más rápida que he encontrado de retener una idea es decirla en voz alta en el momento en que la tengo, en la ventana que tenga abierta, y dejar que las palabras aterricen como texto.

La gente busca "voz a texto para tomar notas" esperando elegir la única app con el mejor dictado. Esa es la pregunta equivocada. Casi ninguna app de notas tiene buen dictado integrado en el escritorio, y las que lo tienen solo funcionan dentro de sí mismas. Lo que de verdad funciona igual en todas partes no es una función de una app. Es un atajo que pega en el cursor, y al cursor le da igual en qué app de notas esté.

Aquí está la parte que la mayoría de las páginas que rondan esta palabra clave no dicen claramente. Una nota, en cualquier app, es un cuadro de texto. El editor de Notion es un cuadro de texto. Una nota de Obsidian es un cuadro de texto. Apple Notes, OneNote, una ventana de Notas adhesivas, un archivo .txt abierto en cualquier editor: todos son cuadros de texto. Al dictado que pega en tu cursor le da igual cuál sea.

Así que la pregunta de verdad no es "qué app de notas tiene la mejor escritura por voz". Es "qué herramienta de dictado ejecuto por encima de todas ellas". La respuesta es la que funciona en todo el sistema, se ejecuta sin conexión si así lo quieres y limpia el desorden hablado después. Te mostraré el porqué, el cómo, la configuración en dos minutos, cómo encaja en cada app de notas y —la parte que nadie más escribe— cuándo saltarte la herramienta dedicada por completo.

Por qué dictar tus notas en lugar de teclearlas

Manos anotando una nota rápida en un cuaderno de papel junto a un portátil, evocando la captura veloz de ideas

El trabajo que realmente hace una app de notas es atrapar las ideas antes de que se vayan. El cuello de botella no es la app. Es el hueco entre tener la idea y dejarla por escrito. Teclear ronda las 40 palabras por minuto para la mayoría de la gente. Hablar ronda las 145. Esa no es una ventaja pequeña; es la diferencia entre atrapar la idea entera y atrapar la mitad que sobrevivió al viaje hasta el teclado.

El dictado cierra ese hueco de dos maneras. La primera es la velocidad pura: un párrafo de notas son quince segundos de habla en lugar de un minuto de tecleo. La segunda es más silenciosa y pesa más: te permite capturar mientras tienes las manos ocupadas. De pie ante la pizarra, paseando al perro, fregando después de acostar a los niños y cuando por fin llegan las únicas buenas ideas del día. No te sientas a tomar la nota. Simplemente la dices.

Y luego están las manos en sí. Si para las tres de la tarde tienes las muñecas cansadas, dictar tus notas es una forma de seguir trabajando sin sumar al montón de pulsaciones. No voy a disfrazarlo de nada médico: es cuestión de productividad. Menos pulsaciones, las mismas notas. Para una sesión larga de captura, que tus manos sigan bien al terminar ya es razón suficiente.

Pulsa un atajo, habla y el texto aterriza en la nota

Este es todo el mecanismo, y es aburrido en el mejor de los sentidos. Pulsas un atajo, hablas, sueltas y la transcripción se pega en tu cursor, en el campo de texto que tenga el foco. Whisper mantiene una breve cola después de que sueltes la tecla, así que tu última palabra no se corta. Como pega en el cursor del sistema operativo, un bloque de Notion, una nota de Obsidian y una tarjeta de Apple Notes son todos "un cuadro de texto cualquiera". La misma tecla, el mismo comportamiento, en cada app.

Esa es la parte que las páginas de aterrizaje complican de más. No hay ningún plugin que instalar en tu app de notas, ningún token de API que pegar, ningún trabajo de sincronización que vigilar. Tu cursor está en la nota, hablas y las palabras aparecen en la nota. Mientras hablas se muestra una pequeña cápsula para que sepas que te está escuchando:

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

El atajo es lo único que vale la pena dejar bien afinado desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un pulsar-para-hablar de solo modificadores que mantienes presionado mientras hablas. Ambos se pueden cambiar en Ajustes si chocan con algo que ya usas. (Mi hija pequeña me dijo una vez que un atajo "no funcionaba" en su app de dibujo. Era un conflicto, no un fallo, y así aprendí que la persona promedio no tiene ni idea de qué es un conflicto de atajos. Por eso ahora todos los atajos son personalizables.) Si alguna vez has configurado el dictado en Windows o en Mac, esto es la misma memoria muscular apuntando a todas las apps a la vez.

Configúralo en dos minutos (Windows o Mac)

Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior, un micrófono que funcione y tu app de notas abierta —cualquiera de ellas—. Todo el flujo local es gratis para cualquier cuenta con sesión iniciada, sin que se pida método de pago al registrarse. Esta es la secuencia.

Paso 1 — Instala Whisper e inicia sesión.

Descárgalo desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo local de transcripción se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige una ruta de transcripción.

La app no elige por ti. Tienes tres opciones: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para notas privadas, empieza en local; más sobre esto dos secciones más abajo.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo.

Windows usa Ctrl+Space por defecto; Mac, Command+Option mantenido como pulsar-para-hablar. En Mac, concede el permiso de Accesibilidad cuando se te pida; sin él, el pegado en el cursor no puede llegar a otras apps.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Pon el cursor en una nota y habla.

Abre la app de notas que uses, haz clic dentro de una nota, mantén el atajo, di una frase y suelta. La transcripción aparece donde está el cursor.

Sabrás que funcionó cuando tu frase hablada esté en la nota convertida en texto.

Whisper
La app de escritorio real de Whisper en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, capturar una idea en cualquiera de tus apps de notas deja de ser una tarea de tecleo y pasa a ser una tarea de habla.

voz a texto en Windows · en Mac

Notion, Obsidian, Apple Notes, OneNote: el mismo atajo

La razón por la que un atajo de todo el sistema le gana a una función por app es que dejas de reaprender. Las pocas apps de notas con dictado propio solo funcionan dentro de sí mismas, y la mayoría no lo tienen en el escritorio. Con un solo atajo que pega en el cursor, el flujo es idéntico sin importar qué app abriste esta mañana.

En Notion, haz clic dentro de cualquier bloque o campo de base de datos, mantén la tecla, habla y el texto cae en el bloque. En Obsidian, pon el cursor en una nota y las palabras aterrizan en el markdown, igual que si las teclearas. Apple Notes y OneNote tienen áreas de texto normales, así que el cursor también atrapa la transcripción ahí. Incluso un simple archivo .txt en cualquier editor funciona, porque para una herramienta que pega en el cursor un archivo de texto no se diferencia de un editor sofisticado. Para guías paso a paso por app, el mismo flujo está cubierto para dictar en Notion y en Obsidian.

Aquí se esconde una jugada de productividad gratis. Las notas de la mayoría viven en dos o tres apps: las del trabajo en una, las personales en otra, las capturas rápidas en una tercera. Con una herramienta por app necesitarías que cada una admitiera la voz, y cambiarías de botón cada vez. Con el atajo, el mismo gesto las llena todas, y también llena tu correo y tu app de chat, porque la escritura por voz no va realmente de apps de notas — va del cursor. Cambio de app unas cuarenta veces por hora y no quiero memorizar cuarenta botones de dictado distintos.

Local o nube: qué modo para notas privadas

Para las notas, prueba primero el modo local. Buena parte de lo que va a una app de notas es justo lo que nunca querrías en el servidor de otra persona: una idea a medio formar, una cifra de salario, el borrador de un correo difícil, un pensamiento sobre alguien. Sería una elección extraña guardar todo eso en un archivo de notas local y luego enrutar tu voz por una nube para que llegue allí. Si tu Mac es Apple Silicon o tu PC es de los últimos años, el modo local maneja la captura diaria de notas sin quejarse, y la nube se convierte en la salida de emergencia en vez de la opción por defecto.

Así se diferencian las tres rutas, porque la app te hace elegir y prefiero que elijas bien:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si tomas notas en inglés o en otro idioma europeo, esta es la opción rápida y totalmente sin conexión.
  • Whisper localmás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, algo que Parakeet no puede hacer. El modelo en inglés por defecto ronda los 480 MB.
  • Nube (OpenAI, con tu propia clave)la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única ruta que sale de tu máquina. La superficie de Nube forma parte de Whisper Pro.

La aburrida verdad es que, para el tipo de texto que la mayoría pone en sus notas, lo local sobra. Ambos motores locales se ejecutan por completo en tu máquina sin enviar nada a un servidor, que es el sentido entero si tus notas son privadas. La nube se gana su sitio cuando quieres precisión de primer nivel en una grabación difícil o necesitas que el modelo saque un dato de la web a mitad de frase. Para un hábito diario de notas, empieza en local y recurre a la nube solo cuando lo local se te quede corto.

Convertir un torrente de ideas hablado en notas ordenadas

El dictado en bruto sale como una parrafada. Dices "vale tres cosas para el lanzamiento primero la página de precios segundo enviar correo a la lista beta tercero recordarme llamar a la imprenta", y ese es el muro sin puntuación que cualquier motor de voz te entrega. Un torrente de ideas hablado es rápido de producir y feo de leer. La limpieza es donde las rutas se separan.

La Escritura por voz de Windows añade puntuación mientras hablas, y el Dictado de macOS gestiona la puntuación básica cuando dices "coma" o "punto". Para una limpieza más a fondo —quitar los "eh", arreglar las parrafadas, convertir un párrafo hablado en algo que de verdad querrías conservar—, Whisper puede ejecutar una pasada de IA. Di la frase de activación "Hey whisper" y el texto se mejora antes de aterrizar. En un modelo local eso corre a través de Ollama; en modo nube es gpt-5-mini por defecto.

Thinking...
En bruto

vale tres cosas para el lanzamiento primero la página de precios segundo enviar correo a la lista beta tercero recordarme llamar a la imprenta eh antes del viernes

Limpio

Tres cosas para el lanzamiento: primero, la página de precios; segundo, enviar correo a la lista beta; tercero, recordarme llamar a la imprenta antes del viernes.

Ahora el límite honesto. El dictado te da palabras: palabras limpias y puntuadas. No te da la estructura de tu app de notas. La pasada de limpieza puede convertir una parrafada en una frase ordenada, pero no construirá un desplegable de Notion, no sangrará una viñeta de Obsidian, no marcará una casilla de OneNote ni aplicará un encabezado. Eso lo hacen los atajos propios de cada app. Dicta la frase y luego pulsa Tab para anidar, teclea # o - para la estructura que quieras, como siempre has hecho. Cualquiera que prometa "di crea una lista de tareas y mira cómo se formatea" te está vendiendo una demo, no un martes cualquiera. Suelta las palabras rápido por voz y dale forma a la nota con las teclas que ya conoces.

Ese mismo flujo de hablar-y-limpiar rinde mucho más allá de la toma de notas: puedes dictar prosa limpia en cualquier app con el mismo atajo, así una nota larga se convierte en unas pocas frases habladas en lugar de un párrafo que teclear.

Cuándo saltarte una herramienta de dictado para las notas

Dos flechas dibujadas con tiza en el pavimento apuntando en direcciones distintas, ilustrando la elección de una herramienta

A veces una herramienta de dictado dedicada es la respuesta equivocada, y fingir lo contrario sería deshonesto. Dos casos aparecen mucho, y en ambos te señalaría hacia otro lado.

El primero es grabar una reunión o una clase para transcribirla después. Eso es otro trabajo. El dictado escribe lo que dices en tiempo real en tu cursor; no se queda en un rincón captando una conversación de 90 minutos entre varias personas para luego entregarte una transcripción con etiquetas de hablante. Para eso quieres una herramienta de transcripción hecha para ello: varios hablantes, resúmenes posteriores a la reunión, todo el paquete. No recurras a un atajo de dictado para grabar una sala; no tiene la forma adecuada. El segundo es la captura rápida en el móvil. Whisper es solo de escritorio, Windows y macOS, así que cuando estés en una cola con una idea, el micrófono integrado del teclado de tu móvil ya dicta en cualquier app de notas, gratis. Úsalo. No voy a decirte que instales una herramienta de escritorio para una captura de una línea que hiciste en el móvil.

Y para notas cortas en el propio escritorio, las herramientas integradas bastan. En Windows, la tecla Windows + H abre la Escritura por voz donde esté tu cursor y puntúa sola; el inconveniente es que pasa por los servidores de Microsoft y necesita internet, así que no funciona sin conexión. En Mac, el Dictado funciona en cualquier campo de texto, se configura en Ajustes del Sistema dentro de Teclado, y en Apple Silicon el texto general puede procesarse en el propio dispositivo. Recurre a una herramienta de todo el sistema cuando las integradas empiecen a doler: notas largas, captura multilingüe, privacidad sin conexión en Windows, o querer un solo atajo que se comporte igual en cada app de notas que usas. Por debajo de ese listón, usa lo que es gratis.

Si la mayor parte de tu dictado acaba en una app concreta, la guía centrada en dictar en Obsidian cubre la misma lógica de que-el-cursor-es-la-integración para una única app de markdown local primero.

Para seguir leyendo

Ninguna app de notas necesita construir un gran botón de micrófono, porque el cursor es la integración. Habla en la nota, obtén texto, dale forma con los atajos que ya conoces. Dicté la mayor parte de esta guía en un cuadro de texto, con una herramienta a la que le da igual qué cuadro sea, y luego pegué el conjunto en mis propias notas. Lo único que no hizo fue tomar las notas por mí, lo cual probablemente sea para bien.

Toma tu próxima nota hablando

Mantén el atajo, habla, suelta. La transcripción aterriza en la nota en la que esté tu cursor: Notion, Obsidian, Apple Notes, OneNote, texto plano y todas las demás apps también.

Modo local gratis para cualquier cuenta con sesión iniciada. No hace falta tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable dictando las respuestas.