Guía
Voz a texto en Joplin
La app de escritorio de Joplin no tiene dictado integrado: su dictado por voz es una función exclusiva de Android. La solución es una herramienta que funciona en todo el sistema: pulsas un atajo, hablas y la transcripción se pega en el cursor, en cualquier nota de Joplin. El dictado de tu sistema operativo también sirve, para capturas cortas.
Última actualización: junio de 2026

El dictado de voz a texto en Joplin de escritorio funciona a través de una herramienta de todo el sistema, no de Joplin en sí. El dictado por voz integrado de Joplin es una función exclusiva de Android; la app de escritorio no tiene ninguno. La solución es una herramienta como Whisper: pulsas un atajo, hablas y la transcripción se pega en el cursor, en cualquier nota de Joplin. El dictado del sistema operativo también sirve, para notas cortas.
Guardo mis notas en Joplin porque confío más en una carpeta de markdown en texto plano que se sincroniza con un almacenamiento que controlo yo que en la nube de otra persona. Lo único que echaba de menos era poder hablarle a una nota en vez de teclearla. Así que me puse a buscar la opción en mi portátil. No hay ninguna opción. La app de escritorio de Joplin no tiene botón de micrófono y, tras buscar un buen rato, estoy convencido de que no hay ninguno escondido.
Aquí es donde la gente se lía. Joplin sí tiene dictado por voz integrado, pero solo en Android. Su propia documentación para desarrolladores lo dice sin rodeos. La gente oye "Joplin tiene dictado por voz", lo busca en su escritorio, no encuentra nada y supone que se le ha pasado algún interruptor. No se les ha pasado nada. El interruptor está en el teléfono. La buena noticia: la solución de escritorio lleva unos dos minutos, funciona totalmente sin conexión si quieres y, de propina, sirve en cualquier otra app que abras.
Esto es lo que la mayoría de páginas que rondan esta palabra clave no dicen con claridad. Una nota de Joplin no es más que una caja de texto en markdown, igual que Gmail o una barra de búsqueda. Al dictado que pega en el cursor le da igual en qué app esté el cursor.
Así que la verdadera pregunta no es "cómo activo el dictado por voz en Joplin en mi portátil". No hay ningún interruptor en el escritorio. La pregunta es "qué herramienta de dictado pongo encima de Joplin", y la respuesta depende de si quieres algo gratis e integrado, a nivel de sistema operativo, o un único atajo sin conexión que se comporte igual en todas partes. Te lo explico todo, configuro una en dos minutos y te digo cuándo conviene saltarse la opción dedicada.
¿Joplin tiene dictado integrado?

En escritorio, no. La app de escritorio de Joplin para Windows, Mac y Linux no tiene ninguna función integrada de voz a texto, dictado ni escritura por voz para redactar en una nota hablando. No hay botón de micrófono, ni comando de voz, ni preferencia oculta. Si llevas un rato peinando los Ajustes, puedes parar. No está ahí.
Lo que sí existe, y aquí es donde todo el mundo se desorienta, es el dictado por voz en la app de Android de Joplin. La propia documentación para desarrolladores de Joplin lo dice claramente: la aplicación móvil de Android admite dictado por voz integrado y sin conexión, por defecto a través de Whisper. El equipo le ha dedicado trabajo de verdad, añadiendo puntuación automática y un glosario personalizado. Es una función realmente buena. Solo que vive en el teléfono. Confundir "Joplin tiene dictado por voz" con "Joplin tiene dictado por voz en mi portátil" te cuesta una tarde, y prefiero que te ahorres esa tarde.
Así que el panorama móvil está claro: en Android lo tienes integrado, en el iPhone te apoyarías en el micrófono del teclado y, en cualquier caso, es una función del teléfono. En la nota de escritorio donde la mayoría vivimos de verdad, necesitas una herramienta que se sitúe encima de Joplin. Hay un par de opciones honestas, y el resto de esta guía las cubre.
Pulsa un atajo, habla y el texto cae en la nota
Este es todo el mecanismo, y es aburrido en el mejor sentido. Pulsas un atajo, hablas, lo sueltas y la transcripción se pega en el cursor, sea cual sea el campo de texto que tenga el foco. Whisper aguanta un breve margen después de que sueltes la tecla, así que tu última palabra no se corta. Como pega en el cursor del sistema operativo, una nota de Joplin no es más que "cualquier caja de texto". Editor de markdown, editor de texto enriquecido, la barra de búsqueda: el mismo comportamiento.
Esa es la parte que las páginas de aterrizaje complican de más. No hay ningún plugin que instalar en Joplin, ni token de API que pegar, ni tarea de sincronización que vigilar. Tu cursor está en una nota, hablas y las palabras aparecen en la nota. Mientras hablas aparece una pequeña cápsula para que sepas que está escuchando:
El atajo es lo único que merece la pena dejar bien afinado desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un pulsar-para-hablar de solo modificadores que mantienes mientras hablas. Ambos se pueden cambiar en Ajustes si chocan con algo que ya usas. (Una vez mi hija pequeña me dijo que un atajo "no funcionaba" en su app de dibujo. Era un conflicto, no un fallo, y así aprendí que la persona media no tiene ni idea de qué es siquiera un conflicto de atajos. Por eso ahora todos los atajos son personalizables.) Si alguna vez has configurado el dictado en Mac, esto es la misma memoria muscular apuntando a otra app.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione y Joplin abierto en tu escritorio. Todo el flujo local es gratis para cualquier cuenta con sesión iniciada, sin que se pida un método de pago al registrarte. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descárgalo desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo de transcripción local se abre al instante.
Sabrás que ha funcionado cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.
Paso 2 — Elige una vía de transcripción.
La app no elige por ti. Tienes tres: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para notas privadas que guardas en markdown plano, empieza en local; más sobre esto dos secciones más abajo.
Sabrás que ha funcionado cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma tu atajo.
Windows usa por defecto Ctrl+Space, y Mac, Command+Option mantenido como pulsar-para-hablar. En Mac, concede el permiso de Accesibilidad cuando te lo pida; sin él, el pegado en el cursor no puede llegar a otras apps.
Sabrás que ha funcionado cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Pon el cursor en una nota de Joplin y habla.
Abre Joplin, haz clic en el cuerpo de una nota, mantén el atajo, di una frase y suelta. La transcripción aparece donde está el cursor, en la nota.
Sabrás que ha funcionado cuando la frase que dijiste esté escrita en la nota de Joplin como texto.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, el acto de volcar una idea en una nota deja de ser una tarea de teclear y pasa a ser una tarea de hablar.
Escritorio vs. móvil: dónde vive de verdad el dictado por voz de Joplin
Vale la pena dejarlo claro, porque es el origen de casi todas las preguntas del tipo "por qué no lo encuentro". El dictado por voz integrado de Joplin es una función de Android. La documentación es explícita: la app de Android dicta por voz sin conexión a través de Whisper, con puntuación y un glosario. En la app de escritorio, esa función no existe. Mismo producto, mismas notas, dos capacidades muy distintas según el dispositivo que hayas abierto.
Así que si capturas la mayoría de las cosas en el teléfono, puede que no necesites nada más: el dictado por voz de Android está ahí mismo, en el editor de notas. La carencia está en el portátil, donde se hace casi toda la escritura larga y donde Joplin no te da nada. Un atajo de todo el sistema cierra esa brecha. Pega en el cursor del sistema operativo sin importar qué ventana lo tenga, así que la misma tecla que rellena una nota de Joplin también rellena tu redacción de Gmail, un mensaje de Slack y un mensaje de commit. Una sola herramienta, todos los campos de texto, tanto en Windows como en Mac.
También hay algo de orden en mantener el mismo flujo en todos los dispositivos. En el teléfono usas el dictado por voz propio de Joplin; en el escritorio usas el atajo. Ambos ponen palabras en la misma nota de markdown. No tienes que reaprender nada al cambiar de máquina, y a la herramienta de escritorio le da igual que sea Joplin concretamente, lo que significa que también cubre cualquier otro programa donde escribas. Yo tiraría del único atajo porque cambio de app unas cuarenta veces por hora y no quiero recordar cuarenta botones de dictado distintos.
Local o nube: qué modo para un repositorio privado
Para Joplin, prueba primero el modo local. La razón por la que muchos elegimos Joplin es que es markdown plano local-first que sincronizas con un almacenamiento que controlas: un resumen de reunión, una idea a medio formar, una entrada de diario que nunca querrías en el servidor de otra persona. Sería una elección rara guardar tus notas en una carpeta que es tuya y luego enrutar tu voz a través de una nube para llegar ahí. Si tu Mac es Apple Silicon o tu PC es de los últimos años, lo local se ocupa del dictado del día a día sin quejarse, y la nube pasa a ser la vía de escape en vez de la opción por defecto.
Así se diferencian las tres vías, porque la app te obliga a elegir y prefiero que elijas bien:
- Parakeet local — El motor TDT de NVIDIA, en torno a 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si escribes notas en inglés o en otro idioma europeo, esta es la opción rápida y totalmente sin conexión.
- Whisper local — más lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo de inglés por defecto ronda los 480 MB.
- Nube (OpenAI, con tu propia clave) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción corre en gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única vía que sale de tu máquina. La superficie de Nube forma parte de Whisper Pro.
La verdad aburrida es que, para el tipo de texto que la mayoría mete en Joplin, lo local va de sobra. Ambos motores locales corren por completo en tu máquina sin enviar nada a un servidor, lo que encaja con el espíritu de una app de notas que elegiste precisamente porque los datos siguen siendo tuyos. También cuadra con el propio dictado por voz de Android de Joplin, que el equipo mantuvo enteramente sin conexión por la misma razón. La nube se gana su sitio cuando quieres precisión de primer nivel en una grabación difícil o necesitas que el modelo saque un dato de la web a mitad de frase. Para un hábito de notas diarias, empieza en local y recurre a la nube solo cuando lo local se te quede corto.
Puntuación, markdown y limpieza por voz
El dictado en bruto sale como una parrafada de un tirón. Dices "vale pues redacta la nota de revisión de arquitectura etiquétala proyecto alfa y recuérdamelo el jueves", y ese es el muro sin puntuar que te entrega cualquier motor de voz. Limpiarlo es donde las vías se separan.
El Dictado por voz de Windows añade puntuación mientras hablas, y el Dictado de macOS gestiona la puntuación básica cuando dices "coma" o "punto". Para una limpieza más a fondo (quitar los "eh", arreglar las parrafadas, convertir un párrafo hablado en algo que de verdad guardarías en una nota), Whisper puede ejecutar una pasada de IA. Di la frase de activación "Hey whisper" y el texto se mejora antes de caer. En un modelo local eso corre a través de Ollama; en modo nube es gpt-5-mini por defecto.
vale pues redacta la nota de revisión de arquitectura etiquétala proyecto alfa y recuérdamelo el jueves eh antes de la reunión diaria
Vale, pues redacta la nota de revisión de arquitectura, etiquétala como Proyecto Alfa y recuérdamelo el jueves antes de la reunión diaria.
Para el propio markdown de Joplin (encabezados, listas con viñetas, casillas de verificación, los enlaces internos [[nota]]), la respuesta honesta es que la voz te da el texto y los atajos de markdown de Joplin te dan la estructura. Dicta la frase y luego teclea el # para un encabezado, el - para una viñeta o - [ ] para una casilla como siempre has hecho. Ninguna herramienta de dictado hace aparecer la sintaxis de markdown a la orden; cualquiera que prometa "di encabezado proyecto alfa y mira cómo se formatea" te está vendiendo una demo, no un martes cualquiera. Pon las palabras rápido por voz y dale forma al markdown con las teclas que ya conoces.
Ese mismo flujo de hablar-y-limpiar rinde mucho más allá de tus notas: también puedes dictar prosa limpia en cualquier app con el único atajo, así que una nota larga pasa a ser unas pocas frases dichas en vez de un párrafo que tecleas entero.
Cuándo saltarse una herramienta de dictado para Joplin

A veces la herramienta adecuada es la gratuita que ya tienes en tu máquina, y fingir lo contrario sería deshonesto. Si solo vuelcas capturas cortas en Joplin (una línea rápida, un recordatorio de dos palabras) y estás en el teléfono, el propio dictado por voz de Android de Joplin ya lo cubre sin coste. En el escritorio, tu sistema operativo hace lo mismo.
En Windows, pulsa la tecla Windows + H y se abre la barra de Dictado por voz integrada allá donde esté tu cursor, una nota de Joplin incluida. Puntúa por su cuenta y va bien para ráfagas cortas. El pero: pasa por los servidores de Microsoft y necesita conexión a internet, así que no es una opción sin conexión, lo que importa más de lo normal cuando todo el sentido de tus notas es que se queden en local. En Mac, el Dictado te deja hablar para introducir texto en cualquier sitio donde puedas escribir, se configura en Ajustes del Sistema bajo Teclado y, en Apple Silicon, el texto general se puede procesar en el propio dispositivo.
Recurre a una herramienta dedicada de todo el sistema cuando las integradas empiecen a doler: notas largas, trabajo multilingüe, privacidad sin conexión en Windows o querer un único atajo que se comporte igual en Joplin, tu correo y tu editor. Por debajo de esa línea, usa lo que es gratis: el sistema operativo en el escritorio, el propio dictado por voz de Joplin en Android. No voy a decirte que instales una app para un recordatorio de una línea.
El mismo dilema aparece si además guardas notas en otro sitio: la lógica de dictar en Obsidian es idéntica, porque ambas son apps de markdown local-first donde el cursor, y no un plugin, es la verdadera integración.
Para seguir leyendo
Joplin lanzó un botón de micrófono, en Android, no en mi portátil, y tras escribir esto dudo que el de escritorio llegue pronto. No le hace falta, porque en el escritorio el cursor es la integración. Habla a la nota, obtén texto y dale forma con los atajos de markdown que ya conoces. Dicté casi toda esta guía en una caja de texto que no era Joplin, con una herramienta a la que le da igual qué caja sea, y luego pegué todo en mi propia nota. Ese es todo el truco.
Pruébalo en tu próxima nota de Joplin
Mantén el atajo, habla, suelta. La transcripción cae en la nota donde tengas el cursor, y también en cualquier otra app.
Modo local gratuito para cualquier cuenta con sesión iniciada. No hace falta tarjeta para empezar.



