Guía
De voz a texto en Standard Notes
Standard Notes no trae dictado integrado en el escritorio. La solución es una herramienta que funciona en todo el sistema: pulsas un atajo, hablas y la transcripción se pega justo donde tienes el cursor, en cualquier nota. Mantenla en local y tu voz nunca sale del equipo, que es justo el sentido de una app de notas cifrada.
Última actualización: junio de 2026

El paso de voz a texto en Standard Notes funciona a través de una herramienta que actúa en todo el sistema, no de la propia app. El editor de escritorio de Standard Notes no tiene dictado integrado. Una herramienta como Whisper lo resuelve: pulsas un atajo, hablas y la transcripción se pega donde está el cursor, en cualquier nota. Ejecútala en local y el audio nunca sale del equipo.
Pasé mis notas privadas a Standard Notes por un solo motivo: cifra todo antes de que salga de mi portátil, y no tengo que creérmelo a ciegas. Lo único que echaba de menos era poder hablarle a una nota en lugar de teclearla. Así que me puse a buscar una opción de dictado. No existe. Standard Notes te da un editor limpio y poco más, y lo hace a propósito; después de hurgar bastante, tengo claro que no me está escondiendo ningún botón de micrófono.
La gente busca «de voz a texto en Standard Notes», no encuentra nada dentro de la app y da por hecho que se le ha pasado algún ajuste. No es así. Ese ajuste nunca se construyó. La buena noticia: la solución lleva unos dos minutos, puede funcionar completamente sin conexión y —si la configuras como te voy a contar— mantiene tu voz en el mismo equipo que ya está cifrando tus notas.
Aquí va lo que la mayoría de páginas que rondan esta palabra clave no dice con claridad. Un editor de Standard Notes no es más que un cuadro de texto, igual que Gmail o una barra de búsqueda. El dictado que pega donde tienes el cursor no se entera de en qué app está ese cursor.
Así que la verdadera pregunta no es «cómo activo la escritura por voz en Standard Notes». No hay ningún interruptor. La pregunta es «qué herramienta de dictado ejecuto encima, y si esa herramienta manda mi voz a un servidor sin que me entere». Para una app de notas cifrada por defecto, esa segunda parte importa más de lo normal. Voy a repasar las opciones, configurar una en dos minutos y decirte cuándo conviene saltarse del todo la herramienta dedicada.
¿Tiene Standard Notes dictado integrado?

No. La app de escritorio de Standard Notes no tiene ninguna función integrada de voz a texto, dictado o escritura por voz para escribir en una nota hablando. No hay botón de micrófono en el editor, ni comando de voz, ni preferencia escondida. No es un descuido: Standard Notes apuesta deliberadamente por lo minimalista, un editor cifrado y sencillo en lugar de un espacio de trabajo lleno de extras. Si llevas un rato peinando los ajustes en busca de un interruptor de dictado, puedes parar. No está.
Aquí ayuda saber sobre qué está construido Standard Notes. El texto de tu nota se cifra de extremo a extremo antes de salir de tu dispositivo, y ese es todo su argumento. Cualquier dictado que le acoples vive, por definición, fuera de esa frontera: es una herramienta aparte que convierte tu habla en caracteres y luego se los entrega al editor como lo haría un teclado. La pregunta que de verdad importa no es si el editor puede oírte. Es si eso que te oye mantiene tu audio en tu equipo o lo manda a alguna parte. Quédate con esta idea; marca el rumbo del resto de la guía.
Una cosa que merece una sola frase para que no la persigas en el dispositivo equivocado: en el móvil no necesitas nada de esto. Toca el micrófono del teclado de tu teléfono y dicta en una nota de Standard Notes como en cualquier otro campo de texto. Whisper es una herramienta de escritorio para Windows y macOS, así que ahí el micrófono del teclado del móvil es la vía práctica. En la app de escritorio, donde la mayoría escribe de verdad, necesitas una herramienta que se sitúe encima de Standard Notes, y conviene elegirla pensando en la privacidad.
Pulsa un atajo, habla y el texto aterriza en la nota
Este es todo el mecanismo, y es aburrido en el mejor de los sentidos. Pulsas un atajo, hablas, sueltas, y la transcripción se pega donde tengas el cursor, en el campo de texto que tenga el foco. Whisper mantiene una breve cola tras soltar la tecla, así que tu última palabra no se corta. Como pega en el cursor del sistema, un editor de Standard Notes no es más que «cualquier cuadro de texto». App de escritorio o versión web: el mismo comportamiento.
Esa es la parte que las páginas de venta complican de más. No hay extensión que instalar en Standard Notes, ni token de API que pegar en la app, ni tarea de sincronización que vigilar. Tienes el cursor en una nota, hablas y las palabras aparecen en la nota. Mientras hablas se muestra una pequeña cápsula para que sepas que está escuchando:
El atajo es lo único que conviene dejar bien atado desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un «pulsar para hablar» de solo modificadores que mantienes apretado mientras hablas. Ambos se pueden cambiar en los Ajustes si chocan con algo que ya usas. (Mi hija pequeña me dijo una vez que un atajo «no funcionaba» en su app de dibujo. Era un conflicto, no un fallo, y así aprendí que la persona media no tiene ni idea de qué es un conflicto de atajos. Por eso ahora todos los atajos son personalizables.) Si alguna vez has configurado el dictado en Windows, esto es la misma memoria muscular apuntando a otra app.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior, un micrófono que funcione y Standard Notes abierto, ya sea en la app de escritorio o en la versión web. Toda la cadena local es gratis para cualquier cuenta con sesión iniciada, sin pedir método de pago al registrarte. Aquí va la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descárgalo desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Toda la cadena de transcripción local se abre al momento.
Sabrás que ha funcionado cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.
Paso 2 — Elige una vía de transcripción local.
La app no elige por ti. Tienes tres: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para notas privadas, elige una de las dos vías locales; más sobre el porqué un par de secciones más abajo.
Sabrás que ha funcionado cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma tu atajo.
Windows usa Ctrl+Space por defecto; Mac, Command+Option mantenido como «pulsar para hablar». En Mac, concede el permiso de Accesibilidad cuando te lo pida; sin él, el pegado en el cursor no puede llegar a otras apps.
Sabrás que ha funcionado cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Pon el cursor en una nota de Standard Notes y habla.
Abre una nota, haz clic en el editor, mantén el atajo, di una frase y suelta. La transcripción aparece donde está el cursor, en la nota.
Sabrás que ha funcionado cuando tu frase hablada esté como texto en el editor de Standard Notes.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, capturar una idea en una nota cifrada deja de ser una tarea de tecleo y pasa a ser una tarea de habla, y con un modelo local elegido, nada de esa idea sale de tu portátil.
Mantener tu voz tan privada como tus notas
Esta es la sección que más importa para quien usa Standard Notes, así que voy a ser directo. Si elegiste una app de notas cifrada de extremo a extremo, enrutar tus palabras habladas a través de un servicio de transcripción en la nube para meterlas en esa app es una contradicción. El texto de tu nota se cifra antes de salir de tu dispositivo; tu voz, en ese montaje, no. Sería como echar el cerrojo a la puerta de entrada y dejar la grabación de audio de ti mismo abriéndola en el servidor de otra persona.
El modo local cierra esa brecha. Ambos motores locales —Parakeet y Whisper local— se ejecutan por completo en tu equipo a través del núcleo de transcripción en Rust puro. Sin subida de audio, sin llamada a API, sin transcripción ligada a tu cuenta en los registros de un proveedor. Puedes desenchufar el cable de red y el dictado sigue funcionando, que es la prueba en la que de verdad confío. El texto aterriza donde tienes el cursor dentro de Standard Notes, que luego lo cifra igual que cifra todo lo demás. La voz y la nota se quedan en el mismo equipo, de principio a fin.
En esto no soy neutral, y prefiero mostrarte mis razones antes que soltar generalidades. Un equipo con el que trabajé dejó una vez que un contratista montara un prototipo interno de «dictado con IA» que llamaba a una API en la nube por cada frase. La lógica de «reintento inteligente» era un poco demasiado agresiva, así que transcribió las mismas grabaciones de la reunión diaria cuatro veces seguidas. Al cierre del trimestre, el responsable abrió el panel de costes de la nube y se encontró una factura de cinco cifras, y la conclusión del director financiero no fue «optimicemos el prompt», sino «o dejamos de pagar por mandar nuestras reuniones a un servidor, para empezar». Para una rutina de notas personales, el riesgo no es la factura; es el principio. Si la razón de ser de la app es que tus datos sigan siendo tuyos, el dictado que la alimenta debería mantener la misma línea.
Local o nube: qué modo para una nota cifrada
Para Standard Notes, yo empezaría en local y trataría la nube como la excepción. Si estás aquí es por la privacidad, y las dos vías locales te dan un dictado que nunca toca un servidor. El modo nube es realmente mejor en unas cuantas cosas, pero es la única vía que sale de tu equipo, así que recurre a él a conciencia y no por defecto. Aquí va en qué se diferencian las tres, porque la app te hace elegir y prefiero que elijas bien:
- Parakeet local — el motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más veloz que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si escribes tus notas en inglés o en otro idioma europeo, esta es la opción rápida y completamente sin conexión.
- Whisper local — más lento que Parakeet en el mismo equipo, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo-inglés son solo inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo de inglés por defecto ronda los 480 MB. Sigue siendo totalmente sin conexión.
- Nube (OpenAI, con tu clave) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe por defecto. Necesita internet, así que tu audio sale del equipo: la única vía que rompe la promesa local. La superficie de Nube forma parte de Whisper Pro.
La verdad aburrida es que, para el tipo de texto que la mayoría mete en una nota cifrada —una entrada de diario, una idea a medio formar, una pista de contraseña que jamás pegarías en un documento en la nube—, lo local sobra. Ambos motores locales se ejecutan por completo en tu equipo sin enviar nada a un servidor, que es exactamente el contrato que Standard Notes ya cumple con la propia nota. La nube se gana su sitio cuando quieres máxima precisión en una grabación difícil o necesitas que el modelo saque un dato de la web a mitad de frase. Para notas privadas, rara vez es el trato que te conviene hacer.
Si de verdad necesitas precisión de nube en una nota concreta, lo honesto es tomar esa decisión a conciencia, sabiendo que el audio sale de tu equipo para esa grabación, y volver a local para lo privado. La app deja el interruptor a un clic precisamente para que nunca te quedes atascado. La mayoría de los días, para la mayoría de las notas, ni lo toco.
Puntuación y limpieza sin salir de tu equipo
El dictado en bruto sale como una frase interminable. Dices «vale pues mueve los códigos de recuperación a la nota cifrada etiquétala seguridad y recuérdame rotarlos el mes que viene», y ese es el muro sin puntuar que te entrega cualquier motor de voz. Limpiarlo es donde las vías se separan, y para una app centrada en la privacidad, dónde ocurre esa limpieza también importa.
La Escritura por voz de Windows añade puntuación a medida que hablas, y el Dictado de macOS gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más a fondo —quitar los «eh», arreglar las frases interminables, convertir un párrafo hablado en algo que de verdad guardarías en una nota—, Whisper puede ejecutar una pasada de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de aterrizar. En un modelo local esa pasada corre a través de Ollama en tu propio equipo, así que hasta la limpieza se queda sin conexión; en modo nube es gpt-5-mini por defecto, que sí manda el texto fuera.
vale pues mueve los códigos de recuperación a la nota cifrada etiquétala seguridad y recuérdame rotarlos el mes que viene eh antes de la renovación
Vale, pues mueve los códigos de recuperación a la nota cifrada, etiquétala como seguridad y recuérdame rotarlos el mes que viene, antes de la renovación.
Una expectativa justa que conviene fijar: el dictado te da las palabras, no la propia estructura de Standard Notes. Sus etiquetas, los títulos de las notas, las opciones del editor: todo eso lo sigues poniendo tú con las teclas y los clics que ya usas. Dicta la frase y luego añade la etiqueta o renombra la nota como siempre. Ninguna herramienta de dictado hace aparecer la organización de una app por arte de magia bajo demanda; quien promete «di etiquétala seguridad y mira cómo se archiva sola» te está vendiendo una demostración, no un martes cualquiera. Suelta las palabras rápido con la voz y dale forma a la nota con los controles que ya conoces.
Ese mismo flujo de hablar y luego limpiar rinde mucho más allá de tus notas: también puedes dictar texto limpio en cualquier app con el único atajo, así que una entrada larga se convierte en unas pocas frases habladas en lugar de un párrafo que teclear.
Cuándo saltarse una herramienta de dictado para Standard Notes

A veces la herramienta adecuada es la gratuita que ya tienes en el equipo, y fingir lo contrario sería deshonesto. Si solo sueltas capturas cortas en Standard Notes —una línea rápida, un recordatorio de dos palabras—, tu sistema operativo lo cubre por nada.
En Windows, pulsa la tecla Windows + H y se abre la barra integrada de Escritura por voz allí donde tengas el cursor, un editor de Standard Notes incluido. Puntúa por su cuenta y va bien para ráfagas cortas. Un detalle que conviene señalar para este público en concreto: Win+H enruta tu habla a través de los servidores de Microsoft y necesita conexión a internet, así que no es una opción sin conexión. Para una app de notas cuya premisa entera es que tus datos se quedan en tu dispositivo, eso es un desajuste de verdad; un modelo de Whisper local es la opción más coherente cuando la privacidad es lo que cuenta. En Mac, el Dictado te deja hablar para introducir texto en cualquier sitio donde puedas escribir, se configura en Ajustes del Sistema, en Teclado, y en Apple Silicon el texto general se puede procesar en el propio dispositivo, lo que lo mantiene en local. Ambos son realmente buenos para fragmentos cortos.
Tira de una herramienta dedicada que actúe en todo el sistema cuando las integradas empiecen a doler: notas largas, trabajo multilingüe, querer limpieza, o querer un único atajo que se comporte igual en Standard Notes, en tu correo y en tu editor, manteniéndolo todo sin conexión. Por debajo de ese listón, usa lo que es gratis, con la única salvedad de que en Windows «gratis» significa «enrutado a través de Microsoft». No te voy a decir que instales una app para un recordatorio de una línea.
El mismo dilema aparece si además guardas notas en otros sitios: la lógica de dictar en Notion es idéntica, porque en ambas apps el cursor, y no una función integrada, es el verdadero punto de integración.
Para seguir leyendo
Standard Notes nunca incorporó un botón de micrófono y, con lo mucho que se esfuerza por seguir siendo minimalista y privado, dudo que lo haga algún día. No le hace falta, porque el cursor es la integración. Háblale a la nota, obtén texto y, si lo mantienes en local, el audio se queda en el mismo equipo que hace el cifrado. Dicté la mayor parte de esta guía en un cuadro de texto que no era Standard Notes, con una herramienta a la que le da igual qué cuadro sea y que nunca envió una sílaba a un servidor, y luego pegué todo en mi propia nota cifrada. Ese es todo el truco.
Pruébalo en tu próxima nota de Standard Notes
Mantén el atajo, habla, suelta. La transcripción aterriza en la nota donde tengas el cursor, y se queda en tu equipo si lo mantienes en local.
Modo local gratis para cualquier cuenta con sesión iniciada. Sin tarjeta para empezar.



