Tutorial
De voz a texto en Evernote: en directo o grabado
Evernote no tiene un motor de dictado en directo propio. En el escritorio, quien escribe es el Dictado de macOS o la Escritura por voz de Windows; en el móvil, el micrófono del teclado. La función AI Transcribe de Evernote se ocupa del audio grabado a posteriori. Esta guía separa esos dos caminos.
Última actualización: junio de 2026

Pasar de voz a texto en Evernote funciona de dos maneras distintas, y la mayoría de las guías las mezclan. Evernote no tiene un motor de dictado en directo propio: en el escritorio, quien escribe es el Dictado de macOS o la Escritura por voz de Windows, y en el móvil es el micrófono del teclado. La función AI Transcribe de Evernote se ocupa del audio grabado a posteriori.
Una vez pasé veinte minutos buscando el «botón de dictado de Evernote» antes de aceptar que no existe. No hay ningún ajuste oculto. El micrófono que pulsas en el escritorio pertenece a tu sistema operativo, y Evernote es simplemente el cuadro de texto al que apunta. Y no es una crítica a Evernote. Es una app de notas, no un motor de voz. Pero significa que la experiencia de dictado en directo que de verdad quieres —hablar, ver aparecer las palabras, seguir— depende por completo de lo que te da tu sistema operativo, y en el escritorio eso es algo a trompicones.
Así que esta guía divide la pregunta en dos. Si quieres dictar en directo dentro de una nota a medida que piensas, ese es un camino: el sistema operativo, o una herramienta para todo el sistema como Whisper que retiene un atajo y pega en el punto donde tienes el cursor. Si ya tienes una reunión grabada o una nota de voz y quieres pasarla a texto, ese es el AI Transcribe propio de Evernote, y de verdad hace bien ese trabajo. Casi toda la confusión que hay en internet viene de tratar ambas cosas como si fueran la misma función. No lo son.
La situación de la voz en Evernote, con sinceridad

Esta es la verdad sin adornos. Evernote no incluye ningún motor de dictado en directo propio, propietario ni siempre activo. Incluso la propia ayuda de Evernote te remite a tu dispositivo: activa el reconocimiento de voz de tu sistema y luego usa el micrófono. Es el sistema operativo el que hace el trabajo.
En el escritorio, «de voz a texto en Evernote» significa una de dos herramientas del sistema operativo. En un Mac es el Dictado de macOS, que transcribe a ráfagas cortas —se detiene tras un tramo de silencio y tienes que volver a activarlo—, así que el dictado largo es una sucesión de arranques y paradas. En Windows es la Escritura por voz (Win+H) o Acceso por voz, gratis e integrada, que escribe directamente en el campo de Evernote que tengas activo.
En el móvil es aún más sencillo de lo que la gente cree. El «texto por voz de Evernote» que ves en un iPhone o un Android es el micrófono de dictado de tu teclado: el micrófono del teclado de iOS o el de Gboard. Evernote es el campo de texto; el teclado es quien transcribe.
Y luego está la parte que sí es propia de Evernote: la grabación de audio más AI Transcribe. Esa merece su propia sección, porque es la pieza que la gente confunde más a menudo con el dictado en directo.
Lo que Evernote te ofrece de verdad: grabar y luego transcribir
Evernote sí tiene una función de audio real. Desde el editor de una nota puedes pulsar Insertar (+) > Grabación de audio, usar el menú «...» de la barra lateral o escribir el comando /audio. Puedes escribir y grabar a la vez; al pausar, reanudar y detener se guarda el clip en la nota como adjunto.
Una vez guardado el clip, aparece un botón Transcribir, y Evernote AI Transcribe coloca una transcripción escrita dentro de la nota. También convierte a texto archivos de audio, vídeo e imagen que subas. El límite es de 100 MB o 60 minutos por grabación.
Lee esa secuencia otra vez, porque ahí está todo el quid. Grabas un adjunto y luego lo transcribes. Eso es grabar y luego transcribir. No es lo mismo que ver aparecer las palabras donde tienes el cursor mientras hablas. Ambas cosas son útiles. Resuelven problemas distintos. Una entrevista grabada pide AI Transcribe. Una nota que estás redactando ahora mismo pide dictado en directo.
El hueco, entonces, es el dictado en directo en el cursor en el escritorio: eso que el sistema operativo hace a trompicones y que Evernote no hace en absoluto. Ese es el hueco que llena un atajo para todo el sistema.
Dicta en cualquier nota de Evernote con un atajo
Aquí es donde entra Whisper. Whisper es una app de escritorio para Windows y macOS que pone el dictado detrás de un único atajo global. Mantienes pulsada la tecla, hablas, la sueltas, y el texto aterriza donde tengas el cursor, en el campo en el que hayas hecho clic.
El atajo por defecto es Ctrl+Space en Windows y Command+Option en macOS: lo mantienes pulsado para hablar y lo sueltas para parar. Como funciona a nivel del sistema operativo, pega en la app de escritorio de Evernote igual que pega en Slack, Gmail o tu editor: un atajo, todas las apps, sin configurar nada por app. Whisper es una app de escritorio nativa, no una extensión de navegador, así que dicta en la app de escritorio de Evernote, no solo en Evernote dentro de una pestaña.
Una aclaración sincera. Whisper pega en el único campo activo, de uno en uno: el título de la nota o el cuerpo de la nota, donde tengas el cursor. No rellena una nota entera de una sola vez. Haces clic donde quieres que vayan las palabras y luego hablas. Eso es todo.
La prueba de la fiambrera es la que me convenció de mi propia herramienta, que es una frase rara de escribir. Un martes por la tarde, preparando fiambreras para dos críos, y el colegio mandó una autorización que había que responder antes de las ocho. Cogí el portátil con una mano, pulsé el atajo entre rodaja y rodaja de pepino y dicté la nota tal cual, incluido el momento en que me paré a preguntar cómo se escribía el nombre de la profesora y el momento en que el pequeño preguntó por qué a veces no estaba la luna. La nota quedó escrita. Las fiambreras quedaron hechas. Eso mismo antes me llevaba quince minutos escribiendo con una sola mano.
No tienes por qué fiarte de mi palabra sobre cómo va. Lo que ves abajo es la app de escritorio real. Elige un idioma, mira los ajustes, comprueba exactamente lo que tendrías tras instalarla: sin registro, sin captura de algo que puede o no coincidir con el producto que se entrega.
Admite más de 90 idiomas tanto en modo local como en la nube, y la línea de modelos multilingüe llega a más de 99 incluyendo la detección automática (las variantes de modelo solo en inglés hacen exactamente un idioma —el inglés— y nada más). Para la mayoría de quienes dictan notas en Evernote, el número de idiomas no es el factor decisivo. El dictado del sistema operativo de Evernote y AI Transcribe también manejan un montón de idiomas. La diferencia que importa es que sea en directo, para todo el sistema y en el dispositivo.
Limpia el dictado automáticamente
El habla en bruto tiene relleno. «Eh...», frases que reempiezas, el momento en que dijiste «coma» en voz alta sin querer. Whisper puede aplicar una pasada opcional de limpieza con IA sobre la transcripción en bruto, para que lo que aterriza en tu nota se lea como un texto escrito y no como la transcripción de ti pensando.
En la configuración local gratuita, esa limpieza se ejecuta en tu propia máquina. En Pro, se ejecuta a través de tu propia clave de API en la nube, que además añade respuestas de la web. En cualquier caso es opcional: desactívala y obtienes la transcripción literal. Yo la dejo activada para el correo y desactivada para las citas que necesito palabra por palabra.
Sin conexión y privado: tus notas se quedan en tu portátil

Esta es la única opinión en la que voy a plantar bandera: el dictado solo en la nube es un desastre de privacidad esperando a ser transcrito. Tu hoja de cálculo de sueldos, el correo al colegio de tu hijo, la nota del cliente que estás redactando: nada de eso debería pasar por los registros de un proveedor solo porque querías escribir con la voz.
El modo local de Whisper funciona completamente sin conexión. No hace falta internet durante la transcripción; el audio nunca sale de la máquina. Lo único que necesita conexión es la descarga única del modelo, de entre 140 MB y 3 GB según el modelo que elijas. Después de eso, cada palabra que dictes en una nota de Evernote se procesa en tu propia CPU, con cero actividad de red.
Ese es el contraste de fondo con Evernote AI Transcribe y las herramientas de transcripción en la nube de este tema: mandan tu audio a un servidor para devolvértelo como texto. Para un pódcast que vas a publicar de todas formas, vale. Para tus notas de reunión, yo lo dejaría en local. Si quieres el argumento más amplio a favor del dictado rápido en el dispositivo, lo expuse en cómo escribir más rápido con la voz.
El proceso local es gratis para usuarios con sesión iniciada, sin tarjeta al registrarte. Las funciones en la nube están en Whisper Pro: puedes comparar las opciones en la página de precios en lugar de fiarte de una cifra que yo te diga aquí.
Cuándo saltarte Whisper y usar AI Transcribe de Evernote

Me saltaría Whisper para un trabajo muy común. Si lo que de verdad tienes es una grabación —una reunión que grabaste, una nota de voz, una clase que capturaste con el móvil— y quieres pasarla a texto, usa el propio AI Transcribe de Evernote. Grabas el clip dentro de la nota (o subes un archivo), pulsas Transcribir y Evernote coloca el texto. Maneja audio de hasta 100 MB o 60 minutos por grabación. Esa es la herramienta correcta para grabar y luego transcribir, y vive dentro de la app que ya estás usando.
La división es clara. Audio grabado que quieres pasar a texto, a posteriori, dentro de Evernote → AI Transcribe. Palabras en directo que aparecen mientras redactas una nota, sin conexión, gratis y con un atajo en todas las apps → Whisper. Si lo que necesitas es de verdad lo primero, no instales una segunda herramienta. Evernote ya te tiene cubierto.
Evernote no te esconde ningún motor de dictado. En el escritorio, tu sistema operativo hace la parte en directo a ráfagas, en el móvil lo hace tu teclado, y AI Transcribe se encarga de las grabaciones que ya hiciste. La pieza que nada nativo cubre limpiamente es el dictado en directo, sin conexión y con un solo atajo en la nota que estás escribiendo ahora mismo. Ese es el hueco. Construí una herramienta para él, dicto autorizaciones con ella entre rodaja y rodaja de pepino, y también funciona en todas las demás apps. Mira cómo funciona Whisper, o descárgala y dicta tu próxima nota en vez de escribirla. Para apps vecinas, el mismo enfoque cubre la conversión de voz a texto en OneNote, el dictado en Obsidian y la escritura por voz en un Mac.
Dicta tu próxima nota de Evernote
Haz clic en la nota, mantén pulsada la tecla, habla, suéltala. La transcripción aterriza donde está tu cursor, en Evernote y también en todas las demás apps.
Modo local gratis para cualquier cuenta con sesión iniciada. Sin tarjeta para empezar.



