Por Denys Medvediev

Comparativa

La mejor app para pasar notas de voz a texto

Tras una sola búsqueda se esconden tres trabajos distintos. Aquí tienes cuál app gana en cada uno, y dónde Whisper es, con toda honestidad, la elección equivocada.

Última actualización: junio de 2026

Portátil, cuaderno abierto y bolígrafo sobre un escritorio de madera, un montaje para capturar notas de voz como texto

La mejor app para pasar notas de voz a texto depende de dónde las captures. Para un recordatorio rápido en el móvil, el dictado integrado de tu teléfono va de sobra. Para reuniones, un servicio de transcripción como Otter.ai se encarga de varios interlocutores. Para escribir desde el escritorio en cualquier aplicación, Whisper convierte un atajo mantenido en texto pegado, sin conexión o a través de OpenAI.

El martes pasado preparé las fiambreras con una mano y respondí la autorización de un profesor con la otra. El bocadillo, la fruta, el yogur que mi pequeño va a rechazar. Mantuve pulsado el atajo, dicté el correo y aterrizó en la caja de respuesta entre rodajas de pepino. Eso antes eran quince minutos escribiendo con una sola mano.

La respuesta honesta es que "la mejor app de notas de voz" son tres preguntas distintas vestidas con una sola caja de búsqueda, y la elección correcta depende de cuál de ellas estés haciendo.

La mayoría de los recopilatorios se saltan esa parte. Clasifican doce apps en una sola lista como si un recordatorio de móvil, una grabación de Zoom y dictar un correo de 600 palabras en Word fueran el mismo trabajo. No lo son. Una app de notas de voz a la que le hablas durante un paseo está hecha de forma distinta a una que escribe donde está tu cursor.

Este artículo separa los tres trabajos, nombra las herramientas que ganan en cada uno y te dice sin rodeos dónde Whisper es la elección equivocada. Al terminar sabrás qué app instalar para el trabajo que tienes, no el promedio de los tres. La mayor parte del correo de soporte que leo viene de alguien que eligió para el trabajo equivocado y supuso que la herramienta estaba rota; he leído suficientes de esos como para escribir este artículo sin medias tintas.

Pulsa un atajo, habla y el texto aterriza donde está tu cursor

Whisper es una app de escritorio, no una bandeja de notas. Pulsas un atajo, hablas y el texto transcrito aterriza allí donde esté tu cursor, en cualquier aplicación que admita texto. La IA puede pulir ese texto, o responderlo a partir de una búsqueda web en directo, si así lo pides. Un correo, un documento, un comentario de código, un chat, un campo del CRM. No hay un paso de "guardar nota" porque la nota es simplemente el texto, ya en el sitio donde lo querías.

Cancel
El overlay real de grabación de Whisper: un pequeño widget flotante mientras hablas, no una ventana que abres.

El atajo es toda la interfaz. En Windows el valor por defecto es Ctrl+Space; en macOS es Command+Option, que se mantiene pulsado como el botón de un walkie-talkie: pulsa y mantén para hablar, suelta para parar. Ambos modos, local y nube, funcionan con ese mismo flujo de una sola tecla. No abres la app para usarla. Está ahí, pulsas la tecla, hablas y aparecen las palabras. Esa es la parte que casi nadie espera: no hay ningún sitio al que "ir". El texto aparece donde ya estabas trabajando. Y si la tecla por defecto choca con algo que usas, puedes reasignarla. La primera versión salió sin eso. Un usuario madrugador nos escribió a las 2 de la madrugada para decir que nuestro atajo le había secuestrado su software de música, y aprendí en tiempo real que "en mi máquina funciona" no es una estrategia para lanzar un producto. La opción de reasignar ahorra ahora más correos de soporte que cualquier otra función.

Así que cuando este artículo dice "notas de voz a texto", se refiere a algo concreto: palabras habladas convertidas en palabras escritas y soltadas dentro de lo que sea que estés escribiendo. No una grabación que tengas que reproducir. No una transcripción que vive en otra app y de la que luego copias y pegas. La nota y el destino son el mismo paso. La mayoría de las apps de esta categoría se quedan en "aquí tienes tu transcripción, ahora haz algo con ella". Toda la apuesta de Whisper es que el paso de hacer-algo-con-ella es lo molesto, así que se lo salta.

Aquí está la frontera entre una app de notas de voz y una app de dictado. Una app de notas te da un sitio donde guardar lo que dijiste. Una app de dictado se salta el guardado y suelta las palabras dentro de aquello que estás escribiendo. Si tu problema es "tengo pensamientos hablados y ninguna bandeja", quieres una app de notas. Si tu problema es "tengo pensamientos hablados y un campo de correo vacío", quieres esta.

Hay una capa de IA por encima de la transcripción a secas, y es opcional en cada grabación. Empieza una frase con "Hey whisper" y la app trata lo que sigue como una instrucción, no como texto para escribir. Pule esto, hazlo más corto, responde esto desde la web. Sáltate la frase y obtienes una transcripción limpia, palabra por palabra. Así, un único atajo cubre tanto "escribe lo que dije" como "escribe lo que dije, pero conviértelo en un correo educado", sin que toques ningún menú. Si quieres la imagen completa del flujo de la pulsación al pegado, la guía de cómo funciona Whisper lo recorre paso a paso.

Qué significa "mejor" en realidad aquí

Portátil y smartphone colocados uno al lado del otro sobre una superficie texturizada, ilustrando dispositivos distintos para trabajos de notas distintos

Tres trabajos se esconden tras una sola palabra clave, y ninguna app hace bien los tres. Cuando alguien teclea "mejor app para notas de voz a texto" en un buscador, puede estar de pie en un aparcamiento queriendo capturar una idea antes de que se evapore, sentado en una videollamada de cuatro personas queriendo una transcripción que no haya tenido que escribir, o mirando un documento en blanco a las 9 de la noche queriendo escribir sin que le fallen las muñecas. Las mismas palabras, tres necesidades completamente distintas. Los recopilatorios que clasifican los tres en una sola lista están optimizando para un artículo largo, no para tu problema real.

Así que, antes de cualquier comparativa de apps, la pregunta útil es: ¿dónde ocurren tus notas de voz? Responde a eso y el campo se reduce a uno o dos candidatos reales en lugar de doce.

Así es también como elegí las herramientas de abajo. No "cuál tiene más funciones", porque toda app de este sector tiene una lista de funciones lo bastante larga como para llenar una landing. Miré una sola cosa por app: ¿a qué trabajo es la respuesta correcta? Dónde se instala, a dónde va el audio y cuántos idiomas cubre. Esos datos lo deciden para casi todo el mundo, y son las únicas columnas de la tabla más abajo. El resto es marketing.

  • Recordatorios en el móvil. Vas caminando, conduciendo o lejos de un escritorio, y quieres capturar una idea rápido. La mejor herramienta aquí es la que ya tienes en el móvil: el dictado integrado de tu teléfono, o su app de notas de voz. Es gratis, es un solo toque y no hay que instalar nada. Whisper no tiene app móvil y no persigue este trabajo.
  • Capturar una reunión. Un teléfono sobre la mesa capta a todos, pero acabas con un muro de texto sin etiquetas de quién habla. Para reuniones con varios interlocutores, un tomador de notas dedicado como Otter encaja mejor.
  • Escritura en el escritorio. Estás en un ordenador, escribiendo dentro de una aplicación real, y no quieres teclear. Este es el trabajo para el que está hecho Whisper. Pulsa, habla, suelta y las palabras aterrizan en el cursor en Word, Gmail, Slack, tu IDE, lo que sea. Funciona en Windows y en macOS con Apple Silicon.

Elige primero el trabajo. Una herramienta de reuniones usada para dictado en solitario es excesiva, y una herramienta de dictado apuntada a una videollamada de Zoom de cuatro personas tiene directamente la forma equivocada. La mayor parte de la decepción en las reseñas de las tiendas de apps es alguien usando la herramienta correcta para el trabajo equivocado y culpando a la herramienta.

El trabajo de escribir en el escritorio es más amplio de lo que parece una vez que empiezas a fijarte. Una respuesta a un correo de un cliente son notas de voz a texto. Un resumen de 600 palabras de una clase son notas de voz a texto. Seis variantes de un correo de venta en frío, un mensaje de commit que te da pereza teclear, una nota del CRM entre dos llamadas: todos tienen la misma forma, palabras habladas que necesitan acabar como palabras escritas en una caja concreta de una pantalla concreta. Ninguno de esos es "un recordatorio". Son escritura, y la escritura es el sitio donde un atajo le gana a un teclado, porque hablas más rápido de lo que tecleas y puedes hacerlo mientras tienes las manos ocupadas con otra cosa. Ese es el trabajo. Si es el tuyo, sigue leyendo. Si no lo es, las dos secciones siguientes te dicen a dónde ir.

Las apps de notas de voz que vale la pena conocer en 2026

Verás los mismos nombres en la mayoría de los recopilatorios, a menudo clasificados del uno al doce como si compitieran en la misma carrera. No es así. Algunas son apps de móvil, algunas son bots de reuniones, una es una API en crudo para desarrolladores, y una escribe en tu escritorio. Compararlas entre sí es como comparar una bicicleta con una carretilla elevadora porque ambas mueven cosas. Aquí tienes la versión corta y honesta de para qué sirve cada una.

  • blog.bestVoiceNotesApp.s3AppWhisperNameblog.bestVoiceNotesApp.s3AppWhisperBody
  • blog.bestVoiceNotesApp.s3AppAppleNameblog.bestVoiceNotesApp.s3AppAppleBody
  • blog.bestVoiceNotesApp.s3AppOtterNameblog.bestVoiceNotesApp.s3AppOtterBody
  • blog.bestVoiceNotesApp.s3AppOpenAiNameblog.bestVoiceNotesApp.s3AppOpenAiBody
  • blog.bestVoiceNotesApp.s3AppNottaNameblog.bestVoiceNotesApp.s3AppNottaBody
  • blog.bestVoiceNotesApp.s3AppPhoneNameblog.bestVoiceNotesApp.s3AppPhoneBody

Fíjate en que ninguna de estas es "la mejor". Son las mejores en trabajos distintos. Si quieres un atajo que escriba en tus apps de escritorio, la lista se reduce a una. Si quieres un bot de reuniones, se reduce a otra distinta.

Aquí tienes el mismo conjunto puesto frente a las cosas que lo deciden: para qué trabajo sirve, si funciona sin conexión, qué plataformas cubre y cuántos idiomas maneja. Sin columnas de "rápido" o "potente", porque esas palabras no son datos.

AppMejor paraSin conexiónPlataformasIdiomas
blog.bestVoiceNotesApp.s3TableR1Appblog.bestVoiceNotesApp.s3TableR1Jobblog.bestVoiceNotesApp.s3TableR1Offlineblog.bestVoiceNotesApp.s3TableR1Platformsblog.bestVoiceNotesApp.s3TableR1Languages
blog.bestVoiceNotesApp.s3TableR2Appblog.bestVoiceNotesApp.s3TableR2Jobblog.bestVoiceNotesApp.s3TableR2Offlineblog.bestVoiceNotesApp.s3TableR2Platformsblog.bestVoiceNotesApp.s3TableR2Languages
blog.bestVoiceNotesApp.s3TableR3Appblog.bestVoiceNotesApp.s3TableR3Jobblog.bestVoiceNotesApp.s3TableR3Offlineblog.bestVoiceNotesApp.s3TableR3Platformsblog.bestVoiceNotesApp.s3TableR3Languages
blog.bestVoiceNotesApp.s3TableR4Appblog.bestVoiceNotesApp.s3TableR4Jobblog.bestVoiceNotesApp.s3TableR4Offlineblog.bestVoiceNotesApp.s3TableR4Platformsblog.bestVoiceNotesApp.s3TableR4Languages
blog.bestVoiceNotesApp.s3TableR5Appblog.bestVoiceNotesApp.s3TableR5Jobblog.bestVoiceNotesApp.s3TableR5Offlineblog.bestVoiceNotesApp.s3TableR5Platformsblog.bestVoiceNotesApp.s3TableR5Languages

La tabla deja la división obvia. La única fila hecha para escribir dentro de una app de escritorio, sin conexión, en Windows y Mac a la vez, es la primera. Las demás ganan sus propias filas para sus propios trabajos.

Una columna en la que vale la pena detenerse es la de sin conexión. La mayoría de las apps de esta lista son primero-nube, lo que significa que tu audio se sube a un servidor, se transcribe allí y se devuelve. Eso está bien para un pódcast público y es un problema real para una revisión salarial. Apple Dictation procesa en el dispositivo en los idiomas compatibles, y el modo local de Whisper funciona en tu máquina sin ningún servidor en el camino una vez hecha la descarga del modelo. Si alguna vez has dudado antes de dictar algo que no querrías que quedara registrado, esa es la columna en la que estás comprando.

Local vs nube: qué modo para las notas de voz

Whisper te ofrece tres rutas de transcripción, y la app no elige una por ti. Eliges según lo que necesites.

Whisper
La app real de Whisper: tres rutas de transcripción, Local y Nube, navega por los Ajustes.
  • Whisper local ejecuta ocho modelos divididos en solo-inglés y multilingües, desde Base con ~140 MB hasta Large v3 con ~3 GB. Las variantes multilingües admiten 99 idiomas más traducir-al-inglés; las versiones solo-inglés .en manejan únicamente el inglés. Elige esta si necesitas muchos idiomas, traducción o un control fino.
  • Parakeet local es el modelo TDT de NVIDIA, de unos 600 MB, que funciona entre 5 y 10 veces más rápido que Whisper en una CPU. Su ficha de modelo lista 25 idiomas europeos; el texto dentro de la app lo presenta como inglés más otros 24. Sin traducir-al-inglés. Elige esta por velocidad si trabajas sobre todo en inglés o en otro idioma europeo.
  • Nube (tu propia clave de OpenAI) envía el audio directamente desde tu máquina a OpenAI y de vuelta, transcribiendo mediante gpt-4o-mini-transcribe o gpt-4o-transcribe, con 98 idiomas listados. Tú aportas tu propia clave, le pagas a OpenAI tú mismo y Remskill no se lleva nada. Es el mismo arreglo que si hubieras conectado la API de OpenAI a tu propio script, salvo que no tienes que escribir el script. El modo nube también activa el pulido por IA que corre sobre los modelos más nuevos de OpenAI y la búsqueda web en directo, donde puedes hacer una pregunta hablada y obtener un resultado respondido y actual pegado de vuelta en lugar de una transcripción a secas. El compromiso es el evidente. Tu audio sale de la máquina. Para el borrador de un blog público eso no es nada; para una cláusula de contrato es una decisión que vale la pena tomar a conciencia.

Toda la transcripción local es Rust puro por debajo, sin un proceso de Python al lado, y el pulido por IA local corre a través de Ollama en tu propia máquina. La descarga es de una sola vez: elige un modelo, espera una vez, y a partir de ahí el trabajo ocurre en tu CPU sin internet en el camino. Modelo más grande, descarga más grande. Base son ~140 MB, Large v3 son ~3 GB, así que la elección es "cuánto disco y cuánta paciencia tengo" frente a "cuántos idiomas y cuánta precisión necesito".

Aquí va mi única opinión firme: prueba primero el modo local. Si tu Mac es Apple Silicon o tu PC es de los últimos años, no necesitas la nube para las notas de voz del día a día. Lo local funciona sin conexión tras esa descarga única, y nada sale del dispositivo. La nube es la salida de emergencia para cuando quieres el modelo más nuevo de OpenAI o una respuesta web en directo, no la opción por defecto. Los números del salario de tu jefe y los correos del colegio de tu hijo no necesitan dar un viaje de ida y vuelta por el servidor de nadie para un solo párrafo. Si la privacidad es toda la razón por la que estás leyendo esto, la guía de speech to text sin conexión profundiza en qué se queda en el dispositivo y qué no.

Qué tan precisa es la voz a texto, de verdad

La precisión se reduce a tres cosas, y el modelo es la menos interesante de ellas.

La primera es el micrófono. Un micrófono USB barato hace más por la precisión de la transcripción que cualquier mejora de modelo. Esa es la verdad aburrida, y es el consejo que la gente se salta porque cuesta veinte dólares en lugar de cero. El micrófono integrado de un portátil capta el ventilador, la sala y el ligero eco de tu escritorio; un micrófono dedicado a un par de centímetros de tu boca capta tu voz. Ningún paso de software recupera las palabras que el micrófono nunca capturó con claridad de entrada.

La segunda es cómo hablas. Un ritmo constante, frases completas y una pausa de medio segundo donde iría una coma le ganan a farfullar con cualquier modelo. La voz a texto no es un taquígrafo de tribunal intentando atrapar cada "eh". Funciona mejor cuando hablas como leerías una frase en voz alta, no como piensas en voz alta mientras das vueltas por la habitación. Por eso también el dictado se siente raro el primer día y natural al tercero: estás aprendiendo a hablar en pensamientos terminados. Pasé quince años escribiendo especificaciones en pensamientos terminados y aún así pasé ese primer día diciendo "no, borra eso, quiero decir" en voz alta a mi propio portátil.

La tercera, y última, es el modelo en sí. Te señalo el número de la propia NVIDIA en lugar de inventarme uno: la ficha de su modelo Parakeet v3 reporta una tasa media de error por palabra del 6,34 % en un benchmark público. Esa es la puntuación del modelo sobre habla leída en buenas condiciones, no una promesa sobre tu cocina a las 7 de la mañana. Los modelos Whisper más grandes cambian velocidad por una tasa de error más baja, que es toda la razón por la que la app envía ocho en lugar de uno. Emparejas el modelo con tu hardware y tu paciencia. Un modelo Base en un portátil viejo y un Large v3 en una máquina de 16 GB no son la misma experiencia, y ninguno está mal; apuntan a salas distintas y a hardware distinto.

Cualquiera que te cite un "99 % de precisión" a secas está citando una diapositiva de marketing, no un resultado medido sobre tu voz en tu sala. La precisión depende de tu micrófono, tu acento, tu ritmo y el ruido de fondo: cuatro cosas que ninguna app controla. Gasta primero el dinero en el micrófono y luego preocúpate por el modelo.

Cuándo saltarte Whisper y usar otra cosa

Whisper es la herramienta equivocada para un montón de trabajos, y fingir lo contrario te haría perder el tiempo. Recomendar a un competidor no es modestia; es la forma más rápida de asegurarme de que no te pases un sábado instalando lo que no era.

Si estás capturando ideas en un móvil, sáltate Whisper. No hay app móvil, y el dictado integrado de tu teléfono es gratis y ya está ahí. Estar de pie en un aparcamiento no es el momento de desear tener un atajo de escritorio. Si grabas reuniones y necesitas quién-dijo-qué más un resumen, usa Otter.ai; se une a Zoom, Teams y Meet y separa a los interlocutores, algo que Whisper no hace. Y si solo mandas alguna vez mensajes de 30 palabras en un Mac, Apple Dictation está integrado, es gratis y se detiene solo tras 30 segundos de silencio, así que no hay razón para instalar nada. También está el caso límite del idioma: si tu trabajo diario es en coreano, japonés u otro idioma no europeo, Parakeet no lo cubrirá, así que querrías los modelos multilingües de Whisper local o la ruta de la nube en lugar del motor rápido de inglés.

Whisper se gana el sueldo cuando estás escribiendo volumen real en apps de escritorio y lo quieres sin conexión. Fuera de eso, la respuesta correcta suele ser algo que ya tienes. La prueba honesta es simple: si tus palabras habladas no necesitan aterrizar dentro de una app concreta en un ordenador, probablemente no necesitas esto. Si lo necesitan, nada de la lista de arriba hace ese trabajo mejor.

Precios sin rodeos

El pipeline local es gratis para cualquier usuario con sesión iniciada. Todos los modelos locales, el pulido por IA a través de Ollama, el historial, los presets, el atajo personalizado, todo, sin que se pida un método de pago al registrarse. No es una prueba recortada; es la app local completa. Para mucha gente el modo local gratuito es todo el producto, y por nosotros no hay problema.

Whisper Pro añade la superficie de la nube: transcripción de OpenAI, pulido por IA en la nube y búsqueda web por voz a través de tu propia clave. Puedes registrar hasta tres dispositivos en una cuenta, lo que cubre un portátil, un sobremesa y la máquina que llevas meses queriendo formatear. Prefiero mostrarte cifras exactas a aproximarlas, así que las cifras actuales mensual, anual y de pago único viven en la precios donde se mantienen al día. Sin "desde", sin asteriscos, y la fecha de renovación está por escrito antes de que se te cobre nada.

La fiambrera se hizo y el correo salió, que es toda la propuesta. No voy a decirte que Whisper es la mejor app para cada nota de voz: no lo es, y el teléfono que llevas en el bolsillo ya gana en el recordatorio camino al coche. Pero si tus palabras habladas siguen acabando en una app de escritorio en la que de todas formas tienes que teclear, un atajo mantenido es una forma más tranquila de vivir. El yogur volvió igual de intacto. Algunos problemas quedan fuera de alcance.

¿Quieres verlo en tu escritorio?

Descarga Whisper, mantén pulsado el atajo y mira cómo la transcripción aterriza donde está tu cursor. Prueba primero el modo local.

Modo local gratuito para usuarios con sesión iniciada. Sin método de pago al registrarse.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable es que dictando las respuestas.

Lectura adicional