Guía
Software de dictado por voz: opciones gratuitas integradas frente a herramientas de pago
Parte del mejor software de dictado por voz ya está en tu equipo. Aquí te contamos cuál usar y cuándo pagar por una aplicación específica tiene realmente sentido.
Última actualización: junio de 2026

El software de dictado por voz escucha a través de un micrófono y transcribe lo que dices, convirtiendo el habla en texto editable a unas 145 palabras por minuto frente a unas 40 al teclear. Las buenas herramientas funcionan en todo el sistema, así que las palabras aparecen justo donde está el cursor. Algunas son gratuitas y vienen integradas en Windows y Mac; las de pago añaden modo sin conexión y limpieza con IA.
Habla y las palabras aparecen en tu cursor
La primera vez que funciona, parece un pequeño truco de magia. Mantienes pulsada una tecla, dices una frase, la sueltas y la frase ya está ahí, en tu correo. Sin teclado. Una sobrina mía dictó una nota de 90 palabras para su abuela antes de que yo terminara de explicar qué era el dictado. Lo difícil nunca fue hablar. Durante dos décadas, lo difícil fue que el software fuera lo bastante bueno como para fiarse de él, y esa parte por fin quedó resuelta.
Este artículo trata de qué software de dictado por voz merece tu tiempo, incluidas las opciones gratuitas que ya tienes.
La mayoría de quienes siguen pegados al teclado lo hacen por costumbre, no por necesidad. Teclear es un apaño aprendido, una forma de sacar las ideas de tu cabeza y meterlas en una máquina que no tiene oídos. El software de dictado por voz elimina ese apaño. La pregunta dejó de ser si funciona allá por 2022 y pasó a ser cuál usar y si hace falta pagar.
La respuesta sincera depende de tres cosas: cuánto tiempo dictas, si quieres que funcione en todas las aplicaciones y si te importa que tus palabras nunca salgan de tu portátil. Al terminar de leer esto sabrás qué camino encaja contigo, y te diré cuándo la opción gratuita integrada es todo lo que necesitas. Leo buena parte del correo de soporte de esta aplicación, y una proporción constante viene de personas que pagaron por una herramienta cuando la que ya tenían en su equipo habría hecho el trabajo. Así que tengo un pequeño interés en convencerte de que no compres.
Qué es el software de dictado por voz

El software de dictado por voz es un programa que captura el audio de tu micrófono y lo convierte en texto escrito mediante un modelo de reconocimiento de voz. El nombre antiguo es software de dictado. El nuevo nombre de marketing es dictado con IA, que en su mayoría significa lo mismo pero con un modelo de lenguaje añadido para corregir la puntuación y el tono.
Viene en tres formatos. El dictado integrado llega con tu sistema operativo: Escritura por voz de Windows, Apple Dictation. El dictado por voz basado en navegador vive dentro de una sola aplicación, como la Escritura por voz de Google Docs. Y las aplicaciones de escritorio específicas se instalan aparte y funcionan en todo aquello donde escribes. El formato importa más que la marca. Una herramienta de navegador que solo escribe dentro de Google Docs no sirve de nada para tus mensajes de Slack, por muy buena que sea su precisión. La primera pregunta que hay que hacerse sobre cualquier herramienta no es cuán precisa es, sino dónde te deja escribir. La precisión es ya un problema resuelto en la mayoría; el alcance no.
Lo que separa una herramienta seria de un juguete es dónde pega el texto. Las herramientas integradas y las de escritorio específicas funcionan en todo el sistema: pulsa el atajo en cualquier campo de texto y el texto aparece ahí. Ese es todo el juego. Todo lo demás —precisión, idiomas, limpieza con IA— es un refinamiento que se suma a si escribe donde estás mirando.
Una segunda cosa separa las categorías: lo que el modelo puede oír. Algunas herramientas solo manejan inglés. Otras manejan decenas de idiomas y pueden cambiar a mitad de frase. Los modelos solo en inglés de Whisper admiten exactamente un idioma, mientras que sus versiones multilingües cubren 99. El Parakeet de NVIDIA se sitúa en el medio con 25 idiomas: inglés más 24 europeos. Si solo escribes en inglés, nada de eso importa y deberías elegir según la velocidad. Si redactas en dos idiomas antes de comer, importa mucho. La mayoría sobreestima cuántos idiomas necesita y subestima cuánto le importa la latencia. El retardo entre soltar la tecla y ver el texto es lo que sientes cada vez.
Si prefieres ver la versión que funciona en todo el sistema en lugar de leer sobre la categoría, la página de dictado por voz de Whisper muestra el ciclo de mantener pulsado un atajo en Windows y Mac, con motores locales gratuitos incluidos.
Cómo funciona (y por qué la precisión por fin mejoró)
Por dentro, el proceso tiene tres pasos. Tu micrófono graba un breve fragmento de audio. Un modelo de reconocimiento de voz convierte ese audio en texto. Luego el texto se pega, a veces después de que un modelo de lenguaje lo ordene.
El salto de precisión que todos notamos vino del modelo del centro. El modelo de código abierto Whisper de OpenAI cambió lo que significaba ser bueno. Maneja acentos, ruido de fondo y 99 idiomas en sus variantes multilingües, sin ningún paso de entrenamiento. Esa última parte es la revolución silenciosa. No le enseñas tu voz al software de dictado moderno. Lo instalas y hablas.
Tengo edad suficiente para recordar cuando eso era ciencia ficción. A finales de los noventa, un familiar usaba Dragon NaturallySpeaking en un equipo de sobremesa con Windows 98 y 64 MB de RAM. Configurarlo significaba leer en voz alta una lista de palabras durante 45 minutos para que el software se calibrara a tu voz. Luego funcionaba, a duras penas, con quizá un 70 % de precisión y un retardo de cuatro segundos por frase. Tardaba quince minutos en dictar un párrafo de una carta navideña. Los auriculares acabaron volando por la habitación. Los auriculares sobrevivieron; el experimento no. Veinticinco años después, la misma tarea lleva noventa segundos y cero entrenamiento. El hardware alcanzó a la idea.
Hoy existen dos variantes del paso del medio. El procesamiento local ejecuta el modelo en tu propio ordenador, sin conexión, de modo que tu audio nunca sale de la máquina, tal como funciona la transcripción de voz a texto sin conexión. El procesamiento en la nube envía el audio a un servidor, lo que puede ser más rápido en equipos modestos pero implica que tus palabras viajan. Cuál prefieres depende de lo que estés dictando. Una lista de la compra, a quién le importa. El contrato de tu cliente, quizá sí importa.
El tercer paso, la limpieza, es donde vive la IA del dictado con IA. La transcripción en bruto te da un muro de palabras sin saltos de párrafo y con algún que otro «eh». Un modelo de lenguaje puede corregir la puntuación, quitar las muletillas e incluso ajustar el tono que le pidas. En Whisper by Remskill ese paso es opcional y se ejecuta localmente a través de Ollama, o en la nube mediante tu propia clave de OpenAI si activas Pro. También puedes activarlo con la voz: di la frase de activación, actualmente «Hey whisper», y el texto se entrega al modelo en lugar de pegarse en bruto. Nada de eso cambia el truco principal. Solo decide lo pulidas que llegan las palabras.
Las opciones gratuitas que ya tienes: Escritura por voz de Windows, Apple Dictation, Google Docs
Antes de pagar por nada, comprueba qué hay ya en tu equipo. Tres opciones gratuitas integradas cubren mucho terreno.
Windows · Win + H
macOS · Dictation
Docs · Voice typing
Escritura por voz de Windows
En Windows 11, pulsa la tecla del logotipo de Windows más H en cualquier cuadro de texto y aparecerá una barra de escritura por voz. Va bien para mensajes rápidos. El truco: necesita conexión a internet y un micrófono que funcione, porque el reconocimiento ocurre en la nube. Admite 43 idiomas según la lista de Microsoft. Si estás sin conexión en un tren, deja de funcionar. Hay un recorrido completo en nuestra guía de voz a texto en Windows.
Apple Dictation
En un Mac, actívalo en Ajustes del Sistema, Teclado, Dictado, y luego empiézalo con la tecla del micrófono o el atajo que elijas. La versión actual transcribe texto de cualquier longitud y solo se detiene tras 30 segundos de silencio, no por un límite de tiempo fijo. En Apple Silicon puede procesar tu voz en el propio dispositivo. Para notas cortas es gratuito y suficiente; la configuración más larga está en voz a texto en Mac.
Escritura por voz de Google Docs
Abre un documento de Google en Chrome, Edge o Safari, haz clic en Herramientas y luego en Escritura por voz, y aparecerá un cuadro de micrófono. Admite más de 100 idiomas y variantes regionales. El límite tajante está ahí mismo, en el nombre: solo escribe dentro de Google Docs y Presentaciones. No escribirá en tu correo, tu Slack ni tu código.
La forma sincera de leer estas tres: son herramientas reales, no demos, y para una buena parte de la gente son el final de la búsqueda. Dónde se quedan cortas es predecible. La Escritura por voz de Windows muere en cuanto pierdes señal. La Escritura por voz de Google Docs nunca sale del documento. Apple Dictation es excelente en un Mac y no existe en ningún otro sitio. Si tu trabajo cabe dentro de esos límites, ya está. Cierra esta pestaña y pulsa la tecla. La categoría de pago existe para el trabajo que no encaja: dictar todo el día, sin conexión en un avión, en todas las aplicaciones en lugar de una sola, y con audio que debe quedarse en tu propio disco.
Las herramientas de pago que conviene conocer (Dragon, Wispr Flow, Superwhisper, Voicy, Whisper by Remskill)
Cuando las herramientas gratuitas se quedan cortas —cuando dictas todo el día, necesitas modo sin conexión o quieres limpieza con IA—, se abre la categoría de pago. Estos son los nombres que conviene conocer, con una línea sincera de cada uno.
Si prefieres ver todo el panorama ordenado, aquí tienes el mejor software de dictado por voz, clasificado.
No los he comparado uno contra otro con un cronómetro, así que no voy a fingir que sí. Elegí los nombres de abajo por tres cosas: alcance de plataforma documentado (¿funciona donde realmente escribes?), soporte sin conexión documentado (¿tu audio sale de la máquina?) y cobertura de idiomas documentada. La tabla recoge solo datos que cada proveedor publica; dejé fuera la velocidad y la precisión porque no existe ninguna prueba neutral que abarque a todos, e inventarse una sería justo lo que vine aquí a desaconsejarte.
| Herramienta | Plataforma | Local / Nube | Funciona sin conexión | Modelo de precios | Idiomas | Ideal para |
|---|---|---|---|---|---|---|
| Escritura por voz de Windows | Windows 11 | Nube | No | Gratis, integrado | 43 | Mensajes rápidos en un PC conectado |
| Apple Dictation | macOS | Local en Apple Silicon | Sí (Apple Silicon) | Gratis, integrado | Decenas | Notas cortas en un Mac |
| Escritura por voz de Google Docs | Navegador | Nube | No | Gratis, función del navegador | Más de 100 | Escribir solo dentro de Google Docs |
| Dragon de Nuance | Windows | Local | Sí | De pago, licencia única | Centrado en inglés | Dictar todo el día en Windows |
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Local o Nube (tu clave) | Sí (motores locales) | Local gratis, Pro de pago para la nube | 99 en Whisper multilingüe | Dictado en todo el sistema, sin conexión, en cualquier aplicación |
Dragon de Nuance es la vieja guardia. Dragon Professional v16 anuncia un dictado tres veces más rápido que teclear con hasta un 99 % de precisión de reconocimiento desde el primer uso, y está optimizado para Windows 11. Ese 99 % es la cifra de la propia Nuance, no una prueba neutral. El truco: Dragon Professional es solo para Windows, sin versión de escritorio actual para Mac.
Wispr Flow, Superwhisper y Voicy son la nueva oleada de aplicaciones de dictado con IA. Envuelven un modelo de voz en una interfaz limpia y añaden limpieza de tono o de formato. Son competentes. El patrón en casi toda esta categoría es la misma arquitectura —un modelo de voz, una interfaz y una factura mensual—, y la factura es donde más se diferencian. Si la factura es la parte que escuece, escribimos sobre una alternativa honesta a superwhisper que mantiene todo el proceso local gratis para siempre.
Whisper by Remskill, nuestra aplicación, es una herramienta de escritorio para Windows y macOS en Apple Silicon. Pulsas un atajo, hablas y el texto se pega donde está tu cursor en cualquier aplicación. El atajo predeterminado es Ctrl+Space en Windows y un acorde de pulsar para hablar Command+Option en Mac: mantén ambos pulsados y suelta cualquiera para parar. Lo que eliges es el motor. Eliges entre tres caminos: Parakeet de NVIDIA en local (~600 MB, de 5 a 10 veces más rápido que Whisper en CPU, inglés más 24 idiomas europeos); Whisper en local (ocho modelos, 99 idiomas en los multilingües, traducción al inglés); o el modo Nube, que usa tu propia clave de OpenAI para gpt-4o-mini-transcribe o gpt-4o-transcribe sin que nos llevemos comisión. Toda la transcripción local es de Rust puro, sin Python. La comparación completa del panorama más amplio está en nuestro repaso de software de transcripción.
Aquí va también mi única opinión: prueba primero el modo local. Si tu Mac es Apple Silicon o tu PC es de los últimos cuatro años, no necesitas la nube para el dictado de cada día. Parakeet en local empieza a transcribir en bastante menos de dos segundos en hardware moderno, tu audio nunca sale del portátil, y la nube es la salida de emergencia para cuando quieres precisión al nivel de OpenAI o búsqueda web, no la opción por defecto. Recurre a la red cuando topes con una pared, no antes. Soy de esos arquitectos que buscan la solución más grande y aparatosa por reflejo y luego me convenzo de bajar el listón. Lo de local primero soy yo convenciéndome de bajar el listón, en público, para que te ahorres la parte en la que pierdo una semana.
La razón práctica es el hardware. Un portátil moderno ya tiene un micrófono y un procesador lo bastante rápidos para ejecutar un modelo de voz por sí solo. Enviar un párrafo de audio a un servidor y de vuelta, para un trabajo que tu equipo puede hacer sin conexión en menos de dos segundos, es una costumbre heredada de cuando los portátiles eran demasiado lentos. Ya no lo son. La nube se gana su sitio en los casos difíciles: una sala ruidosa, un acento poco común, una petición que necesita una respuesta web en directo pegada en tu réplica. Para el flujo diario de correo, notas y chat, lo local arranca más rápido, es privado por defecto y gratuito para los usuarios que han iniciado sesión. La salida de emergencia está ahí cuando la necesitas; la mayoría de los días no la necesitarás.
Cuándo saltarte una aplicación específica y usar la integrada
Aquí está la parte que la mayoría de los artículos de «mejor software» se saltan. Si envías mensajes cortos —un texto de 30 palabras, una respuesta rápida de Slack—, el dictado gratuito que ya está en tu equipo es todo lo que necesitas. La Escritura por voz de Windows (tecla Windows + H) y Apple Dictation son gratis, vienen integradas y funcionan. No instales ni pagues por nada para escribir una sola frase. Una aplicación específica empieza a ganarse su sitio cuando dictas a menudo, necesitas que funcione sin conexión en un avión, la quieres en todas las aplicaciones y no en una sola, o te importa que tus palabras se queden en tu dispositivo. Por debajo de ese umbral, la verdad aburrida es que ya tienes la herramienta adecuada.
Cuánto cuesta Whisper by Remskill
Whisper by Remskill es gratuito para todo usuario que haya iniciado sesión en todo el proceso local: Whisper local, Parakeet, limpieza con IA basada en Ollama, historial, atajo personalizado, descargas de modelos, sin necesidad de un método de pago para registrarse. Whisper Pro añade la capa de Nube: transcripción en la nube de OpenAI, mejora con IA en la nube y búsqueda web por voz mediante tu propia clave de OpenAI. El modo Nube te factura directamente a través de OpenAI; nosotros no nos llevamos comisión. Los planes actuales y la prueba de Pro están en la página de precios. No voy a soltarte cifras aquí; la página lo hace mejor que un párrafo.
Lecturas adicionales
Un familiar mío lanzó unos auriculares por la habitación en 1999 porque el dictado era una tarea de 45 minutos que producía basura. Los auriculares sobrevivieron al experimento. Veinticinco años después, la tarea ha desaparecido. Pulsas una tecla y hablas, y las palabras aparecen. La única decisión real que queda es qué herramienta, y para mucha gente la respuesta correcta ya está en su equipo, apagada, esperando. Mis propios hijos nunca sabrán que alguna vez fue difícil, que es el objetivo, aunque haga peor historia para contar en la cena.
Prueba primero la que ya tienes
Si se queda corta, descarga Whisper y elige el motor que encaja con tu forma de trabajar.
Gratis para usuarios que han iniciado sesión en todo el proceso local. Sin tarjeta al registrarte.



