Por Denys Medvediev

Guía

Software de dictado por voz: opciones gratuitas integradas frente a herramientas de pago

Parte del mejor software de dictado por voz ya está en tu equipo. Aquí te contamos cuál usar y cuándo pagar por una aplicación específica tiene realmente sentido.

Última actualización: junio de 2026

Portátil elegante y un vaso de agua sobre un escritorio luminoso, listo para escribir con la voz sin usar las manos

El software de dictado por voz escucha a través de un micrófono y transcribe lo que dices, convirtiendo el habla en texto editable a unas 145 palabras por minuto frente a unas 40 al teclear. Las buenas herramientas funcionan en todo el sistema, así que las palabras aparecen justo donde está el cursor. Algunas son gratuitas y vienen integradas en Windows y Mac; las de pago añaden modo sin conexión y limpieza con IA.

Habla y las palabras aparecen en tu cursor

La primera vez que funciona, parece un pequeño truco de magia. Mantienes pulsada una tecla, dices una frase, la sueltas y la frase ya está ahí, en tu correo. Sin teclado. Una sobrina mía dictó una nota de 90 palabras para su abuela antes de que yo terminara de explicar qué era el dictado. Lo difícil nunca fue hablar. Durante dos décadas, lo difícil fue que el software fuera lo bastante bueno como para fiarse de él, y esa parte por fin quedó resuelta.

Este artículo trata de qué software de dictado por voz merece tu tiempo, incluidas las opciones gratuitas que ya tienes.

Pasted
El panel de Whisper terminando un dictado: el texto se pega donde está tu cursor.

La mayoría de quienes siguen pegados al teclado lo hacen por costumbre, no por necesidad. Teclear es un apaño aprendido, una forma de sacar las ideas de tu cabeza y meterlas en una máquina que no tiene oídos. El software de dictado por voz elimina ese apaño. La pregunta dejó de ser si funciona allá por 2022 y pasó a ser cuál usar y si hace falta pagar.

La respuesta sincera depende de tres cosas: cuánto tiempo dictas, si quieres que funcione en todas las aplicaciones y si te importa que tus palabras nunca salgan de tu portátil. Al terminar de leer esto sabrás qué camino encaja contigo, y te diré cuándo la opción gratuita integrada es todo lo que necesitas. Leo buena parte del correo de soporte de esta aplicación, y una proporción constante viene de personas que pagaron por una herramienta cuando la que ya tenían en su equipo habría hecho el trabajo. Así que tengo un pequeño interés en convencerte de que no compres.

Qué es el software de dictado por voz

Primer plano de una interfaz de audio digital mostrando una vibrante onda de sonido, que ilustra el habla capturada como datos

El software de dictado por voz es un programa que captura el audio de tu micrófono y lo convierte en texto escrito mediante un modelo de reconocimiento de voz. El nombre antiguo es software de dictado. El nuevo nombre de marketing es dictado con IA, que en su mayoría significa lo mismo pero con un modelo de lenguaje añadido para corregir la puntuación y el tono.

Viene en tres formatos. El dictado integrado llega con tu sistema operativo: Escritura por voz de Windows, Apple Dictation. El dictado por voz basado en navegador vive dentro de una sola aplicación, como la Escritura por voz de Google Docs. Y las aplicaciones de escritorio específicas se instalan aparte y funcionan en todo aquello donde escribes. El formato importa más que la marca. Una herramienta de navegador que solo escribe dentro de Google Docs no sirve de nada para tus mensajes de Slack, por muy buena que sea su precisión. La primera pregunta que hay que hacerse sobre cualquier herramienta no es cuán precisa es, sino dónde te deja escribir. La precisión es ya un problema resuelto en la mayoría; el alcance no.

Lo que separa una herramienta seria de un juguete es dónde pega el texto. Las herramientas integradas y las de escritorio específicas funcionan en todo el sistema: pulsa el atajo en cualquier campo de texto y el texto aparece ahí. Ese es todo el juego. Todo lo demás —precisión, idiomas, limpieza con IA— es un refinamiento que se suma a si escribe donde estás mirando.

Una segunda cosa separa las categorías: lo que el modelo puede oír. Algunas herramientas solo manejan inglés. Otras manejan decenas de idiomas y pueden cambiar a mitad de frase. Los modelos solo en inglés de Whisper admiten exactamente un idioma, mientras que sus versiones multilingües cubren 99. El Parakeet de NVIDIA se sitúa en el medio con 25 idiomas: inglés más 24 europeos. Si solo escribes en inglés, nada de eso importa y deberías elegir según la velocidad. Si redactas en dos idiomas antes de comer, importa mucho. La mayoría sobreestima cuántos idiomas necesita y subestima cuánto le importa la latencia. El retardo entre soltar la tecla y ver el texto es lo que sientes cada vez.

Si prefieres ver la versión que funciona en todo el sistema en lugar de leer sobre la categoría, la página de dictado por voz de Whisper muestra el ciclo de mantener pulsado un atajo en Windows y Mac, con motores locales gratuitos incluidos.

Cómo funciona (y por qué la precisión por fin mejoró)

Por dentro, el proceso tiene tres pasos. Tu micrófono graba un breve fragmento de audio. Un modelo de reconocimiento de voz convierte ese audio en texto. Luego el texto se pega, a veces después de que un modelo de lenguaje lo ordene.

CancelTranscribing
Whisper transcribiendo: el modelo de voz convierte el audio en texto.

El salto de precisión que todos notamos vino del modelo del centro. El modelo de código abierto Whisper de OpenAI cambió lo que significaba ser bueno. Maneja acentos, ruido de fondo y 99 idiomas en sus variantes multilingües, sin ningún paso de entrenamiento. Esa última parte es la revolución silenciosa. No le enseñas tu voz al software de dictado moderno. Lo instalas y hablas.

Tengo edad suficiente para recordar cuando eso era ciencia ficción. A finales de los noventa, un familiar usaba Dragon NaturallySpeaking en un equipo de sobremesa con Windows 98 y 64 MB de RAM. Configurarlo significaba leer en voz alta una lista de palabras durante 45 minutos para que el software se calibrara a tu voz. Luego funcionaba, a duras penas, con quizá un 70 % de precisión y un retardo de cuatro segundos por frase. Tardaba quince minutos en dictar un párrafo de una carta navideña. Los auriculares acabaron volando por la habitación. Los auriculares sobrevivieron; el experimento no. Veinticinco años después, la misma tarea lleva noventa segundos y cero entrenamiento. El hardware alcanzó a la idea.

Hoy existen dos variantes del paso del medio. El procesamiento local ejecuta el modelo en tu propio ordenador, sin conexión, de modo que tu audio nunca sale de la máquina, tal como funciona la transcripción de voz a texto sin conexión. El procesamiento en la nube envía el audio a un servidor, lo que puede ser más rápido en equipos modestos pero implica que tus palabras viajan. Cuál prefieres depende de lo que estés dictando. Una lista de la compra, a quién le importa. El contrato de tu cliente, quizá sí importa.

El tercer paso, la limpieza, es donde vive la IA del dictado con IA. La transcripción en bruto te da un muro de palabras sin saltos de párrafo y con algún que otro «eh». Un modelo de lenguaje puede corregir la puntuación, quitar las muletillas e incluso ajustar el tono que le pidas. En Whisper by Remskill ese paso es opcional y se ejecuta localmente a través de Ollama, o en la nube mediante tu propia clave de OpenAI si activas Pro. También puedes activarlo con la voz: di la frase de activación, actualmente «Hey whisper», y el texto se entrega al modelo en lugar de pegarse en bruto. Nada de eso cambia el truco principal. Solo decide lo pulidas que llegan las palabras.

Las opciones gratuitas que ya tienes: Escritura por voz de Windows, Apple Dictation, Google Docs

Antes de pagar por nada, comprueba qué hay ya en tu equipo. Tres opciones gratuitas integradas cubren mucho terreno.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
El dictado que ya está en tu ordenador, en dos versiones: sin necesidad de instalar nada.

Escritura por voz de Windows

En Windows 11, pulsa la tecla del logotipo de Windows más H en cualquier cuadro de texto y aparecerá una barra de escritura por voz. Va bien para mensajes rápidos. El truco: necesita conexión a internet y un micrófono que funcione, porque el reconocimiento ocurre en la nube. Admite 43 idiomas según la lista de Microsoft. Si estás sin conexión en un tren, deja de funcionar. Hay un recorrido completo en nuestra guía de voz a texto en Windows.

Apple Dictation

En un Mac, actívalo en Ajustes del Sistema, Teclado, Dictado, y luego empiézalo con la tecla del micrófono o el atajo que elijas. La versión actual transcribe texto de cualquier longitud y solo se detiene tras 30 segundos de silencio, no por un límite de tiempo fijo. En Apple Silicon puede procesar tu voz en el propio dispositivo. Para notas cortas es gratuito y suficiente; la configuración más larga está en voz a texto en Mac.

Escritura por voz de Google Docs

Abre un documento de Google en Chrome, Edge o Safari, haz clic en Herramientas y luego en Escritura por voz, y aparecerá un cuadro de micrófono. Admite más de 100 idiomas y variantes regionales. El límite tajante está ahí mismo, en el nombre: solo escribe dentro de Google Docs y Presentaciones. No escribirá en tu correo, tu Slack ni tu código.

La forma sincera de leer estas tres: son herramientas reales, no demos, y para una buena parte de la gente son el final de la búsqueda. Dónde se quedan cortas es predecible. La Escritura por voz de Windows muere en cuanto pierdes señal. La Escritura por voz de Google Docs nunca sale del documento. Apple Dictation es excelente en un Mac y no existe en ningún otro sitio. Si tu trabajo cabe dentro de esos límites, ya está. Cierra esta pestaña y pulsa la tecla. La categoría de pago existe para el trabajo que no encaja: dictar todo el día, sin conexión en un avión, en todas las aplicaciones en lugar de una sola, y con audio que debe quedarse en tu propio disco.

Cuándo saltarte una aplicación específica y usar la integrada

Aquí está la parte que la mayoría de los artículos de «mejor software» se saltan. Si envías mensajes cortos —un texto de 30 palabras, una respuesta rápida de Slack—, el dictado gratuito que ya está en tu equipo es todo lo que necesitas. La Escritura por voz de Windows (tecla Windows + H) y Apple Dictation son gratis, vienen integradas y funcionan. No instales ni pagues por nada para escribir una sola frase. Una aplicación específica empieza a ganarse su sitio cuando dictas a menudo, necesitas que funcione sin conexión en un avión, la quieres en todas las aplicaciones y no en una sola, o te importa que tus palabras se queden en tu dispositivo. Por debajo de ese umbral, la verdad aburrida es que ya tienes la herramienta adecuada.

Cuánto cuesta Whisper by Remskill

Whisper by Remskill es gratuito para todo usuario que haya iniciado sesión en todo el proceso local: Whisper local, Parakeet, limpieza con IA basada en Ollama, historial, atajo personalizado, descargas de modelos, sin necesidad de un método de pago para registrarse. Whisper Pro añade la capa de Nube: transcripción en la nube de OpenAI, mejora con IA en la nube y búsqueda web por voz mediante tu propia clave de OpenAI. El modo Nube te factura directamente a través de OpenAI; nosotros no nos llevamos comisión. Los planes actuales y la prueba de Pro están en la página de precios. No voy a soltarte cifras aquí; la página lo hace mejor que un párrafo.

Lecturas adicionales

Un familiar mío lanzó unos auriculares por la habitación en 1999 porque el dictado era una tarea de 45 minutos que producía basura. Los auriculares sobrevivieron al experimento. Veinticinco años después, la tarea ha desaparecido. Pulsas una tecla y hablas, y las palabras aparecen. La única decisión real que queda es qué herramienta, y para mucha gente la respuesta correcta ya está en su equipo, apagada, esperando. Mis propios hijos nunca sabrán que alguna vez fue difícil, que es el objetivo, aunque haga peor historia para contar en la cena.

Prueba primero la que ya tienes

Si se queda corta, descarga Whisper y elige el motor que encaja con tu forma de trabajar.

Gratis para usuarios que han iniciado sesión en todo el proceso local. Sin tarjeta al registrarte.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.