Por Denys Medvediev

Solución de problemas

¿El dictado escribe palabras incorrectas? 5 soluciones

El dictado escribe palabras incorrectas cuando el modelo oye mal un sonido y adivina. Cinco causas; cuatro las puedes resolver en diez minutos.

Última actualización: junio de 2026

Teclado negro con foco suave sobre una superficie oscura, evocando el resultado del dictado sobre la página

El dictado escribe palabras incorrectas cuando el modelo de voz oye mal un sonido y reescribe la frase en torno a su suposición. Las causas habituales son un micrófono débil, ruido de fondo, un homófono que el modelo no puede distinguir, un idioma mal configurado o un nombre que nunca ha visto. Arregla el audio primero y luego enséñale tu vocabulario.

Dices «enviar a pruebas». La pantalla muestra «enviar a ruedas». Lo corriges. Siguiente frase, lo mismo. A la tercera corrección ya escribes más rápido de lo que hablas, lo que arruina por completo el propósito. He visto este bucle exacto sacar de quicio a un escritor, a una comercial y a mi propia madre, que probó el dictado una vez y volvió al teclado con dos dedos de pura rabia. La buena noticia es que casi todas las palabras incorrectas tienen una de cinco causas, y cuatro de ellas las puedes resolver en los próximos diez minutos.

Aquí viene lo que nadie te cuenta. La mayoría de las herramientas de dictado no están rotas cuando hacen esto. Están adivinando, en tiempo real, en malas condiciones, sin idea de cómo se llama tu compañero de trabajo ni de que «Kubernetes» existe. El modo local de Whisper tiene un ajuste que resuelve ese último problema de raíz: un campo de palabras personalizadas donde listas los nombres y la jerga que esperas que escuche, para que los escriba bien en vez de inventarse algo que suene parecido. Es gratis y funciona sin conexión. Llegaremos ahí. Pero la verdad aburrida es que el micrófono importa más que el software, así que empezamos por ahí.

Tu dictado no está roto. Está adivinando.

Teclado de portátil bajo luz ambiente, ilustrando dónde aterrizan los errores del dictado

El reconocimiento de voz no escucha letras. Escucha sonido y apuesta por las palabras más probables que ese sonido forma; luego ajusta la apuesta conforme llega más sonido. Por eso el dictado a veces reescribe algo que ya dijiste. Oye mal una palabra al final de la frase, decide que una palabra anterior debía ser otra cosa para que la gramática cuadre y la cambia sin avisar.

«Caza» y «casa». «Tubo» y «tuvo». «Vino» y «vino» con otro sentido. Estos son homófonos —palabras que suenan igual— y no hay forma de hablar con más claridad que los resuelva, porque la claridad nunca fue el problema. El modelo tiene que adivinar por contexto, y a veces falla.

Luego están las palabras que el modelo simplemente nunca ha visto. El apellido de tu jefe. Un código de producto. «Remskill». El modelo no puede escribir lo que no conoce, así que sustituye por la palabra real más parecida que sí conoce. Eso no es un error. Es una laguna de vocabulario, y tiene una solución concreta que veremos más adelante.

El micrófono suele ser el culpable

Escritorio con micrófono de condensador, portátil y auriculares, la fuente de entrada para el dictado

Antes de culpar al software, fíjate en qué lo alimenta. El micrófono integrado de un portátil está justo al lado del ventilador, apunta al techo y capta tanto el ambiente como tu voz. Basura entra, palabras incorrectas salen.

Esta es la única opinión sobre la que apostaría todo el artículo: la «IA» no arregla un audio malo. Un micrófono USB de 20 € hace más por la precisión que cualquier cambio de modelo que puedas hacer. Pasé una semana cargando modelos más grandes y lentos para corregir mis propios errores antes de darme cuenta de que el micrófono de mi portátil apuntaba al ventilador. El micrófono era el problema todo el tiempo. Yo desarrollo este software para ganarme la vida. Gasta el dinero primero en el hardware. El modelo es la parte barata.

La prueba de verificación: dicta las mismas tres frases con el micrófono integrado y luego con un auricular o un micrófono USB. Si el número de palabras incorrectas baja, el micrófono era el problema y ya has terminado. La mayoría de la gente deja de leer aquí, y está bien.

Ruido de fondo y acústica de la sala

Escritorio tranquilo con portátil, libreta y flores en un espacio de trabajo silencioso

Un lavavajillas al fondo del pasillo. La llamada del compañero de al lado. Ese tipo de oficina diáfana donde puedes oír a alguien comer patatas fritas a diez metros. El modelo no distingue tu voz del ruido: transcribe el sonido más alto, y a veces ganan las patatas fritas.

La visión general de IA de Google para este problema concreto señala el ruido de fondo como causa principal, junto a los acentos y los homófonos. La solución no tiene glamour: cierra la puerta, apaga el ventilador, aléjate de la ventana abierta. Una sala silenciosa hace más que un algoritmo inteligente.

Verificación: intenta el mismo dictado en un espacio silencioso y en tu entorno habitual. Si los errores se reducen en silencio, el ruido era el culpable. Si no puedes conseguir una sala tranquila, un micrófono direccional o con cancelación de ruido que solo escuche lo que tienes justo delante es el siguiente paso, y volvemos al hardware, que es donde debería ir el dinero de todas formas.

Idioma incorrecto o desajuste de acento

Fichas de madera con letras esparcidas sobre una mesa iluminada, evocando palabras e idiomas

Si tu dictado está en detección automática y cambias de idioma, el modelo dedica esfuerzo a identificar el idioma antes de identificar las palabras, y un fallo en esa identificación envenena todo lo que viene después. Configura el idioma de forma explícita siempre que puedas.

En Whisper, eso está en Ajustes, Transcripción, Idioma. Elegir directamente el idioma que hablas omite el paso de detección y ayuda al modelo a captar tus palabras con más precisión. Deja la detección automática solo si realmente cambias de idioma durante la sesión. Los modelos multilingües de Whisper cubren 99 idiomas con detección automática; las versiones solo en inglés están fijadas al inglés, que es exactamente lo que quieres si solo hablas inglés.

El desajuste de acento es el pariente cercano de este problema. Un modelo de inglés de EE. UU. entrenado principalmente con hablantes estadounidenses tropezará con un acento regional marcado. Seleccionar la variante regional más cercana que ofrezca tu herramienta y darle una señal limpia reduce la brecha.

Cómo solucionarlo en Windows, Mac e iPhone

El dictado integrado de cada plataforma tiene sus propias peculiaridades y sus propios límites. En Windows, Voice Typing se abre con la tecla Windows más H, pero el cursor tiene que estar en un cuadro de texto y necesitas conexión a internet: la herramienta integrada envía el audio a la nube para transcribirlo. Si escribe sin sentido, comprueba la conexión primero; los foros de soporte de Apple para el mismo problema de palabras incorrectas ponen «verificar la conexión a internet» al principio de la lista. (Para una guía más detallada, consulta nuestro artículo sobre voz a texto que no funciona en Windows.)

En Mac, activa el Dictado con la tecla de micrófono en la fila de teclas de función, el atajo de Dictado, o Editar y luego Iniciar Dictado. Algo que conviene aclarar: el Dictado actual de macOS permite dictar texto de cualquier extensión sin límite de tiempo: solo se detiene tras unos 30 segundos de silencio, lo que la gente confunde con un límite absoluto. Si los errores persisten, nuestra guía para solucionar problemas de voz a texto en Mac lo explica paso a paso. En iPhone, los foros de Apple también sugieren desactivar el texto predictivo, que a veces corrige lo que el dictado había escrito bien.

El límite más difícil: Windows Voice Typing (Win+H) no permite añadir palabras personalizadas ni entrenar su diccionario. La función de dictado separada de Word sí permite crear un pequeño diccionario de dictado, pero la herramienta que la mayoría usa —Win+H— no puede aprender tu vocabulario en absoluto. Lo que nos lleva a la única solución que de verdad marca la diferencia en el problema de los nombres y la jerga incorrectos.

Enséñale tus palabras: vocabulario personalizado

Whisper
La aplicación real de Whisper: abre Ajustes, Transcripción y escribe tus nombres y jerga en el campo de palabras personalizadas. Haz clic y pruébalo en vivo.

Esta es la solución que las herramientas integradas no pueden darte. Cuando ejecutas un modelo de Whisper en el modo local de Whisper, obtienes un campo de palabras personalizadas: una lista separada por comas con los nombres, términos de producto y jerga que esperas que escuche. Escribes «Kubernetes, PostgreSQL, Remskill, Juan García» y la transcripción se inclina a escribirlos correctamente cuando aparecen en tu voz. Está en Ajustes, Transcripción, en el nivel local gratuito: sin tarjeta, sin nube.

Un matiz que vale la pena conocer: las palabras personalizadas son una función del modelo de Whisper. Parakeet, la opción local más rápida, no admite palabras personalizadas ni sugerencias de texto: su propia descripción lo dice claramente. Así que si enseñarle tu vocabulario a la herramienta te importa, elige un modelo de Whisper, no Parakeet.

Aprendí lo importante que es esto gracias a mi hija pequeña. Le mostré el dictado una vez: pulsa, habla, suelta. Enseguida escribió un correo de 90 palabras a su abuela sobre un diente que había perdido y la tarifa del ratoncito Pérez, sin preguntar nada. Luego volvió molesta porque seguía deformando el nombre de su mejor amiga. Ella no sabía qué era una laguna de vocabulario. Solo sabía que el nombre salía mal. Añadí el nombre a palabras personalizadas y las quejas cesaron. La persona de a pie no quiere entender por qué el dictado escribe mal un nombre. Quiere un campo donde escribir ese nombre. Ese campo es la razón de ser de esta sección.

Una segunda palanca, si la necesitas: Whisper expone un ajuste de Perfil —Rápido, Equilibrado o Preciso— que controla con qué cuidado escucha el modelo. Preciso es más lento pero capta más. Y elegir un modelo más grande entre los ocho que incluye Whisper, desde Base con unos 140 MB hasta Large v3 con unos 3 GB, intercambia velocidad por precisión. Ninguno es «la opción correcta» para todos: son ajustes, y el problema de las palabras incorrectas decide cuál giras. Si no sabes cuál cargar, nuestra guía para elegir un modelo de Whisper explica las diferencias.

Un paso de limpieza que corrige el resto

Thinking...
El paso opcional de limpieza con IA de Whisper sobre la transcripción en bruto: corrige gramática, puntuación y mayúsculas antes de que el texto llegue al cursor.

Incluso después de limpiar el audio y cargar el vocabulario, algunos errores residuales se cuelan. Whisper puede ejecutar un paso opcional de limpieza con IA sobre la transcripción en bruto antes de que llegue al cursor: corrige gramática, puntuación y mayúsculas, y elimina muletillas como «eh» o «o sea». Funciona en tu dispositivo de forma gratuita, o en modo Cloud con OpenAI si has proporcionado tu propia clave.

Esto es la red de seguridad, no el primer movimiento. Arregla el micrófono, silencia la sala, configura el idioma, enséñale tus palabras y luego deja que el paso de limpieza ordene lo que queda. Intentar que la corrección de texto con IA compense un micrófono integrado apuntando al ventilador es resolver el problema equivocado con la herramienta cara. Lo sé porque lancé el paso de limpieza antes que el selector de idioma, exactamente en el orden incorrecto, y luego usé mi propia aplicación durante un mes sin entender por qué fallaba. Para quienes quieren un control más fino, nuestra guía de prompts para Whisper profundiza en cómo moldear el resultado.

El atajo para grabar es Ctrl+Space en Windows y Command+Option en Mac; ambos se pueden personalizar en Ajustes si entran en conflicto con algo que ya usas.

Cuando la herramienta integrada no tiene solución

A veces la respuesta no es un arreglo, sino una herramienta diferente o ninguna herramienta. Si solo dictas un texto de 30 palabras de vez en cuando, Apple Dictation y Windows Voice Typing son gratuitos y vienen integrados, y perseguir la precisión perfecta es excesivo. Usa lo que ya tienes.

Pero hay un límite real. Windows Voice Typing necesita internet y no puede aprender tu vocabulario. Si tu problema de palabras incorrectas es específicamente que la herramienta sigue destrozando nombres, términos de producto o jerga técnica —y no puedes añadir esas palabras en ningún sitio—, la herramienta integrada genuinamente no tiene solución para tu caso. Ese es el punto donde una herramienta que se puede enseñar y funciona sin conexión gana su lugar. Y si lo que principalmente haces es transcribir reuniones con varios participantes en vez de dictar tus propios textos, eso es una categoría de herramienta completamente diferente: transcripción de reuniones, no dictado. No fuerces una aplicación de dictado a hacer un trabajo para el que no fue diseñada.

¿Qué precisión puedes esperar del dictado?

Ajusta las expectativas con honestidad. Audio limpio, un idioma conocido y un vocabulario cargado te llevarán al punto en que las correcciones son la excepción, no la norma. Los benchmarks públicos de Whisper sitúan la tasa de error de palabras en torno al 3 % en voz leída limpia con el modelo medium en inglés. La vida real —tu acento, tu sala, tu jerga— da cifras más altas. Es normal.

El objetivo no son cero errores. El objetivo es cometer menos errores de los que habrías cometido escribiendo en el mismo tiempo, y ese listón es más bajo de lo que la gente piensa. Dictar a 145 palabras por minuto supera escribir a 40 aunque pares a corregir una o dos palabras. Si corriges una de cada dos palabras, algo de la lista anterior sigue fallando. Si corriges una de cada diez, ya has ganado.

Si tu dictado sigue escribiendo palabras incorrectas, arregla el audio, configura el idioma y enséñale tus nombres; luego deja que él escriba mientras tú haces otra cosa. Mi hija pequeña todavía lo llama «el ordenador que habla». No tiene ni idea de que hay un campo de vocabulario, un selector de idioma u ocho modelos detrás del pulsa-habla-suelta. Esa es la versión de esto que realmente funciona: cuando las palabras incorrectas desaparecen y dejas de fijarte en la herramienta.

¿Quieres que tus nombres salgan bien?

Descarga Whisper, añade tu primera palabra personalizada y observa cómo desaparecen las palabras incorrectas desde la primera frase.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee el correo de soporte, casi siempre dictando las respuestas.

Lectura adicional