Resolución de problemas
¿Por qué mi dictado es tan impreciso?
El dictado suele ser impreciso por la configuración, no porque el software esté roto: un micrófono malo, una sala ruidosa, el idioma equivocado o el modelo equivocado.
Última actualización: junio de 2026

El dictado suele ser impreciso por la configuración, no porque el software esté roto. Los principales culpables son un micrófono malo, una sala ruidosa, el idioma mal ajustado y un modelo que no encaja con tu equipo. Un audio limpio en una sala silenciosa con el idioma correcto lleva a la mayoría de la gente a alrededor del 95% de precisión: más o menos una palabra equivocada de cada veinte.
Una vez vi a un familiar lanzar unos auriculares al otro lado de la habitación. Era finales de los noventa, el ordenador era un equipo de sobremesa con Windows 98 y 64MB de RAM, y el software era Dragon NaturallySpeaking. El entrenamiento duraba 45 minutos: leías en voz alta una lista de palabras para "calibrarlo". Luego funcionaba, más o menos, con quizá un 70% de precisión y un retraso de cuatro segundos por frase. Quince minutos para dictar un párrafo de una felicitación navideña. Los auriculares sobrevivieron. El experimento del dictado, no.
Saco esto a colación porque la frustración de tu pregunta es vieja, pero la causa ha cambiado. El dictado moderno no necesita un ritual de calibración de 45 minutos. Cuando hoy se equivoca con las palabras, casi nunca es porque el modelo sea torpe. Es porque el audio que llega al modelo es peor de lo que crees, y una sorprendente cantidad de eso se arregla en menos de un minuto. La precisión del modo local de Whisper se sitúa entre el 95% y el 99% en audio limpio en inglés, pero esa cifra da por sentadas varias cosas que a menudo no son ciertas.
Esto es un diagnóstico, no una lista de soluciones. Vamos a averiguar cuál de cinco cosas está arruinando tu transcripción, en un orden aproximado de con qué frecuencia cada una es la verdadera razón. Si lo que quieres es el recorrido a fondo sobre el micrófono y las palabras personalizadas, nuestra guía para arreglar un dictado que escribe palabras equivocadas domina ese terreno. Este artículo te ayuda a encontrar primero la causa, para que arregles lo que de verdad importa.
Qué precisión es realmente realista

Aquí va la cifra que nadie pone en su página de marketing. El reconocimiento de voz se mide con la tasa de error por palabra, o WER: la proporción de palabras que el sistema falla, contando sustituciones, eliminaciones e inserciones frente a lo que realmente dijiste. Cuanto más baja, mejor. Un WER de cero es una transcripción perfecta; la precisión por palabra es simplemente uno menos el WER.
En el benchmark limpio de inglés LibriSpeech, el modelo medio en inglés de Whisper registra alrededor de un 3% de WER, es decir, en torno al 97% de precisión. El modelo pequeño en inglés se sitúa cerca del 5,1% de WER, alrededor del 95%. Esas son cifras de audio limpio: una sala silenciosa, un buen micrófono, un lector cuidadoso. La vida real añade ruido, acentos, voces que se solapan y jerga, y cada una de esas cosas eleva legítimamente el WER.
Entonces, ¿qué es lo normal? Alrededor del 95% en un audio decente en inglés: una palabra equivocada de cada veinte. Eso no es un defecto. Es la herramienta funcionando tal como se diseñó. Si estás en el 85% en una cocina ruidosa con el micrófono integrado del portátil, el software no está roto: las condiciones están por debajo de lo que el modelo necesita. La solución son las condiciones, no un modelo más grande. Pon el listón en "una pequeña corrección por párrafo" y se te irá casi toda la rabia de la experiencia.
Los cinco sospechosos, por orden de probabilidad

Cuando el dictado sale mal, la causa casi siempre es una de cinco cosas. Repasa esta lista en orden. Las dos primeras explican la mayoría de los casos.
- El idioma ajustado. Estás hablando un idioma; la herramienta está escuchando otro, o adivinando.
- El micrófono. Un micrófono integrado de portátil a un metro de distancia oye tu sala más que tu boca.
- La sala. Ruido de fondo, una tele, una cocina con eco: el modelo transcribe todo eso.
- El modelo. Elegiste uno demasiado pesado para tu hardware, así que va lento o se atasca.
- La expectativa. El audio está bien y la herramienta está bien; estás midiendo contra el 100%, que nada alcanza.
Una autoprueba de 60 segundos: dicta las mismas dos frases tres veces, una en una sala en silencio y cerca del micrófono, otra al otro lado de la sala y otra con música sonando. Si la precisión oscila mucho entre esas tomas, tu problema es el audio (sospechosos 2 y 3), y ningún cambio de software vencerá a acercar el micrófono y cerrar la puerta. Si es mala incluso en la toma silenciosa y de cerca, fíjate en el idioma ajustado y en el modelo. Esa única prueba resuelve el caso de la mayoría de la gente en un minuto.
Causa 1: el idioma mal ajustado

Este es el arreglo de diez segundos que nadie comprueba primero. Si sabes qué idioma estás hablando, elígelo explícitamente en los ajustes en lugar de dejar la herramienta en detección automática. Cuando fijas un idioma concreto, la herramienta deja de intentar adivinar cuál está oyendo y dedica todo su esfuerzo a acertar las palabras: notablemente más rápida y más fiable.
Las trampas de la falta de coincidencia son reales. Los modelos multilingües de Whisper cubren 99 idiomas con detección automática, pero los modelos solo en inglés están limitados al inglés: dales otro idioma y obtendrás un disparate. Parakeet local maneja el inglés más 24 idiomas europeos y nada fuera de ese conjunto, así que dictarle japonés nunca funcionará por muy limpio que esté tu micrófono. Y si de verdad cambias de idioma a media frase, te conviene un modelo multilingüe de Whisper con detección automática, no uno solo en inglés. Ajusta la configuración a las palabras que salen de tu boca y un buen pedazo de la "imprecisión" desaparece antes de tocar nada más.
Causa 2: tu micrófono hace más daño que tu acento

La gente culpa a su acento. Casi siempre es el micrófono. Durante años yo culpé al mío; resultó que mi voz estaba bien y mi micrófono de portátil de 0 dólares era el problema. Aquí va la opinión que defenderé: la "IA" no arregla un audio malo. Un micrófono USB de 20 dólares hace más por la precisión que cualquier mejora de modelo: el micrófono y una sala silenciosa son las dos mayores palancas de precisión, por delante de qué modelo elijas. Gasta el dinero en hardware antes que en una descarga más grande.
El mecanismo es aburrido y físico. Un micrófono integrado de portátil está a un palmo o más de tu boca y capta el escritorio, el ventilador y la sala. Una pértiga de auriculares o un micrófono USB a quince centímetros oye tu voz y poco más. La herramienta solo puede transcribir lo que le llega, y una señal borrosa, lejana y ruidosa le da menos con que trabajar, así que adivina, y las adivinanzas son la forma en que aparecen las palabras equivocadas. No voy a reenseñar aquí todo el manual del micrófono y el vocabulario; nuestro análisis a fondo sobre el dictado que escribe palabras equivocadas cubre en detalle la colocación del micrófono, la ganancia de entrada y el vocabulario personalizado. Para este artículo, el punto es más concreto: si tu prueba de tres tomas mostró la precisión desplomándose con la distancia, el sospechoso es tu micrófono, no tu voz.
Causa 3: la sala, no las palabras

Un micrófono no puede des-oír una sala. Si hay una tele encendida, un lavavajillas en marcha, una oficina abierta a tu espalda o niños discutiendo las reglas de un juego de mesa a dos metros, el modelo transcribe esa energía junto a tu voz. No sabe cuál es el sonido que tú querías.
La solución es vergonzosamente de baja tecnología: cierra la puerta, apaga la música, aléjate del ventilador. Las superficies blandas ayudan: una sala con alfombra y cortinas es más amable con un micrófono que una cocina alicatada con paredes desnudas, donde tu voz rebota y llega dos veces. No necesitas espuma acústica. Necesitas que el lavavajillas termine su ciclo. He dictado correos del colegio mientras preparaba las fiambreras y el modelo aguantó bien, pero eso es porque la cocina estaba en silencio, no porque el software sea mágico. En el momento en que arranca la batidora, la precisión baja, y eso no es un fallo que reportar.
Causa 4: el modelo no es el adecuado para tu hardware
Esta es la que los competidores tratan como una caja negra, y sí que importa. Más grande no siempre es mejor. Elige un modelo demasiado pesado para tu equipo y irá lento, se quedará atrás y la experiencia parecerá rota aunque la precisión sobre el papel esté bien.
Whisper by Remskill no elige el modelo por ti. Presenta tres caminos y te deja escoger: modo Cloud usando tu propia clave de OpenAI, Parakeet local o Whisper local. El modo Cloud funciona en cualquier hardware porque no es más que una llamada de red. En local, la cuestión es la RAM. En un equipo de 8 GB, Parakeet (~600 MB), el modelo Base o el modelo Small funcionan con holgura, y el modelo Medium sufrirá. Los modelos Whisper más grandes —Large v3 con ~3 GB, o Turbo— quieren 16 GB o más y se benefician sobre todo de una GPU dedicada. La mejor opción multilingüe en precisión es Large v3, que admite 99 idiomas pero necesita ese margen de 16 GB.
El flujo de pulsar para hablar es el mismo elijas el camino que elijas: mantén pulsada la tecla de acceso rápido, habla, suelta, y el texto se pega en tu cursor. La tecla de acceso rápido por defecto es Ctrl+Space en Windows y la combinación Command+Option en macOS, ambas cambiables en Ajustes. ¿No sabes qué modelo encaja con tu portátil? Nuestra guía para elegir el modelo de Whisper adecuado asigna cada uno al hardware que necesita. La regla general: un modelo que encaja y va rápido le gana a uno más grande que se entrecorta.
Cuando la herramienta sí es el problema, y cuando es solo física
A veces lo has hecho todo bien —micrófono cerca, sala silenciosa, idioma correcto, modelo sensato— y aun así se equivoca una palabra de cada quince. Ese puede ser el techo real. Acentos marcados que el modelo ha visto poco, jerga técnica densa, dos personas hablando a la vez, un altavoz de teléfono al otro lado: todo eso eleva legítimamente el WER, y ningún ajuste lo arregla del todo. Para nombres y jerga de un dominio, Whisper local y el modo Cloud te permiten añadir una lista de Palabras personalizadas que inclina el reconocimiento hacia la grafía correcta; Parakeet no acepta esas pistas. Pero "aprende mi voz cuanto más lo uso" es un mito de la era Dragon: la conversión de voz a texto moderna no se adapta a tu voz individual con el tiempo, y ninguna cantidad de repetición la entrena. La palanca es el audio y los ajustes, no la paciencia.
Cuándo prescindir de Whisper para esto
Si lo único que haces es soltar un mensaje de 20 palabras o una nota rápida, no descargues nada. Tu sistema operativo ya dicta. En un Mac, Apple Dictation viene integrado y es gratis: pulsa la tecla del Micrófono o el atajo de teclado, y en las configuraciones compatibles procesa en el propio dispositivo. Se detiene por sí solo tras 30 segundos de silencio, así que va mejor para ráfagas cortas que para escritura larga. En Word, Dictate de Microsoft hace lo mismo con un micrófono y una conexión a internet.
Recurre a una herramienta dedicada cuando ya estés dictando párrafos enteros, quieras que funcione sin conexión o necesites precisión en nombres y jerga que las herramientas integradas se comen: nuestra recopilación de alternativas a Apple Dictation cubre las opciones. Para una respuesta de una línea, la herramienta integrada y gratuita es la decisión correcta.
La mayoría de las veces la respuesta a "¿por qué mi dictado es tan impreciso?" no es una confesión sobre tu voz. Es un palmo de distancia hasta el micrófono y un lavavajillas que olvidaste que estaba en marcha. Arregla el audio, ajusta el idioma correcto, elige un modelo que tu portátil pueda con él, y luego júzgalo contra el 95%, no contra el 100%. El familiar con los auriculares de Dragon estaba peleándose con 1999. Tú no. Tú te estás peleando, sobre todo, con tu cocina.
¿Quieres averiguarlo en un minuto?
Descarga Whisper y haz la prueba de las tres tomas: en menos de un minuto sabrás si el problema es la herramienta, la sala o solo física.



