Por Denys Medvediev

Explicación

Qué tan preciso es Whisper, en serio

Whisper es muy preciso con audio en inglés claro y rinde bien en los principales idiomas, pero no es perfecto. El factor que más influye en tu propia precisión es el micrófono y una habitación silenciosa, no el modelo que elijas. Un paso de IA limpia la puntuación y las muletillas después.

Última actualización: junio de 2026

Forma de onda de audio azul sobre una pantalla oscura, que representa el habla siendo medida para precisión de transcripción

Whisper es suficientemente preciso para el dictado cotidiano y las notas profesionales, con una tasa de error de palabras de alrededor del 3% en inglés leído en limpio con el modelo medium. La precisión baja con acentos, ruido de fondo, jerga y hablantes que se superponen. La mejora más grande que puede hacer la mayoría de la gente es un mejor micrófono y una habitación silenciosa, no un modelo más grande.

«¿Qué tan preciso es Whisper?» es una de esas preguntas que tiene una respuesta honesta y una respuesta de marketing, y no son la misma. La respuesta de marketing es «increíblemente preciso, de última generación». La respuesta honesta es «muy bueno con una grabación limpia, notablemente peor con una mala, y la diferencia entre ambas es básicamente tu micrófono». He visto al mismo modelo transcribir una oración perfectamente con un micrófono USB de $20 y destrozarla con el micrófono del portátil en una cocina ruidosa.

Así que esto no es una publicación de clasificación de benchmarks. Es la respuesta que le daría a un amigo que pregunta si puede confiar en el dictado por voz para trabajo real. Versión corta: sí, con matices que puedes controlar. Versión larga a continuación, incluido el único número que realmente importa y las tres cosas que silenciosamente arruinan la precisión sin importar qué tan bueno sea el modelo.

Esto es lo que la mayoría de las páginas sobre «precisión de Whisper» omiten. La precisión no es un número fijo. Es un número que cambia según el tamaño del modelo, el idioma que hablas y —más que cualquiera de esos factores— la calidad del audio de entrada. Un modelo pequeño con una grabación limpia supera a uno enorme con una grabación amortiguada, siempre.

La forma en que los investigadores miden esto es la tasa de error de palabras, normalmente escrita WER. Es el porcentaje de palabras que el sistema transcribe mal. El WER publicado de Whisper en inglés limpio es bajo. Tu WER un martes por la tarde con el lavavajillas en marcha es otra historia. Voy a explicar qué significa ese número, qué puntuación obtiene Whisper realmente, qué lo hace bajar, y la solución aburrida y barata que ayuda más que cualquier actualización de modelo.

Qué significa realmente «precisión»: la tasa de error de palabras

Primer plano de una forma de onda de edición de audio en un monitor oscuro, que ilustra el habla medida en busca de errores

Cuando la gente dice que un sistema de transcripción es «95% preciso», casi siempre se refiere a la tasa de error de palabras, o WER. Es la medida honesta más sencilla que existe: toma un pasaje conocido, haz que el sistema lo transcriba y cuenta las palabras que salieron mal. Un WER del 5% significa que 5 palabras de cada 100 están equivocadas: una sustitución, una omisión o una palabra insertada que no se dijo. Cuanto más bajo, mejor. Cero sería perfecto, y nada real llega a cero.

Esa última parte importa, así que lo digo sin rodeos. Ningún motor de voz es perfecto, y cualquier producto que afirme lo contrario está redondeando para una presentación. Los humanos tampoco son transcriptores perfectos: los transcriptores profesionales rondan el 4% de WER en audio limpio, y peor en grabaciones difíciles. Así que cuando lees que Whisper tiene «3% WER», eso es aproximadamente al nivel humano en ese tipo de audio, no magia. Es una herramienta que acierta la mayor parte del tiempo y se equivoca en ocasiones, como cualquier herramienta.

Un matiz más que vale la pena conocer. El WER cuenta cada palabra por igual, lo que no coincide con cómo realmente sientes los errores. Que Whisper confunda «haya» con «aya» es un error de 1 palabra que apenas se nota. Confundir el nombre de un cliente o una dosis de medicamento es un error de 1 palabra que arruina la oración. Por eso el número titular te dice la forma general de las cosas; no te dice si la palabra que importaba sobrevivió. Por eso una revisión final nunca pasa de moda, sin importar qué tan bajo sea el WER.

Entonces, ¿qué tan preciso es Whisper en la práctica?

En inglés leído y limpio, Whisper es genuinamente sólido. Los benchmarks documentados públicamente sitúan al modelo medium alrededor del 3% de tasa de error de palabras en un conjunto de prueba estándar de habla limpia, y al modelo más pequeño alrededor del 5%. En términos simples, con una grabación decente de alguien que habla con claridad, estás viendo una o dos palabras incorrectas cada pocas oraciones, generalmente un homófono o una coma de más, no un significado distorsionado. Para dictar correos, notas y borradores, eso supera ampliamente el umbral donde te ahorra tiempo en lugar de costarte.

El funcionamiento en la aplicación es el mismo sin importar qué tan precisa resulte la transcripción. Pulsas un atajo de teclado, hablas, lo sueltas y la transcripción se pega en el cursor en cualquier aplicación que esté activa. Mientras hablas aparece una pequeña cápsula para que sepas que está escuchando. Lo que ves en esa cápsula es la grabación en vivo: la cuestión de precisión se decide en el medio segundo después de que sueltas el botón, cuando el modelo convierte ese audio en texto.

Cancel
El panel de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

La advertencia honesta está justo al lado del buen número. Esas cifras de benchmark son habla leída en limpio en un laboratorio. Tu cocina, tu acento, tu hábito de dejar las oraciones a medias: nada de eso está en el conjunto de prueba. El benchmark te indica el techo. El resto de esta guía trata sobre qué tan cerca de ese techo llegas realmente, y los factores que lo deciden. Adelanto: el más importante no es el modelo.

Qué mueve realmente el número hacia arriba o hacia abajo

Tres factores determinan tu precisión en el mundo real mucho más que el nombre del modelo: el audio, el idioma y las propias palabras. La calidad del audio es lo primero por un margen amplio. Un micrófono integrado en un portátil que capta el eco de la habitación, un ventilador y un niño preguntando por qué la luna a veces no se ve le planteará a cualquier modelo un problema más difícil que un micrófono de podcast en una habitación tranquila. El mismo modelo, la misma oración, puede pasar de casi perfecto a notablemente incorrecto solo por la grabación. Este es el factor que casi nadie ajusta y el que más beneficios da.

El idioma es el segundo factor. Las versiones multilingües de Whisper cubren 99 idiomas, pero esa cobertura no es uniforme. El inglés tiene el mejor soporte, los principales idiomas europeos y asiáticos son sólidos, y los idiomas con pocos recursos —los que tienen menos datos de entrenamiento en internet— son más débiles y propensos a errores. La traducción al inglés solo está disponible en Whisper multilingüe; las versiones solo en inglés no la ofrecen, y las 25 lenguas de Parakeet tampoco. Así que «admite 99 idiomas» es cierto, pero eso no significa que los 99 sean igual de precisos. Prueba tu idioma específico con tu propio audio antes de confiar en él para algo importante.

El tercer factor es el contenido. Los acentos mueven el número: Whisper maneja una amplia gama sin necesidad de ningún paso de «entrenamiento», pero un acento fuerte con jerga técnica es el peor caso para cualquier motor. El vocabulario especializado también lo complica: nombres de productos poco comunes, términos médicos o legales, apellidos que nunca ha visto. Y los hablantes superpuestos son el muro real: Whisper está diseñado para una voz a la vez, así que dos personas hablando al mismo tiempo generarán un caos. En Whisper local puedes contrarrestar esto con vocabulario personalizado y hotwords, orientándolo hacia los nombres y términos que usas realmente. Parakeet no ofrece hotwords, y esa es una razón válida para elegir Whisper si tu trabajo está lleno de nombres propios.

Modelo más grande, más precisión, menos velocidad

Existe un compromiso real entre precisión y velocidad, y la aplicación te lo muestra en lugar de ocultarlo. Como regla general, cuanto más grande es el modelo de Whisper, más preciso es y más lento funciona. El modelo Small solo en inglés pesa alrededor de 480 MB y es rápido; Medium pesa unos 1,5 GB y es más preciso; el Large v3 multilingüe pesa aproximadamente 3 GB y ofrece la mejor precisión, pero necesita 16 GB de RAM y una máquina reciente para sentirse ágil. Elige el modelo más grande que tu hardware ejecute cómodamente, no el más grande que exista.

La excepción interesante es Turbo. La versión Turbo de Whisper (distil-large-v3) está documentada como aproximadamente 6 veces más rápida que Large v3 mientras conserva cerca del 99% de su precisión. Ese es el punto óptimo en el que aterriza mucha gente: casi la calidad del modelo más grande sin la espera. Pesa alrededor de 1,5 GB. Si quieres buena precisión y no quieres quedarte mirando una pantalla de carga, Turbo es el término medio pragmático.

Aquí está la parte que replantea todo el compromiso. La brecha de precisión entre un modelo pequeño y el más grande es real, pero más pequeña de lo que imaginarías: unos pocos puntos porcentuales de WER en audio limpio. La brecha de precisión entre el micrófono de un portátil y un micrófono USB decente en el mismo modelo es mayor. Así que antes de descargar 3 GB persiguiendo el último punto de precisión, conecta un mejor micrófono y graba en un lugar tranquilo. La verdad aburrida es que la mayoría de las quejas de «el modelo se equivocó» son en realidad «la habitación se equivocó».

Local o nube: dónde vive la mejor precisión

La aplicación no elige un camino por ti. Presenta tres y te deja elegir según lo que buscas: velocidad, cobertura de idiomas o precisión de primer nivel. En cuanto a precisión concretamente, así se comparan, porque la diferencia es real y vale la pena entenderla antes de comprometer una grabación con una de ellas.

Los tres caminos, clasificados según cómo se ordena realmente la precisión:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, la opción local más rápida con entre 5 y 10 veces más velocidad que Whisper en CPU. La precisión es buena, no tan buena como Large v3, pero más que suficiente para el dictado cotidiano en inglés. Cubre el inglés más 24 idiomas europeos, 25 en total. Sin traducción al inglés, sin hotwords. Elígelo cuando la velocidad importa y hablas principalmente inglés.
  • Whisper localmás lento que Parakeet en la misma máquina, pero las versiones multilingües alcanzan 99 idiomas, traducen al inglés y permiten orientarlo hacia vocabulario personalizado y hotwords: los controles de precisión que importan para los nombres propios y la jerga. La versión más grande (Large v3) es la opción local más precisa. Elígela para trabajo multilingüe, traducción o control fino.
  • Nube (OpenAI, BYOK)precisión de primera clase y acceso web usando tu propia clave de OpenAI, facturado directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, así que es el único camino donde tu audio sale de tu máquina. La función de nube es parte de Whisper Pro.

La clasificación honesta por precisión bruta es aproximadamente: la nube en primer lugar, Whisper Large v3 local en un cercano segundo lugar, Parakeet como un competente tercer lugar para inglés. Pero «mayor precisión» solo gana si tu audio es suficientemente limpio para merecerla. Enviar a la nube una grabación amortiguada desde el otro lado de la habitación no va a superar a Whisper local con una grabación limpia. Para la mayoría del dictado, ambos motores locales funcionan completamente en tu máquina sin enviar nada a un servidor, y eso es más que suficiente. Recurre a la nube cuando tengas una grabación genuinamente difícil o necesites consultar algo en internet en mitad de una oración.

Cuatro formas de mejorar tu propia precisión

El techo de Whisper lo fija el modelo. Tu suelo lo fija todo lo que lo rodea, y el suelo es donde la mayoría de la gente pierde precisión. La buena noticia es que los ajustes son baratos y toman unos minutos. Aquí están los cuatro que importan, en orden de cuánto ayudan.

Paso 1: arregla primero el micrófono.

Un micrófono USB de $20 hace más por la precisión que cualquier actualización de modelo. Ponlo cerca, en un ángulo lateral respecto a tu boca para que no haya explosivos, y lejos del ventilador del portátil. Este es el cambio con mayor retorno que puedes hacer.

Sabrás que funcionó cuando la misma oración que salía distorsionada con el micrófono del portátil salga limpia.

Paso 2: silencia la habitación.

Cierra la puerta, pausa la música, espera a que termine el ciclo del lavavajillas. El ruido de fondo y el eco son lo que realmente provoca la mayoría de los momentos de «el modelo se equivocó». Una habitación silenciosa no cuesta nada.

Sabrás que funcionó cuando las muletillas y las frases mal captadas dejen de aparecer en la transcripción.

Paso 3: adapta el modelo al trabajo.

Elige el modelo más grande que tu máquina ejecute cómodamente, o Turbo para una precisión casi máxima con velocidad. Para nombres y jerga en Whisper local, añade vocabulario personalizado y hotwords para que se incline hacia tus términos.

Sabrás que funcionó cuando un modelo termine de descargarse, aparezca como listo y tus nombres propios empiecen a transcribirse correctamente.

Paso 4: deja que un paso de IA lo limpie.

El dictado en bruto es una cadena de frases con muletillas. Whisper puede ejecutar un paso de limpieza con IA que corrige la puntuación, elimina los «eeh» y ordena la oración antes de pegarla. Di la frase de activación «Hey whisper» para activarlo.

Sabrás que funcionó cuando el texto pegado se lea como prosa editada, no como una transcripción.

Whisper
La aplicación de escritorio real de Whisper en la pantalla de configuración, con los paneles de Transcripción e IA abiertos.

Ese último paso vale la pena verlo, porque cambia lo que «precisión» significa para tu resultado. La transcripción puede ser perfecta palabra por palabra y aun así leerse como una cadena de frases, porque así es como habla la gente. El paso de limpieza corrige la legibilidad que el WER nunca mide. En un modelo local funciona a través de Ollama; en modo nube es gpt-5-mini por defecto. Aquí está la misma oración antes y después del paso:

Thinking...
El panel durante el paso de limpieza con IA, antes de que el texto ordenado llegue a tu cursor.
En bruto

um bueno la precisión básicamente depende del micrófono no del modelo y así una habitación tranquila ayuda más de lo que la gente cree

Limpio

La precisión depende básicamente del micrófono, no del modelo, y una habitación tranquila ayuda más de lo que la gente cree.

Nota que la limpieza no cambió el significado de una sola palabra; añadió la puntuación y eliminó las muletillas que llevaba la transcripción en bruto. Eso es lo que la gente confunde con precisión y no debería. El trabajo del modelo es escucharte correctamente. El trabajo del paso de IA es que las palabras correctas se lean bien. Ajusta el micrófono y la habitación, y ambos trabajos se vuelven más fáciles. Si quieres el flujo de hablar y limpiar en cualquier aplicación, el mismo atajo de teclado dictará prosa limpia en cualquier aplicación, no solo en una.

El veredicto honesto sobre la precisión de Whisper

Una balanza sobre una superficie oscura, que ilustra una valoración honesta de fortalezas y limitaciones

Entonces, la respuesta directa. Whisper es suficientemente preciso para confiar en él en trabajo real —correos, notas, borradores, resúmenes de reuniones— con audio limpio en un idioma bien soportado. No es perfecto, y nunca lo afirma. Los acentos, el ruido de fondo, la jerga pesada y los hablantes superpuestos bajan el número, y ningún modelo puede rescatar plenamente una mala grabación. Si llegaste aquí esperando «100% preciso», la respuesta honesta es que nada lo es, y quien venda eso está vendiendo humo.

¿Cuándo no vale la pena buscar la precisión de Whisper? Si solo dictas textos cortos ocasionalmente, tu sistema operativo ya hace esto gratis. En Windows, pulsa la tecla Windows + H para abrir el Dictado por voz donde esté tu cursor: puntúa solo, aunque pasa por los servidores de Microsoft y necesita internet, así que no es offline. En Mac, el Dictado en Preferencias del Sistema escribe en cualquier campo, y en Apple Silicon el texto general puede procesarse en el dispositivo. Para ráfagas cortas, esas opciones están bien, y no voy a decirte que instales nada para un recordatorio de una línea. Una herramienta dedicada se gana su lugar con notas más largas, trabajo multilingüe, privacidad sin conexión y los controles de precisión —hotwords, elección de modelo, un paso de limpieza— que las opciones integradas no ofrecen.

Si estás comparando los motores locales entre sí, la decisión de precisión frente a velocidad lo es todo, y se explica claramente en qué modelo de Whisper usar y en el análisis del modelo Parakeet. Para la mayoría de la gente la respuesta no tiene glamour: un modelo de tamaño medio, un micrófono decente, una habitación tranquila y un paso de limpieza. Esa combinación te acerca mucho al benchmark con el audio que grabas realmente.

Si la precisión te preocupa porque quieres prescindir completamente de la nube, los compromisos en reconocimiento de voz sin conexión explican cómo aguantan los modelos locales sin red de por medio.

Pasé una semana al principio convencido de que una actualización de modelo arreglaría mis transcripciones, descargué 3 GB y recuperé quizás un punto de WER. Luego compré un micrófono USB de $20 y me alejé de la mesa de la cocina, y las transcripciones mejoraron visiblemente esa misma tarde. El modelo nunca fue el problema. La habitación sí lo era. Whisper es muy preciso; si lo ves depende de qué le alimentas.

Escúchalo tú mismo con tu propia voz

Descarga Whisper, conecta un micrófono decente y dicta un párrafo. La precisión es mucho más fácil de juzgar con tu propio audio que con el benchmark de otra persona.

Modo local gratuito para cualquier cuenta registrada. No se requiere tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, muy probablemente dictando las respuestas.

Lectura adicional