Explicación
Qué modelo de Whisper debería usar
No existe un único modelo de Whisper correcto: el adecuado depende de si te importa más la velocidad, la precisión, el idioma o el espacio en disco. Esta guía asocia cada modelo disponible a un caso de uso para que puedas elegir en aproximadamente un minuto, y te dice cuándo conviene olvidarte de Whisper y usar Parakeet en su lugar.
Última actualización: junio de 2026

El mejor modelo de Whisper depende de la tarea: elige un modelo pequeño en inglés para dictado cotidiano en inglés, un modelo multilingüe para otros idiomas, el modelo grande para máxima precisión o Turbo para velocidad cercana a la calidad del grande. Para velocidad principalmente en inglés, Parakeet gana a Whisper. La app los presenta todos y deja que el usuario elija.
Esta es la pregunta que más me hacen, normalmente formulada como «descargué la app, ¿y ahora qué modelo elijo?». Es una pregunta justa, y la primera respuesta honesta es que no hay un modelo que gane a todos. Hay un modelo que gana para tu máquina, tu idioma y según cuánto te importe esperar medio segundo de más. Por eso la app no elige por ti. Te muestra las opciones y se aparta del camino.
Suena a excusa hasta que ves la diferencia. El modelo más pequeño en inglés ocupa unos 140 MB y corre en un portátil de 2016. El mejor modelo multilingüe ronda los 3 GB y pide 16 GB de RAM. Entre esos dos viven otras seis opciones más un motor aparte llamado Parakeet. Si eliges mal, esperas demasiado o transcribes en el idioma equivocado. Si eliges bien, te olvidas de que el modelo existe, que es justo el objetivo.
Aquí está la idea que hace que toda la lista encaje. Cada modelo es un equilibrio entre cuatro cosas: velocidad, precisión, cuántos idiomas conoce y cuánto disco y RAM consume. No puedes maximizar las cuatro. Un modelo de 3 GB es más preciso y conoce más idiomas, pero es más lento y no cabe en una máquina de 8 GB. Un modelo de 140 MB es instantáneo, pero solo hace inglés y hasta cierto punto.
Así que la pregunta real no es «cuál es el mejor modelo». Es «qué compromiso quiero». Una vez que sabes si eres alguien que solo dicta en inglés en un portátil modesto, un traductor que trabaja en nueve idiomas, o alguien que solo quiere la opción local más rápida que existe, la elección se resuelve sola. Voy a recorrer los modelos solo en inglés, los multilingües, dónde Parakeet los supera a todos y la recomendación en una línea por si no quieres leer el resto.
Empieza por una pregunta: ¿qué es lo que más te importa?

Antes de cualquier nombre de modelo, responde a una pregunta: ¿qué te importa más ahora mismo: la velocidad, la precisión, la cobertura de idiomas o el espacio en disco? Solo puedes elegir una como prioridad, porque los modelos se compensan entre sí. La mayoría de quienes se agobian con esto no han decidido qué están optimizando, y por eso la lista parece paralizante. No lo es. Son cuatro respuestas cortas vestidas con ocho nombres.
Si quieres velocidad y hablas inglés, acabarás en un modelo pequeño en inglés o, más probablemente, en Parakeet. Si necesitas un idioma distinto del inglés, estás en la familia multilingüe te guste o no. Si quieres la transcripción más precisa que puedas obtener en local y tienes la RAM para ello, ese es el modelo grande. Y si el espacio en disco está justo, el modelo más pequeño es tu amigo y el de 3 GB queda descartado. Ese es todo el árbol de decisiones, y el resto de esta guía solo rellena los nombres.
Una cosa que la app hace a propósito: nunca te impone un valor por defecto. No hay una insignia de «recomendado» empujándote hacia el modelo que casualmente nos hace quedar bien en un benchmark. Ves Cloud, ves Parakeet, ves los ocho modelos de Whisper divididos en solo inglés y multilingües, y eliges. Si ya has configurado voz a texto en Windows o en Mac antes, esta es la misma pantalla apuntando a otra pregunta.
Los modelos solo en inglés, del portátil minúsculo a la máxima precisión
Si solo dictas en inglés, los modelos solo en inglés son la opción eficiente: prescinden de la maquinaria multilingüe y dedican ese presupuesto al inglés. Hay cuatro, y se ordenan con limpieza desde «portátil viejo» hasta «el mejor inglés que puedes correr en local». Pulsas la tecla rápida, hablas, sueltas, y la transcripción se pega en el cursor sin importar cuál elegiste; la única diferencia es la velocidad y la frecuencia con que acierta una palabra difícil. Una pequeña cápsula aparece mientras hablas para que sepas que está escuchando:
El más pequeño es Base, unos 140 MB. Es el que conviene elegir en un portátil de 2016 o en una máquina de 8 GB donde quieres un dictado que simplemente funcione sin pensar en la RAM. Por encima está Small, con unos 480 MB, la opción equilibrada en inglés: más lento que Parakeet, pero admite traducir al inglés y sesgo por palabras clave, cosa que Parakeet no hace. Luego Medium, con unos 1,5 GB, que pide 16 GB de RAM y te da la mayor precisión en inglés llano de la familia. (En un benchmark público, el modelo Medium en inglés se sitúa en torno a un 3 % de tasa de error de palabra con audio limpio; Small está más cerca del 5 %. Los números reales dependen mucho más de tu micrófono que de cuál de estos elijas.)
El cuarto confunde a la gente, así que voy a ser claro. Turbo, que es el modelo distil-large-v3, también ronda los 1,5 GB y se describe como 6× más rápido que el modelo grande con el 99 % de su precisión. Suena a chollo, y para inglés casi lo es: es la opción cuando quieres una precisión en inglés cercana a la mejor sin la penalización de velocidad del modelo grande completo. La trampa está en la etiqueta «solo inglés»: estos cuatro saben inglés y solo inglés. En el momento en que necesitas un segundo idioma, has salido por completo de esta familia, que es la siguiente sección.
Los modelos multilingües, para los otros 98 idiomas
En el momento en que tu audio no es inglés, quieres un modelo multilingüe. Las versiones multilingües de Whisper cubren 99 idiomas con detección automática, y son el único camino local que puede traducir el habla al inglés mientras transcribe. Los modelos solo en inglés no pueden hacerlo, y Parakeet tampoco. Así que si dictas en ucraniano, redactas una nota en japonés o quieres que una grabación en español salga como texto en inglés, esta familia es la respuesta, sin más.
Aquí también hay cuatro, y reflejan las tallas de los solo en inglés. Small, unos 480 MB, es la base multilingüe rápida: el modelo por defecto general con el que viene la app, porque es la apuesta inicial más segura cuando nadie sabe aún tu idioma. Medium, unos 1,5 GB, cambia velocidad por una calidad notablemente mejor. Large v3, con unos 3 GB, es la mejor precisión que puedes obtener en local y la opción adecuada para trabajo multilingüe profesional, siempre que tengas 16 GB de RAM para alimentarlo. Y Large v3 Turbo, unos 1,62 GB, es el nivel multilingüe rápido: casi toda la calidad del modelo grande con una fracción de la espera.
Una nota sobre el recuento de idiomas, porque el número seguro para marketing y el real difieren según lo que entiendas por ello. Los modelos multilingües cubren de verdad 99 idiomas; los solo en inglés cubren exactamente uno. Si hablas sobre todo inglés y de vez en cuando tocas un segundo idioma europeo, tienes una opción más rápida que cualquiera de estos, y es Parakeet, que es lo siguiente que hay que entender, porque es el modelo que la gente elige por error o descarta por error con más frecuencia.
Cuándo Parakeet gana a Whisper, y cuándo no

Parakeet no es un modelo de Whisper en absoluto: es el motor TDT de NVIDIA, de unos 600 MB, y es la opción local más rápida con la que viene la app, descrita como de 5 a 10 veces más rápida que Whisper en CPU. Si tienes una CPU antigua o de portátil sin GPU disponible, esa diferencia de velocidad marca la diferencia entre un dictado que se siente instantáneo y un dictado que te hace esperar. Para el trabajo cotidiano en inglés, Parakeet es el que uso primero.
Cubre el inglés más otros 24 idiomas europeos —25 en total—, así que para muchos usuarios europeos es suficiente. Lo que deliberadamente no hace es lo exclusivo de Whisper: nada de traducir al inglés, nada de sesgo por palabras clave, nada de indicación de vocabulario personalizado. Si tu trabajo es monolingüe en inglés (o en uno de esos 24 idiomas europeos) y solo lo quieres rápido, Parakeet gana y la cuestión está zanjada. Hay más sobre él en el desglose del modelo Parakeet si quieres el panorama completo.
Whisper gana en el momento en que sales de esa caja. ¿Necesitas chino, japonés o coreano? Whisper multilingüe, porque Parakeet no los habla. ¿Necesitas traducir una grabación al inglés? Whisper multilingüe, el único camino local que lo hace. ¿Quieres sesgar el modelo hacia una lista de nombres de productos o jerga para que deje de destrozarlos? Whisper, mediante palabras clave. La regla general: Parakeet para velocidad en inglés, Whisper para idiomas, traducción y control. La app trae ambos porque ninguno es la respuesta correcta para todo el mundo.
Tamaño, velocidad y precisión: cómo funciona el compromiso de verdad
Ayuda ver las tres fuerzas una al lado de otra, porque cada modelo no es más que un punto distinto del mismo triángulo. Los archivos más grandes son más precisos y más lentos; los más pequeños son más rápidos y más ligeros con la RAM; y los motores especiales doblan la curva. Aquí va la versión honesta de cada fuerza, ya que la app te hace elegir y prefiero que elijas conociendo el coste.
Tres formas de leer la lista, según lo que te esté apretando:
- Si el problema es la velocidad — tira de Parakeet primero: unos 600 MB y de 5 a 10 veces más rápido que Whisper en CPU. En una máquina sin GPU, nada local lo iguala para el inglés cotidiano. El coste es no poder traducir al inglés ni usar palabras clave.
- Si el problema es la precisión o el idioma — sube de talla en la familia Whisper. Large v3, con unos 3 GB, es la mejor precisión local y cubre 99 idiomas, pero pide 16 GB de RAM. Las variantes Turbo te dan casi toda esa calidad con mucha menos espera. Small y Medium son el término medio sensato.
- Si el problema es el espacio en disco o la RAM — quédate en lo pequeño (Base, con unos 140 MB), o sáltate lo local por completo y usa el modo Cloud, que funciona en cualquier hardware porque es solo una llamada de red a OpenAI con tu propia clave. Cloud forma parte de Whisper Pro y necesita internet.
La verdad aburrida es que, para la mayoría, en una máquina reciente, la diferencia entre los modelos medianos es menor que la diferencia que marca tu micrófono. Un micro USB de 20 $ hace más por la precisión que saltar de Small a Large; los benchmarks públicos de Whisper lo respaldan, y lo he visto pasar en mi propio escritorio más de una vez. Así que no te agobies con Medium frente a Large el primer día. Elige algo que quepa en tu RAM, ponte a dictar y mejora el modelo más tarde si una palabra sigue saliendo mal. El modelo que de verdad conservarás es el que sea lo bastante rápido como para que olvides que está ahí.
Prueba uno, y cambia en dos clics si no encaja
Aquí está la parte que le quita presión a toda la decisión: no te estás casando con el modelo que elijas primero. Cambiar son dos clics en Ajustes, y el único coste real es la descarga del modelo al que te muevas. Así que la estrategia correcta no es investigar durante una hora: es hacer una primera apuesta razonable, dictar con ella un día y cambiar si te molesta. Todo el flujo local es gratis para cualquier cuenta registrada, sin pedir método de pago al registrarte, así que probar unos cuantos modelos no te cuesta más que espacio en disco.
Paso 1: abre Ajustes y busca el panel de Transcripción.
Ahí vive la lista de modelos, dividida en solo inglés y multilingües, con Parakeet y Cloud al lado. Nada viene preseleccionado como «el mejor».
Sabrás que estás en el sitio correcto cuando veas la lista de modelos con los tamaños junto a cada nombre.
Paso 2: haz tu primera apuesta a partir de la sección anterior.
Inglés y quieres velocidad: Parakeet. Inglés y quieres precisión: Small o Medium en inglés. Otros idiomas: un modelo multilingüe. Justo de RAM: Base.
Sabrás que funcionó cuando el modelo termine de descargarse y aparezca como listo.
Paso 3: dicta con él durante un día.
Úsalo en trabajo real, no en una frase de prueba. Aprendes más de una tarde de notas de verdad que de cualquier gráfico de benchmark.
Sabrás que es el modelo correcto cuando dejes de notarlo y simplemente hables.
Paso 4: cambia si no encaja.
Demasiado lento, elige algo más pequeño o Parakeet. Le falta un idioma o destroza palabras, ve a multilingüe o más grande. Dos clics, una descarga, listo.
Sabrás que funcionó cuando el nuevo modelo se cargue y tu siguiente grabación lo use.
La gente trata esto como una puerta de un solo sentido, y no lo es. El primer modelo que usé no fue el que conservé; empecé con un modelo multilingüe por costumbre, me di cuenta de que dictaba en inglés todo el día y me pasé a Parakeet por la velocidad. Fueron dos clics y lo que tarda en bajarse un café. Trata tu primera elección como un borrador.
La recomendación rápida, por si te has saltado hasta el final
Si no lees nada más, aquí va. Inglés, lo quieres rápido, máquina modesta: Parakeet. Inglés, quieres la mejor precisión local: el modelo Medium en inglés, o Turbo si quieres esa precisión sin la espera. Otro idioma, o necesitas traducción: un modelo multilingüe; Small para empezar, Large v3 si la precisión importa y tienes 16 GB de RAM. Justo de disco o RAM: Base. Quieres precisión de primer nivel con acceso a la web y no te importa usar tu propia clave de OpenAI: Cloud. Ese es todo el mapa.
Elijas el que elijas, la transcripción en bruto sale como un texto corrido, y eso vale para cualquier motor de voz, no solo el nuestro. Dices «vale, pon el modelo de la reunión en medium y recuérdame probar el grande luego», y eso es el muro sin puntuación que recuperas. Whisper puede hacer una pasada de limpieza con IA para arreglar la puntuación y quitar las muletillas antes de que el texto aterrice: di la frase de activación «Hey whisper» y lo ordena primero. En un modelo local eso corre a través de Ollama; en modo cloud es gpt-5-mini por defecto.
vale pon el modelo de la reunión en medium y recuérdame probar el grande luego eh igual parakeet para lo rápido
Vale, pon el modelo de la reunión en Medium y recuérdame probar el Large luego; igual Parakeet para lo rápido.
Una advertencia honesta que merece estar al final de cualquier guía sobre «qué modelo»: si todo lo que haces es soltar una nota de 30 palabras en un campo de texto, puede que no necesites elegir modelo en absoluto. En Windows, la barra de Escritura por voz integrada se abre con la tecla Windows + H allá donde esté tu cursor: puntúa sola y es gratis, aunque pasa por los servidores de Microsoft y necesita internet. En un Mac, el Dictado en Ajustes del sistema hace lo mismo, y en Apple Silicon el texto general puede procesarse en el dispositivo. Por debajo del umbral en el que la precisión y la longitud empiezan a doler, usa lo que ya tienes en tu máquina. Empezamos a valer la descarga cuando trabajas con volumen real, quieres privacidad sin conexión o necesitas un idioma y un control que lo integrado no ofrece. No voy a decirte que instales una app para dictar la lista de la compra.
El «mejor» modelo de Whisper es aquel en el que dejas de pensar. Elige el compromiso que te importa, haz una primera apuesta y cambia en dos clics si te molesta. He puesto en marcha sistemas en los que el diagrama de arquitectura ya estaba mal en el segundo commit, así que le tengo un respeto sano al «pruébalo y ajusta». Tu elección de modelo es menos arriesgada que eso, y mucho más fácil de deshacer. Empieza por algún sitio. La descarga es la parte lenta; decidir no debería serlo.
Elige un modelo y ponte a hablar
Haz una primera apuesta, dicta un día, cambia en dos clics si no encaja. La app te muestra todas las opciones y te deja elegir.
Modo local gratis para cualquier cuenta registrada. No hace falta tarjeta para empezar.



