Por Denys Medvediev

Explicación

El modelo NVIDIA Parakeet

Parakeet es el modelo de voz a texto de código abierto de NVIDIA. La versión actual, parakeet-tdt-0.6b-v3, pesa unos 600 MB, funciona sin conexión y es entre 5 y 10 veces más rápida que Whisper en una CPU. Esto es lo que es y cómo se compara.

Última actualización: junio de 2026

Forma de onda de audio azul abstracta sobre un chip procesador, evocando el reconocimiento de voz en el dispositivo

El modelo NVIDIA Parakeet es un modelo de voz a texto de código abierto construido sobre un codificador FastConformer y un decodificador Token-and-Duration Transducer. La versión actual, parakeet-tdt-0.6b-v3, tiene unos 600 millones de parámetros, transcribe 25 idiomas europeos incluido el inglés y es entre 5 y 10 veces más rápida que Whisper en una CPU. No traduce a inglés.

La mayoría de la gente escucha la palabra «Parakeet» esperando un pájaro y se va con un modelo de voz a texto. Es de NVIDIA, está disponible bajo una licencia permisiva y la versión que importa para el dictado cotidiano se llama parakeet-tdt-0.6b-v3. El «0.6b» es el número de parámetros — unos 600 millones. En disco ocupa alrededor de 600 MB. Es suficientemente pequeño para vivir en tu portátil y no necesitar ningún servidor.

Me importa esto por una razón poco glamorosa: nosotros lo incluimos. Parakeet es uno de los motores locales dentro de Whisper, justo al lado de los modelos Whisper de OpenAI, y la pregunta que más recibo es «cuál elijo, y por qué el pájaro va tan rápido». Así que aquí va la versión sin rodeos: qué es Parakeet en realidad, cómo su decodificador lo hace veloz y el punto exacto en el que te recomendaría pasarte a Whisper.

Aquí está lo que la jerga de las tarjetas de modelo oculta. Parakeet es un modelo de transcripción y solo de transcripción. Escucha audio y escribe las palabras, con puntuación y mayúsculas incluidas. No resume, no traduce al inglés y no admite palabras clave predefinidas. Lo que hace, lo hace muy rápido.

Así que el enfoque útil no es «Parakeet contra Whisper, ¿quién gana?». Es «¿para qué sirve cada uno?». Parakeet es la opción rápida para inglés y lenguas europeas que funciona completamente sin conexión. Whisper es la opción de 99 idiomas, con traducción al inglés y control fino, aunque más lenta en el mismo equipo. Te explicaré la velocidad, te daré la lista de idiomas sin rodeos y te mostraré cómo usar Parakeet gratis, de forma local, en unos dos minutos.

Qué es realmente el modelo Parakeet

Primer plano de una placa de circuito con un procesador iluminado, representando la transcripción local en el dispositivo

Parakeet es una familia de modelos de reconocimiento automático de voz publicada por NVIDIA. El que nosotros incluimos, y el que la mayoría de la gente tiene en mente, es parakeet-tdt-0.6b-v3, lanzado en agosto de 2025 bajo la licencia CC-BY-4.0. «0.6b» equivale a 600 millones de parámetros. La descarga pesa aproximadamente 600 MB. Dentro de Whisper llega como un modelo ONNX ejecutado a través de transcribe-rs, nuestra capa de transcripción en Rust puro, lo que significa que no hay intérprete de Python ni un proceso separado que vigilar.

Su función es estrecha y no lo oculta. Parakeet toma audio y devuelve texto con puntuación y mayúsculas automáticas, más marcas de tiempo a nivel de palabra si las pides. Detecta el idioma por sí solo — no tienes que decirle qué estás hablando. Lo que no hace es igual de importante: sin traducción al inglés, sin sesgo de vocabulario personalizado, sin lista de palabras clave para «potenciar estas palabras». Transcribe. Ese es todo el contrato.

El «TDT» del nombre es la parte interesante, y es la razón por la que el modelo es rápido en lugar de simplemente pequeño. TDT son las siglas de Token-and-Duration Transducer. El codificador es un FastConformer, que es la versión eficiente de NVIDIA de la arquitectura Conformer que usan la mayoría de los modelos de voz modernos. La combinación — codificador rápido, decodificador ingenioso — es la ingeniería detrás del número titular, y merece una sección propia.

Cómo alcanza esa velocidad un Token-and-Duration Transducer

Los modelos transductor más antiguos avanzan por el audio fotograma a fotograma y, en cada uno, preguntan «¿hay aquí una nueva pieza de palabra o no?». La mayoría de las veces la respuesta es «no» — emiten un espacio en blanco, avanzan un fotograma y preguntan de nuevo. Ese bucle de emisión de espacios en blanco es la mayor parte del trabajo y del tiempo desperdiciado. Es el equivalente en modelos de voz a leer una frase píxel a píxel.

Un Token-and-Duration Transducer cambia la pregunta. En lugar de predecir solo el siguiente token, predice el token y cuántos fotogramas saltarse antes del siguiente. Cuando hay un tramo de vocal larga o una pausa, el modelo lo salta en un solo paso en lugar de avanzar fotograma a fotograma. Menos pasos de decodificación, las mismas palabras de salida. Esa predicción de duración es el truco al que apunta el nombre «TDT», y de ahí viene la velocidad.

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

Desde tu silla, nada de eso se nota. Mantienes una tecla rápida, hablas, la sueltas y el texto aparece en el cursor — la cápsula de superposición de arriba es lo único que ves mientras escucha. La matemática del decodificador es fontanería oculta. Pero explica por qué Parakeet termina un fragmento de audio mientras un modelo Whisper comparable sigue masticando los espacios en blanco, y en una CPU esa diferencia es la que separa «instantáneo» de «espera un momento».

Parakeet contra Whisper, sin el marketing

La gente lo trata como una pelea de gallos. No lo es. Son dos herramientas con formas distintas, y dentro de nuestra app puedes tener las dos instaladas y cambiar por grabación. La forma más clara de tenerlo en mente: Parakeet optimiza para velocidad y simplicidad sin conexión; Whisper optimiza para cobertura y control.

Parakeet es más rápido — entre 5 y 10 veces más rápido que Whisper en una CPU, según los propios datos de NVIDIA y nuestras pruebas. Cubre 25 idiomas, todos europeos, con inglés entre ellos. Añade puntuación y mayúsculas de serie. Lo que sacrifica: no puede traducir otros idiomas al inglés, no tiene sesgo de palabras clave ni vocabulario personalizado, y no toca las decenas de idiomas no europeos — chino, japonés, coreano, árabe, hindi — que las versiones multilingüe de Whisper manejan sin pestañear.

Whisper, en las versiones multilingüe de OpenAI, alcanza 99 idiomas y traduce cualquiera de ellos al inglés. También expone los controles que Parakeet no tiene: tamaño de haz, un prompt inicial, sesgo de palabras clave para nombres y jerga. El coste es tiempo de reloj en el mismo hardware, y los modelos más grandes necesitan más RAM. Así que la regla general es clara: si hablas inglés u otro idioma europeo y lo quieres ya, Parakeet. Si necesitas traducción, un idioma no europeo o control fino, Whisper. La verdad aburrida es que la mayoría de quienes prueban ambos acaban quedándose con los dos.

Los números reales: velocidad y 25 idiomas

Un mapa mundial iluminado con trazos de luz conectando ciudades, evocando muchos idiomas y procesamiento rápido

Empecemos por la velocidad, porque es la razón por la que Parakeet existe en nuestra app. La cifra declarada por NVIDIA es entre 5 y 10 veces más rápido que Whisper en una CPU, y coincide con lo que vemos. En el Open ASR Leaderboard público el modelo publica un factor en tiempo real de miles — lo que significa que puede transcribir mucho más rápido de lo que se reproduce el audio cuando dispone de una GPU potente. Tú no tendrás esa GPU. Pero incluso en una CPU de portátil normal, el decodificador que salta duraciones mantiene un dictado corto con sensación de instantáneo en lugar de lento.

Ahora la lista de idiomas, enunciada con precisión para que no te lleves una sorpresa. Parakeet v3 maneja 25 idiomas, todos europeos, con el inglés como uno de ellos — o sea, inglés más otros 24, no 99. El conjunto va desde los evidentes (inglés, francés, alemán, español, italiano, portugués, neerlandés, polaco) pasando por los países nórdicos y bálticos hasta el ruso y el ucraniano. Detecta automáticamente cuál estás hablando. Si una página de modelo o un foro te dice que Parakeet soporta 99 idiomas, lo está confundiendo con Whisper. Son 25, y los hace rápido.

Dos límites más que vale la pena decir en voz alta, porque son los que hacen tropezar a la gente. Parakeet no tiene modo de traducción al inglés — transcribe lo que dijiste en el idioma en que lo dijiste, punto. Y no admite palabras clave, así que si tu dictado está lleno de nombres de productos inusuales o apellidos raros, no puedes introducirlos de antemano. Ninguno de los dos es un defecto; son simplemente los límites de un modelo rápido y enfocado. (La precisión con inglés estándar es genuinamente buena — en el benchmark de referencia de voz limpia se sitúa por debajo del 2% de tasa de error de palabras — pero «bueno» y «ajustable para tu jerga particular» son promesas distintas.)

Usa Parakeet gratis, de forma local, en dos minutos

No necesitas una cuenta de NVIDIA, tener Python instalado ni una GPU para probarlo. Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione y unos minutos. Todo el pipeline local — Parakeet incluido — es gratuito para cualquier cuenta con sesión iniciada, sin que se pida método de pago al registrarse. Aquí está la secuencia.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Todo el pipeline de transcripción local se abre de inmediato.

Sabrás que funcionó cuando el icono de la bandeja de la app aparezca y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige Parakeet local.

La app presenta tres opciones y no elige por ti: Nube, Parakeet local, Whisper local. Elige Parakeet local y deja que el modelo de unos 600 MB se descargue una vez.

Sabrás que funcionó cuando Parakeet termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu tecla rápida.

En Windows el valor predeterminado es Ctrl+Space; en Mac, Command+Option mantenidos como pulsa para hablar. En Mac, concede el permiso de Accesibilidad cuando se solicite; sin él, el pegar en el cursor no puede llegar a otras apps.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Coloca el cursor en cualquier sitio y habla.

Haz clic en cualquier cuadro de texto — un correo, un documento, un chat — mantén la tecla rápida, di una frase y suéltala. Parakeet la transcribe y el texto aparece donde está el cursor.

Sabrás que funcionó cuando tu frase hablada aparezca en el campo como texto, un instante después de soltar la tecla.

Whisper
La app de escritorio real de Whisper en la pantalla de ajustes, con el panel de Transcripción donde se elige Parakeet.

La parte lenta es esa única descarga del modelo. Todo lo demás son los cuatro pasos anteriores, y una vez que Parakeet está en disco nunca llama a casa — el audio y la transcripción se quedan en tu equipo. Si alguna vez has configurado el dictado en Windows o en Mac, es el mismo flujo con un motor más rápido por debajo.

Precisión, frases encadenadas y limpieza del texto

El dictado en bruto de cualquier motor, Parakeet incluido, sale como un bloque sin pausas. Dices «vale pues mueve la reunión a las diez archiva el borrador de parakeet y avisa a marco», y eso es el muro sin puntuación que obtienes. Parakeet sí añade su propia puntuación y mayúsculas, lo cual ya es más de lo que hacen muchos modelos, pero no va a eliminar tus «eeeeh» ni a convertir un pensamiento desordenado en una línea limpia.

Ahí es donde un pase de IA se gana su lugar. Di la frase de activación «Hey whisper» y el texto transcrito se mejora antes de aterrizar — rellenos eliminados, frases encadenadas separadas, el lío hablado convertido en algo que realmente enviarías. En una configuración local eso pasa a través de Ollama en tu propio equipo; en modo nube es gpt-5-mini por defecto. Parakeet hace la escucha, la mejora hace el orden.

Thinking...
En bruto

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

Limpio

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

En cuanto a la precisión en sí, Parakeet es genuinamente sólido con inglés estándar — por debajo del 2% de tasa de error de palabras en el benchmark de referencia, lo que lo sitúa a la altura de Whisper, no por debajo. La advertencia honesta es la que nadie comercializa: ningún modelo arregla un audio malo. Un micrófono USB de $20 hace más por tu precisión de transcripción que cambiar de motor. Lo aprendí de la manera aburrida, tras culpar al modelo durante una semana de grabaciones incomprensibles que resultaron ser el micrófono integrado de mi portátil captando el lavavajillas.

Ese mismo hábito de hablar y luego limpiar da mucho de sí más allá de una sola app — puedes escribir correos y documentos enteros con tu voz usando una sola tecla rápida, así un párrafo largo se convierte en unas pocas frases habladas en lugar de algo que teclear.

Cuándo elegir Whisper en lugar de Parakeet

Dos flechas trazadas con tiza en el pavimento apuntando en direcciones distintas, ilustrando una elección de herramienta

Te haría un flaco favor si vendiera Parakeet como la respuesta a todo. Es la opción rápida, no la universal, y hay casos claros en los que lo dejaría de lado para coger uno de los modelos Whisper — o el dictado gratuito que ya viene en tu equipo.

Elige Whisper sobre Parakeet cuando se cumpla alguna de estas condiciones. Necesitas un idioma fuera de los 25 de Parakeet — chino, japonés, coreano, árabe, hindi, cualquier cosa no europea — porque Parakeet simplemente no los cubre. Necesitas traducción al inglés, que Parakeet no tiene. O dictas mucha jerga, nombres poco comunes o términos de producto y quieres sesgo de palabras clave para fijarlos, algo que solo Whisper ofrece. Para cualquiera de esos casos, las versiones multilingüe de Whisper y su alcance de 99 idiomas son la herramienta correcta, aunque vayan más lentas en el mismo portátil.

Y a veces la herramienta correcta no es la nuestra. Si solo apuntas una nota de 20 palabras en un campo de texto, tu sistema operativo ya lo hace gratis: la tecla Windows + H abre Escritura por voz donde esté el cursor (necesita internet, así que no funciona sin conexión), y en un Mac, el Dictado en Ajustes del Sistema → Teclado escribe en cualquier lugar, procesado en el dispositivo en Apple Silicon. Por debajo del umbral donde la velocidad, la privacidad sin conexión o un pase de IA realmente importan, usa lo que es gratis. No voy a decirte que instales un motor para un recordatorio de una línea.

Si estás eligiendo una configuración en un equipo Apple en concreto, las diferencias entre Parakeet, Whisper y el propio dictado de Apple están explicadas en las mejores opciones de voz a texto para Mac, que recorre la misma disyuntiva velocidad-cobertura desde el lado de Mac.

Parakeet es un modelo de 600 MB que lleva el nombre de un pájaro y hace una cosa — convertir el habla europea en texto, rápido, en tu propio equipo — y se niega a fingir que hace más. Encuentro esa contención curiosamente tranquilizadora en un año en que cada herramienta afirma hacerlo todo. Dicté el caótico primer borrador de este explicador con Parakeet funcionando en local, luego dejé que el pase de IA limpiara las frases encadenadas, y después cambié a un modelo Whisper para una línea citada en ucraniano que Parakeet manejó bien pero que yo quería traducir. Dos motores, una tecla rápida, ningún servidor. Ese es el punto de tener los dos.

Prueba Parakeet en tu propio equipo

Mantén la tecla rápida, habla, suéltala. Parakeet transcribe localmente y el texto aparece en tu cursor — en cada app que abras.

Modo local gratuito para cualquier cuenta con sesión iniciada. Sin tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Yo soy quien lee nuestro correo de soporte, muy probablemente dictando las respuestas.

Lecturas adicionales