Por Denys Medvediev

Explicativo

¿Es Whisper gratuito?

Sí — Whisper de OpenAI es de código abierto bajo la licencia MIT, por lo que el modelo es gratuito para descargar y usar, incluso comercialmente. La pega está en ejecutarlo: la configuración, las dependencias y tu propio hardware. La forma más fácil y gratuita es ejecutar Whisper de forma local a través de una aplicación de escritorio.

Última actualización: junio de 2026

Candado abierto sobre un teclado de portátil, evocando el software de código abierto y libre

Whisper es gratuito. OpenAI publicó tanto su código como los pesos del modelo bajo la permisiva licencia MIT, así que cualquiera puede descargar, ejecutar e incluso usar comercialmente el modelo de voz a texto sin coste alguno. La única pega es la configuración: ejecutar Whisper tú mismo requiere Python, ffmpeg y tu propio hardware. Una aplicación de escritorio elimina esa pega.

La gente pregunta «¿es Whisper gratuito?» esperando alguna trampa, porque en 2026 casi nada bueno es realmente gratis. Así que voy a ser directo antes de los matices: sí. OpenAI publicó Whisper bajo la licencia MIT —tanto el código como los pesos del modelo— que es de las más permisivas que existen. Puedes descargarlo, ejecutarlo, modificarlo, incluirlo en tu propio producto, cobrar dinero por ese producto, y OpenAI no te pedirá ni un céntimo ni un agradecimiento.

Eso es el titular y es verdad. Lo que el titular omite es la diferencia entre «el modelo es gratuito» y «usar el modelo es gratuito». No son la misma frase. El modelo es un archivo. Convertir ese archivo en palabras que aparecen en tu pantalla requiere configuración, algo de paciencia con la línea de comandos y un ordenador capaz de hacer los cálculos. Nada de eso está oculto — es solo trabajo, y el trabajo es el verdadero precio de la versión de código abierto.

Aquí está lo que la mayoría de páginas que compiten por esta búsqueda mezclan sin querer. Hay dos Whispers en la conversación. Uno es el modelo de código abierto que OpenAI publicó en GitHub — gratuito, MIT, tuyo para ejecutar. El otro es la API de transcripción alojada de OpenAI, que usa la misma familia de modelos pero te cobra por minuto. Mismo nombre, factura muy diferente.

Así que «¿es Whisper gratuito?» tiene tres respuestas honestas. El modelo en sí: gratuito, punto. Ejecutarlo tú mismo: gratis en euros, pero pagas con configuración y tu propio hardware. Dejar que alguien lo aloje por ti: eso cuesta dinero, ya sea la API de OpenAI o el nivel cloud de una app de pago. Esta guía recorre las tres opciones, muestra el camino gratuito y fácil, y te dice sin rodeos qué no es realmente gratis.

Qué es Whisper realmente

Forma de onda de audio en una pantalla junto a un micrófono, representando el habla convertida en texto

Whisper es un modelo de voz a texto que OpenAI publicó a finales de 2022. Le das audio y te devuelve texto. Y lo hace bien — entrenado con una enorme cantidad de audio multilingüe, maneja acentos, ruido de fondo y decenas de idiomas mejor que el software de dictado con el que la mayoría crecimos maldiciendo. También puede traducir el habla en otros idiomas directamente a texto en inglés, algo que las herramientas anteriores nunca lograron hacer limpiamente.

La palabra importante es «modelo». Whisper no es una app que abres con doble clic. Es el cerebro — un archivo de pesos entrenados más el código para ejecutarlos. Por sí solo no tiene ventana, ni botón, ni conexión al micrófono. Es el motor, no el coche. Muchos productos que conoces son, en silencio, simplemente Whisper con una capa de pintura encima, lo cual está bien, pero vale la pena saber que el motor de debajo es la misma pieza gratuita en todos ellos.

Esa distinción es la razón por la que esta pregunta genera confusión. Cuando alguien dice «Whisper cuesta $30 al mes», no se refiere al modelo — se refiere a alguna app que envolvió el modelo y cobró por el envoltorio. Cuando alguien dice «Whisper es gratuito», se refiere al motor que OpenAI regaló. Ambas afirmaciones son ciertas al mismo tiempo, sobre cosas diferentes, que es exactamente por qué acabaste buscando una respuesta clara.

Sí, la licencia MIT lo hace genuinamente gratuito

No es el «gratuito» del marketing, donde «gratis» significa una prueba que termina o un nivel que te bombardea con avisos. OpenAI publicó el código y los pesos del modelo de Whisper bajo la licencia MIT. La licencia MIT es una licencia de código abierto permisiva y bien conocida: te permite usar, copiar, modificar y distribuir el software, incluso comercialmente, con básicamente una condición — mantener el aviso de copyright adjunto. Sin cuota, sin regalías, sin coste por usuario, sin pedir permiso.

En términos prácticos: puedes descargar Whisper para uso personal, ejecutarlo para un negocio, integrarlo en un producto que vendas y transcribir un podcast para un cliente, todo sin pagar a OpenAI. Los pesos del modelo — la parte entrenada que es cara de producir — también son gratuitos, no solo el código envoltorio. Es la parte que la gente no acaba de creer, porque las empresas normalmente guardan los pesos entrenados bajo llave. OpenAI no lo hizo aquí.

Cancel
Whisper ejecutándose en local: la superposición de grabación aparece mientras hablas, sin ningún contador por minuto corriendo en segundo plano.

Vale la pena una aclaración honesta para que nadie me cite mal después. «Gratuito bajo MIT» se refiere a la licencia, no a una promesa de que no cuesta nada operarlo. La electricidad no es gratis. Un ordenador no es gratis. Tu tiempo no es gratis. Pero el software y el modelo — las partes por las que una empresa normalmente cobraría una suscripción — esos son genuina, permanente y sin asteriscos gratuitos. (El tipo de gratis en el que lees la licencia dos veces porque estás seguro de que te has perdido algo. No te has perdido nada.)

La pega está en ejecutarlo tú mismo

Aquí es donde la versión gratuita adquiere su precio, pagado en tiempo en lugar de dinero. Ejecutar Whisper de forma directa, como código abierto puro, significa trabajar con la línea de comandos. La instalación estándar es un paquete de Python, lo que implica que primero necesitas tener Python configurado correctamente. Whisper también necesita ffmpeg, una herramienta de audio independiente, instalada y en la ruta del sistema. En algunas máquinas también necesitarás Rust solo para que una dependencia del tokenizador pueda compilarse. Nada de esto es exótico para un desarrollador. Para todo el mundo, es una tarde.

Luego está el hardware. Whisper hace cálculos en serio, y los modelos más grandes y precisos hacen muchos. En una CPU normal, el modelo large puede tardar más en transcribir un clip de lo que dura el clip. Para tener velocidad necesitas una GPU decente, que la mayoría de portátiles no tienen. Así que el coste real de la versión gratuita no son euros — es un entorno Python que mantienes, un comando que ejecutas a mano para cada archivo, y un ordenador lo suficientemente rápido para no hacerte esperar. (He visto a alguien sin perfil técnico seguir un tutorial de «configura Whisper en 5 minutos». No fueron cinco minutos. Fue un sábado entero, y una llamada telefónica a mí.)

Y una cosa más que la versión directa no te da: dictado en tiempo real. Whisper por línea de comandos transcribe un archivo que ya grabaste. No se queda en segundo plano, esperando una tecla rápida, para pegar texto donde tienes el cursor mientras hablas. Para eso — lo que la mayoría de la gente realmente quiere cuando busca esto — necesitas un envoltorio alrededor del modelo. La buena noticia es que el mejor envoltorio también es gratuito, que es la sección siguiente.

La forma gratuita y fácil: ejecutar Whisper en una app

Puedes conservar todo el «gratis» del modelo de código abierto y saltarte por completo el trabajo de «ejecutarlo tú mismo». Para eso construimos exactamente Whisper by Remskill — ejecuta el mismo modelo Whisper de código abierto de forma local en tu máquina, sin Python, sin ffmpeg, sin línea de comandos. Todo el proceso local es gratuito para cualquier cuenta registrada, sin pedir método de pago al registrarte. Obtienes el motor de código abierto sin los deberes del código abierto. Aquí tienes la configuración.

Paso 1 — Instala la app e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. El proceso de transcripción local se abre de inmediato — sin Python, sin ffmpeg, nada de eso.

Sabrás que funcionó cuando aparezca el icono en la bandeja del sistema y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige un modelo local.

La app no elige por ti. Para uso local, tienes Whisper (8 modelos, 99 idiomas, traducción al inglés) o Parakeet (más rápido, inglés más 24 idiomas europeos). El modelo se descarga una vez y se ejecuta completamente en tu máquina.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo de teclado.

En Windows el valor predeterminado es Ctrl+Space; en Mac, mantén pulsado Command+Option como push-to-talk. En Mac, concede el permiso de Accesibilidad cuando se solicite, o el pegado en el cursor no podrá llegar a otras apps.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Coloca el cursor donde quieras y habla.

Haz clic en cualquier cuadro de texto — un correo, un documento, una barra de búsqueda — mantén el atajo, di una frase, suéltalo. La transcripción aparece donde está el cursor, transcrita por Whisper, en tu máquina, sin coste.

Sabrás que funcionó cuando tu frase hablada esté en el campo como texto.

Whisper
La app de escritorio real de Whisper by Remskill en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga única del modelo, no ningún ritual de configuración. Después de eso, el mismo modelo de código abierto que antes pedía un entorno Python y un comando por archivo simplemente se queda en tu bandeja y pega texto cuando pulsas una tecla. Si has estado valorando opciones de dictado en Windows o en Mac, esta es la versión en la que Whisper por fin se siente como una app y no como un proyecto.

El Whisper local es gratuito; la nube es la parte de pago

Aquí es donde la respuesta a «¿es gratuito?» necesita una línea clara. Ejecutar Whisper de forma local es gratuito — tu máquina, tu CPU, sin servidor, sin factura por minuto. La parte de pago es la nube: la API de transcripción alojada de OpenAI cobra por minuto, y cualquier nivel cloud de una app lo repercute. En nuestra app, todo el proceso local es gratuito; la funcionalidad Cloud es lo único que hay detrás de Whisper Pro. Así es como difieren los tres caminos en la práctica, porque tú sí puedes elegir:

  • Parakeet local — gratuitoEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida — entre 5 y 10 veces más rápida que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si hablas principalmente en inglés y quieres velocidad con hardware modesto, esta es la opción rápida, completamente sin conexión y sin coste.
  • Whisper local — gratuitoel modelo Whisper de código abierto real, ejecutándose en tu máquina sin coste. Las versiones multilingües cubren 99 idiomas y pueden traducir al inglés; las versiones solo en inglés son, efectivamente, solo en inglés. Más lento que Parakeet en el mismo hardware, pero la opción adecuada para chino, japonés, coreano o cualquier trabajo de traducción. El modelo en inglés predeterminado ronda los 480 MB.
  • Cloud (OpenAI, BYOK) — pago por minutola mejor precisión y acceso a la web en tiempo real, usando tu propia clave de OpenAI facturada directamente por OpenAI — la transcripción se ejecuta en gpt-4o-mini-transcribe por defecto. Esta es la parte que cuesta dinero, cobrada por minuto por OpenAI, no por nosotros. Requiere internet. La funcionalidad Cloud es lo único que hay dentro de Whisper Pro.

La verdad sin adornos es que para la mayoría del dictado cotidiano, Whisper local o Parakeet son más que suficientes, y es el camino gratuito de principio a fin. Ambos se ejecutan completamente en tu máquina sin enviar nada a un servidor. La Cloud solo justifica su coste por minuto cuando necesitas precisión de alto nivel en una grabación difícil o necesitas que el modelo consulte un dato de la web en mitad de una frase. Si tu pregunta era estrictamente «¿es Whisper gratuito?», la respuesta que importa es: el camino local sí lo es, empieza por ahí.

Modelos, precisión y cómo limpiar el texto bruto

El modelo gratuito no es un único modelo — es una familia, y cuál eliges es la palanca real de precisión. Los modelos más pequeños son rápidos y ligeros; el modelo grande multilingüe es el más preciso y el más pesado. En la versión de línea de comandos de código abierto, eliges el tamaño del modelo y asumes la velocidad que conlleva. En una app eliges de una lista y el modelo se descarga una vez. El punto más importante: la precisión depende mucho más del modelo y de tu micrófono que de cualquier cosa por la que pagues. Un micrófono USB de $20 hace más por tus transcripciones que cualquier actualización.

Independientemente del modelo que uses, el dictado en bruto sale como una ristra de palabras sin parar. Dices «bueno pues el modelo es gratuito bajo MIT pero ejecutarlo tú mismo necesita python y ffmpeg», y esa es la pared sin puntuación que cualquier motor de voz te entrega. Limpiarlo es un paso aparte. Whisper by Remskill puede hacer un pase de IA sobre la transcripción: di la frase de activación «Hey whisper» y el texto se mejora antes de llegar — muletillas eliminadas, puntuación corregida. Con un modelo local eso funciona a través de Ollama sin coste; en modo cloud usa gpt-5-mini por defecto.

Thinking...
Bruto

bueno pues el modelo es gratuito bajo MIT pero ejecutarlo tú mismo necesita python y ffmpeg y mm un ordenador decente si no va lento

Limpio

Bueno, el modelo es gratuito bajo MIT, pero ejecutarlo tú mismo requiere Python y ffmpeg, además de un ordenador decente; de lo contrario, va lento.

Así que la pregunta sobre precisión tiene dos palancas gratuitas y una de pago. Las gratuitas: elige un modelo que encaje con tu hardware y aliméntalo con audio limpio de un micrófono razonablemente bueno. La de pago: la transcripción en la nube, que te da acceso a los últimos modelos alojados cuando la calidad local no te basta. Para la inmensa mayoría del dictado, las palancas gratuitas son las que importan. Nadie que prometa «transcripciones perfectas, sin esfuerzo» te está siendo sincero — el modelo es gratuito, pero una buena entrada sigue siendo la que hace la mayor parte del trabajo.

Ese mismo flujo de hablar y luego limpiar rinde en cualquier lugar, no solo aquí — puedes dictar texto limpio en cualquier app con un solo atajo de teclado, de modo que un mensaje largo se convierte en unas pocas frases habladas en lugar de un párrafo que escribes.

Cuándo tiene sentido pagar por Whisper

Una balanza sopesando dos opciones, ilustrando cuándo es suficiente lo gratuito y cuándo tiene sentido pagar

Como todo el artículo dice «es gratuito», te debo la otra mitad honesta: hay momentos en que pagar es la decisión correcta, y pretender lo contrario sería un discurso de ventas, no una respuesta. Si el camino local gratuito te cubre, úsalo y cierra la pestaña — la mayoría de la gente ya tiene lo que necesita aquí. Pero algunas situaciones justifican genuinamente un nivel de pago.

Paga por la opción cloud cuando la precisión en una grabación difícil importa más que tu dinero — una entrevista con acento cerrado, una grabación de campo con ruido, una transcripción legal donde una palabra incorrecta te cuesta cara. Los modelos alojados de OpenAI superan a los locales en los casos difíciles, y pagas a OpenAI por minuto exactamente por esa ventaja. Paga también si quieres que el asistente consulte un dato en tiempo real a mitad de una frase, algo que un modelo local sencillamente no puede hacer sin conexión. Y si realmente necesitas cero configuración en una máquina que no controlas — un portátil del trabajo bloqueado donde no puedes instalar Python ni descargar un modelo — un servicio alojado puede ser la única puerta abierta. Fuera de esos casos, el camino local gratuito no es una versión inferior. Es el mismo modelo de código abierto, haciendo el mismo trabajo, sin coste.

Recurre al pago cuando el camino gratuito integrado empieza a quedarte corto: precisión de alto nivel en audio difícil, consultas web en tiempo real, o una máquina donde no puedes ejecutar nada localmente. Por debajo de ese umbral, el modelo gratuito en tu propio hardware es la respuesta correcta, y no te voy a decir que pagues por algo que OpenAI ya regaló. La versión gratuita existe, funciona, y el motor de debajo es el mismo.

Y si tu razón para querer Whisper gratuito y local es la privacidad — mantener tu voz fuera del servidor de alguien — el argumento a favor del reconocimiento de voz completamente sin conexión merece leerse a continuación, porque eso es exactamente lo que te ofrece ejecutar el modelo en tu propia máquina.

Entonces: ¿es Whisper gratuito? El modelo sí lo es, con licencia MIT y listo para que lo uses. Usarlo gratis significa o bien una tarde en la línea de comandos o bien una app que ya hizo esa tarde por ti. La parte de pago es únicamente la nube — un alojamiento que no necesitas estrictamente para el dictado cotidiano. Escribí la mayor parte de esto hablando a un cuadro de texto, con el modelo local gratuito escuchando, en un portátil que nunca me ha pedido una tarjeta de crédito para transcribir una frase. Esa es la respuesta completa, y es raro poder darla así.

Ejecuta Whisper gratis sin la configuración

Mantén el atajo, habla, suéltalo. El modelo de código abierto transcribe en tu máquina, sin coste, y pega el texto donde tengas el cursor.

Modo local gratuito para cualquier cuenta registrada. No se requiere tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, muy probablemente dictando las respuestas.

Lectura adicional