Por Denys Medvediev

Guía

OpenAI Whisper para Windows

OpenAI Whisper es un modelo de voz a texto gratuito y de código abierto bajo la Licencia MIT. En Windows normalmente se ejecuta a través de Python y la línea de comandos para transcribir archivos de audio. Whisper by Remskill empaqueta esos modelos en una app de escritorio para que en su lugar puedas dictar en directo en cualquier aplicación.

Última actualización: junio de 2026

Un portátil con Windows sobre un escritorio mostrando un editor de código, evocando un espacio de dictado limpio

OpenAI Whisper es un modelo de voz a texto gratuito y de código abierto publicado bajo la Licencia MIT. En Windows normalmente se ejecuta a través de Python y la línea de comandos, transcribiendo los archivos de audio que le indiques. Whisper by Remskill empaqueta esos modelos en una app de escritorio para que en su lugar puedas dictar en directo en cualquier aplicación.

OpenAI Whisper es un modelo gratuito y de código abierto. En un equipo con Windows recién instalado, la versión oficial requiere Python, ffmpeg y la línea de comandos para transcribir archivos. Si lo que tienes es un archivo, herramientas gratuitas con interfaz gráfica como Buzz o Whisper Desktop lo resuelven. Si lo que quieres es hablar y ver cómo tus palabras aparecen en el cursor de cualquier aplicación, Whisper by Remskill empaqueta los mismos modelos sin nada que compilar y con una capa local gratuita.

Qué quiere decir la gente con "OpenAI Whisper para Windows"

La verdad poco emocionante es que "OpenAI Whisper" son en realidad dos cosas distintas que comparten el mismo nombre, y los resultados de búsqueda las mezclan a diario.

La primera cosa es el modelo. Whisper es un modelo de reconocimiento de voz que OpenAI publicó como código abierto bajo la Licencia MIT, así que tanto el código como los pesos entrenados son gratuitos para descargar y usar. Viene en seis tamaños (tiny, base, small, medium, large y turbo), cuatro de ellos con una variante solo en inglés, intercambiando velocidad por precisión. Es multilingüe y puede traducir voz al inglés con una sola opción. Eso es genuinamente impresionante, y es genuinamente gratis.

La segunda cosa es la forma en que realmente lo ejecutas. El Whisper oficial es un paquete de Python. Lo instalas con pip, instalas la herramienta de línea de comandos ffmpeg junto a él, y luego le pasas un archivo de audio desde una terminal. Si "terminal", "pip" y "ffmpeg" ya te suenan a un sábado que no tenías planeado, has encontrado el hueco del que trata todo este artículo. La línea de comandos es la herramienta que usas para escribir órdenes al ordenador en vez de hacer clic. La mayoría de la gente en Windows nunca la ha abierto a propósito.

Así que cuando alguien escribe "OpenAI Whisper para Windows" en Google, normalmente quiere una de dos respuestas. O bien: ¿cómo consigo que este modelo gratuito transcriba mis archivos sin tener una carrera de informática? O bien: solo quiero hablar y que mis palabras aparezcan, ¿puede hacer eso? Son necesidades distintas, y piden herramientas distintas. Voy a responder a ambas, y voy a ser honesto sobre qué herramienta gana en cada caso.

El modelo gratuito es estupendo. La instalación es la trampa.

Esta es la parte que las páginas de producto se saltan. Whisper, el modelo, no cuesta nada. Whisper, la experiencia, en un equipo con Windows recién instalado, te cuesta una tarde.

Para ejecutar el OpenAI Whisper oficial instalas Python, luego instalas el paquete Whisper, luego instalas ffmpeg y te aseguras de que Windows lo encuentra, después abres una terminal y ejecutas un comando por cada archivo. Nada de esto es difícil para un desarrollador. Todo esto es un muro para el resto: el escritor, el abogado, el estudiante, el comercial, mi propia madre, que accedió a probar el dictado a la tercera demo y no habría accedido a ninguna demo que incluyera la frase "añade ffmpeg a tu PATH".

Hay puntos de entrada más amables, y vale la pena conocerlos. Whisper.cpp es un port sencillo en C/C++ del mismo modelo: con licencia MIT, rápido y solo CPU, sin nada de Python. Pero aun así lo compilas desde el código fuente o lo ejecutas desde la línea de comandos. Es una pieza de ingeniería preciosa pensada directamente para gente que disfruta con los compiladores. El resto de este artículo es para quienes no.

Cuando lo que quieres es el Whisper de línea de comandos (o un transcriptor de archivos)

Ahora voy a enviarte a otro sitio, porque esta es la parte honesta.

Si lo que realmente tienes es un archivo de audio (una entrevista grabada, un episodio de pódcast, una llamada de Teams que guardaste, una nota de voz) entonces nuestra app es la herramienta equivocada, y prefiero decírtelo a venderte algo que no encaja. Nosotros hacemos dictado en directo: tú hablas, las palabras aparecen en tu cursor. No tomamos un archivo existente y lo transcribimos. Es otro trabajo.

Para ese trabajo, tres herramientas gratuitas son genuinamente buenas, y están hechas exactamente para eso:

  • Buzz transcribe y traduce archivos de audio sin conexión, impulsada por el Whisper de OpenAI, con licencia MIT, y funciona en Windows. Si quieres una ventana de verdad con botones en lugar de una terminal, empieza aquí.
  • Whisper Desktop (Const-me) es una app de Windows con interfaz gráfica. La descomprimes, ejecutas WhisperDesktop.exe, le indicas un archivo y lo transcribe usando tu GPU mediante DirectCompute. Tiene licencia MPL-2.0 y es rápida con una tarjeta gráfica decente.
  • whisper.cpp es la opción ligera si te sientes cómodo en la línea de comandos y quieres velocidad pura sin Python.

Esto no es diplomacia por quedar bien. Enviarte a la herramienta adecuada cuando no es la nuestra es justo la razón por la que deberías creer el resto. Si tienes un archivo, usa Buzz. Si tienes un micrófono y una frase en la cabeza, sigue leyendo.

Qué hace realmente Whisper by Remskill en Windows

Tomamos los mismos modelos Whisper de código abierto, más un segundo motor, y los envolvimos en una app de Windows para que no haya nada que compilar ni nada que escribir en una terminal.

Instalas una sola app, unos 25 MB. Inicias sesión. Pulsas el atajo de teclado, que es Ctrl + Space por defecto y totalmente reasignable. Hablas. Sueltas. El texto aparece en tu cursor en la app en la que ya estabas: Word, Outlook, el navegador, Slack, un editor de código, el cuadro de búsqueda. Sin archivo, sin terminal, sin GPU; toda la transcripción local se ejecuta en tu CPU.

Whisper
La app Whisper by Remskill en directo: barra lateral, panel de transcripción y tarjetas de instrucciones de IA. Esta es la interfaz real, no una captura de pantalla.

Por dentro eliges entre tres caminos, porque no elegimos un modelo por ti:

  • Whisper local (8 modelos) es el Whisper de código abierto al que viniste a buscar, empaquetado y listo. Optimizado para inglés desde Base (~140 MB) hasta Medium (~1,5 GB), más builds multilingües hasta Large v3 (~3 GB). Las builds multilingües cubren 99 idiomas y pueden traducir al inglés.
  • Parakeet (NVIDIA TDT, ~600 MB) es un motor aparte, de 5 a 10 veces más rápido que Whisper en CPU, que cubre el inglés más otros 24 idiomas europeos. Sin traducción al inglés. Elígelo si quieres velocidad y trabajas sobre todo en inglés.
  • Nube (OpenAI, BYOK) te permite traer tu propia clave de OpenAI para máxima precisión y búsqueda web; no nos llevamos comisión. Esta es la única función Pro.

El pipeline local (todos los modelos Whisper, Parakeet, limpieza con IA mediante Ollama, historial, ajustes preestablecidos, atajo personalizado, descargas de modelos) es gratuito para cualquier usuario con sesión iniciada, sin tarjeta al registrarse. El camino en la Nube es la capa Pro de pago; puedes ver las cifras en la página de precios.

Por qué una app de dictado real para Windows es más difícil que pip install

Aquí está lo que nadie te advierte cuando dicen "basta con envolver Whisper en una interfaz".

El modelo es la parte fácil. Conseguir que un atajo de teclado se comporte bien en Windows no lo es. La primera versión de nuestro gestor de atajos disparaba la llamada de parar grabación seis veces por una sola pulsación real. Funcionaba perfectamente en un Mac. Funcionaba perfectamente en una instalación limpia de Windows. Se desmoronaba en los equipos reales de clientes, los que tienen activado un método de entrada de idioma, que en Windows genera eventos fantasma de liberación de Ctrl + Space en momentos impredecibles. Hicieron falta días de telemetría, luego un debounce de 50 ms que no bastó, luego un debounce de 300 ms que por fin sí. Aprendí más sobre el framework de métodos de entrada de Windows de lo que ninguna persona debería, y tengo un máster. El veredicto de mi hija mayor, cuando se lo expliqué: "por eso los correos de papá tardan una eternidad".

Pasted
El overlay posterior al dictado tal como se publica: cómo se ve un dictado gratuito y totalmente local en el momento en que termina.

Esa es la diferencia entre un modelo y un producto. El Whisper gratuito te da la transcripción de un archivo. Una app de dictado tiene que sobrevivir al escritorio real de Windows, en aplicaciones reales, mientras haces otra cosa. El modelo nunca ve esa pelea. Nosotros sí, y la perdimos durante una semana al principio.

Cuando la herramienta integrada de Windows es todo lo que necesitas

Dile a la gente cuándo no comprar lo que vendes, y puede que te crean en el resto. Así que: si solo dictas alguna nota corta de vez en cuando, quizá no necesites nada de esto. Windows 11 tiene una herramienta de escritura por voz integrada que abres con Win + H. Es gratuita y suficiente para un par de líneas, aunque envía tu audio al reconocimiento de voz en línea de Microsoft en lugar de ejecutarse en tu equipo. Para una respuesta rápida en Teams, va de sobra.

Empezamos a merecer la instalación más o menos cuando estás redactando texto de verdad (correos largos, escritos, resúmenes de clase, comentarios de código, variantes de marketing) y quieres que se quede en tu equipo, en 99 idiomas, con el mismo atajo en todas partes. Si tu día son chats de dos líneas, ya estás. Si tu día es escribir, quédate con la app.

Lecturas adicionales

OpenAI Whisper es un modelo gratuito y de código abierto, y en Windows normalmente requiere Python, ffmpeg y una terminal para transcribir archivos. Si tienes un archivo, Buzz o Whisper Desktop lo harán gratis con una ventana de verdad. Si lo que realmente quieres es hablar y ver cómo tus palabras aparecen en el cursor de cualquier aplicación, sin nada que compilar, sin línea de comandos, ejecutándose localmente en tu CPU, eso es lo que hicimos.

Para un tratamiento más extenso del panorama gratuito frente a de pago, consulta voz a texto en Windows. Para elegir entre nuestros dos motores locales, consulta Whisper frente a Parakeet.

Dicta tu primera frase en aproximadamente un minuto

Descarga Whisper by Remskill para Windows, inicia sesión sin tarjeta, pulsa Ctrl + Space y habla. El pipeline local es gratuito durante todo el tiempo que lo uses.

Transcripción local gratuita para siempre. Sin método de pago al registrarte. La capa Nube es la única función de pago.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, casi seguro dictando las respuestas.