Explicación
Cómo ejecutar Whisper localmente
Hay dos formas honestas de ejecutar Whisper en tu propio equipo: la ruta del desarrollador con Python y la línea de comandos, o una aplicación de escritorio que lo hace por ti sin necesidad de terminal. Las dos mantienen tu audio en tu ordenador. Aquí te explicamos cada una y cuándo elegir cuál.
Última actualización: junio de 2026

Ejecutar Whisper localmente significa transcribir audio en tu propia máquina en lugar de en un servidor en la nube. Hay dos caminos: instalar Whisper de código abierto de OpenAI con Python, pip y ffmpeg y ejecutarlo desde la línea de comandos, o usar una aplicación de escritorio como Whisper by Remskill que incluye los modelos y dicta en tu cursor sin necesidad de terminal. Los dos mantienen el audio en el dispositivo.
Whisper es el modelo de reconocimiento de voz de código abierto de OpenAI, publicado bajo la licencia MIT, y la razón por la que "cómo ejecutar Whisper localmente" se busca tanto es que realmente funciona en tu propio hardware de forma gratuita. Sin clave de API, sin cobro por minuto, sin que el audio salga de tu portátil. Es un trato genuinamente bueno, y el proyecto oficial en GitHub te lo entrega todo.
El truco está en lo que significa "ejecutarlo". La ruta oficial es una herramienta de línea de comandos. Instalas Python, ejecutas `pip install openai-whisper`, instalas ffmpeg y apuntas un terminal a un archivo de audio. Eso es perfecto si tienes una carpeta de grabaciones que procesar en lote. Es menos perfecto si lo que realmente querías era dictar en tu email y que las palabras aparecieran. Son dos trabajos distintos, y cubriré ambos con honestidad.
Aquí está la bifurcación que la mayoría de las páginas pasan por alto. "Ejecutar Whisper localmente" puede significar dos cosas completamente distintas según quién pregunte. Un desarrollador entiende: obtener el modelo en disco y transcribir archivos desde un script. Un escritor o un comercial entiende: dejar de escribir y que mi voz se convierta en texto en la aplicación en la que esté.
Así que la pregunta real no es solo «cómo instalo Whisper». Es «qué Whisper local busco: el CLI para procesar lotes y scripting, o un atajo de teclado que dicta en mi cursor». El primero es el proyecto oficial de OpenAI y es excelente en lo que hace. El segundo es una aplicación de escritorio que ejecuta la misma familia de modelos sin línea de comandos. Configuraré los dos, te mostraré los números de hardware y te diré claramente cuándo el terminal es la mejor opción.
Qué significa realmente «ejecutar Whisper localmente»

Ejecutar Whisper localmente significa que la transcripción ocurre en el procesador de tu propio ordenador, no en un servidor remoto. Le das audio, el modelo lo convierte en texto y nada sale de la máquina. Ese es el atractivo. La hoja de cálculo de salarios de tu jefe leída en voz alta, el email al colegio de tu hijo, una llamada grabada con un cliente: nada de eso toca los registros de un proveedor porque querías escribir con tu voz. Local primero o no te molestes, en lo que a mí respecta, y añadiré un número a esa opinión más adelante.
Whisper en sí es solo el modelo. OpenAI lo entrenó y publicó los pesos bajo la licencia MIT, razón por la que cualquiera puede descargarlo y ejecutarlo sin pagar. Hay varios tamaños de modelo, desde uno pequeño de 39 millones de parámetros hasta un modelo grande de 1.550 millones de parámetros, y eliges según la precisión que necesitas frente a lo que tu hardware puede manejar. El modelo es el mismo tanto si lo ejecutas desde un terminal como dentro de una aplicación. Lo que cambia es el envoltorio que lo rodea.
Y el envoltorio es toda la cuestión. Existen dos, ambos legítimos. La herramienta oficial de línea de comandos de OpenAI: gratuita, scriptable, basada en Python, creada para transcribir archivos. Y aplicaciones de escritorio que cargan el mismo tipo de modelo detrás de una ventana normal, para que pulses una tecla y hables en lugar de escribir un comando. La verdad aburrida es que la mayoría de las personas que buscan esta palabra clave quieren uno de esos dos y aún no saben cuál. Las dos secciones siguientes son exactamente esas dos rutas.
La ruta del desarrollador: Python, pip y ffmpeg
Si te manejas bien en un terminal, el proyecto oficial es la respuesta más limpia y es genuinamente gratuito. Necesitas tres cosas en tu máquina: Python (el proyecto apunta a las versiones 3.8 a 3.11), el propio paquete de Whisper y ffmpeg, que es la herramienta de audio en la que Whisper se apoya para leer tus archivos. La instalación son dos comandos. `pip install -U openai-whisper` descarga el paquete y su dependencia de PyTorch. Luego ffmpeg, que depende de tu sistema operativo: `brew install ffmpeg` en Mac, `choco install ffmpeg` o `scoop install ffmpeg` en Windows, `sudo apt install ffmpeg` en Ubuntu.
Una vez instalado, lo ejecutas contra un archivo. `whisper audio.mp3 --model turbo` transcribe la grabación y escribe el texto. Añade `--language Japanese` para omitir la detección automática, o `--task translate` para que una grabación que no sea en inglés salga en inglés. Eso es lo esencial. Es una herramienta de archivo-de-entrada y texto-de-salida, y es buena exactamente en eso. Apúntala a una carpeta de notas de voz durante la noche y procesará todas sin que tengas que mirar.
La realidad del hardware es donde las expectativas chocan con un muro. Los tamaños oficiales de los modelos son tiny (39M de parámetros), base (74M), small (244M), medium (769M), large (1,55B) y turbo (809M). La VRAM que cada uno necesita cuenta la historia real: aproximadamente 1 GB para tiny, unos 2 GB para small, alrededor de 5 GB para medium y aproximadamente 10 GB para el modelo large. Esos números están pensados para una GPU. Puedes ejecutar los modelos más pequeños en una CPU, pero una GPU discreta es lo que hace soportables los más grandes. Una vez diseñé una configuración limpia de «ejecutar large en mi portátil» y luego lo vi arrastrarse con gráficos integrados. El diagrama siempre está equivocado en el segundo commit. La CPU termina eventualmente; el modelo large en un portátil delgado no es un plan para una tarde de martes.
La ruta sin terminal: ejecutar Whisper en una aplicación de escritorio
Si nunca quieres ver un símbolo del sistema, este es el otro camino honesto. Whisper by Remskill es una aplicación de escritorio para Windows 10 o superior y Macs con Apple Silicon que ejecuta Whisper localmente por ti: los modelos se descargan dentro de la aplicación, sin pip, sin ffmpeg, sin Python. También ejecuta Parakeet, un segundo motor local al que llegaré. Todo el flujo local es gratuito para cualquier cuenta registrada, sin que se pida método de pago al registrarse. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. El flujo de transcripción local se abre de inmediato.
Sabrás que funcionó cuando aparezca el icono de la bandeja del sistema de la aplicación y el asistente de configuración ofrezca elegir un modelo.
Paso 2 — Elige una ruta de transcripción y descarga un modelo.
La aplicación no elige por ti. Tienes tres opciones: Cloud (OpenAI, trae tu propia clave), Local Parakeet o Local Whisper. Para ejecutar todo en tu propia máquina, elige uno de los dos motores locales y deja que el modelo se descargue dentro de la aplicación.
Sabrás que funcionó cuando el modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma tu atajo de teclado.
En Windows el valor predeterminado es Ctrl+Space; en Mac, mantener pulsado Command+Option como push-to-talk. En Mac, concede el permiso de Accesibilidad cuando se solicite; sin él, el pegado en el cursor no puede llegar a otras aplicaciones.
Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Coloca el cursor en cualquier lugar y habla.
Haz clic en cualquier campo de texto —un email, un documento, un chat—, mantén pulsado el atajo, di una frase y suéltalo. La transcripción aparece donde está el cursor.
Sabrás que funcionó cuando la frase que dijiste aparezca como texto en el campo de texto.
La parte lenta es la descarga del modelo, igual que en la ruta del CLI: los pesos son los pesos. Todo lo demás son los cuatro pasos anteriores. La diferencia es que no hay ningún terminal entre tú y el modelo, y en lugar de archivo-de-entrada y texto-de-salida, obtienes un atajo de teclado que dicta donde sea que esté el cursor. El mismo Whisper por debajo, un trabajo diferente por encima.
Qué modelo y qué hardware necesitas
Las dos rutas te piden que elijas un modelo, y la decisión se reduce al mismo compromiso: los modelos más grandes son más precisos y más lentos; los más pequeños son más rápidos y ligeros. En el CLI oficial, el modelo large necesita aproximadamente 10 GB de VRAM y el small unos 2 GB, así que tu tarjeta gráfica establece el límite. En la aplicación de escritorio, los modelos de Whisper se dividen en solo inglés y multilingüe, con el modelo de inglés predeterminado de unos 480 MB en disco y el multilingüe más grande de unos 3 GB. Las versiones multilingüe cubren 99 idiomas y pueden traducir al inglés; las de solo inglés son exclusivamente en inglés.
El otro motor local de la aplicación vale la pena conocerlo aquí, porque soluciona el problema de hardware para mucha gente. Parakeet es el modelo TDT de NVIDIA, de unos 600 MB, y es de 5 a 10 veces más rápido que Whisper en una CPU. Cubre inglés más 24 otros idiomas europeos, 25 en total, sin traducción al inglés. Si principalmente hablas inglés y no tienes una GPU potente, Parakeet es la opción local rápida. Si necesitas chino, japonés, coreano o traducción, ese es el territorio multilingüe de Whisper y Parakeet no puede ir ahí. Mientras hablas, una pequeña cápsula muestra que está escuchando:
Lo mejor que puedes hacer por la precisión no es un modelo más grande. Un micrófono USB de $20 hace más por tu transcripción que saltar dos tamaños de modelo: audio limpio supera a un modelo más pesado alimentado con el ruido del micrófono del portátil. Gasta el dinero primero en el micrófono y luego preocúpate del modelo. Ese es el único consejo de hardware que pondría por escrito y con el que me comprometería.
Local o nube: qué modo para qué tarea
Si tu máquina tiene Apple Silicon o tu PC es de los últimos años, prueba primero con local. La nube es la salida de emergencia, no la opción predeterminada. Pero la aplicación de escritorio te obliga a elegir entre tres rutas y prefiero que elijas bien, así que aquí te explico en qué se diferencian.
Así es como difieren las tres rutas, porque la aplicación te hace elegir:
- Local Parakeet — El motor TDT de NVIDIA, de unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre inglés más 24 otros idiomas europeos, 25 en total. Sin traducción al inglés. Si dictas en inglés u otro idioma europeo y quieres velocidad sin GPU, esta es la opción totalmente sin conexión.
- Local Whisper — más lento que Parakeet en la misma máquina, pero las versiones multilingüe cubren 99 idiomas y pueden traducir al inglés. Las versiones de solo inglés son solo inglés, no 99. Elige este para chino, japonés, coreano o cualquier trabajo de traducción que Parakeet no puede hacer. El modelo de inglés predeterminado es de unos 480 MB; el multilingüe más grande, de unos 3 GB.
- Cloud (OpenAI, BYOK) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe de forma predeterminada. Necesita internet, así que es la única ruta que sale de tu máquina. El servicio Cloud es parte de Whisper Pro.
La verdad aburrida es que para la dictación del día a día, lo local es más que suficiente, y los dos motores locales se ejecutan completamente en tu máquina sin enviar nada a un servidor. La nube se justifica cuando quieres precisión de primer nivel en una grabación difícil, o necesitas que el modelo consulte un dato de la web en mitad de una frase. Cualquiera que sea la ruta que tomaste para ejecutar Whisper localmente —el CLI o la aplicación—, la historia de privacidad es la misma: el audio se queda donde está. Si mantenerse sin conexión es la razón por la que estás aquí, reconocimiento de voz sin conexión profundiza en eso.
Precisión, puntuación y limpieza de la transcripción bruta
Sea lo que sea lo que ejecute Whisper, la dictación bruta sale como un bloque continuo. Dices «bueno pues transcribe la grabación del standup y luego envía el resumen al equipo antes de comer», y eso es el muro sin puntuar que cualquier motor de voz te entrega. El CLI oficial te da ese texto y para ahí: la limpieza es tu trabajo, en un script o a mano. Eso está bien para la transcripción en lote donde procesarás la salida después de todos modos.
La aplicación de escritorio puede hacer el paso de limpieza por ti antes de que el texto aparezca. Di la frase de activación «Hey whisper» y una pasada de IA elimina las muletillas, corrige el texto continuo y añade puntuación. En modo local, eso pasa a través de Ollama en tu máquina; en modo nube usa gpt-5-mini de forma predeterminada. La diferencia entre crudo y limpiado es la diferencia entre una transcripción que tienes que editar y una que puedes enviar:
bueno pues transcribe la grabación del standup y luego envía el resumen al equipo antes de comer eh y ponle el jefe en copia
Transcribe la grabación del standup y luego envía el resumen al equipo antes de comer, poniendo al jefe en copia.
La precisión en sí es principalmente una cuestión de modelo y micrófono, y ya cubrí el micrófono. En cuanto al modelo, las versiones multilingüe más grandes de Whisper son sólidas en 99 idiomas, y el modo nube añade la transcripción de primer nivel de OpenAI si una grabación es genuinamente difícil. Pero para audio limpio y habla normal, incluso los modelos pequeños son fiables, y perseguir el modelo más grande en hardware débil te compra una salida más lenta para una precisión que probablemente no notarás. Adapta el modelo al trabajo, no a los derechos de fanfarronear de la hoja de especificaciones.
Si tu objetivo principal es hablar en lugar de teclear todo el día, el mismo flujo de hablar-y-limpiar es lo que te permite convertir voz en texto en Windows sin abrir nunca un terminal, que es la gracia de la ruta sin CLI.
Cuándo la línea de comandos es la opción correcta

A veces el terminal es genuinamente la mejor herramienta, y fingir lo contrario para venderte una aplicación sería deshonesto. El CLI oficial de OpenAI es gratuito, con licencia MIT y creado para un trabajo que la aplicación de escritorio no hace: transcribir archivos, en masa, desde un script. Si ese es tu trabajo, salta la aplicación.
Recurre a la línea de comandos cuando tienes una carpeta de grabaciones para procesar en lote durante la noche, cuando quieres Whisper dentro de un pipeline más grande de Python o en un servidor que controlas, cuando necesitas un indicador de modelo específico que la interfaz gráfica no expone, o cuando simplemente ya vives en el terminal y no quieres otra ventana abierta. También es la opción correcta en Linux, para el que la aplicación de escritorio no está disponible. El CLI funciona donde quiera que funcionen Python y ffmpeg. Nada de eso es una crítica a la aplicación: es simplemente una forma diferente de problema.
Recurre a la aplicación de escritorio cuando el trabajo es dictación, no procesamiento de archivos: quieres hablar en tu email, tus documentos, tu chat, y que las palabras aparezcan en el cursor con una sola tecla. El CLI no puede pegar en tu cursor dentro de otro programa; ese nunca fue su trabajo. Así que la división honesta es: archivos y scripting, usa el terminal; hablar en lugar de escribir, usa la aplicación. La mayoría de la gente, una vez que tiene claro qué quería, sabe de inmediato en qué lado está.
La misma lógica de en el dispositivo y sin nube se aplica si lo estás configurando en un Mac: el tutorial de voz a texto en Mac cubre la parte de Apple Silicon, incluido el permiso de Accesibilidad que necesita el atajo de teclado.
Whisper ejecutándose en tu propia máquina es uno de los mejores tratos en software ahora mismo: un modelo que OpenAI regaló, el mismo que las grandes herramientas en la nube usan en silencio, sentado en tu disco sin costar nada. La única decisión real es qué envoltorio encaja en tu día. Yo uso el CLI cuando tengo archivos que procesar, y la aplicación el otro 95 % del tiempo, porque cambio de programa unas cuarenta veces por hora y no quiero escribir un comando para cada uno. Dicté la mayor parte de esta guía con un atajo de teclado, en un campo de texto que no era un terminal, con el modelo funcionando en el mismo portátil todo el tiempo.
Ejecuta Whisper localmente sin el terminal
Mantén pulsado el atajo, habla, suéltalo. El modelo se ejecuta en tu máquina y la transcripción aparece donde esté tu cursor: sin Python, sin pip, sin ffmpeg.
Modo local gratuito para cualquier cuenta registrada. No se requiere tarjeta para empezar.



