Comparativa
Win+H alternativa
Win+H es el dictado por voz de Windows: gratis, integrado y útil para frases cortas. Pero funciona en la nube de Microsoft, necesita internet y no tiene vocabulario personalizado. La alternativa que la mayoría busca funciona sin conexión, con un atajo de mantener pulsado para hablar y una pasada de IA que limpia el texto.
Última actualización: junio de 2026

La mejor alternativa a Win+H es una herramienta de dictado para todo el sistema que funcione sin conexión, como Whisper by Remskill. Win+H (el dictado por voz de Windows) es gratis y viene integrado, pero usa el servicio de voz en línea de Microsoft y necesita internet. Una herramienta local transcribe en el propio dispositivo, añade vocabulario personalizado y usa un atajo de mantener pulsado para hablar que no se detiene solo.
Win+H es el dictado gratuito que ya tienes en tu PC, y para mucha gente es de verdad suficiente. Pulsas la tecla Windows + H, aparece una pequeña barra justo donde está el cursor, hablas y el texto se escribe. Sin instalar nada, sin cuenta, sin coste. Quiero dejarlo claro de entrada, porque internet está lleno de páginas que fingen que la opción integrada es basura para venderte algo. No es basura. Está bien.
El problema empieza cuando "suficiente para frases cortas" choca con "hago esto todo el día". El dictado por voz envía lo que dices a la nube de Microsoft, así que necesita una conexión a internet estable. No tiene vocabulario personalizado, así que nunca aprende los nombres de tus productos ni los apellidos de tus compañeros. Y el propio atajo provoca conflictos: un montón de aplicaciones ya se han apropiado de Win+H o de las teclas cercanas. Si has chocado con alguno de esos muros, no buscas un arreglo. Buscas una alternativa.
Aquí va la verdad aburrida que la mayoría de estas páginas se salta. Win+H es una buena herramienta gratuita con tres límites concretos: funciona en la nube, así que sin internet no hay dictado; no tiene forma de aprender tu jerga; y es una barra que se activa y desactiva con un toque y escucha hasta que algo la detiene, en lugar de una tecla que mantienes pulsada mientras hablas. Ninguno de esos límites es un fallo. Son decisiones de diseño, y son las decisiones correctas para el usuario ocasional para el que Microsoft lo creó.
Así que la pregunta de verdad no es "cómo hago que Win+H sea mejor". Casi no puedes: los límites vienen de fábrica. La pregunta es "qué uso en su lugar cuando esos límites empiezan a doler", y la respuesta honesta depende de si quieres privacidad sin conexión, tu propio vocabulario, un atajo que no estorbe o una pasada de IA que limpie el texto atropellado antes de que aterrice. Lo voy a repasar todo, configuraré uno en dos minutos y te diré sin rodeos cuándo Win+H sigue siendo la opción acertada.
Qué es Win+H en realidad y para quién es

Win+H es el atajo de teclado del dictado por voz de Windows. Pulsa juntas la tecla con el logo de Windows y la H en cualquier PC con Windows 11, aparece una barra de micrófono y lo que digas se escribe en el cuadro de texto donde tengas el cursor. La propia página de soporte de Microsoft lo deja claro: "El dictado por voz usa el reconocimiento de voz en línea, impulsado por los servicios Azure Speech". Funciona en unos 40 idiomas, puede insertar la puntuación automáticamente si activas esa opción y no cuesta nada porque viene con Windows.
Hay que reconocer el mérito, porque ser justos aquí importa. Para dictar cosas cortas y casuales, Win+H es de verdad bueno. La precisión con un inglés claro es sólida. La configuración es cero: no hay cuenta, ni descarga, ni modelo que esperar. Si quieres soltar un mensaje de dos líneas en Teams o una búsqueda rápida por voz, pulsas un atajo y listo. Para ese trabajo, pagar por otra cosa sería una tontería, y lo repetiré más adelante con palabras aún más claras.
Está pensado para quien dicta de vez en cuando, no para quien dicta para ganarse la vida. Ese enfoque explica cada limitación que viene después. Microsoft creó una función gratuita, sencilla y respaldada por la nube para el usuario medio que de vez en cuando quiere hablar en lugar de teclear. No creó una herramienta para profesionales, y nunca fingió hacerlo. El desajuste solo aparece cuando intentas usar una herramienta casual para un trabajo intenso.
Win+H es además solo uno de varios atajos: el atajo de dictado por voz de cada sistema operativo está recogido en una sola tabla.
Por qué la gente busca una alternativa a Win+H
Tres cosas hacen que la gente se ponga a buscar. Primera, la necesidad de internet. La documentación de soporte de Microsoft lo dice sin rodeos: "Para usar el dictado por voz, necesitas estar conectado a internet". El dictado por voz procesa lo que dices en la nube, no en tu equipo, así que en un tren, en un avión, en una zona sin cobertura o en una red de trabajo cerrada, simplemente no funciona. Para cualquiera que dicte algo que preferiría no enviar a un servidor (un correo a un cliente, una nota médica, una idea a medio formar sobre el negocio), el viaje de ida y vuelta a la nube es el factor decisivo, no la velocidad.
Segunda, no hay vocabulario personalizado. Win+H no va a aprender que tu producto se escribe "Remskill" y no "rem skill", ni que tu compañera es "Siân" y no "Shawn". Cada sesión empieza de cero. Tercera, el atajo provoca conflictos. Win+H es un atajo global, y otras aplicaciones se apropian de él o de las teclas cercanas, así que lo que debería ser una pulsación rápida se convierte en una pelea por ver quién es el dueño de la combinación. Una alternativa arregla las tres cosas a la vez: funciona en el dispositivo, acepta una lista de palabras personalizadas y te deja elegir un atajo que nada más toca.
Ese último punto merece verse más que leerse. La alternativa en la que la mayoría acaba es un atajo de mantener pulsado para hablar: pulsas y mantienes una tecla, hablas y la sueltas, y el texto se pega donde está el cursor. Se mantiene activo exactamente el tiempo que la mantengas pulsada: sin detenerse solo tras una pausa, sin barra que cerrar. Una pequeña cápsula aparece mientras hablas para que sepas que está escuchando:
Configura la alternativa en dos minutos
La alternativa que voy a usar aquí es Whisper by Remskill, porque es la que cierra los tres huecos de Win+H: sin conexión, vocabulario personalizado y tu propio atajo. Necesitas un PC con Windows 10 o más reciente (también funciona en Mac), un micrófono que funcione y unos dos minutos. Todo el flujo local es gratis para cualquier cuenta con sesión iniciada, sin que te pidan un método de pago al registrarte. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descárgalo desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo de transcripción local se abre de inmediato.
Sabrás que funcionó cuando aparezca el icono de la aplicación en la bandeja y el asistente de configuración te ofrezca elegir un modelo.
Paso 2 — Elige una vía de transcripción.
La aplicación no elige por ti. Tienes tres: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para superar el límite de la nube que tiene Win+H, elige una local: más sobre cuál un par de secciones más abajo.
Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Elige un atajo que nada más use.
En Windows, el valor por defecto es Ctrl+Space, mantenido como pulsar para hablar. Si choca con algo que usas, cámbialo en Ajustes: la razón misma de dejar Win+H es que puedes ser el dueño de esta tecla, no pelearte por ella.
Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Añade tus palabras personalizadas y habla.
Mete los nombres de tus productos, apellidos y siglas en la lista de palabras clave para que salgan bien escritos. Luego pon el cursor donde quieras, mantén pulsado el atajo, di una frase y suelta.
Sabrás que funcionó cuando "Remskill" salga como Remskill y tu frase esté ya en el cuadro de texto.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, el dictado deja de ser una función que invocas y se convierte en una tecla que mantienes pulsada, en cualquier aplicación, con o sin conexión.
Win+H frente a una herramienta dedicada, con honestidad
Empecemos por dónde gana Win+H, porque gana en dos cosas y fingir lo contrario sería deshonesto. Es gratis, punto: nada que comprar, nunca. Y ya viene instalado, así que no hay descarga ni cuenta. Si esas dos cosas son lo que más te importa, la comparación puede acabar aquí y Win+H se la lleva. Una herramienta dedicada te pide instalar algo e iniciar sesión; Win+H no pide nada.
Ahora el resto de la tabla. En privacidad, Win+H es solo nube: la propia documentación de Microsoft traza la línea: el reconocimiento de voz en línea "usa servicios basados en la nube de Microsoft" y "los datos de voz se envían a Microsoft", mientras que el reconocimiento basado en el dispositivo "procesa tu voz localmente en tu dispositivo" y "no se envían datos de voz a Microsoft". El dictado por voz usa la vía en línea. Una alternativa local mantiene todo en el equipo. En vocabulario personalizado, Win+H no tiene; una herramienta dedicada acepta una lista de palabras. En el atajo, Win+H es un atajo global fijo que escucha hasta que lo interrumpen; una herramienta de mantener pulsado para hablar te da una tecla que eliges y mantienes. En la limpieza, Win+H añade puntuación automática en tiempo real; una herramienta dedicada puede hacer una pasada completa de IA que arregla muletillas y frases atropelladas, no solo las comas.
Y el corte automático. Win+H está hecho para interpretar una pausa como "ya has terminado" y apagarse solo tras unos segundos de silencio, un comportamiento que analicé aparte en por qué el dictado de Windows se detiene constantemente. Para mensajes cortos está bien. Para pensar en voz alta, cuando paras a buscar la palabra, es exasperante. Una tecla de mantener pulsado para hablar esquiva todo el asunto: está activa mientras la mantienes y se apaga cuando la sueltas, y el silencio en medio no cambia nada. Así que el marcador honesto: Win+H gana en gratis y preinstalado; la alternativa gana en sin conexión, vocabulario, control del atajo, limpieza y en no detenerse sola. Elige la fila que encaje con tu día.
Local o nube: qué modo reemplaza a Win+H
Si la razón por la que dejas Win+H es la necesidad de internet o la privacidad, la respuesta es el modo local. Todo el atractivo de una alternativa es que la transcripción ocurre en tu equipo, sin enviar nada a un servidor: lo contrario del viaje de ida y vuelta a la nube que detiene el dictado por voz en cuanto la conexión tiembla. Si tu PC es de los últimos años, lo local maneja el dictado diario sin quejarse, y la nube pasa a ser una opción que eliges cuando quieres en vez de una dependencia de la que no puedes salir.
Así se diferencian las tres vías, porque la aplicación te hace elegir y prefiero que elijas bien:
- Parakeet local — el motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si dictas en inglés o en otro idioma europeo, esta es la opción rápida y totalmente sin conexión que hace lo que hace Win+H pero sin la nube.
- Whisper local — más lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo de inglés por defecto pesa unos 480 MB.
- Nube (OpenAI, con tu propia clave) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, igual que Win+H, así que es la única vía que sale de tu equipo. La superficie de Nube forma parte de Whisper Pro.
La verdad aburrida es que, para el tipo de texto que Win+H maneja hoy (correos, mensajes, notas), cualquiera de los dos motores locales sobra, y ambos funcionan totalmente sin conexión. Esa es la mayor diferencia práctica con la opción integrada: sin conexión, sigue funcionando. La nube se gana su lugar cuando quieres precisión de primer nivel en una grabación difícil o necesitas que el modelo saque un dato de la web a media frase. Si llegaste aquí para escapar de la dependencia de internet, empieza por lo local y trata la nube como la salida de emergencia, no como el valor por defecto.
La pasada de limpieza con IA que Win+H no hace
El dictado en bruto sale como un texto atropellado. Dices "vale entonces escríbele al cliente sobre el despliegue de remskill pásalo al jueves y pregunta por el presupuesto", y ese es el muro sin puntuar que te entrega cualquier motor de voz. Win+H irá metiendo comas y puntos mientras hablas, lo cual es real y útil. Lo que no hará es reescribir el lío: quitar los "ehs", arreglar la gramática rota, convertir una parrafada hablada en algo que de verdad enviarías.
Ese es el hueco que llena una pasada de IA. Di la frase de activación "Hey whisper" y el texto se mejora antes de aterrizar: muletillas fuera, frases atropelladas separadas, tus palabras personalizadas bien escritas porque se las enseñaste a la herramienta. En un modelo local eso pasa por Ollama, así que la limpieza también ocurre en tu equipo; en modo nube es gpt-5-mini por defecto. Win+H te da puntuación. Esto te da una frase terminada.
vale entonces escríbele al cliente sobre el despliegue de remskill pásalo al jueves y pregunta por el presupuesto eh antes de la llamada
Vale, entonces escríbele al cliente sobre el despliegue de Remskill, pásalo al jueves y pregunta por el presupuesto antes de la llamada.
La parte del vocabulario personalizado es la que Win+H, por su propia estructura, no puede igualar. Como la alternativa transcribe en tu equipo con tu propia lista de palabras, sabe que "Remskill" es un producto y "Siân" es un nombre, y los escribe bien cada vez en lugar de una de cada dos. Para cualquiera que dicte los mismos nombres propios todo el día (un comercial con un CRM lleno de apellidos, un programador que nombra los mismos servicios), esa es la diferencia entre texto que conservas y texto que corriges. Win+H empieza cada sesión como un desconocido; una herramienta con palabras clave recuerda.
Ese mismo flujo de hablar y luego limpiar es la razón entera por la que la voz le gana al teclado en volumen: puedes escribir más rápido con tu voz en cualquier aplicación, así que un mensaje largo se vuelve unas pocas frases dichas en voz alta en vez de un párrafo que machacas a mano.
Cuándo Win+H es todo lo que necesitas

Mentiría si le dijera a todo el mundo que instale algo. Para una parte real de la gente, Win+H es la respuesta correcta y una herramienta dedicada es pasarse. Si dictas de vez en cuando (un mensaje rápido, una caja de búsqueda, una nota corta) y casi siempre estás conectado, la función integrada no cuesta nada y funciona bien. No descargues una aplicación para hacer lo que el atajo tecla Windows + H ya hace gratis.
En concreto, quédate con Win+H si siempre estás conectado a internet y te da igual que tu voz pase por la nube de Microsoft; si dictas en frases cortas en lugar de pasajes largos, de modo que el corte automático por silencio nunca te molesta; si nunca necesitas que escriba nombres o jerga personalizados; y si el atajo Win+H no choca con nada que uses. Ese es un perfil real, no un espantapájaros: describe a un montón de usuarios casuales, y para ellos la alternativa añade fricción sin añadir valor. Gratis y preinstalado es una combinación potente cuando los límites no te tocan.
La línea que hay que cruzar es cuando los límites empiezan a costarte tiempo. Recurre a una herramienta sin conexión y para todo el sistema cuando dictes donde no hay señal, cuando quieras que tus palabras se queden en tu equipo, cuando estés harto de que los mismos nombres salgan mal o cuando quieras un atajo que mantienes pulsado y que nunca se corta a mitad de la idea. Por debajo de esa línea, Win+H gana en precio y en cero configuración, y con gusto te diré que lo conserves.
Y si tu queja de verdad con Win+H es el corte constante y no la nube, el repaso de arréglalo-primero en por qué el dictado de Windows se detiene constantemente cubre lo que puedes estabilizar de verdad antes de decidir cambiar siquiera.
Para seguir leyendo
Win+H es esa rara herramienta gratuita que de verdad es buena, y por eso me he pasado este artículo entero negándome a hablar mal de ella. Hace un trabajo bien: dictado corto, en línea y casual, por nada. La alternativa es para el otro trabajo: el de todo el día, sin conexión, con mis propias palabras, mantén-la-tecla-y-piensa. Dicté la mayor parte de esta comparación con un atajo que elegí yo mismo, en un avión con el wifi apagado, mientras Win+H se quedaba ahí esperando una conexión que no iba a llegar. Elige la herramienta que encaje con el vuelo en el que estás.
Prueba la alternativa sin conexión a Win+H
Mantén pulsado un atajo que elegiste, habla y suelta. El texto aterriza donde esté tu cursor, con o sin conexión, en cualquier aplicación.
Modo local gratuito para cualquier cuenta con sesión iniciada. No hace falta tarjeta para empezar.



