Tutorial
Voz a texto en Windows 11
Pulsa Windows + H en un teclado físico, coloca el cursor en cualquier campo de texto y empieza a hablar: la función de dictado integrada transcribe en línea mediante Azure. Para dictar sin conexión en cualquier app, instala una herramienta dedicada. Esta guía te configura ambas opciones de principio a fin.
Última actualización: junio de 2026

Pulsa Windows + H en un teclado físico, coloca el cursor en cualquier campo de texto y empieza a hablar. Las palabras aparecen donde está el cursor. La función de escritura por voz integrada usa el reconocimiento de voz en línea de Azure y necesita conexión a internet. Para dictar sin conexión en cualquier app, instala una herramienta dedicada. Esta guía te configura ambas opciones de principio a fin.
Una vez mi hija mayor me preguntó por qué mis correos tardaban tanto en enviarse. La respuesta honesta es que escribo a unas 40 palabras por minuto y me interrumpen cada noventa segundos más o menos. El dictado por voz resolvió la mitad del problema. El truco en Windows 11 es un atajo que casi nadie encuentra: mantén pulsado Windows + H y aparece una pequeña barra de micrófono flotante sobre lo que estés escribiendo.
A partir de ahí hablas, y las palabras caen donde está el cursor. La opinión que defenderé más adelante: para cualquier cosa que vaya más allá de una nota rápida, la herramienta integrada no es la que yo elegiría.
Hay dos caminos para activar el reconocimiento de voz en Windows 11, y la diferencia entre ellos es dónde ocurre el trabajo. El camino 1 es la escritura por voz integrada, que envía tu audio a los servidores Azure de Microsoft, transcribe allí y devuelve el texto. Está bien para un mensaje de Teams, pero es un problema con una hoja de cálculo de sueldos en un vuelo sin Wi-Fi.
El camino 2 es una app de escritorio que transcribe directamente en tu máquina, sin conexión, en cualquier ventana. Al final de esta guía tendrás los dos funcionando y sabrás cuál quedarte. La mayoría del correo de soporte que recibo viene de alguien que eligió el camino equivocado el primer día. Y soy yo quien lo lee.
Camino 1: pulsa Win+H y empieza a hablar
Windows 11 · Win + H
Requisitos: Windows 11, conexión a internet, un micrófono que funcione y el cursor dentro de un campo de texto. Sin descargas ni cuenta. Tiempo: menos de un minuto.
Abre cualquier campo de texto. Un documento de Word, un correo, la barra de búsqueda del navegador, cualquier sitio donde puedas escribir.
Pulsa Windows + H en un teclado físico. Aparece una pequeña barra flotante con un botón de micrófono.
Espera a que aparezca la etiqueta Escuchando y empieza a hablar. Tus palabras aparecen donde está el cursor.
Di «dejar de escuchar» o toca el micrófono para detener. La barra se cierra y el dictado permanece donde estaba el cursor.
Resultado esperado: la barra indica Escuchando y las palabras que dices aparecen en el cursor mientras hablas. Activar la puntuación automática (el icono de engranaje en la barra) permite que añada comas y puntos según lo que digas.
Si no hace nada: la escritura por voz usa el reconocimiento de voz en línea de Azure, así que necesita conexión a internet, un micrófono que funcione y el cursor dentro de un campo de texto. Sin conexión, no hay transcripción. La lista completa de soluciones está dos secciones más abajo.
¿Vienes de un tutorial antiguo que menciona Reconocimiento de voz de Windows? Esa función fue reemplazada por Acceso de voz en Windows 11 22H2 y versiones posteriores en septiembre de 2024. El panel de control antiguo de WSR solo sobrevive en versiones anteriores de Windows. Si una guía te dice que abras un asistente de Reconocimiento de voz y no lo encuentras, la guía está desactualizada, no tu PC.
Cuándo basta con la escritura por voz integrada

No voy a pedirte que instales software que no necesitas. Para muchas tareas, Win+H es la respuesta correcta, y no cuesta nada.
Usa la herramienta integrada cuando el dictado sea breve, tengas conexión y las apuestas sean bajas. Una respuesta a un compañero en Teams. Una nota rápida en OneNote. Una búsqueda que prefieres dictar en vez de teclear. Gestiona la puntuación automática y funciona en cualquier campo de texto estándar en Windows 11. Para ráfagas de 30 palabras cuando ya estás en línea, abrir otra app sería más lento que simplemente hablar.
Hay otra función integrada que confunde a la gente, así que déjame aclararlo. Acceso de voz no es lo mismo que escritura por voz. Acceso de voz permite controlar todo el PC y redactar texto con la voz, y a diferencia de Win+H, funciona sin conexión mediante reconocimiento de voz en el dispositivo tras una descarga de idioma inicial. Requiere Windows 11 versión 22H2 o posterior. Si necesitas control manos libres completo del PC (hacer clic, desplazarte, abrir apps con la voz), Acceso de voz es la herramienta integrada adecuada, no la escritura por voz. Son trabajos distintos.
Donde Win+H se queda corto (sin conexión, precisión, idiomas)
La herramienta integrada tiene tres límites reales. Ninguno es un problema para una nota rápida. Los tres empiezan a doler en cuanto haces trabajo más largo o más serio.
Sin conexión
La escritura por voz necesita internet porque la transcripción ocurre en los servidores de Azure, no en tu portátil. En un avión, en un tren por un túnel o en un edificio que devora el Wi-Fi, deja de funcionar.
Precisión
Microsoft no publica ninguna cifra de precisión para la escritura por voz, y no hay ningún benchmark neutral en el que me atreviera a apostar. Lo que sí puedo decirte es que un modelo en la nube con conexión inestable, el micrófono integrado del portátil y un acento marcado son tres formas distintas de obtener una transcripción que luego tienes que corregir a mano.
Idiomas
La escritura por voz admite una lista fija de unos cuarenta idiomas mantenida por Microsoft, y hay que instalar cada uno antes de poder cambiarlo. Es más que suficiente para la mayoría, pero una barrera para quien trabaja en un idioma que Microsoft aún no ha añadido.
El ángulo de la privacidad es el que más me preocupa. Tu dictado —el correo al colegio de tu hijo, el borrador de un contrato, la idea a medio formar que jamás dirías en voz alta en una reunión— sale de tu máquina y va a un servidor. Para un mensaje de Teams con cinco minutos de retraso eso no es nada. Para las cosas que te importan, merece la pena saber adónde va el audio.
¿Win+H no funciona? Las tres causas más comunes
Cuando Win+H no hace nada, casi siempre es una de tres cosas. Compruébalas en este orden, porque así de frecuente es cada una.
1. Sin internet o sin micrófono que funcione.
La escritura por voz necesita conexión y un micrófono que Windows pueda escuchar. Abre Configuración, Sistema, Sonido y confirma que tu dispositivo de entrada muestra movimiento cuando hablas.
Prueba la solución: la barra debería llegar a Escuchando en lugar de quedarse colgada.
2. El cursor no está dentro de un campo de texto.
Win+H solo se activa cuando el cursor está dentro de un campo en el que puedas escribir. Haz clic en un documento de Word o en el cuerpo de un correo primero, luego pulsa el atajo.
Prueba la solución: la barra de micrófono aparece en cuanto pulsas las teclas.
3. Una capa de teclas de función del portátil está interceptando la H.
En algunos portátiles las teclas de la fila superior o los controles multimedia reasignan funciones, y una utilidad de teclado puede interceptar el atajo.
Prueba la solución: abre el micrófono del teclado táctil en su lugar. Si el dictado funciona ahí, el problema es el atajo de hardware, y puedes reasignarlo en la utilidad de teclado de tu fabricante.
Si ninguna de estas opciones funciona, el problema más profundo suele ser un paquete de idioma que no terminó de instalarse o una actualización de Windows a medias. Ahí es también donde dejo de pelear con la herramienta integrada y configuro algo que controlo de principio a fin, que es el camino 2 más abajo. Si sigue fallando después de eso, escribimos una guía aparte sobre escritura por voz que no funciona en Windows con la lista completa de comprobaciones.
Camino 2: configura una app de dictado dedicada
Whisper es la app de escritorio que desarrollo, y hace las tres cosas que Win+H no puede: transcribe sin conexión en tu propia CPU, funciona con un único atajo global del sistema en cualquier aplicación, y te deja elegir el motor según tu hardware e idiomas en vez de un único modelo en la nube. Aquí tienes la configuración completa, de principio a fin.
Requisitos: Windows 11, unos 1 GB de disco libre para un modelo de tamaño medio, un micrófono y una cuenta gratuita (sin método de pago para empezar). Solo necesitas conexión para la descarga inicial; la transcripción posterior es sin conexión. Tiempo: de 5 a 10 minutos, la mayor parte en la descarga del modelo.
Descarga e instala Whisper. Descarga el instalador desde la página de descarga y ejecútalo. Resultado esperado: la app se abre en su ventana principal.
Inicia sesión. Crea la cuenta gratuita cuando se te pida; no se requiere tarjeta para empezar. Resultado esperado: llegas a la pantalla principal con Ajustes disponibles.
Elige un motor local y descarga el modelo. Elige un modelo de Whisper adaptado a tu PC, o Parakeet para la opción local más rápida. Resultado esperado: una barra de progreso termina y el modelo aparece como listo.
Confirma el atajo. El atajo predeterminado en Windows es Ctrl+Space: mantenlo pulsado, habla, suéltalo. Cámbialo en Ajustes si entra en conflicto con algo.
Pruébalo en cualquier app. Haz clic en cualquier campo de texto (un navegador, tu editor de código, un chat), mantén Ctrl+Space, di una frase, suéltalo. El texto cae donde está el cursor.
Resultado esperado: con el modelo descargado, mantienes Ctrl+Space en cualquier aplicación, hablas, sueltas, y tus palabras se pegan en el cursor sin internet de por medio tras la descarga. Decir Hey whisper activa un pase de limpieza por IA sobre el texto antes de que aterrice, si lo tienes activado.
Si el atajo falla: vuelve a asignarlo en Ajustes. Aprendí esto por las malas. La primera versión del controlador de atajos disparaba el callback de parada de grabación seis veces por cada pulsación real en Windows, porque el framework de entrada de Windows genera eventos fantasma de Ctrl+Space a intervalos impredecibles. Funcionaba en una máquina limpia y se rompía en cualquier portátil con un segundo idioma de entrada activado. Hicieron falta telemetría, una protección de 50ms que no fue suficiente y finalmente un antirrebote de 300ms que sí lo fue. El veredicto de mi hija sigue en pie: por eso los correos de papá tardan tanto.
En cuanto a cobertura de idiomas, el motor local de Whisper gestiona 99 idiomas en sus modelos multilingües, mientras que los builds .en son solo para inglés y algo más rápidos para esa tarea. El motor Parakeet va de 5 a 10 veces más rápido que Whisper en CPU y cubre inglés más 24 idiomas europeos (25 en total), aunque omite los idiomas asiáticos y la traducción al inglés. Si lo que más te importa es funcionar sin conexión, nuestra guía de reconocimiento de voz sin conexión cubre los motores con más detalle.
Win+H vs Acceso de voz vs una app dedicada
Tres formas de convertir voz en texto en Windows 11, lado a lado. La tabla cubre solo lo que cada herramienta documenta. Sin cifras de precisión o velocidad inventadas.
| Herramienta | Tipo | Funciona sin conexión | Modelo de precios | Idiomas | Ideal para |
|---|---|---|---|---|---|
| Escritura por voz Win+H | Integrada en Windows 11 | No (Azure en línea) | Gratis con Windows | ~40, lista fija | Notas cortas en línea en cualquier campo de texto |
| Acceso de voz | Integrado en Windows 11 (22H2+) | Sí (en el dispositivo) | Gratis con Windows | Conjunto limitado | Control manos libres de todo el PC |
| Whisper (app dedicada) | Instalar en Windows + macOS | Sí (CPU local) | Nivel local gratuito; complemento Cloud de pago | 99 con los modelos multilingües de Whisper | Dictado sin conexión en cualquier app |
Si tu única necesidad es una respuesta rápida de Teams mientras estás en línea, el camino 1 gana en sencillez. Ya está en tu PC. En el momento en que aparece la necesidad de trabajar sin conexión, en cualquier app, o en un idioma que falta, el camino 2 justifica la instalación.
Local vs nube: qué modo de Whisper elegir para tu PC
Whisper funciona en dos modos, y la elección depende de tu hardware y de si quieres acceso a la web.
El modo local hace todo en tu máquina. Elige un modelo de Whisper adaptado a tu PC: Base pesa unos 140 MB y corre en casi cualquier cosa, Small unos 480 MB, Medium unos 1,5 GB, y el multilingüe Large v3 unos 3 GB para la mejor precisión si tienes la RAM. O elige Parakeet con unos 600 MB para la opción local más rápida si trabajas principalmente en inglés o idiomas europeos. Nada de esto toca internet tras la descarga.
El modo nube es la válvula de escape. Usa tu propia clave de OpenAI: transcripción a través de gpt-4o-mini-transcribe o gpt-4o-transcribe, y búsqueda web cuando quieres una respuesta en tiempo real pegada en el cursor. Tú pones la clave; nosotros no nos llevamos comisión.
La opinión que voy a mantener: prueba primero el modo local. Si tu PC con Windows tiene menos de cuatro años, no necesitas la nube para el dictado cotidiano, y el modo local mantiene tu audio en tu máquina donde debe estar. La nube es el recurso cuando llegas a un límite, no la opción predeterminada. Whisper es gratuito para toda la canalización local una vez que inicias sesión, sin método de pago requerido para empezar. La capa Cloud es el nivel Pro de pago. Los detalles están en la página de precios. Para la guía local completa, la guía de voz a texto en Windows lo explica paso a paso.
Cuándo saltarse la app dedicada
Prefiero que te quedes con Win+H a que instales algo que no vayas a usar. Salta la app dedicada y quédate con la escritura por voz integrada cuando todo esto se cumpla:
- Dictas ráfagas cortas, no documentos largos.
- Estás en línea siempre que dictas.
- Trabajas solo en un idioma que la escritura por voz de Microsoft ya cubre.
- Tu audio no es confidencial y no te importa que salga de tu máquina.
Win+H es gratuito, ya está instalado y hace exactamente ese trabajo muy bien. La app dedicada gana su lugar en el momento en que cruzas una de esas líneas: un avión, un borrador de contrato, un idioma que Microsoft omitió o cualquier app que no sea un campo de texto estándar.
Precios sin rodeos
El modo local de Whisper es gratuito para todo aquel que inicia sesión: transcripción con Whisper y Parakeet, mejora por IA, historial, ajustes predefinidos, palabras clave personalizadas, aceleración de hardware, descargas de modelos y el atajo global, todo ello sin necesidad de tarjeta para empezar. Whisper Pro añade las funciones Cloud encima: transcripción en la nube con OpenAI, mejora por IA en la nube y búsqueda web por voz. La escritura por voz integrada de Windows también es gratuita, porque forma parte de Windows. El desglose completo de planes está en la página de precios. Prefiero que leas las cifras exactas allí antes que fiarte de un número en una entrada de blog que puede quedarse desactualizado.
Dos caminos, una decisión. Si estás en línea, la nota es corta y las apuestas son bajas, pulsa Windows + H y habla: es gratis y ya está en tu PC. En el momento en que lo necesitas en un avión, en cualquier app, en un idioma que Microsoft omitió o con tu audio quedándose en tu propia máquina, configura la app dedicada. Yo crucé esa línea más o menos con la tercera nota de reunión que dicté con una sola mano mientras preparaba las fiambreras, y desde entonces no he vuelto a escribir un correo largo.
Pruébalo sin conexión en tu propio PC
Descarga Whisper, mantén Ctrl+Space, habla, suelta: tus palabras se pegan en el cursor en cualquier app, sin internet de por medio.
Modo local gratuito para cualquier cuenta con sesión iniciada. No se requiere tarjeta para empezar. Si Win+H ya cubre todo lo que necesitas, quédate con el atajo: es bueno.



