Por Denys Medvediev

Guía

Cómo usar el dictado por voz en Windows

Windows incluye dictado por voz de serie. Pulsa la tecla Windows + H en cualquier cuadro de texto, espera a que aparezca «Escuchando» y habla. Necesita conexión a internet y un micrófono que funcione. Para un uso intensivo, sin conexión o en varias aplicaciones, una herramienta dedicada con un solo atajo hace el mismo trabajo en cualquier sitio.

Última actualización: junio de 2026

Un portátil Windows y un teclado sobre un escritorio, listos para escribir con voz sin usar las manos

Para usar el dictado por voz en Windows, coloca el cursor en cualquier cuadro de texto y pulsa la tecla Windows + H. Se abre la barra de dictado por voz, aparece «Escuchando» y escribe lo que dices. Necesita un micrófono que funcione, conexión a internet y el reconocimiento de voz en línea activado en Configuración, Privacidad y seguridad, Voz.

La mayoría de las personas no saben que Windows puede escribir por ellas. La función viene incluida en Windows 10 y 11, no tiene asistente de configuración y se esconde tras un atajo de teclado que nadie menciona: la tecla Windows + H. Coloca el cursor en un cuadro de texto, mantén pulsada la tecla Windows, toca H, y una pequeña barra se abre en la parte superior de la pantalla y empieza a escuchar.

Eso es todo, y para usos breves funciona bien. El problema es algo que Microsoft dice claramente pero que la mayoría de los artículos omiten: el dictado por voz de Windows envía tu voz a la nube de Microsoft, así que necesita conexión a internet para hacer cualquier cosa. Ese detalle decide si la función integrada es suficiente para ti o si necesitas otra cosa. Voy a explicar la función integrada con honestidad primero, y luego te cuento dónde se queda corta.

Aquí está lo que los tutoriales de listas no te dicen. El dictado por voz de Windows es una función real, gratuita e integrada, y funciona en cualquier cuadro de texto que acepte un cursor: tu navegador, Word, un mensaje de Slack, la barra de búsqueda. No tienes que instalar nada. El atajo es la tecla Windows + H, y una vez que sabes que existe, lo usarás.

La respuesta honesta tiene dos partes. Primera parte: cómo activar la función integrada y usarla bien, que es lo que la mayoría de quienes buscan esto realmente necesitan. Segunda parte: dónde Win+H llega a su límite — sin internet, dictados largos, palabras que siempre transcribe mal — y qué soluciona una herramienta dedicada en cada caso. Cubriré las dos, configuraré la alternativa en dos minutos, y te diré claramente cuándo Win+H ya es suficiente.

Qué es realmente el dictado por voz de Windows

Una persona hablando cerca de un portátil abierto, ilustrando cómo hablar en lugar de escribir

El dictado por voz de Windows es una función integrada que te permite introducir texto hablando en lugar de escribir. Viene incluida en Windows 10 y Windows 11, no cuesta nada y funciona en cualquier cuadro de texto donde puedas colocar un cursor. Vale la pena citar la descripción oficial de Microsoft porque marca los límites: el dictado por voz «usa el reconocimiento de voz en línea, que funciona con Azure Speech Services». De esa sola frase se derivan tres consecuencias.

Primera: necesita internet. Tu voz se envía a los servidores de Microsoft para convertirse en texto, así que sin conexión el dictado por voz no hace nada. Segunda: necesitas un micrófono que funcione — el integrado del portátil está bien para empezar. Tercera: como el reconocimiento ocurre en la nube, la precisión es generalmente buena y no carga el procesador. Esa es la contrapartida en pocas palabras: gratis y preciso, pero solo online y sin privacidad.

La gente suele confundir esto con el Reconocimiento de voz de Windows (más antiguo), con el más reciente Acceso de voz, o con el dictado dentro de una sola aplicación. Para el uso cotidiano de «quiero hablar y ver cómo aparecen las palabras en lo que estoy escribiendo», el que buscas es el dictado por voz, que se abre con la tecla Windows + H. La siguiente sección es el tutorial en sí.

Actívalo con la tecla Windows + H

No hay ninguna aplicación que abrir ni ningún asistente por el que pasar. Colocas el cursor donde quieres las palabras y luego activas el dictado por voz con un atajo de teclado. Aquí tienes toda la secuencia, con la única vuelta a la configuración que puede que necesites.

Haz clic en cualquier cuadro de texto — un documento, un correo, un chat, la barra de direcciones — para que el cursor parpadee ahí. Pulsa la tecla Windows + H. Aparece una pequeña barra de dictado en la parte superior de la pantalla. Espera a que diga «Escuchando» antes de hablar; si empiezas demasiado pronto, cortará tus primeras palabras. Habla con naturalidad y el texto aparece donde está el cursor. Pulsa el botón del micrófono en la barra, o el atajo de nuevo, para detenerlo.

Si no pasa nada, casi siempre hay dos causas. El micrófono no está configurado o no tiene permiso — el dictado por voz necesita un micrófono que funcione. O el reconocimiento de voz en línea está desactivado, lo que significa que la parte en la nube de la función está inhabilitada. Actívalo en Inicio, luego Configuración, luego Privacidad y seguridad, luego Voz, y pon el Reconocimiento de voz en línea en Activado. Si la barra se abre pero nunca llega a «Escuchando», casi siempre es la conexión a internet, ya que el reconocimiento ocurre en los servidores de Microsoft y no en tu equipo. (Si Win+H falla de forma más persistente, escribí un artículo aparte sobre por qué Win+H deja de funcionar y cómo recuperarlo.)

La mejor opción para uso intensivo: un solo atajo en todas partes

La función integrada es estupenda hasta que chocas con alguno de sus límites — sin internet en el tren, un bloque largo de dictado o una palabra que transcribe mal una y otra vez. La solución es una herramienta de todo el sistema que hace el mismo trabajo pero funciona en tu propio equipo, mantiene un breve margen para que no se corte la última palabra y usa un solo atajo en todas las aplicaciones. Necesitas un PC con Windows 10 o superior, un micrófono que funcione y una cuenta. Todo el proceso local es gratuito para cualquier cuenta con sesión iniciada, sin pedir ningún método de pago al registrarte. Así es la secuencia.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. El proceso de transcripción local se abre de inmediato.

Sabrás que ha funcionado cuando aparezca el icono de la aplicación en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2 — Elige una vía de transcripción.

La aplicación no elige por ti. Tienes tres opciones: Cloud (OpenAI, con tu propia clave), Local Parakeet o Local Whisper. Para sustituir el comportamiento de solo-online de Win+H por algo sin conexión, elige un motor local — más sobre eso dos secciones más adelante.

Sabrás que ha funcionado cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo.

En Windows el valor predeterminado es Ctrl+Space, mantenido como pulsar para hablar. Cámbialo en Configuración si entra en conflicto con algo que ya uses. A diferencia de Win+H, mantener la tecla pulsada sigue grabando todo el tiempo que la mantengas.

Sabrás que ha funcionado cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Coloca el cursor en cualquier sitio y habla.

Haz clic en un documento, un correo o un cuadro de chat, mantén pulsado el atajo, di una frase, suelta. La transcripción se pega donde está el cursor, en la aplicación que tenga el foco.

Sabrás que ha funcionado cuando la frase que dijiste aparezca como texto en el cuadro de texto.

Whisper
La aplicación de escritorio Whisper real en la pantalla de configuración, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga única del modelo, no la configuración. Después de eso, el acto de escribir en cualquier aplicación deja de ser una tarea de teclado y se convierte en una tarea de voz — y sigue funcionando cuando cae el Wi-Fi.

Si ya has usado voz a texto en Windows 11 antes, es la misma idea pero con un atajo que no se detiene solo.

Puntuación: comandos frente a automática

El habla en bruto no tiene comas. Cada herramienta de dictado lo gestiona de una de dos maneras, y el dictado por voz de Windows en realidad ofrece las dos. Tiene puntuación automática, que añade comas y puntos por su cuenta según cómo hablas, y se activa desde el icono de engranaje en la barra de dictado. Y tiene comandos de voz: di «punto», «coma», «nueva línea», «abrir comillas» y «cerrar comillas», y inserta el signo en lugar de las palabras.

Vale la pena echar un vistazo al menú de engranaje de esa barra al menos una vez. Además de la puntuación automática, contiene el filtro de lenguaje soez y la elección del micrófono predeterminado. Nada está enterrado; es un clic desde la barra que se abre con Win+H. Mientras hablas, un pequeño indicador muestra que la función está escuchando — la misma idea que usa toda buena herramienta de dictado para que nunca tengas que adivinar si te oyó:

Cancel
Un indicador de grabación: una pequeña cápsula que aparece mientras hablas para saber que la herramienta está escuchando.

El límite de la puntuación por comandos es que te obliga a narrar el formato — «coma», «nueva línea», «punto» — lo que está bien para un texto pero se vuelve agotador en un párrafo largo. La puntuación automática ayuda, pero aun así te entrega una transcripción literal de lo que dijiste, con los «ehhh» y los arranques en falso incluidos. Convertir eso en algo que realmente usarías es un paso aparte, y ahí es donde una herramienta dedicada toma ventaja. Más sobre eso a continuación.

Local o en la nube: la elección que Win+H no te da

El dictado por voz de Windows tomó la decisión de local o en la nube por ti: es en la nube, sin excepciones. Tu voz va a los servidores de Microsoft cada vez. Eso está bien para una lista de la compra y es un verdadero problema para una nota en una hoja de salarios o un correo de cliente que preferirías que no se transcribiera fuera de tu equipo. Una herramienta dedicada te da la elección que la función integrada no ofrece. Así difieren las tres opciones, porque la aplicación te hace elegir y prefiero que elijas bien:

  • Local ParakeetEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida — de 5 a 10 veces más rápida que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si dictas en inglés u otro idioma europeo y quieres velocidad sin que nada salga de tu equipo, esta es la elección rápida.
  • Local Whispermás lento que Parakeet en el mismo equipo, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo inglés, no 99. Elige este para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo en inglés predeterminado pesa unos 480 MB.
  • Cloud (OpenAI, BYOK)la mejor precisión y acceso web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, igual que Win+H, pero es tu clave y tu decisión. La opción Cloud forma parte de Whisper Pro.

La verdad aburrida es que para la escritura cotidiana de la mayoría, un motor local es más que suficiente, y es lo único que Win+H no puede ofrecer. Ambas opciones locales funcionan completamente en tu equipo sin enviar nada a un servidor. La nube gana su lugar cuando quieres precisión de primer nivel en una grabación difícil o necesitas que el modelo obtenga un dato de la web a mitad de una frase. Empieza con lo local y recurre a la nube solo cuando lo local se quede corto.

Resultados más limpios sin decir cada coma

Tanto Win+H como una herramienta dedicada te dan el mismo punto de partida: un texto sin pausas. Dices «bueno pues mueve el plazo al viernes avisa al cliente y reserva la sala para dos» y eso es la pared sin puntuación que cualquier motor de voz te entrega. Win+H puede puntuar sobre la marcha o aceptar comandos de voz. Ninguno elimina los «ehhh» ni arregla una frase que empezaste a mitad y luego deshiciste.

Esa limpieza es donde un paso de IA justifica su existencia. Di la frase de activación «Hey whisper» y el texto transcrito se mejora antes de aterrizar — rellenos eliminados, frases largas divididas, mayúsculas corregidas. En un modelo local funciona a través de Ollama en tu equipo; en modo cloud es gpt-5-mini por defecto. Hablas la versión desordenada una vez y recibes la versión que enviarías de verdad.

Thinking...
Sin procesar

bueno pues mueve el plazo al viernes avisa al cliente y reserva la sala para dos ehhh antes de comer

Limpio

Bueno, pues mueve el plazo al viernes, avisa al cliente y reserva la sala para dos antes de comer.

Están también las palabras que un motor genérico sigue equivocando — el nombre de un producto, el apellido de un compañero, un término técnico. Win+H no te da ninguna manera de enseñarle esas palabras. Una herramienta dedicada te permite favorecer un vocabulario personalizado para que las palabras que usas cada día dejen de salir mal. No inventará formato que no pediste, y quien prometa «di encabezado y míralo darse estilo solo» te está vendiendo una demo, no algo que funcione el martes por la mañana. Escribe las palabras rápido y limpio con voz; haz el formato con las teclas que ya conoces.

Ese mismo flujo de hablar-y-limpiar es la razón principal por la que la gente cambia — puedes escribir más rápido con voz en todas las aplicaciones en lugar de narrar comas en una barra integrada que solo funciona con internet.

Cuándo Win+H ya es suficiente

Un portátil abierto en una encimera de cocina, sugiriendo una nota rápida del día a día

A veces la solución gratuita que ya tienes en el equipo es la respuesta correcta, y pretender lo contrario sería deshonesto. El dictado por voz de Windows es genuinamente bueno para una gran parte de lo que la gente necesita, e instalar algo extra sería exagerado.

Quédate con Win+H si estás conectado la mayor parte del tiempo, tu dictado llega en ráfagas cortas y no te importa que tu voz pase por la nube de Microsoft. Una respuesta de dos líneas en Slack, una consulta de búsqueda, una nota rápida en un documento — pulsa la tecla Windows + H, espera a «Escuchando», habla, listo. Es gratis, viene integrado y puntúa solo. Para un recordatorio de una línea, no voy a pedirte que instales una aplicación.

Recurre a una herramienta dedicada para todo el sistema cuando la función integrada empiece a molestarte: sin internet en un avión o en el tren, largos tramos de dictado donde mantener pulsado supera a una barra que se agota, privacidad en textos que no quieres que salgan de tu equipo, palabras que sigue transcribiendo mal o querer un solo atajo que funcione igual en todos los programas. Por debajo de ese umbral, Win+H gana en precio y en no tener que configurar nada. Por encima, la diferencia es real.

Si todavía estás decidiendo de qué lado de esa línea estás, la comparación más detallada en la guía de alternativas a Win+H explica exactamente dónde encaja cada opción, sin el barniz del marketing.

Windows incluyó el dictado por voz hace años y lo escondió tras un atajo que nadie dice en voz alta. Ahora ya lo sabes: la tecla Windows + H, espera a «Escuchando», habla. Para la mayoría de los trabajos rápidos esa es la respuesta completa, y es gratis. El día que estés sin conexión, o estés dictando algo más largo que un mensaje de texto, o una palabra siga saliendo mal, sabrás exactamente con qué límite chocaste — y qué herramienta te saca de ahí. Escribí buena parte de esto con la voz, en una aplicación a la que no le importa en qué cuadro de texto está el cursor. La conexión se cayó dos veces mientras lo hacía. El dictado no se enteró.

Prueba el dictado por voz que funciona también sin conexión

Mantén pulsado un atajo, habla, suelta. La transcripción aterriza en el cuadro de texto donde esté el cursor — en el tren, en el avión o con el Wi-Fi caído.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lecturas adicionales