Por Denys Medvediev

Solución de problemas

El dictado de Windows se detiene solo

El dictado por voz de Windows (Win+H) se detiene por su cuenta tras unos segundos de silencio, cuando haces clic en otra ventana o cuando se cae la conexión — y Microsoft confirma que la pausa automática por silencio es intencionada. Sigue hablando y estabiliza tu internet para aguantar el tirón, o usa una herramienta de mantener pulsado para hablar que nunca se detiene sola.

Última actualización: junio de 2026

Un cronómetro sobre un escritorio junto a un portátil, que sugiere una función que se agota a mitad de tarea, sin rostros en el encuadre

El dictado de Windows se detiene una y otra vez porque el dictado por voz (Win+H) se pausa automáticamente tras unos segundos de silencio, cuando cambia el foco de la ventana o cuando se cae su conexión a la nube — y Microsoft confirma que la pausa por silencio es intencionada. Las soluciones: sigue hablando, estabiliza el internet, revisa el micrófono. Una herramienta sin conexión de mantener pulsado para hablar permanece activa mientras la mantengas pulsada y nunca se detiene sola.

Pulsas Win+H, aparece la barra, empiezas a hablar y funciona. Luego haces una pausa para pensar un segundo. Quizá miras una referencia, o haces clic en otra ventana para comprobar un nombre. Vuelves, sigues hablando — y no aparece nada, porque el dictado se apagó solo, en silencio, mientras no mirabas. He visto esto pasar a mitad de frase más veces de las que puedo contar, y la primera docena de veces di por hecho que se me había muerto el micrófono.

No era así. Aquí va la versión corta antes de la larga: el dictado por voz de Windows está hecho para detenerse solo. Se detiene cuando te quedas callado, se detiene cuando escribes con el teclado y se apoya en un servicio en la nube, así que una conexión inestable o un cambio de foco de ventana también pueden cortarlo. Parte de eso lo puedes sortear. La parte en la que se pausa tras el silencio es, en palabras de la propia Microsoft, intencionada — y esa no la puedes desactivar del todo.

Lo que el primer resultado de búsqueda suele saltarse: la mayor parte de esto es comportamiento deliberado, no un fallo que puedas parchear. Win+H está diseñado para interpretar una pausa como «ya he terminado», así que se pausa solo. También se pausa en cuanto empiezas a escribir a mano. Por si fuera poco, el dictado por voz convierte la voz en texto a través del servicio de voz en línea de Microsoft, lo que significa que necesita una conexión a internet estable — y cualquier tropiezo ahí, o un cambio en qué ventana tiene el foco, puede detenerlo en seco.

Así que las preguntas honestas son: cómo lo mantengo en marcha durante una sola tirada larga, cómo descarto las partes que sí tienen arreglo y si existe una forma de dictar que no se me detenga en absoluto. Voy a abordar las tres, con los pasos exactos de Microsoft, y voy a ser claro sobre cuándo la función integrada es de verdad todo lo que necesitas.

Por qué el dictado de Windows se detiene solo una y otra vez

Un cronómetro junto a un teclado sobre un escritorio oscuro, que ilustra una función que se agota

Hay cuatro causas, y solo algunas están en tu mano arreglar. La primera es la que afecta a casi todo el mundo: el dictado por voz se pausa solo tras unos segundos de silencio. El propio equipo de soporte de Microsoft ha confirmado que es intencionado. Como lo expresó un especialista de soporte de la comunidad de Microsoft en el Q&A oficial: «la herramienta de dictado actual está, en efecto, diseñada así. No hay ningún medio adicional para impedir que la herramienta de dictado se pause sola tras un periodo de inactividad». El mismo hilo señala que «también se pausa automáticamente cuando escribes a mano con el teclado». Así que una pausa para pensar, o una sola pulsación de tecla, termina la sesión.

La segunda causa es el foco. Windows no te da un micrófono permanente en pantalla como hace un teléfono. Según esa misma guía oficial, «cada sesión requiere que vuelvas a activarla con Win+H». Cuando haces clic en otra ventana, el dictado ligado al campo anterior puede caerse, y te quedas volviendo a pulsar el atajo. La tercera causa es la red. La página oficial de Microsoft dice sin rodeos que «el dictado por voz usa reconocimiento de voz en línea, con tecnología de los servicios de voz de Azure» — está basado en la nube, así que una conexión a internet débil o intermitente puede cortarlo a mitad de frase. La cuarta es el propio micrófono: un micro USB suelto, un fallo al suspender y reanudar, o un nivel que baja demasiado se interpreta como silencio, lo que dispara justamente la pausa automática de la primera causa.

Vale la pena decirlo en voz alta, porque te ahorra una tarde: si tu micro funciona bien en una llamada, esto casi nunca es hardware averiado. El parón está más arriba, en cómo el dictado por voz decide que una sesión ha terminado. Por eso también las soluciones de abajo se dividen en dos grupos — las que de verdad ayudan (conexión estable, buen micrófono, seguir hablando) y la única limitación que sencillamente no puedes quitar (la pausa por silencio intencionada).

El arreglo rápido que funciona para la mayoría

No puedes eliminar el tiempo de espera por silencio, pero sí puedes dejar de activarlo. Para un pasaje largo, el objetivo es simple: no te quedes callado, no cambies de ventana y asegúrate de que nada más te está cortando. Los pasos, sacados de la guía de soporte de Microsoft y del comportamiento descrito en sus hilos:

Mantén un flujo de habla constante — si necesitas un instante para pensar, tararea o di una muletilla en lugar de quedarte en silencio total, porque unos segundos de silencio son lo que dispara la pausa. No toques el teclado a mitad de dictado, ya que escribir a mano detiene la sesión por diseño. Quédate en una sola ventana durante toda la tirada, y vuelve a pulsar Win+H si has hecho clic en otro sitio. Revisa tu conexión, porque el reconocimiento de voz en línea necesita internet estable; si tu Wi-Fi se cae, el dictado también. Y confirma tu micrófono en Configuración, Sistema, Sonido, Entrada, y luego asegúrate de que el acceso al micrófono está activado en Configuración, Privacidad y seguridad, Micrófono — un micro que se corta se interpreta como silencio y termina la sesión. Cuando todo eso encaja, una sola tirada sin interrupciones suele aguantar.

Cancel
Una superposición de mantener pulsado para hablar permanece activa todo el tiempo que mantengas la tecla — sin temporizador de silencio, sin parada automática mientras reúnes tu siguiente frase.

Esa es la solución que te saca del apuro inmediato. La superposición de arriba es de otra herramienta — una app de dictado para todo el sistema — y está aquí para marcar un contraste. Una grabadora de mantener pulsado para hablar está activa exactamente el tiempo que mantengas la tecla, haya silencio o no. No hay ninguna cuenta atrás corriendo cada vez que te paras a pensar, porque nunca decidió por su cuenta que habías terminado. Si peleas con el ciclo de para y arranca cada día, la respuesta duradera de la siguiente sección es usar una herramienta que, de entrada, no se detenga sola.

El arreglo definitivo: dictado que no se detiene solo

Si dictas pasajes largos y estás harto de que la barra te abandone cada pocos segundos, el arreglo duradero es una herramienta con un modelo distinto de encendido y apagado. Un atajo de mantener pulsado para hablar sigue grabando todo el tiempo que lo mantengas — a través de las pausas, mientras piensas, mientras alargas la mano hacia el café — y un motor local transcribe en tu propia máquina, así que no hay conexión a la nube que se caiga ni temporizador de silencio que se active. Necesitas un PC con Windows 10 o más nuevo y un micrófono que funcione. Aquí tienes la configuración en cuatro pasos con Whisper.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Toda la cadena de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2 — Elige una ruta de transcripción local.

La app no elige por ti. Para esquivar por completo las caídas de conexión, elige Local Parakeet (el más rápido en inglés) o Local Whisper (multilingüe, con traducción). Ambos funcionan totalmente en tu máquina. También se ofrece la nube, pero es la única ruta que usa red.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Configura tu atajo de mantener pulsado para hablar.

El predeterminado en Windows es Ctrl+Space, mantenido como pulsar para hablar — graba mientras mantienes la tecla y se detiene cuando la sueltas, no cuando haces una pausa. Elige otro en Configuración si Ctrl+Space choca con otra app.

Sabrás que funcionó cuando puedas mantener la tecla, pausar varios segundos a mitad de frase, seguir hablando y aun así capturarlo todo.

Paso 4 — Pon el cursor donde sea y habla.

Haz clic en cualquier cuadro de texto — correo, documento, barra de búsqueda —, mantén el atajo, di unas frases con pausas entre medias y suelta. La transcripción se pega donde está tu cursor, transcrita en local, sin ningún tiempo de espera por silencio que te corte.

Sabrás que funcionó cuando un pasaje largo y lleno de pausas caiga como un solo bloque de texto, sin necesidad de volver a pulsar.

Whisper
La app de escritorio real de Whisper en la pantalla de configuración, con los paneles de Transcripción e IA abiertos.

Lo único lento es la descarga única del modelo. Después, la grabación sigue activa mientras mantengas la tecla, y la transcripción ocurre en tu CPU, así que las dos cosas que detenían Win+H — un temporizador de silencio y un saludo a la nube — sencillamente no están en el diseño. Mantén, habla, pausa, sigue hablando, suelta. Ese es todo el ciclo.

Si prefieres reparar la función integrada

Mucha gente solo quiere que Win+H se porte bien y no quiere otra app. Es justo. Aquí va la solución de problemas más a fondo del lado de Windows, en el orden en que yo lo intentaría, todo sacado de los propios documentos de soporte y los hilos de Microsoft. Nada de esto toca el registro, así que no hay aquí nada que pueda estropear tu equipo — y voy a señalar la única cosa que de verdad no tiene arreglo.

Primero, la conexión, porque la dependencia de la nube es la causa más infravalorada. El dictado por voz enruta el audio a través del servicio de voz en línea de Microsoft, así que confirma que el Reconocimiento de voz en línea está activado en Configuración, Privacidad y seguridad, Voz, y que tu internet es estable. Con una conexión inestable se detendrá a mitad de frase y parecerá un fallo local. Segundo, el micrófono. Elige la entrada correcta en Configuración, Sistema, Sonido, Entrada, sube el nivel de entrada si está bajo, y confirma que el acceso al micrófono está activado en Configuración, Privacidad y seguridad, Micrófono. La propia solución de problemas de Microsoft también sugiere cambiar a unos auriculares o a un micro externo si el integrado se está cortando — un micro que se corta se interpreta como el silencio que dispara la pausa automática.

Tercero, el idioma. En Configuración, Hora e idioma, Voz, asegúrate de que el idioma de voz coincide con lo que estás dictando y de que su paquete de reconocimiento está instalado; un desajuste provoca un comportamiento errático. Microsoft también sugiere dictar en una habitación más silenciosa, ya que el ruido de fondo enturbia el audio. Ahora la parte honesta: nada de esto elimina la pausa automática por silencio. Esa es intencionada. El equipo de soporte de Microsoft lo confirmó directamente y remitió a los usuarios a la opción Enviar comentarios dentro de la herramienta de dictado para votar por un cambio. Hasta que ese voto cuaje, lo máximo que puedes hacer es evitar quedarte en silencio — la pausa en sí no se puede desactivar. Si eso es un factor decisivo para ti, una herramienta con tecla de mantener pulsado para hablar es la única escapatoria real, que es justo de lo que va la sección de arriba.

Local o nube: qué modo evita esto de verdad

Si el motivo por el que estás aquí es una función que se rinde en cuanto tu conexión titubea, la respuesta se inclina hacia lo local. Ambos motores locales funcionan por completo en tu máquina sin enviar nada a ningún sitio, así que un tropiezo de red no puede detenerlos a mitad de frase como detiene a Win+H. Aquí tienes cómo difieren, para este problema concreto, las tres rutas entre las que la app te hace elegir.

La app te obliga a elegir, así que aquí va cómo lo pensaría yo cuando la queja es «se detiene una y otra vez»:

  • Local ParakeetEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida — de 5 a 10 veces más rápida que Whisper en CPU. Cubre el inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Totalmente sin conexión, así que no hay conexión que se caiga. Si hablas inglés o un idioma europeo, esta es la forma más rápida de bajarte de la noria del saludo a la nube.
  • Local Whispermás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo predeterminado en inglés ronda los 480 MB. También totalmente sin conexión.
  • Nube (OpenAI, BYOK)la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe de forma predeterminada. Necesita internet — así que, igual que Win+H, depende de una red y una caída puede interrumpirla. La superficie de nube forma parte de Whisper Pro.

La verdad aburrida es que, para la frustración concreta que te trajo aquí, lo local es la cura de verdad. Una caída de conexión no puede detener una transcripción que nunca toca la red, y a una tecla de mantener pulsado para hablar le da igual cuánto pauses. La nube se gana su sitio cuando quieres precisión de primer nivel en una grabación difícil o un dato sacado de la web a mitad de frase. Pero si tu queja es «se detiene cuando me parpadea el Wi-Fi», elegir otra ruta dependiente de la red sería no entender el problema. Empieza por lo local.

Texto más limpio una vez que el dictado deja de cortarse

Una vez que el dictado funciona de verdad de principio a fin — integrado o no — te topas con la siguiente realidad: el habla en bruto sale como una parrafada sin puntuación. Dices «vale entonces termina la presentación mándasela a maría y bloquea una hora mañana para ensayar» y eso es el muro sin puntuar que te entrega cualquier motor de voz. Limpiarlo es donde las herramientas se diferencian.

El dictado por voz de Windows puede añadir puntuación mientras hablas cuando está en marcha. Para una limpieza más a fondo — quitar los «eh», arreglar las parrafadas, convertir un párrafo hablado en algo que de verdad enviarías — Whisper puede pasar una capa de IA antes de que el texto caiga. Di la frase de activación «Hey whisper» y el texto se mejora primero. En un modelo local eso pasa por Ollama; en modo nube es gpt-5-mini de forma predeterminada.

Thinking...
En bruto

vale entonces termina la presentación mándasela a maría y bloquea una hora mañana para ensayar eh antes de la llamada con el cliente

Limpio

Vale, entonces termina la presentación, mándasela a Maria y bloquea una hora mañana para ensayar antes de la llamada con el cliente.

El paso de limpieza es parte de por qué una herramienta dedicada se gana su sitio más allá de simplemente no detenerse contigo. No solo consigues una captura que sigue activa a través de tus pausas; consigues un texto que está más cerca de estar listo. Si quieres la versión más amplia de esto, el mismo flujo de hablar y limpiar es lo que te permite escribir más rápido con la voz en cada app que abras, no solo en la única ventana en la que Win+H casualmente cayó antes de rendirse.

Y como pega en el cursor en cualquier campo y nunca se detiene solo cuando cambia el foco, el mismo flujo aguanta también en una pestaña del navegador — dictar en Google Docs se comporta igual que dictar en un editor de escritorio, incluso cuando haces clic entre ellos, que es justo donde Win+H tiende a perder la sesión.

Cuándo la función integrada es suficiente

Un escritorio tranquilo y ordenado con un portátil, que sugiere un problema resuelto

Aquí es donde te convenzo de no instalar nada. Si dictas en ráfagas cortas y la parada automática nunca se cruza en tu camino, no necesitas otra app. Una o dos frases antes de que salte el temporizador de silencio es exactamente para lo que está hecho Win+H. Es gratis, viene integrado en Windows y para respuestas rápidas está la mar de bien. No voy a decirte que instales software para dictar un mensaje de dos líneas.

La ruta integrada es la opción correcta cuando se cumplen unas cuantas cosas: dictas sobre todo textos cortos, de todas formas siempre estás conectado, no te importa volver a pulsar Win+H entre campos y te sientes cómodo con que tu voz vaya a la nube de Microsoft para reconocerse. Ese último punto es la bifurcación de verdad. El dictado por voz enruta tu audio a través del servicio de voz en línea de Microsoft por diseño — está bien para una lista de la compra, merece un segundo pensamiento para un correo de cliente o cualquier cosa que prefieras mantener en tu propia máquina.

Recurre a una herramienta sin conexión de mantener pulsado para hablar cuando el parón empieza a doler de forma repetida: dictas pasajes largos y no paras de toparte con la pausa por silencio, cambias de ventana constantemente y no paras de perder la sesión, trabajas con una conexión inestable, o prefieres que tu voz nunca salga de tu máquina. Por debajo de ese listón, usa lo gratuito — los apaños de antes en esta guía están ahí precisamente para que puedas hacerlo.

Si el problema es mayor que el parón — Win+H sin hacer nada en absoluto, sin que aparezca texto, o con el idioma equivocado — la lista de comprobación más amplia en el dictado por voz no funciona en Windows cubre el resto de los modos de fallo que no son estrictamente una parada automática.

Para seguir leyendo

Microsoft creó una función de dictado que decide que has terminado en cuanto te detienes a pensar, y luego confirmó en su propio foro de soporte que es a propósito y no se puede desactivar. Así que seguimos hablando a través de cada pausa como si estuviéramos en una llamada que tenemos miedo de que se corte, y volvemos a pulsar las mismas dos teclas cada vez que echamos un vistazo a otra ventana. Funciona casi siempre, para ráfagas cortas. Pero la primera vez que una función se rinde en mitad de tu frase porque respiraste, empiezas a querer una que te espere. Dicté la mayor parte de esta guía manteniendo pulsada una sola tecla, pausando cuando me apetecía. Ni una sola vez se rindió conmigo.

Dicta sin la parada automática

Mantén un atajo, habla, pausa cuando lo necesites, suelta. La transcripción cae en tu cursor en cualquier app — transcrita en local, sin temporizador de silencio y sin conexión a la nube que se caiga.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable es que dictando las respuestas.