Por Denys Medvediev

Solución de problemas

El dictado de Windows se queda atascado inicializando

Cuando la Escritura por voz (Win+H) se queda colgada en "Inicializando", casi siempre se trata de un proceso en segundo plano que se ha bloqueado. Cierra la Aplicación de entrada de texto de Microsoft en el Administrador de tareas, vuelve a pulsar Win+H y normalmente arranca. Si sigue ocurriendo, la causa de fondo es el servicio de voz en línea del que depende.

Última actualización: junio de 2026

Persona ante un portátil con cara de frustración por un proceso en pantalla que se ha quedado parado, sin rostros en el encuadre

El dictado de Windows atascado en inicializando se soluciona cerrando la Aplicación de entrada de texto de Microsoft en el Administrador de tareas y volviendo a pulsar Win+H. Si reaparece, desactiva y vuelve a activar el Reconocimiento de voz en línea en Privacidad y seguridad, y reinicia. Una herramienta de dictado sin conexión dedicada lo evita por completo, ya que la transcripción local nunca espera al servicio de voz en línea de Microsoft.

Pulsas Win+H, aparece la pequeña barra de Escritura por voz y se queda ahí parada. "Inicializando." Quizá "Preparando todo." Los puntos giran. Esperas. Hablas igualmente, con esperanza, como quien le habla a un altavoz inteligente que claramente está dormido. No cae ni una palabra. He visto pasar esto exacto en tres máquinas distintas, y la primera vez me costó unos buenos veinte minutos averiguar qué estaba realmente atascado.

Aquí va la versión corta antes de la larga: casi nunca es el micrófono, y casi siempre es un proceso en segundo plano que Windows inició, no terminó y no va a reintentar por su cuenta. La solución lleva unos treinta segundos en el Administrador de tareas. El motivo de que vuelva una y otra vez es otra historia, más lenta, sobre el servicio de voz en línea del que Win+H depende en silencio, y también lo cubriré.

Lo que nadie dice con claridad en el primer resultado de búsqueda: la Escritura por voz de Windows no es una función autónoma. Cuando pulsas Win+H, Windows pone en marcha un proceso auxiliar y, entre bastidores, contacta con el servicio de voz en la nube de Microsoft para hacer el reconocimiento real. "Inicializando" es la pantalla que ves mientras se produce ese saludo inicial. Cuando el proceso auxiliar se atasca —normalmente tras una actualización de Windows o un ciclo de suspensión y reanudación— el saludo nunca se completa, y la barra se queda ahí para siempre.

Así que las preguntas de verdad son: cómo lo desatasco ahora mismo, cómo evito que vuelva y si hay una forma de dictar que no dependa de nada de esto. Voy a abordar las tres, con los pasos exactos de Microsoft, y seré sincero sobre cuándo la función integrada es realmente todo lo que necesitas.

Por qué el dictado de Windows se queda atascado en "Inicializando"

Pantalla de un portátil mostrando un estado de carga detenido, que sugiere un proceso colgado

En Windows 11, el Dictado se llama Escritura por voz y convierte el habla en texto mediante reconocimiento de voz en línea. Esa última parte es toda la historia. Win+H es solo la interfaz. El reconocimiento ocurre a través del servicio de voz en la nube de Microsoft, y un auxiliar local llamado Aplicación de entrada de texto de Microsoft gestiona la conexión. Cuando ese auxiliar se cuelga, te queda "Inicializando" sin final a la vista.

Según los propios hilos de soporte y la documentación de Microsoft, las causas recurrentes son pocas y concretas. El proceso de la Aplicación de entrada de texto de Microsoft se queda atascado, normalmente tras una actualización de Windows o después de que el equipo sale de la suspensión. El interruptor de privacidad del Reconocimiento de voz en línea está desactivado, así que el saludo con la nube nunca puede empezar. El idioma de entrada o de voz no coincide con un paquete de reconocimiento instalado. El acceso al micrófono está bloqueado a nivel de privacidad. O una actualización de Windows dejó el servicio de voz en mal estado y un reinicio aún no lo ha corregido.

Conviene decirlo en voz alta: no es tu hardware. Si tu micro funciona en una llamada, funciona para el dictado. El fallo está antes del micrófono, en la parte de Windows que debería despertar al reconocedor. Eso también explica por qué las soluciones de abajo van de reiniciar procesos y activar servicios, no de comprar unos cascos nuevos.

La solución rápida que le funciona a la mayoría

Reinicia el proceso auxiliar. Esta es la que lo resuelve para la gran mayoría de la gente, y lleva menos de un minuto. Los pasos, directamente del hilo de soporte de Microsoft:

Abre el Administrador de tareas (clic derecho en la barra de tareas y elige Administrador de tareas, o pulsa Ctrl+Alt+Supr y selecciónalo). Haz clic en "Más detalles" si estás en la vista compacta. En Procesos en segundo plano, busca "Aplicación de entrada de texto de Microsoft", haz clic derecho y elige "Finalizar tarea". Después vuelve a pulsar Win+H. La barra de Escritura por voz reinicia el auxiliar desde cero, se completa el saludo y la barra pasa de "Inicializando" a escuchando. Si el proceso no aparece en la lista, un simple reinicio hace lo mismo; solo que tarda más.

Cancel
Una superposición de dictado dedicada muestra que de verdad está escuchando: nada de un estado ambiguo de "Inicializando" que haya que aguantar.

Esa es la solución que arregla el problema inmediato. La superposición de arriba es de otra herramienta —una app de dictado para todo el sistema— y está aquí para marcar un contraste: una grabadora local o te muestra que está escuchando o te muestra un error. No hay un tercer estado en el que se quede para siempre fingiendo que arranca, porque no hay un servicio en la nube que tenga que despertar primero. Más sobre esto en la siguiente sección, porque si esto te pasa cada semana, la respuesta permanente es dejar de depender de lo que se cuelga una y otra vez.

La solución permanente: un dictado que nunca inicializa

Si finalizas la misma tarea un día sí y otro también, la solución duradera es dejar de depender de una función que tiene que llamar a casa antes de funcionar. Una herramienta de dictado local transcribe en tu propia máquina: no hay servicio de voz en línea que despertar, así que no hay ningún "Inicializando" en el que quedarse atascado. Necesitas un PC con Windows 10 o posterior y un micrófono que funcione. Aquí tienes la configuración en cuatro pasos con Whisper.

Paso 1 — Instala Whisper e inicia sesión.

Descárgalo desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2 — Elige una vía de transcripción local.

La app no elige por ti. Para una solución sin conexión, escoge Local Parakeet (el más rápido en inglés) o Local Whisper (multilingüe, con traducción). Ambos se ejecutan por completo en tu máquina. También se ofrece la nube, pero es la única vía que usa red.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Configura tu atajo de teclado.

El predeterminado en Windows es Ctrl+Space, mantenido pulsado para hablar. Elige otro en Ajustes si Ctrl+Space choca con otra app. Es una tecla dedicada, así que no robará el foco ni se detendrá sola como puede hacer Win+H.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Pon el cursor donde sea y habla.

Haz clic en cualquier cuadro de texto —correo, documento, barra de búsqueda—, mantén el atajo, di una frase y suelta. La transcripción se pega donde está tu cursor, transcrita localmente, sin pantalla de inicialización.

Sabrás que funcionó cuando tu frase hablada aparezca como texto, sin esperar a ningún saludo con la nube.

Whisper
La app de escritorio real de Whisper en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La única parte lenta es la descarga del modelo, que se hace una sola vez. Después la app es local, así que el modo de fallo que te trajo hasta aquí —un auxiliar atascado esperando a un servidor— sencillamente no está en el diseño. Graba, transcribe en tu CPU y pega. No hay ningún servicio de voz en línea en el circuito que pueda colgarse.

Si prefieres reparar la función integrada

Mucha gente solo quiere que Win+H vuelva a funcionar y no quiere otra app. Justo. Aquí va la solución de problemas más a fondo del lado de Windows, en el orden en que yo la probaría, todo sacado de la propia documentación y los hilos de soporte de Microsoft. Nada de esto toca el registro, así que no hay aquí nada que pueda estropear tu equipo.

Primero, el interruptor que se le pasa a casi todo el mundo. La Escritura por voz necesita el reconocimiento de voz en línea activado. Ve a Inicio, Configuración, Privacidad y seguridad, Voz, y activa el Reconocimiento de voz en línea. Si ya está activado y el dictado sigue atascado, desactívalo, espera un momento y vuelve a activarlo para forzar al servicio a restablecerse. Segundo, comprueba el idioma. En Configuración, Hora e idioma, Voz, asegúrate de que el idioma de voz coincide con el idioma en el que estás escribiendo y de que su paquete de reconocimiento está instalado. Un desajuste aquí es una causa silenciosa de una barra parada.

Tercero, los permisos del micrófono a nivel de sistema. En Configuración, Privacidad y seguridad, Micrófono, confirma que "Acceso al micrófono" está activado y que las aplicaciones tienen permiso para usar el micro: la Escritura por voz es una de esas apps. Cuarto, ejecuta el solucionador de problemas de Voz integrado: en compilaciones más antiguas está en Configuración, Actualización y seguridad, Solucionar problemas, Solucionadores de problemas adicionales, Voz. Quinto, asegúrate de que Windows está totalmente actualizado, ya que varios de estos hilos terminan con "una actualización posterior lo arregló", siendo la otra cara que a veces una actualización lo provocó. Y si todo eso falla, un reinicio limpia un servicio de voz que una actualización dejó en mal estado. La pega sincera de todas estas: arreglan el síntoma, no la dependencia. Win+H sigue necesitando el saludo con la nube cada vez que lo pulsas, que es exactamente lo que sigue rompiéndose.

Local o nube: qué modo evita esto de verdad

Si la razón por la que estás aquí es una función que no para de esperar a un servidor, la respuesta es el modo local, sin más. Ambos motores locales se ejecutan por completo en tu máquina sin enviar nada a ninguna parte, que es justo el sentido del asunto: sin servicio de voz en línea no hay ningún "Inicializando" en el que colgarse. Aquí está en qué se diferencian de verdad las tres vías entre las que la app te hace elegir.

La app te obliga a elegir, así que aquí tienes cómo yo lo pensaría para este problema en concreto:

  • Local ParakeetEl motor TDT de NVIDIA, de unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Totalmente sin conexión. Si hablas inglés o un idioma europeo, esta es la forma más rápida de bajarte de la noria del saludo con la nube.
  • Local Whispermás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no las 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo predeterminado en inglés ocupa unos 480 MB. También totalmente sin conexión.
  • Nube (OpenAI, con tu propia clave)la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe de forma predeterminada. Necesita internet, así que es la única vía que, como Win+H, depende de una red. La superficie de Nube forma parte de Whisper Pro.

La verdad aburrida es que para el dictado del día a día, lo local sobra, y para la frustración concreta que te trajo aquí, lo local es la cura de verdad. La nube se gana su sitio cuando quieres una precisión de primer nivel en una grabación difícil o necesitas sacar un dato de la web a media frase. Pero si tu queja es "no para de esperar a un servidor", elegir otra vía que depende de un servidor sería no entender el punto. Empieza por lo local.

Texto más limpio cuando el dictado por fin funciona

Una vez que el dictado funciona —integrado o no— te topas con la siguiente realidad: el habla en bruto sale como una parrafada sin pausas. Dices "vale entonces restablece la contraseña responde al cliente y dile que está resuelto antes de comer", y eso es el muro sin puntuación que cualquier motor de voz te entrega. Limpiarlo es donde las herramientas se diferencian.

La Escritura por voz de Windows puede añadir puntuación mientras hablas una vez que está en marcha. Para una limpieza más a fondo —quitar los "eh", arreglar las parrafadas, convertir un párrafo hablado en algo que de verdad enviarías— Whisper puede aplicar una pasada de IA antes de que el texto aterrice. Di la frase de activación "Hey whisper" y el texto se mejora primero. En un modelo local eso pasa por Ollama; en modo nube es gpt-5-mini de forma predeterminada.

Thinking...
En bruto

vale entonces restablece la contraseña responde al cliente y dile que está resuelto antes de comer eh y pon en copia a mi jefe

Limpio

Vale, entonces restablece la contraseña, responde al cliente y dile que está resuelto antes de comer — y pon en copia a mi jefe.

El paso de limpieza es también el motivo por el que una herramienta dedicada se gana su sitio más allá de solo esquivar el atasco de "Inicializando". No solo consigues una captura fiable; consigues un texto que está más cerca de estar terminado. Si quieres la versión más amplia de esto, ese mismo flujo de hablar y limpiar es lo que te deja escribir más rápido con la voz en cada app que abres, no solo en la única ventana en la que a Win+H le tocó caer.

Y como pega en el cursor en cualquier campo, el mismo flujo funciona también en una pestaña del navegador: dictar en Google Docs se comporta igual que dictar en un editor de escritorio, algo que Win+H no siempre puede garantizar en cuanto cambia el foco.

Cuándo la función integrada es suficiente

Un espacio de trabajo tranquilo con un portátil, que sugiere un problema resuelto

Aquí viene la parte en la que te disuado de instalar nada. Si finalizar la Aplicación de entrada de texto de Microsoft lo arregló y no ha vuelto, no necesitas otra app. Un atasco puntual en inicializando tras una actualización es justo eso: algo puntual. Win+H es gratis, viene integrado y para ráfagas cortas está la mar de bien. No voy a decirte que instales software para dictar una respuesta de dos líneas.

La vía integrada es la elección correcta cuando se dan unas cuantas cosas: dictas sobre todo textos cortos, estás siempre conectado de todas formas y te sientes cómodo con que tu voz vaya a la nube de Microsoft para ser reconocida. Ese último punto es la verdadera bifurcación. Win+H envía tu voz por el servicio de voz en línea de Microsoft por diseño: bien para una lista de la compra, digno de pensárselo dos veces para un correo a un cliente o cualquier cosa que prefieras mantener en tu propia máquina.

Tira de una herramienta dedicada y sin conexión cuando la integrada empieza a doler de forma repetida: el atasco vuelve después de cada actualización, dictas pasajes largos, trabajas sin conexión o quieres que tu voz se quede en local, o quieres un único atajo que se comporte igual en cada app en lugar de una barra que a veces inicializa y a veces no. Por debajo de ese umbral, usa lo que es gratis. Las soluciones de antes en esta guía están ahí precisamente para que puedas.

Si el problema real es más amplio que este atasco concreto —Win+H no hace nada, ningún texto en absoluto o el idioma equivocado—, la lista de comprobación más completa de voz a texto que no funciona en Windows cubre el resto de los modos de fallo que no son estrictamente un atasco en "Inicializando".

Para seguir leyendo

Windows lanzó una función de voz que tiene que despertar un servicio en la nube antes de escribir una sola palabra, y luego no construyó ninguna forma de que reintentara cuando el despertar falla. Así que finalizamos una tarea en segundo plano con un nombre tres palabras demasiado largo, pulsamos las mismas dos teclas otra vez y lo damos por arreglado. Normalmente lo está. Pero la primera vez que una función te obliga a abrir el Administrador de tareas para usarla, empiezas a buscar en silencio una que no lo haga. Dicté casi toda esta guía con una herramienta que jamás me ha mostrado la palabra "Inicializando". Ese es todo el argumento.

Dicta sin la pantalla de inicialización

Mantén un atajo, habla, suelta. La transcripción aterriza en tu cursor en cualquier app: transcrita localmente, sin ningún servicio en la nube que despertar primero.

Modo local gratis para cualquier cuenta con sesión iniciada. Sin tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.