Solução de problemas
Ditado do Windows travado em Inicializando
A Digitação por Voz (Win+H) que fica presa em "Inicializando" quase sempre é um processo em segundo plano que travou. Encerre o Microsoft Text Input Application no Gerenciador de Tarefas, pressione Win+H de novo e geralmente ele volta a funcionar. Se isso continua acontecendo, a causa mais profunda é o serviço de fala online do qual ele depende.
Última atualização: junho de 2026

O ditado do Windows travado em inicializando se resolve encerrando o Microsoft Text Input Application no Gerenciador de Tarefas e pressionando Win+H de novo. Se voltar, desative e reative o Reconhecimento de fala online em Privacidade e segurança e reinicie o PC. Uma ferramenta de ditado offline dedicada evita o problema por completo, já que a transcrição local nunca fica esperando pelo serviço de fala online da Microsoft.
Você pressiona Win+H, a barrinha da Digitação por Voz aparece e então ela simplesmente fica ali parada. "Inicializando." Talvez "Preparando tudo." Os pontinhos giram. Você espera. Você fala mesmo assim, na esperança, como quem conversa com uma caixa de som inteligente que claramente está dormindo. Nada aparece. Eu vi exatamente isso acontecer em três máquinas diferentes, e na primeira vez perdi uns bons vinte minutos antes de descobrir o que de fato estava travado.
Aqui vai a versão curta antes da longa: quase nunca é o seu microfone, e quase sempre é um processo em segundo plano que o Windows iniciou, não terminou e não tenta de novo sozinho. A correção leva uns trinta segundos no Gerenciador de Tarefas. O motivo de o problema continuar voltando é outra história, mais lenta, sobre o serviço de fala online do qual o Win+H silenciosamente depende — e vou cobrir isso também.
O que ninguém diz com todas as letras no primeiro resultado de busca: a Digitação por Voz do Windows não é um recurso autossuficiente. Quando você pressiona Win+H, o Windows aciona um processo auxiliar e, nos bastidores, recorre ao serviço de fala na nuvem da Microsoft para fazer o reconhecimento de verdade. "Inicializando" é a tela que você vê enquanto esse aperto de mãos acontece. Quando o processo auxiliar emperra — normalmente depois de uma atualização do Windows ou de um ciclo de suspender/retomar — o aperto de mãos nunca se completa, e a barra fica parada ali para sempre.
Então as perguntas que importam são: como destravo isso agora, como impeço que volte e existe um jeito de ditar que não dependa de nada disso. Vou responder às três, com os passos exatos da Microsoft, e vou ser honesto sobre quando o recurso nativo realmente é tudo de que você precisa.
Por que o ditado do Windows fica travado em "Inicializando"

No Windows 11, o Ditado se chama Digitação por Voz, e ele converte fala em texto usando o reconhecimento de fala online. Essa última parte é a história toda. O Win+H é só a interface. O reconhecimento acontece pelo serviço de fala na nuvem da Microsoft, e um auxiliar local chamado Microsoft Text Input Application intermedeia a conexão. Quando esse auxiliar trava, você recebe "Inicializando" sem fim à vista.
Pelas próprias discussões e documentações de suporte da Microsoft, as causas recorrentes são curtas e específicas. O processo Microsoft Text Input Application fica preso, geralmente após uma atualização do Windows ou depois que o PC sai da suspensão. A opção de privacidade Reconhecimento de fala online está desligada, então o aperto de mãos com a nuvem nunca consegue começar. O idioma de entrada ou de fala não corresponde a um pacote de reconhecimento instalado. O acesso ao microfone está bloqueado no nível de privacidade. Ou uma atualização do Windows deixou o serviço de fala em mau estado e uma reinicialização ainda não resolveu.
Vale dizer em voz alta: isso não é o seu hardware. Se o seu microfone funciona em uma chamada, ele funciona para o ditado. A falha está antes do microfone, na parte do Windows que deveria acordar o reconhecedor. Isso também explica por que as correções abaixo têm a ver com reiniciar processos e alternar serviços, não com comprar um fone novo.
A correção rápida que funciona para a maioria das pessoas
Reinicie o processo auxiliar. É essa que resolve para a grande maioria das pessoas, e leva menos de um minuto. Os passos, direto da discussão de suporte da Microsoft:
Abra o Gerenciador de Tarefas (clique com o botão direito na barra de tarefas e escolha Gerenciador de Tarefas, ou pressione Ctrl+Alt+Delete e selecione-o). Clique em "Mais detalhes" se você estiver no modo compacto. Em Processos em segundo plano, encontre o "Microsoft Text Input Application", clique com o botão direito e escolha "Finalizar tarefa". Depois pressione Win+H de novo. A barra da Digitação por Voz reinicia o auxiliar do zero, o aperto de mãos se completa e a barra passa de "Inicializando" para ouvindo. Se o processo não aparecer na lista, uma reinicialização comum faz o mesmo efeito — só demora um pouco mais.
Essa é a solução que resolve o problema imediato. O overlay acima é de outra ferramenta — um aplicativo de ditado para todo o sistema — e está aqui só para criar um contraste: um gravador local ou mostra que está ouvindo ou mostra um erro. Não existe um terceiro estado em que ele fica ali para sempre fingindo que vai começar, porque não há nenhum serviço na nuvem que ele precise acordar primeiro. Mais sobre isso na próxima seção, porque, se isso acontece com você toda semana, a resposta definitiva é não depender daquilo que vive travando.
A correção definitiva: um ditado que nunca inicializa
Se você está finalizando a mesma tarefa dia sim, dia não, a correção durável é parar de depender de um recurso que precisa ligar para casa antes de funcionar. Uma ferramenta de ditado local transcreve na sua própria máquina — não há serviço de fala online para acordar, então não há nenhum "Inicializando" em que travar. Você precisa de um PC com Windows 10 ou mais recente e um microfone funcionando. Aqui está a configuração em quatro passos com o Whisper.
Passo 1 — Instale o Whisper e faça login.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o fluxo de transcrição local abre na hora.
Você vai saber que funcionou quando o ícone do app aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha um caminho de transcrição local.
O app não escolhe por você. Para uma solução offline, escolha o Local Parakeet (o mais rápido para inglês) ou o Local Whisper (multilíngue, com tradução). Os dois rodam inteiramente na sua máquina. A nuvem também é oferecida, mas é o único caminho que usa rede.
Você vai saber que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Defina sua tecla de atalho.
O padrão no Windows é Ctrl+Space, mantido pressionado como apertar-para-falar. Escolha outra coisa em Configurações se Ctrl+Space conflitar com outro aplicativo. É uma tecla dedicada, então ela não rouba o foco nem para sozinha do jeito que o Win+H pode fazer.
Você vai saber que funcionou quando uma gravação de teste for colada em qualquer campo de texto.
Passo 4 — Posicione o cursor em qualquer lugar e fale.
Clique em qualquer caixa de texto — e-mail, documento, barra de busca —, segure a tecla de atalho, diga uma frase e solte. A transcrição é colada onde o cursor está, transcrita localmente, sem tela de inicialização.
Você vai saber que funcionou quando a frase que você falou aparecer como texto, sem espera por um aperto de mãos na nuvem.
A única parte lenta é o download único do modelo. Depois disso o app é local, então o modo de falha que trouxe você até aqui — um auxiliar emperrado esperando por um servidor — simplesmente não está no projeto. Ele grava, transcreve na sua CPU e cola. Não há serviço de fala online no caminho para travar.
Se você prefere consertar o recurso nativo
Muita gente só quer o Win+H funcionando de novo e não quer outro aplicativo. Justo. Aqui está a solução de problemas mais a fundo do lado do Windows, na ordem em que eu tentaria, tudo a partir das próprias documentações e discussões de suporte da Microsoft. Nada disso mexe no registro, então não há nada aqui que possa danificar sua máquina.
Primeiro, a opção que a maioria das pessoas não percebe. A Digitação por Voz precisa do reconhecimento de fala online ligado. Vá em Iniciar, Configurações, Privacidade e segurança, Fala, e ative o Reconhecimento de fala online. Se já estiver ligado e o ditado estiver travado, desligue, espere um momento e ligue de novo para forçar o serviço a se restabelecer. Segundo, verifique o idioma. Em Configurações, Hora e idioma, Fala, confirme que o idioma de fala corresponde ao idioma em que você está digitando e que o pacote de reconhecimento dele está instalado. Uma incompatibilidade aqui é uma causa silenciosa de uma barra travada.
Terceiro, as permissões de microfone no nível do sistema. Em Configurações, Privacidade e segurança, Microfone, confirme que o "Acesso ao microfone" está ligado e que os aplicativos têm permissão para usar o microfone — a Digitação por Voz é um desses aplicativos. Quarto, execute o solucionador de problemas de Fala integrado: em versões mais antigas ele fica em Configurações, Atualização e Segurança, Solução de Problemas, Solucionadores de problemas adicionais, Fala. Quinto, garanta que o Windows está totalmente atualizado, já que várias dessas discussões terminam com "uma atualização posterior resolveu" — sendo o outro lado da moeda que uma atualização às vezes causou o problema. E se nada disso resolver, uma reinicialização limpa um serviço de fala que uma atualização deixou em mau estado. A ressalva honesta sobre cada uma dessas opções: elas corrigem o sintoma, não a dependência. O Win+H ainda precisa do aperto de mãos com a nuvem toda vez que você o pressiona, que é exatamente a coisa que vive quebrando.
Local ou nuvem: qual modo de fato evita isso
Se o motivo de você estar aqui é um recurso que não para de esperar por um servidor, a resposta é o modo local, ponto final. Os dois motores locais rodam inteiramente na sua máquina, sem nada sendo enviado para lugar nenhum, que é a ideia toda — sem serviço de fala online não há "Inicializando" em que travar. Veja como os três caminhos que o app obriga você a escolher realmente se diferem.
O app faz você escolher, então aqui está como eu pensaria a respeito para esse problema específico:
- Local Parakeet — O motor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre o inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para o inglês. Totalmente offline. Se você fala inglês ou um idioma europeu, este é o jeito mais rápido de sair da esteira do aperto de mãos com a nuvem.
- Local Whisper — mais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês. As versões somente em inglês são só inglês, não 99. Escolha esta para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão em inglês tem cerca de 480 MB. Também totalmente offline.
- Nuvem (OpenAI, BYOK) — melhor precisão e acesso à web, usando sua própria chave da OpenAI cobrada diretamente pela OpenAI. A transcrição roda no gpt-4o-mini-transcribe por padrão. Precisa de internet — então é o único caminho que, como o Win+H, depende de uma rede. A superfície de nuvem faz parte do Whisper Pro.
A verdade sem graça é que, para o ditado do dia a dia, o local basta, e para a frustração específica que trouxe você até aqui, o local é a cura de verdade. A nuvem ganha seu lugar quando você quer precisão de primeira linha em uma gravação difícil ou precisa puxar um dado da web no meio de uma frase. Mas se a sua queixa é "ele vive esperando por um servidor", escolher outro caminho dependente de servidor seria perder o ponto. Comece pelo local.
Texto mais limpo assim que o ditado de fato funciona
Assim que o ditado funciona — nativo ou não — você esbarra na realidade seguinte: a fala bruta sai como um amontoado sem pausa. Você diz "ok então redefina a senha responda o cliente e diga que já está resolvido antes do almoço", e essa é a parede sem pontuação que qualquer motor de fala te entrega. Limpar isso é onde as ferramentas se diferenciam.
A Digitação por Voz do Windows consegue adicionar pontuação enquanto você fala, depois que ela está funcionando. Para uma limpeza mais pesada — tirar os "é...", arrumar os amontoados, transformar um parágrafo falado em algo que você de fato enviaria — o Whisper pode fazer uma passagem de IA antes de o texto chegar. Diga a frase de ativação "Hey whisper" e o texto é aprimorado primeiro. Em um modelo local, isso roda pelo Ollama; no modo nuvem, é o gpt-5-mini por padrão.
ok então redefina a senha responda o cliente e diga que já está resolvido antes do almoço é e coloque meu gerente em cópia
Ok, então redefina a senha, responda o cliente e diga que já está resolvido antes do almoço — e coloque meu gerente em cópia.
A etapa de limpeza também é o motivo pelo qual uma ferramenta dedicada vale a pena para além de só driblar o travamento em "Inicializando". Você não está só ganhando captura confiável; está ganhando um texto mais perto de pronto. Se você quer a versão mais ampla disso, esse mesmo fluxo de falar e depois limpar é o que permite digitar mais rápido com a voz em todos os aplicativos que você abre, não só naquela única janela em que o Win+H por acaso aterrissou.
E como ela cola na posição do cursor em qualquer campo, o mesmo fluxo funciona também em uma aba do navegador — ditar no Google Docs se comporta igual a ditar em um editor de desktop, algo que o Win+H nem sempre consegue garantir quando o foco muda.
Quando o recurso nativo já basta

Aqui é a parte em que eu te convenço a não instalar nada. Se finalizar o Microsoft Text Input Application resolveu e o problema não voltou, você não precisa de outro aplicativo. Um travamento em inicializando que acontece uma vez depois de uma atualização é exatamente isso — uma vez só. O Win+H é gratuito, vem embutido e, para usos curtos, é genuinamente ok. Não vou te dizer para instalar um software só para ditar uma resposta de duas linhas.
O caminho nativo é a escolha certa quando algumas coisas são verdade: você dita texto curto na maioria das vezes, está sempre online de qualquer forma e se sente confortável com a sua fala indo para a nuvem da Microsoft para ser reconhecida. Esse último ponto é a verdadeira bifurcação. O Win+H, por projeto, encaminha sua voz pelo serviço de fala online da Microsoft — tudo bem para uma lista de compras, mas vale uma segunda reflexão para um e-mail de cliente ou qualquer coisa que você preferisse manter na sua própria máquina.
Recorra a uma ferramenta offline dedicada quando o recurso nativo começa a incomodar de forma repetida: o travamento volta depois de cada atualização, você dita trechos longos, você trabalha offline ou quer que sua voz fique local, ou você quer uma tecla de atalho que se comporta igual em todos os aplicativos em vez de uma barra que às vezes inicializa e às vezes não. Abaixo dessa linha, use o que é gratuito. As correções no começo deste guia estão aqui justamente para isso.
Se o problema de verdade for mais amplo que esse único travamento — Win+H não fazendo nada, nenhum texto saindo, ou o idioma errado — o checklist mais completo em voz para texto não funcionando no Windows cobre o resto dos modos de falha que não são estritamente um travamento em "Inicializando".
Leitura adicional
O Windows lançou um recurso de voz que precisa acordar um serviço na nuvem antes de digitar uma única palavra, e então não criou um jeito de ele tentar de novo quando esse despertar falha. Então a gente finaliza uma tarefa em segundo plano com um nome de três palavras a mais, pressiona as mesmas duas teclas de novo e chama de resolvido. Geralmente está mesmo. Mas na primeira vez que um recurso faz você abrir o Gerenciador de Tarefas para usá-lo, você começa a procurar baixinho por um que não faça isso. Eu ditei a maior parte deste guia com uma ferramenta que nunca, nem uma vez, me mostrou a palavra "Inicializando". É essa a proposta inteira.
Dite sem a tela de inicialização
Segure uma tecla de atalho, fale, solte. A transcrição aparece na posição do cursor em qualquer aplicativo — transcrita localmente, sem nenhum serviço na nuvem para acordar primeiro.
Modo local gratuito para qualquer conta autenticada. Sem cartão para começar.



