Guia
Como usar a digitação por voz no Windows
O Windows tem digitação por voz integrada. Pressione a tecla Windows + H em qualquer campo de texto, aguarde o "Ouvindo," e fale. Precisa de internet e microfone funcionando. Para uso intenso, offline ou em vários aplicativos, uma ferramenta dedicada com um único atalho faz o mesmo trabalho em qualquer lugar.
Última atualização: junho de 2026

Para usar a digitação por voz no Windows, posicione o cursor em qualquer campo de texto e pressione a tecla Windows + H. A barra de digitação por voz abre, exibe "Ouvindo" e transcreve o que você fala. É necessário microfone funcionando, conexão com a internet e o reconhecimento de fala online ativado em Configurações, Privacidade e segurança, Fala.
A maioria das pessoas nunca descobre que o Windows pode digitar por elas. O recurso vem com o Windows 10 e o 11, não tem assistente de configuração e fica escondido por trás de um atalho de teclado que ninguém menciona: tecla Windows + H. Coloque o cursor em um campo de texto, segure a tecla Windows, toque em H, e uma pequena barra abre no topo da tela e começa a ouvir.
É isso mesmo, e para usos rápidos funciona bem. O detalhe que a Microsoft deixa claro, mas que a maioria dos artigos ignora: a digitação por voz do Windows passa sua fala pela nuvem da Microsoft, então precisa de internet para fazer qualquer coisa. Esse único detalhe define se o recurso integrado já basta ou se você vai querer algo diferente. Vou falar do integrado de forma honesta primeiro, e depois onde ele encontra seus limites.
Aqui está o que os tutoriais em lista não contam direito. A digitação por voz do Windows é um recurso real, gratuito e integrado, e funciona em qualquer campo de texto que aceite cursor — seu navegador, Word, uma mensagem no Slack, a barra de pesquisa. Você não instala nada. O atalho é tecla Windows + H, e quando você souber que ele existe, vai usá-lo.
Então a resposta honesta tem duas partes. Primeira parte: como ativar o recurso integrado e usá-lo bem, que é o que a maioria das pessoas realmente precisa. Segunda parte: onde o Win+H chega ao limite — sem internet, ditado longo, palavras que ele erra toda vez — e o que uma ferramenta dedicada resolve em cada caso. Vou cobrir os dois, configurar a alternativa em dois minutos e dizer com clareza quando o Win+H já é suficiente.
O que é a digitação por voz do Windows

A digitação por voz do Windows é um recurso integrado que permite inserir texto falando em vez de digitar. Vem com o Windows 10 e o Windows 11, não custa nada e funciona em qualquer campo de texto onde você possa posicionar o cursor. A própria descrição da Microsoft vale citar porque define os limites: a digitação por voz "usa reconhecimento de fala online, fornecido pelos serviços de Fala do Azure." Três consequências diretas dessa frase.
Primeiro, precisa de internet. Sua fala é enviada aos servidores da Microsoft para ser convertida em texto, então sem conexão, a digitação por voz não faz nada. Segundo, você precisa de microfone funcionando — o integrado do notebook já serve para começar. Terceiro, como o reconhecimento acontece na nuvem, a precisão é boa em geral e não sobrecarrega o seu processador. Esses são os compromissos em resumo: gratuito e preciso, mas somente online e sem privacidade completa.
As pessoas costumam confundir isso com o antigo Windows Speech Recognition, com o mais recente Voice Access ou com o ditado dentro de um único aplicativo. Para o uso cotidiano de "quero falar e ver as palavras aparecerem onde estou escrevendo", o que você quer é a digitação por voz, aberta com a tecla Windows + H. A próxima seção é o passo a passo.
Ativar com a tecla Windows + H
Não tem aplicativo para abrir nem assistente para seguir. Você posiciona o cursor onde quer as palavras e depois aciona a digitação por voz com um atalho de teclado. Aqui está toda a sequência, incluindo o único ajuste de configuração que você pode precisar.
Clique em qualquer campo de texto — um documento, um e-mail, um chat, a barra de endereços — para que o cursor esteja piscando ali. Pressione a tecla Windows + H. Uma pequena barra de digitação por voz aparece no topo da tela. Aguarde ela mostrar "Ouvindo" antes de falar; se você começar cedo demais, ela vai cortar suas primeiras palavras. Fale normalmente e o texto aparece onde o cursor está. Pressione o botão de microfone na barra, ou o atalho novamente, para parar.
Se nada acontecer, geralmente há duas causas. Seu microfone não está configurado ou permitido — a digitação por voz precisa de microfone funcionando. Ou o reconhecimento de fala online está desativado, o que significa que a parte em nuvem do recurso está desabilitada. Ative em Iniciar, depois Configurações, depois Privacidade e segurança, depois Fala, e defina Reconhecimento de fala online como Ativado. Se a barra abrir mas nunca chegar a "Ouvindo", é quase sempre a conexão com a internet, já que o reconhecimento acontece nos servidores da Microsoft e não na sua máquina. (Se o Win+H estiver com um comportamento mais teimoso, escrevi um artigo separado sobre por que o Win+H para de funcionar e como resolver.)
A melhor opção para uso intenso: um atalho em todos os lugares
O recurso integrado é ótimo até você bater em um dos seus limites — sem internet no trem, um longo bloco de ditado ou uma palavra que ele erra toda vez. A solução é uma ferramenta de sistema que faz o mesmo trabalho, mas roda na sua própria máquina, mantém um pequeno buffer para não cortar a última palavra e usa um único atalho em todos os aplicativos. Você precisa de um PC com Windows 10 ou mais novo, microfone funcionando e uma conta. Todo o pipeline local é gratuito para qualquer conta logada, sem solicitar forma de pagamento no cadastro. Aqui está a sequência.
Passo 1 — Instale o Whisper e entre na conta.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. O pipeline de transcrição local abre imediatamente.
Você vai saber que funcionou quando o ícone do aplicativo aparecer na bandeja do sistema e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha o caminho de transcrição.
O aplicativo não escolhe por você. Você tem três opções: Cloud (OpenAI, com sua própria chave), Local Parakeet ou Local Whisper. Para substituir o comportamento somente online do Win+H por algo offline, escolha um motor local — mais sobre isso duas seções abaixo.
Você vai saber que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme seu atalho.
No Windows o padrão é Ctrl+Space, mantido pressionado como push-to-talk. Mude nas Configurações se entrar em conflito com algo que você já usa. Ao contrário do Win+H, manter a tecla pressionada continua gravando enquanto você segura.
Você vai saber que funcionou quando uma gravação de teste for colada em algum campo de texto.
Passo 4 — Posicione o cursor em qualquer lugar e fale.
Clique em um documento, e-mail ou campo de chat, segure o atalho, diga uma frase, solte. A transcrição é colada onde o cursor está, em qualquer aplicativo com foco.
Você vai saber que funcionou quando sua frase estiver no campo de texto como texto.
A parte demorada é o download único do modelo, não a configuração. Depois disso, escrever em qualquer aplicativo deixa de ser uma tarefa de digitação e vira uma tarefa de fala — e continua funcionando quando o Wi-Fi cair.
Se você já usou fala para texto no Windows 11 antes, é a mesma ideia com um atalho que não para sozinho.
Pontuação: comandos versus automática
A fala bruta não tem vírgulas. Toda ferramenta de ditado resolve isso de uma de duas formas, e a digitação por voz do Windows oferece as duas. Ela tem pontuação automática, que adiciona vírgulas e pontos sozinha com base em como você fala, e você ativa pelo ícone de engrenagem na barra. E tem comandos falados: diga "ponto" ou "vírgula," "nova linha," "abre aspas" e "fecha aspas," e ela insere o sinal em vez das palavras.
O menu de engrenagem dessa barra vale uma olhada. Além da pontuação automática, ele tem o filtro de palavrões e a escolha de microfone padrão. Nada está escondido; é um clique da barra que abre com Win+H. Enquanto você fala, um pequeno indicador mostra que o recurso está ouvindo — a mesma ideia que toda boa ferramenta de ditado usa para que você nunca precise adivinhar se ela ouviu:
O limite da pontuação por comando é que você precisa narrar a formatação — "vírgula," "nova linha," "ponto" — o que é tranquilo em uma mensagem curta, mas cansativo ao longo de um parágrafo longo. A pontuação automática ajuda, mas ainda entrega uma transcrição literal do que você disse, incluindo "éhh" e começos falsos. Limpar isso para algo que você enviaria de verdade é uma etapa separada, e é aí que uma ferramenta dedicada leva vantagem. Mais sobre isso abaixo.
Local ou nuvem: a escolha que o Win+H não te dá
A digitação por voz do Windows já tomou a decisão entre local e nuvem por você: é nuvem, ponto final. Sua fala vai aos servidores da Microsoft toda vez. Tudo bem para uma lista de compras, mas um problema real para uma anotação em planilha de salários ou um e-mail de cliente que você preferia não ter transcrito fora da sua máquina. Uma ferramenta dedicada te dá a escolha que o recurso integrado pula. Veja como os três caminhos diferem, porque o aplicativo te pede para escolher e prefiro que você escolha bem:
- Local Parakeet — Motor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper no CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para inglês. Se você dita em inglês ou em outro idioma europeu e quer velocidade sem nada sair da sua máquina, essa é a escolha direta.
- Local Whisper — mais lento que o Parakeet na mesma máquina, mas os builds multilíngues cobrem 99 idiomas e podem traduzir para inglês. Os builds somente em inglês são apenas em inglês, não 99. Escolha este para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão em inglês tem cerca de 480 MB.
- Cloud (OpenAI, BYOK) — melhor precisão e acesso à web, usando sua própria chave da OpenAI cobrada diretamente pela OpenAI. A transcrição usa gpt-4o-mini-transcribe por padrão. Precisa de internet, como o Win+H, mas é sua chave e sua decisão. O modo Cloud faz parte do Whisper Pro.
A verdade simples é que, para a maioria da escrita cotidiana, um motor local é mais que suficiente, e é exatamente o que o Win+H não consegue oferecer. Os dois caminhos locais rodam inteiramente na sua máquina sem enviar nada a um servidor. O Cloud tem seu lugar quando você quer precisão máxima em uma gravação difícil ou precisa que o modelo busque uma informação na web no meio da frase. Comece com o local e recorra ao cloud só quando o local não atender.
Resultados mais limpos sem ditar cada vírgula
Tanto o Win+H quanto uma ferramenta dedicada te entregam o mesmo ponto de partida: um bloco sem pontuação. Você diz "tudo bem então move o prazo para sexta avisa o cliente e reserva a sala para duas pessoas" e é isso que qualquer motor de fala te devolve. O Win+H pode pontuar enquanto você fala ou aceitar comandos falados. Nenhum dos dois remove os "éhh" ou corrige uma frase que você recomeçou no meio.
Essa limpeza é onde o processamento com IA faz a diferença. Diga a frase de ativação "Hey whisper" e o texto transcrito é aprimorado antes de ser colado — enchimentos removidos, frases longas divididas, capitalização corrigida. Em modo local, isso roda via Ollama na sua máquina; em modo cloud, é gpt-5-mini por padrão. Você fala a versão bagunçada uma vez e recebe a versão que enviaria de verdade.
okay so move the deadline to friday tell the client and book the room for two um before lunch
Okay, so move the deadline to Friday, tell the client, and book the room for two before lunch.
Também tem as palavras que um motor genérico continua errando — o nome de um produto, o sobrenome de um colega, um termo técnico. O Win+H não te deixa ensiná-lo. Uma ferramenta dedicada permite priorizar um vocabulário personalizado para que as palavras do seu dia a dia parem de voltar erradas. Ela não vai inventar formatação que você não pediu, e quem promete "diga título e veja formatar sozinho" está vendendo uma demo, não a realidade. Escreva com rapidez e clareza pela voz; faça o layout com as teclas que você já conhece.
Esse mesmo fluxo de falar e limpar é o motivo pelo qual as pessoas trocam — você pode digitar mais rápido com a voz em todos os aplicativos em vez de narrar vírgulas em uma barra integrada que só funciona online.
Quando o Win+H já é suficiente

Às vezes a ferramenta gratuita que já está na sua máquina é a resposta certa, e fingir o contrário seria desonesto. A digitação por voz do Windows é genuinamente boa para uma boa parte do que as pessoas precisam, e instalar algo extra seria exagero.
Fique com o Win+H se você fica online na maior parte do tempo, seu ditado vem em rajadas curtas e você não se importa que sua fala passe pela nuvem da Microsoft. Uma resposta rápida no Slack, uma busca, uma anotação rápida em um documento — pressione a tecla Windows + H, aguarde o "Ouvindo", fale, pronto. É gratuito, já vem instalado e pontua sozinho. Para um lembrete de uma linha, não vou te pedir para instalar nada.
Recorra a uma ferramenta dedicada de sistema quando o recurso integrado começar a te frustrar: sem internet em um voo ou trem, longos trechos de ditado onde segurar uma tecla é melhor do que uma barra com tempo esgotado, privacidade em textos que você não quer que saiam da sua máquina, palavras que ele continua errando ou querer um atalho que se comporta de forma idêntica em todos os programas. Abaixo dessa linha, o Win+H ganha no preço e na configuração zero. Acima dela, a diferença é real.
Se você ainda está decidindo de que lado dessa linha está, a comparação mais detalhada em o guia de alternativas ao Win+H mostra exatamente onde cada opção se encaixa, sem o verniz de marketing.
O Windows lançou a digitação por voz há anos e a escondeu por trás de um atalho que ninguém menciona. Agora você sabe: tecla Windows + H, aguarde o "Ouvindo", fale. Para a maioria das tarefas rápidas, essa é a resposta completa, e é gratuita. No dia em que você estiver offline, ou ditando algo mais longo que uma mensagem, ou uma palavra continuar voltando errada, você vai saber exatamente qual limite encontrou — e qual ferramenta o supera. Escrevi boa parte deste artigo pela voz, em um aplicativo que não liga para qual campo de texto está com o cursor. A internet caiu duas vezes enquanto eu fazia isso. O ditado não percebeu.
Experimente a digitação por voz que também funciona offline
Segure um atalho, fale, solte. A transcrição chega em qualquer campo de texto onde seu cursor estiver — no trem, no avião ou com o Wi-Fi fora do ar.
Modo local gratuito para qualquer conta logada. Sem cartão para começar.



