Guia
Como digitar com a sua voz
Ditado por voz significa que você fala e as palavras aparecem onde está o cursor. Seu sistema operacional já tem isso integrado — tecla Windows + H, ou o Ditado do macOS. Uma ferramenta com tecla de atalho dedicada, como o Whisper, faz a mesma coisa em qualquer app, offline, com uma passagem de limpeza por IA.
Última atualização: junho de 2026

Para digitar com a voz, abra uma ferramenta de ditado integrada — tecla Windows + H no Windows, ou o Ditado do macOS em Ajustes do Sistema — coloque o cursor em qualquer campo de texto e fale. Para um ditado que funciona da mesma forma em qualquer app, offline e com limpeza por IA, uma ferramenta com tecla de atalho dedicada como o Whisper cola a transcrição onde estiver o cursor.
A maioria das pessoas digita cerca de 40 palavras por minuto. A maioria das pessoas fala três ou quatro vezes mais rápido. Portanto, a matemática do ditado por voz nunca foi a questão — a questão sempre foi se o software conseguia acompanhar a sua boca. Por cerca de trinta anos, não conseguia. Agora consegue, e o mais surpreendente é quantas pessoas ainda não sabem que o próprio computador já faz isso.
Você não precisa comprar nada para começar. Windows e macOS já vêm com um recurso de digitação por voz que digita em qualquer campo de texto onde o cursor estiver. É gratuito, já está instalado e, para textos curtos, funciona muito bem. Vou mostrar isso primeiro, com honestidade, porque é a resposta certa para muita gente. Depois, vou mostrar a versão que eu uso o dia todo e onde ela se destaca.
Aqui está o que você precisa entender antes de mexer em qualquer configuração. O ditado por voz cola texto onde está o cursor. Não importa em qual app o cursor esteja — um e-mail, uma barra de pesquisa, um documento, uma caixa de chat são todos apenas campos de texto para ele. Quando isso fica claro, o assunto todo fica mais simples.
Então existem realmente dois caminhos, não cem. O primeiro é a ferramenta integrada que seu sistema operacional já possui. O segundo é um app dedicado de pressionar-para-falar: você pressiona, fala e solta, e ele funciona de forma idêntica em todos os lugares, offline. O integrado é suficiente para uso rápido. O caminho dedicado vale a pena quando você faz isso o dia todo. Vou configurar os dois, cobrir os princípios gerais que fazem qualquer um funcionar e dizer quando pular o app completamente.
O que é o ditado por voz, de verdade

Ditado por voz — transcrição de fala, speech-to-text, como você preferir chamar — é uma ideia simples. Você fala, o software converte o áudio em texto e o texto aparece onde você estaria digitando. É o conceito inteiro. A razão de parecer novidade é que, durante a maior parte da história da computação, isso não funcionava bem o suficiente para valer a pena.
Lembro de um parente com Dragon NaturallySpeaking em um desktop Windows 98 com 64 MB de RAM. Instalar significava uma sessão de treinamento de 45 minutos lendo uma lista de palavras em voz alta para que ele pudesse "calibrar". Após tudo isso, a precisão girava em torno de 70%, cada frase chegava com um atraso de quatro segundos e ditar um parágrafo de uma carta de fim de ano levava quinze minutos. O fone foi jogado pela sala. Ele sobreviveu; o experimento com ditado, não. Vinte e cinco anos depois, minha filha mais nova ditou um e-mail completo para a avó em cerca de noventa segundos, sem treinamento, sem calibração, na primeira tentativa.
Essa diferença é a história toda. O ditado por voz moderno funciona de cara na maioria dos sotaques e idiomas, sem etapa de treinamento, e as palavras aparecem rápido o suficiente para você não perder o fio do raciocínio. Os dois caminhos abaixo se baseiam nisso. As únicas decisões que restam são qual ferramenta você escolhe e como fala para ela.
O jeito rápido e integrado no Windows e no Mac
Os dois principais sistemas operacionais já vêm com ditado por voz gratuito, e é o lugar certo para começar. No Windows, coloque o cursor em qualquer campo de texto e pressione a tecla Windows e H juntas. Uma pequena barra de ditado abre e começa a ouvir. Fale, e as palavras aparecem no campo. Você adiciona pontuação dizendo — "vírgula", "ponto", "ponto de interrogação" — ou pode ativar a pontuação automática nas configurações da barra e deixar ela adivinhar. Um detalhe importante: o ditado por voz do Windows precisa de conexão com a internet. O áudio vai para os servidores da Microsoft e volta como texto, portanto não há modo offline aqui.
No Mac, você ativa uma vez. Abra o menu Apple, escolha Ajustes do Sistema, clique em Teclado na barra lateral, role até Ditado e ligue-o (clique em Ativar quando ele perguntar). Depois disso, você inicia o ditado pela tecla de microfone na fileira de funções, por um atalho que você escolhe ou por Editar e depois Iniciar Ditado na barra de menus. Fale em qualquer campo de texto e as palavras aparecem. Em Macs com Apple Silicon, o ditado de texto geral é processado no próprio dispositivo, sem enviar nada para os servidores da Apple, e insere pontuação automaticamente nos idiomas compatíveis. Você também pode continuar digitando enquanto fala, o que é uma funcionalidade mais útil do que parece.
Para uma mensagem rápida, uma pesquisa, uma anotação rápida — é tudo que você precisa, e pode parar de ler aqui com a consciência tranquila. Os integrados começam a incomodar de três maneiras específicas: o Windows não funciona offline, ambos podem vacilar em trechos mais longos e nenhum dos dois mantém a mesma memória muscular em todos os apps que você abre. Se nenhum desses pontos te incomoda, a ferramenta gratuita que já está na sua máquina é a resposta. Se incomodam, continue lendo.
O jeito melhor: uma tecla de atalho para qualquer app
A versão que eu realmente uso é uma ferramenta dedicada de pressionar-para-falar que fica sobre tudo. Você segura uma tecla, fala, solta e a transcrição é colada onde está o cursor — no seu e-mail, no seu editor, numa caixa de chat, numa mensagem de commit, tudo igual. Funciona offline, o pipeline local é gratuito para qualquer conta conectada sem cartão no cadastro, e pode executar uma passagem de IA para limpar o que você disse. Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente e um microfone funcionando. Veja como configurar.
Passo 1 — Instale o Whisper e faça login.
Baixe na página de download, instale e crie uma conta gratuita. Nenhum método de pagamento é solicitado. Todo o pipeline de transcrição local abre imediatamente.
Você saberá que funcionou quando o ícone do app na bandeja aparecer e o assistente de configuração oferecer para escolher um modelo.
Passo 2 — Escolha um caminho de transcrição.
O app não escolhe por você. Você tem três opções: Cloud (OpenAI, use sua própria chave), Parakeet Local ou Whisper Local. Para anotações privadas, comece com o local — há uma explicação completa duas seções abaixo.
Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme sua tecla de atalho.
O padrão no Windows é Ctrl+Space; no Mac é Command+Option, um atalho com modificadores que você segura enquanto fala. No Mac, conceda a permissão de Acessibilidade quando solicitado — sem ela, a colagem no cursor não consegue alcançar outros apps.
Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.
Passo 4 — Coloque o cursor em qualquer lugar e fale.
Clique em qualquer campo de texto em qualquer app, segure a tecla de atalho, diga uma frase, solte. A transcrição aparece onde o cursor está. Uma pequena extensão continua gravando por um momento após você soltar, para que sua última palavra não seja cortada.
Você saberá que funcionou quando a frase que você disse estiver no campo como texto.
A parte demorada é o download único do modelo, não a configuração. Todo o resto são os quatro passos acima. Uma vez em funcionamento, escrever deixa de ser uma tarefa de digitação e vira uma tarefa de conversa, e a tecla de atalho é a mesma, seja no seu inbox ou em um editor de código.
Cinco coisas que fazem qualquer ferramenta funcionar
Independente do caminho que você escolher, os mesmos princípios básicos decidem se o ditado por voz parece mágica ou uma briga. Nenhum deles é complicado, e a maioria diz respeito a você, não ao software. Acerte nesses pontos e uma ferramenta integrada simples supera uma cara usada de forma errada.
Escolha um lugar silencioso. Os mecanismos de fala transcrevem o que ouvem, e o que ouvem inclui a máquina de lavar, a janela aberta e seu filho perguntando por que a lua às vezes some. Um quarto silencioso faz mais do que qualquer ajuste nas configurações. Depois, pense no microfone, porque é nesse ponto que vou bater o martelo: um microfone USB de R$ 100 faz mais pela precisão do que qualquer upgrade de modelo. Os próprios dados da equipe do Whisper mostram que passar de um microfone integrado do notebook para um microfone USB de nível podcast reduz a taxa de erro em 30 a 40% no mesmo modelo — um salto maior do que você obteria com um mecanismo mais inteligente e mais lento. Invista primeiro no hardware.
Depois, é uma questão de como você fala. Fale em frases completas, não palavra por palavra — os mecanismos de ditado usam as palavras ao redor para adivinhar a certa, então "vou te encontrar lá" transcreve melhor do que quatro palavras ditas uma de cada vez. Fale em um ritmo normal e constante; pressa e enunciação exagerada atrapalham os dois. E não se preocupe com vírgulas e maiúsculas enquanto fala. Ou diga a pontuação se sua ferramenta exigir, ou deixe uma passagem de limpeza por IA adicioná-la depois, que é o próximo tópico. Tentar ditar, pontuar e editar ao mesmo tempo é a receita para a frase sem fim ganhar.
Local ou nuvem: por qual modo passar sua voz
Com uma ferramenta dedicada, a única escolha real é onde a transcrição acontece. Local significa que tudo roda na sua máquina sem nada ser enviado para um servidor. Nuvem significa que vai para a OpenAI para máxima precisão e acesso à web. Para a maioria das pessoas, na maioria das situações, eu começaria com o local — seu notebook já tem microfone e processador, e um parágrafo não precisa de um servidor no meio do caminho. Se o seu Mac é Apple Silicon ou seu PC é dos últimos anos, o modo local lida com o ditado do dia a dia sem reclamar. Veja como os três caminhos diferem, porque o app faz você escolher.
- Parakeet Local — O mecanismo TDT da NVIDIA, cerca de 600 MB e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para inglês. Se você fala inglês ou outro idioma europeu, esta é a escolha rápida e totalmente offline.
- Whisper Local — mais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para inglês. As versões só em inglês são apenas inglês, não 99. Escolha este para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão em inglês tem cerca de 480 MB.
- Cloud (OpenAI, BYOK) — melhor precisão e acesso à web, usando sua própria chave da OpenAI cobrada diretamente pela OpenAI. A transcrição roda em gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina. O modo Cloud faz parte do Whisper Pro.
A verdade simples é que, para o tipo de texto que a maioria das pessoas digita o dia todo — e-mails, anotações, mensagens, rascunhos — o modo local é mais do que suficiente. Os dois mecanismos locais rodam inteiramente na sua máquina, o que importa quando o texto é a planilha de salário do seu chefe ou um e-mail para a escola dos seus filhos. O modo cloud vale a pena quando você quer máxima precisão em uma gravação difícil ou precisa que o modelo busque um fato na web no meio de uma frase. Comece com o local e recorra ao cloud só quando o local não te satisfizer.
Deixe a IA limpar o que você disse
O ditado bruto sai como uma frase corrida. Você diz "ok então responde o e-mail da professora confirma a excursão e me lembra de mandar o formulário na quinta", e essa parede sem pontuação é o que qualquer mecanismo de fala entrega. Limpar isso é onde os caminhos divergem, e é o maior motivo pelo qual uma ferramenta dedicada se destaca.
Os integrados fazem uma limpeza básica. O ditado por voz do Windows adiciona pontuação quando você diz, ou tenta adivinhar se você ativar a pontuação automática. O Ditado do macOS insere pontuação automaticamente nos idiomas compatíveis. Isso é suficiente para uma ou duas frases. Para uma limpeza mais pesada — tirar os "éé", corrigir as frases corridas, transformar uma enrolação falada em algo que você realmente enviaria — o Whisper pode executar uma passagem de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de chegar. Em um modelo local, isso roda pelo Ollama sem nada sair da sua máquina; no modo cloud, usa gpt-5-mini por padrão.
ok então responde o e-mail da professora confirma a excursão e me lembra de mandar o formulário na quinta éé antes do sinal da manhã
Ok, então responde o e-mail da professora, confirma a excursão e me lembra de mandar o formulário na quinta antes do sinal da manhã.
É essa parte que muda a sensação do ditado. Sem uma passagem de limpeza, você está trocando digitação por edição — você fala rápido e depois passa o tempo que economizou corrigindo maiúsculas e cortando frases corridas. Com ela, você fala do jeito bagunçado que você realmente fala e recebe de volta algo próximo ao acabado. Eu dito do jeito que penso, que é em fragmentos com começos falsos ocasionais, e deixo a passagem resolver. Ela não vai escrever o e-mail por você, mas vai fazer o e-mail que você falou soar como se você tivesse a intenção de escrevê-lo.
Esse mesmo fluxo de falar-e-limpar é a razão pela qual a voz pode superar a digitação para escrita do dia a dia — um parágrafo longo vira algumas frases faladas em vez de cinco minutos no teclado.
Quando o integrado é suficiente

Às vezes a ferramenta certa é a gratuita que já está na sua máquina, e fingir o contrário seria desonesto. Se você só dita em intervalos curtos — uma mensagem, uma pesquisa, uma anotação rápida — o integrado cobre tudo sem custo, e instalar um app seria exagero. Não vou te dizer para configurar um software para um lembrete de uma linha.
No Windows, a barra com tecla Windows + H é genuinamente boa para ditado curto; pontua e já está lá. Em um Mac, especialmente com Apple Silicon, o Ditado roda no dispositivo, pontua automaticamente e deixa você continuar digitando enquanto fala, o que é mais do que suficiente para trechos do dia a dia. Se você principalmente envia mensagens curtas e está em um Mac, talvez nunca precise de mais nada. Há um guia mais detalhado para cada um nos artigos sobre voz para texto no Windows e voz para texto no Mac se você quiser se aprofundar no integrado.
Opte por uma ferramenta dedicada quando o integrado começar a te incomodar de um jeito que você sente todo dia: sessões longas de escrita, ditado offline no Windows, trabalho multilíngue, uma passagem de limpeza de IA mais pesada, ou querer uma tecla de atalho que funcione da mesma forma em qualquer app em vez de reaprender o fluxo toda vez que você muda de janela. Abaixo dessa barra, use o que é gratuito. A resposta honesta é que o integrado é o ponto de partida certo para a maioria das pessoas, e o caminho dedicado é a evolução certa quando você já faz isso o suficiente para sentir o atrito.
Se a maior parte do seu ditado é para capturar ideias em vez de disparar mensagens, o mesmo raciocínio se aplica em anotações por voz — capturas rápidas combinam com o integrado, enquanto uma sessão longa é onde a tecla de atalho dedicada começa a valer a pena.
Digitar com a voz não é um truque novo — é uma ideia de trinta anos que finalmente funciona. A ferramenta integrada no seu computador resolve a maior parte do caminho, e para muita gente é a resposta completa. O caminho dedicado é o que você busca quando "a maior parte" não é mais suficiente. Escrevi quase tudo isso falando para o notebook e deixando a passagem de limpeza corrigir meus falsos começos, depois reli para ter certeza de que ainda soava como uma pessoa. Soou, e esse é o único teste que importa.
Fale a sua próxima frase em vez de digitá-la
Segure a tecla de atalho, fale, solte. A transcrição aparece onde estiver o cursor — em qualquer app, do mesmo jeito, sempre.
Modo local gratuito para qualquer conta conectada. Sem cartão para começar.



