Guia
Software de digitação por voz: opções nativas gratuitas vs ferramentas pagas
Alguns dos melhores softwares de digitação por voz já estão no seu computador. Veja qual usar e quando pagar por um aplicativo dedicado realmente faz sentido.
Última atualização: junho de 2026

O software de digitação por voz escuta pelo microfone e escreve o que você fala, transformando a fala em texto editável a cerca de 145 palavras por minuto, contra cerca de 40 ao digitar. As boas ferramentas funcionam em todo o sistema, então as palavras aparecem direto no cursor. Algumas são gratuitas e já vêm no Windows e no Mac; os aplicativos pagos acrescentam modo offline e limpeza por IA.
Fale, e as palavras aparecem no seu cursor
Na primeira vez que funciona, parece um pequeno truque de mágica. Você segura uma tecla, fala uma frase, solta, e a frase simplesmente aparece no seu e-mail. Sem teclado. Uma parente mais nova certa vez ditou um bilhete de 90 palavras para a avó antes mesmo de eu terminar de explicar o que era ditado. A parte difícil nunca foi falar. Por duas décadas, a parte difícil foi o software ser bom o bastante para se confiar, e essa parte finalmente foi resolvida.
Este artigo é sobre qual software de digitação por voz vale o seu tempo, incluindo as opções gratuitas que você já tem.
A maioria das pessoas presas ao teclado faz isso por hábito, não por necessidade. Digitar é um meio-termo aprendido, uma forma de tirar os pensamentos da cabeça e colocá-los em uma máquina que não tem ouvidos. O software de digitação por voz elimina esse meio-termo. Por volta de 2022, a pergunta deixou de ser se funciona e passou a ser qual usar, e se preciso pagar por isso.
A resposta honesta depende de três coisas: quanto tempo você dita, se você quer que funcione em todos os aplicativos e se você se importa que suas palavras nunca saiam do seu notebook. Ao final disto, você saberá qual caminho combina com você, e eu vou dizer quando a opção nativa gratuita é tudo de que você precisa. Eu leio boa parte dos e-mails de suporte deste aplicativo, e uma fatia constante deles vem de gente que pagou por uma ferramenta quando a que já estava no computador teria resolvido. Então tenho um pequeno interesse em te convencer a não comprar.
O que é o software de digitação por voz

Software de digitação por voz é um programa que captura o áudio do seu microfone e o converte em texto escrito usando um modelo de reconhecimento de fala. O nome antigo é software de ditado. O nome de marketing mais novo é ditado por IA, que na maioria das vezes significa a mesma coisa com um modelo de linguagem acoplado para acertar a pontuação e o tom.
Ele aparece em três formatos. O ditado nativo vem com o seu sistema operacional: Digitação por voz do Windows, Apple Dictation. A digitação por voz no navegador vive dentro de um único aplicativo, como a Digitação por voz do Google Docs. E os aplicativos de desktop dedicados são instalados à parte e funcionam em tudo onde você digita. O formato importa mais do que a marca. Uma ferramenta de navegador que só escreve dentro do Google Docs é inútil para suas mensagens no Slack, por melhor que seja a precisão dela. A primeira pergunta a fazer sobre qualquer ferramenta não é o quão precisa ela é, mas onde ela deixa você digitar. A precisão hoje é um problema resolvido para a maioria delas; o alcance não é.
O que separa uma ferramenta séria de um brinquedo é onde ela cola. As ferramentas nativas e os aplicativos de desktop dedicados funcionam em todo o sistema: aperte o atalho em qualquer campo de texto e o texto aparece ali. É esse o jogo inteiro. Todo o resto — precisão, idiomas, limpeza por IA — é um refinamento em cima do fato de ela digitar onde você está olhando.
Uma segunda coisa separa as categorias: o que o modelo consegue ouvir. Algumas ferramentas só lidam com inglês. Outras lidam com dezenas de idiomas e conseguem trocar no meio da frase. Os modelos só em inglês do Whisper suportam exatamente um idioma, enquanto suas versões multilíngues cobrem 99. O Parakeet da NVIDIA fica no meio, com 25 idiomas, inglês mais 24 europeus. Se você só escreve em inglês, nada disso importa e você deveria escolher pela velocidade. Se você rascunha em dois idiomas antes do almoço, importa muito. A maioria das pessoas superestima de quantos idiomas precisa e subestima o quanto se importa com a latência. O atraso entre soltar a tecla e ver o texto é o que você sente toda santa vez.
Se você prefere ver a versão para todo o sistema funcionando em vez de ler sobre a categoria, a página de digitação por voz do Whisper mostra o ciclo de segurar um atalho no Windows e no Mac, com motores locais gratuitos incluídos.
Como funciona (e por que a precisão finalmente ficou boa)
Por baixo dos panos, o processo tem três etapas. Seu microfone grava um clipe curto de áudio. Um modelo de reconhecimento de fala transforma esse áudio em texto. Depois o texto é colado, às vezes após um modelo de linguagem dar uma arrumada.
O salto de precisão que todo mundo notou veio do modelo do meio. O modelo Whisper de código aberto da OpenAI mudou o que se entendia por bom. Ele lida com sotaques, ruído de fundo e 99 idiomas nas variantes multilíngues, sem nenhuma etapa de treinamento. Essa última parte é a revolução silenciosa. Você não ensina o seu jeito de falar ao software moderno de digitação por voz. Você instala e fala.
Sou velho o bastante para lembrar de quando isso era ficção científica. No fim dos anos 1990, um parente rodava o Dragon NaturallySpeaking em um desktop com Windows 98 e 64 MB de RAM. A configuração exigia ler uma lista de palavras em voz alta por 45 minutos para o software calibrar à sua voz. Aí funcionava, mal e mal, com talvez 70% de precisão e um atraso de quatro segundos por frase. Levava quinze minutos para ditar um parágrafo de uma carta de fim de ano. O fone de ouvido foi atirado contra a parede. O fone sobreviveu; o experimento, não. Vinte e cinco anos depois, a mesma tarefa leva noventa segundos e zero treinamento. O hardware alcançou a ideia.
Existem hoje dois sabores da etapa do meio. O processamento local roda o modelo no seu próprio computador, offline, então o seu áudio nunca sai da máquina, do jeito que a transcrição de fala offline funciona. O processamento na nuvem envia o áudio para um servidor, o que pode ser mais rápido em hardware fraco, mas significa que suas palavras viajam. Qual deles você quer depende do que você está ditando. Uma lista de compras, quem se importa. O contrato do seu cliente, talvez você se importe.
A terceira etapa, a limpeza, é onde mora a IA do ditado por IA. A transcrição bruta te entrega uma parede de palavras sem quebras de parágrafo e um "é" aqui e ali. Um modelo de linguagem pode acertar a pontuação, tirar os vícios de linguagem e até adotar um tom que você pedir. No Whisper by Remskill essa etapa é opcional e roda localmente via Ollama, ou na nuvem com a sua própria chave OpenAI se você ativar o Pro. Você também pode acioná-la por voz: diga a frase de ativação, atualmente "Hey whisper", e o texto é entregue ao modelo em vez de colado bruto. Nada disso muda o truque central. Só decide o quão polidas as palavras chegam.
As opções gratuitas que você já tem: Digitação por voz do Windows, Apple Dictation, Google Docs
Antes de pagar por qualquer coisa, confira o que já está no seu computador. Três opções gratuitas e nativas cobrem bastante terreno.
Windows · Win + H
macOS · Dictation
Docs · Voice typing
Digitação por voz do Windows
No Windows 11, aperte a tecla com o logotipo do Windows mais H em qualquer caixa de texto e uma barra de digitação por voz aparece. É boa para mensagens rápidas. A pegadinha: ela precisa de conexão com a internet e de um microfone funcionando para rodar, porque o reconhecimento acontece na nuvem. Ela suporta 43 idiomas, segundo a lista da Microsoft. Se você está offline em um trem, ela para de funcionar. Há um passo a passo completo no nosso guia de voz para texto no Windows.
Apple Dictation
Em um Mac, ative em Ajustes do Sistema, Teclado, Ditado, e então inicie com a tecla de microfone ou o atalho que você escolher. A versão atual transcreve textos de qualquer tamanho e só para após 30 segundos de silêncio, não após um limite rígido de tempo. Em chips Apple Silicon, ela pode processar sua fala no próprio aparelho. Para anotações curtas, é gratuita e dá conta; a configuração mais longa está em voz para texto no Mac.
Digitação por voz do Google Docs
Abra um Google Doc no Chrome, Edge ou Safari, clique em Ferramentas, depois em Digitação por voz, e uma caixa de microfone aparece. Suporta mais de 100 idiomas e variantes regionais. O limite rígido está bem ali no nome: ela só escreve dentro do Google Docs e do Apresentações. Ela não vai digitar seu e-mail, seu Slack ou seu código.
O jeito honesto de entender essas três: são ferramentas de verdade, não demonstrações, e para uma grande parcela das pessoas elas são o fim da busca. Onde elas param é previsível. A Digitação por voz do Windows morre no instante em que você perde o sinal. A Digitação por voz do Google Docs nunca sai do documento. O Apple Dictation é excelente em um Mac e ausente em todo o resto. Se o seu trabalho cabe dentro desses limites, está resolvido. Feche esta aba e aperte a tecla. A categoria paga existe para o trabalho que não cabe: ditar o dia inteiro, offline num avião, em todos os aplicativos em vez de um só, e áudio que precisa ficar no seu próprio disco.
As ferramentas pagas que vale conhecer (Dragon, Wispr Flow, Superwhisper, Voicy, Whisper by Remskill)
Quando as ferramentas gratuitas ficam pequenas — quando você dita o dia inteiro ou precisa de modo offline ou quer limpeza por IA — a categoria paga se abre. Aqui estão os nomes que vale conhecer, com uma linha honesta sobre cada um.
Se você prefere ver o campo inteiro enfileirado em ordem, aqui está o melhor software de digitação por voz, classificado.
Eu não rodei esses lado a lado no cronômetro, então não vou fingir que rodei. Escolhi os nomes abaixo com base em três coisas: alcance de plataforma documentado (funciona onde você realmente digita), suporte offline documentado (o seu áudio sai da máquina) e cobertura de idiomas documentada. A tabela contém apenas fatos que cada fornecedor publica; deixei de fora velocidade e precisão porque não existe um benchmark neutro que abranja todos eles, e inventar um seria exatamente aquilo de que eu vim aqui te dissuadir.
| Ferramenta | Plataforma | Local / Nuvem | Funciona offline | Modelo de preços | Idiomas | Melhor para |
|---|---|---|---|---|---|---|
| Digitação por voz do Windows | Windows 11 | Nuvem | Não | Gratuito, nativo | 43 | Mensagens rápidas em um PC conectado |
| Apple Dictation | macOS | Local no Apple Silicon | Sim (Apple Silicon) | Gratuito, nativo | Dezenas | Anotações curtas em um Mac |
| Digitação por voz do Google Docs | Navegador | Nuvem | Não | Gratuito, recurso do navegador | 100+ | Escrever apenas dentro do Google Docs |
| Dragon by Nuance | Windows | Local | Sim | Pago, licença única | Focado em inglês | Ditado o dia inteiro no Windows |
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Local ou Nuvem (sua chave) | Sim (motores locais) | Local gratuito, Pro pago para nuvem | 99 no Whisper multilíngue | Ditado em todo o sistema, offline, em qualquer app |
Dragon by Nuance é a velha guarda. O Dragon Professional v16 anuncia ditado três vezes mais rápido do que digitar, com até 99% de precisão de reconhecimento desde o primeiro uso, e é otimizado para o Windows 11. Esses 99% são o número da própria Nuance, não um benchmark neutro. A pegadinha: o Dragon Professional é só para Windows, sem nenhuma versão atual de desktop para Mac.
Wispr Flow, Superwhisper e Voicy são a nova onda de aplicativos de ditado por IA. Eles embrulham um modelo de fala em uma interface limpa e acrescentam ajustes de tom ou de formatação. São competentes. O padrão na maior parte dessa categoria é a mesma arquitetura — um modelo de fala, uma interface e uma fatura mensal — e a fatura é onde eles mais diferem. Se a fatura é a parte que dói, escrevemos uma alternativa honesta ao superwhisper que mantém o pipeline local inteiro gratuito para sempre.
Whisper by Remskill, o nosso aplicativo, é uma ferramenta de desktop para Windows e macOS em Apple Silicon. Você aperta um atalho, fala, e o texto é colado no seu cursor em qualquer aplicativo. O atalho padrão é Ctrl+Space no Windows e um acorde push-to-talk Command+Option no Mac — segure os dois, solte qualquer um para parar. O que você escolhe é o motor. Você opta por três caminhos: o NVIDIA Parakeet local (~600 MB, 5–10× mais rápido que o Whisper na CPU, inglês mais 24 idiomas europeus); o Whisper local (oito modelos, 99 idiomas nos multilíngues, traduzir-para-inglês); ou o modo Nuvem, que usa a sua própria chave OpenAI para o gpt-4o-mini-transcribe ou o gpt-4o-transcribe, sem nenhuma comissão nossa. Toda a transcrição local é pure-Rust, sem Python. A comparação completa do campo mais amplo está no nosso compilado de softwares de transcrição.
É aqui também que entra a minha única opinião: experimente primeiro o modo local. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos quatro anos, você não precisa da nuvem para o ditado do dia a dia. O Parakeet local começa a transcrever em bem menos de dois segundos em hardware moderno, o seu áudio nunca sai do notebook, e a nuvem é a saída de emergência para quando você quer precisão de nível OpenAI ou busca na web, não o padrão. Recorra à rede quando bater numa parede, não antes. Eu sou o tipo de arquiteto que parte para a solução maior e mais sofisticada por reflexo e depois se convence a recuar. O local-primeiro é eu me convencendo a recuar, em público, para que você possa pular a parte em que eu perco uma semana.
O motivo prático é o hardware. Um notebook moderno já tem um microfone e um processador rápido o bastante para rodar um modelo de fala por conta própria. Mandar um parágrafo de áudio para um servidor e de volta, para um trabalho que a sua máquina faz offline em menos de dois segundos, é um hábito que sobrou de quando os notebooks eram lentos demais. Eles não são mais. A nuvem se justifica nos casos difíceis: uma sala barulhenta, um sotaque incomum, um pedido que precisa de uma resposta da web ao vivo colada na sua resposta. Para o fluxo diário de e-mail, anotações e bate-papo, o local é mais rápido para começar, privado por padrão e gratuito para usuários conectados. A saída de emergência está lá quando você precisar; na maioria dos dias, você não vai precisar.
Quando dispensar um aplicativo dedicado e usar o nativo
Aqui está a parte que a maioria dos artigos de "melhor software" pula. Se você manda mensagens curtas — um texto de 30 palavras, uma resposta rápida no Slack — o ditado gratuito que já está no seu computador é tudo de que você precisa. A Digitação por voz do Windows (tecla Windows + H) e o Apple Dictation são gratuitos, são nativos e funcionam. Não instale nem pague por nada para escrever uma frase. Um aplicativo dedicado começa a se justificar quando você dita com frequência, precisa que funcione offline num avião, quer que esteja em todos os aplicativos e não em apenas um, ou se importa que suas palavras fiquem no seu aparelho. Abaixo desse limiar, a verdade sem graça é que você já tem a ferramenta certa.
Quanto custa o Whisper by Remskill
O Whisper by Remskill é gratuito para todo usuário conectado em todo o pipeline local: Whisper local, Parakeet, limpeza por IA baseada em Ollama, histórico, atalho personalizado, downloads de modelos, sem precisar de forma de pagamento para se cadastrar. O Whisper Pro adiciona a camada de Nuvem: transcrição na nuvem da OpenAI, aprimoramento por IA na nuvem e busca por voz na web através da sua própria chave OpenAI. O modo Nuvem cobra você diretamente pela OpenAI; não ficamos com nenhuma comissão. Os planos atuais e o teste do Pro estão na página de preços. Não vou ficar te jogando números aqui; a página faz isso melhor do que um parágrafo conseguiria.
Leitura complementar
Um parente meu atirou um fone de ouvido contra a parede em 1999 porque o ditado era uma chateação de 45 minutos que produzia lixo. O fone sobreviveu ao experimento. Vinte e cinco anos depois, a chateação acabou. Você aperta uma tecla e fala, e as palavras aparecem. A única decisão de verdade que sobra é qual ferramenta, e para muita gente a resposta certa já está no computador, desligada, esperando. Meus próprios filhos nunca vão saber que um dia foi difícil, que é justamente o objetivo, mesmo que renda uma história pior na mesa do jantar.
Experimente primeiro a que você já tem
Se ela ficar pequena, baixe o Whisper e escolha o motor que combina com o seu jeito de trabalhar.
Gratuito para usuários conectados em todo o pipeline local. Sem cartão no cadastro.



