Por Denys Medvediev

Guia

Software de digitação por voz: opções nativas gratuitas vs ferramentas pagas

Alguns dos melhores softwares de digitação por voz já estão no seu computador. Veja qual usar e quando pagar por um aplicativo dedicado realmente faz sentido.

Última atualização: junho de 2026

Notebook elegante e copo de água sobre uma mesa de escritório iluminada, preparado para digitação por voz sem usar as mãos

O software de digitação por voz escuta pelo microfone e escreve o que você fala, transformando a fala em texto editável a cerca de 145 palavras por minuto, contra cerca de 40 ao digitar. As boas ferramentas funcionam em todo o sistema, então as palavras aparecem direto no cursor. Algumas são gratuitas e já vêm no Windows e no Mac; os aplicativos pagos acrescentam modo offline e limpeza por IA.

Fale, e as palavras aparecem no seu cursor

Na primeira vez que funciona, parece um pequeno truque de mágica. Você segura uma tecla, fala uma frase, solta, e a frase simplesmente aparece no seu e-mail. Sem teclado. Uma parente mais nova certa vez ditou um bilhete de 90 palavras para a avó antes mesmo de eu terminar de explicar o que era ditado. A parte difícil nunca foi falar. Por duas décadas, a parte difícil foi o software ser bom o bastante para se confiar, e essa parte finalmente foi resolvida.

Este artigo é sobre qual software de digitação por voz vale o seu tempo, incluindo as opções gratuitas que você já tem.

Pasted
O overlay do Whisper finalizando um ditado — o texto é colado no seu cursor.

A maioria das pessoas presas ao teclado faz isso por hábito, não por necessidade. Digitar é um meio-termo aprendido, uma forma de tirar os pensamentos da cabeça e colocá-los em uma máquina que não tem ouvidos. O software de digitação por voz elimina esse meio-termo. Por volta de 2022, a pergunta deixou de ser se funciona e passou a ser qual usar, e se preciso pagar por isso.

A resposta honesta depende de três coisas: quanto tempo você dita, se você quer que funcione em todos os aplicativos e se você se importa que suas palavras nunca saiam do seu notebook. Ao final disto, você saberá qual caminho combina com você, e eu vou dizer quando a opção nativa gratuita é tudo de que você precisa. Eu leio boa parte dos e-mails de suporte deste aplicativo, e uma fatia constante deles vem de gente que pagou por uma ferramenta quando a que já estava no computador teria resolvido. Então tenho um pequeno interesse em te convencer a não comprar.

O que é o software de digitação por voz

Close-up de uma interface de áudio digital mostrando uma onda sonora vibrante, ilustrando a fala capturada como dados

Software de digitação por voz é um programa que captura o áudio do seu microfone e o converte em texto escrito usando um modelo de reconhecimento de fala. O nome antigo é software de ditado. O nome de marketing mais novo é ditado por IA, que na maioria das vezes significa a mesma coisa com um modelo de linguagem acoplado para acertar a pontuação e o tom.

Ele aparece em três formatos. O ditado nativo vem com o seu sistema operacional: Digitação por voz do Windows, Apple Dictation. A digitação por voz no navegador vive dentro de um único aplicativo, como a Digitação por voz do Google Docs. E os aplicativos de desktop dedicados são instalados à parte e funcionam em tudo onde você digita. O formato importa mais do que a marca. Uma ferramenta de navegador que só escreve dentro do Google Docs é inútil para suas mensagens no Slack, por melhor que seja a precisão dela. A primeira pergunta a fazer sobre qualquer ferramenta não é o quão precisa ela é, mas onde ela deixa você digitar. A precisão hoje é um problema resolvido para a maioria delas; o alcance não é.

O que separa uma ferramenta séria de um brinquedo é onde ela cola. As ferramentas nativas e os aplicativos de desktop dedicados funcionam em todo o sistema: aperte o atalho em qualquer campo de texto e o texto aparece ali. É esse o jogo inteiro. Todo o resto — precisão, idiomas, limpeza por IA — é um refinamento em cima do fato de ela digitar onde você está olhando.

Uma segunda coisa separa as categorias: o que o modelo consegue ouvir. Algumas ferramentas só lidam com inglês. Outras lidam com dezenas de idiomas e conseguem trocar no meio da frase. Os modelos só em inglês do Whisper suportam exatamente um idioma, enquanto suas versões multilíngues cobrem 99. O Parakeet da NVIDIA fica no meio, com 25 idiomas, inglês mais 24 europeus. Se você só escreve em inglês, nada disso importa e você deveria escolher pela velocidade. Se você rascunha em dois idiomas antes do almoço, importa muito. A maioria das pessoas superestima de quantos idiomas precisa e subestima o quanto se importa com a latência. O atraso entre soltar a tecla e ver o texto é o que você sente toda santa vez.

Se você prefere ver a versão para todo o sistema funcionando em vez de ler sobre a categoria, a página de digitação por voz do Whisper mostra o ciclo de segurar um atalho no Windows e no Mac, com motores locais gratuitos incluídos.

Como funciona (e por que a precisão finalmente ficou boa)

Por baixo dos panos, o processo tem três etapas. Seu microfone grava um clipe curto de áudio. Um modelo de reconhecimento de fala transforma esse áudio em texto. Depois o texto é colado, às vezes após um modelo de linguagem dar uma arrumada.

CancelTranscribing
O Whisper no meio da transcrição — o modelo de fala transformando áudio em texto.

O salto de precisão que todo mundo notou veio do modelo do meio. O modelo Whisper de código aberto da OpenAI mudou o que se entendia por bom. Ele lida com sotaques, ruído de fundo e 99 idiomas nas variantes multilíngues, sem nenhuma etapa de treinamento. Essa última parte é a revolução silenciosa. Você não ensina o seu jeito de falar ao software moderno de digitação por voz. Você instala e fala.

Sou velho o bastante para lembrar de quando isso era ficção científica. No fim dos anos 1990, um parente rodava o Dragon NaturallySpeaking em um desktop com Windows 98 e 64 MB de RAM. A configuração exigia ler uma lista de palavras em voz alta por 45 minutos para o software calibrar à sua voz. Aí funcionava, mal e mal, com talvez 70% de precisão e um atraso de quatro segundos por frase. Levava quinze minutos para ditar um parágrafo de uma carta de fim de ano. O fone de ouvido foi atirado contra a parede. O fone sobreviveu; o experimento, não. Vinte e cinco anos depois, a mesma tarefa leva noventa segundos e zero treinamento. O hardware alcançou a ideia.

Existem hoje dois sabores da etapa do meio. O processamento local roda o modelo no seu próprio computador, offline, então o seu áudio nunca sai da máquina, do jeito que a transcrição de fala offline funciona. O processamento na nuvem envia o áudio para um servidor, o que pode ser mais rápido em hardware fraco, mas significa que suas palavras viajam. Qual deles você quer depende do que você está ditando. Uma lista de compras, quem se importa. O contrato do seu cliente, talvez você se importe.

A terceira etapa, a limpeza, é onde mora a IA do ditado por IA. A transcrição bruta te entrega uma parede de palavras sem quebras de parágrafo e um "é" aqui e ali. Um modelo de linguagem pode acertar a pontuação, tirar os vícios de linguagem e até adotar um tom que você pedir. No Whisper by Remskill essa etapa é opcional e roda localmente via Ollama, ou na nuvem com a sua própria chave OpenAI se você ativar o Pro. Você também pode acioná-la por voz: diga a frase de ativação, atualmente "Hey whisper", e o texto é entregue ao modelo em vez de colado bruto. Nada disso muda o truque central. Só decide o quão polidas as palavras chegam.

As opções gratuitas que você já tem: Digitação por voz do Windows, Apple Dictation, Google Docs

Antes de pagar por qualquer coisa, confira o que já está no seu computador. Três opções gratuitas e nativas cobrem bastante terreno.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
O ditado que já está no seu computador, em dois sabores — sem precisar instalar nada.

Digitação por voz do Windows

No Windows 11, aperte a tecla com o logotipo do Windows mais H em qualquer caixa de texto e uma barra de digitação por voz aparece. É boa para mensagens rápidas. A pegadinha: ela precisa de conexão com a internet e de um microfone funcionando para rodar, porque o reconhecimento acontece na nuvem. Ela suporta 43 idiomas, segundo a lista da Microsoft. Se você está offline em um trem, ela para de funcionar. Há um passo a passo completo no nosso guia de voz para texto no Windows.

Apple Dictation

Em um Mac, ative em Ajustes do Sistema, Teclado, Ditado, e então inicie com a tecla de microfone ou o atalho que você escolher. A versão atual transcreve textos de qualquer tamanho e só para após 30 segundos de silêncio, não após um limite rígido de tempo. Em chips Apple Silicon, ela pode processar sua fala no próprio aparelho. Para anotações curtas, é gratuita e dá conta; a configuração mais longa está em voz para texto no Mac.

Digitação por voz do Google Docs

Abra um Google Doc no Chrome, Edge ou Safari, clique em Ferramentas, depois em Digitação por voz, e uma caixa de microfone aparece. Suporta mais de 100 idiomas e variantes regionais. O limite rígido está bem ali no nome: ela só escreve dentro do Google Docs e do Apresentações. Ela não vai digitar seu e-mail, seu Slack ou seu código.

O jeito honesto de entender essas três: são ferramentas de verdade, não demonstrações, e para uma grande parcela das pessoas elas são o fim da busca. Onde elas param é previsível. A Digitação por voz do Windows morre no instante em que você perde o sinal. A Digitação por voz do Google Docs nunca sai do documento. O Apple Dictation é excelente em um Mac e ausente em todo o resto. Se o seu trabalho cabe dentro desses limites, está resolvido. Feche esta aba e aperte a tecla. A categoria paga existe para o trabalho que não cabe: ditar o dia inteiro, offline num avião, em todos os aplicativos em vez de um só, e áudio que precisa ficar no seu próprio disco.

Quando dispensar um aplicativo dedicado e usar o nativo

Aqui está a parte que a maioria dos artigos de "melhor software" pula. Se você manda mensagens curtas — um texto de 30 palavras, uma resposta rápida no Slack — o ditado gratuito que já está no seu computador é tudo de que você precisa. A Digitação por voz do Windows (tecla Windows + H) e o Apple Dictation são gratuitos, são nativos e funcionam. Não instale nem pague por nada para escrever uma frase. Um aplicativo dedicado começa a se justificar quando você dita com frequência, precisa que funcione offline num avião, quer que esteja em todos os aplicativos e não em apenas um, ou se importa que suas palavras fiquem no seu aparelho. Abaixo desse limiar, a verdade sem graça é que você já tem a ferramenta certa.

Quanto custa o Whisper by Remskill

O Whisper by Remskill é gratuito para todo usuário conectado em todo o pipeline local: Whisper local, Parakeet, limpeza por IA baseada em Ollama, histórico, atalho personalizado, downloads de modelos, sem precisar de forma de pagamento para se cadastrar. O Whisper Pro adiciona a camada de Nuvem: transcrição na nuvem da OpenAI, aprimoramento por IA na nuvem e busca por voz na web através da sua própria chave OpenAI. O modo Nuvem cobra você diretamente pela OpenAI; não ficamos com nenhuma comissão. Os planos atuais e o teste do Pro estão na página de preços. Não vou ficar te jogando números aqui; a página faz isso melhor do que um parágrafo conseguiria.

Leitura complementar

Um parente meu atirou um fone de ouvido contra a parede em 1999 porque o ditado era uma chateação de 45 minutos que produzia lixo. O fone sobreviveu ao experimento. Vinte e cinco anos depois, a chateação acabou. Você aperta uma tecla e fala, e as palavras aparecem. A única decisão de verdade que sobra é qual ferramenta, e para muita gente a resposta certa já está no computador, desligada, esperando. Meus próprios filhos nunca vão saber que um dia foi difícil, que é justamente o objetivo, mesmo que renda uma história pior na mesa do jantar.

Experimente primeiro a que você já tem

Se ela ficar pequena, baixe o Whisper e escolha o motor que combina com o seu jeito de trabalhar.

Gratuito para usuários conectados em todo o pipeline local. Sem cartão no cadastro.

Foto de Denys Medvediev

Denys Medvediev

Sou o cara que lê os e-mails de suporte da gente, provavelmente ditando as respostas.