How does voice typing software work?

It records audio from your microphone, runs it through a speech recognition model that converts the sound to text, and pastes the result where your cursor is. Some tools then run the text through a language model to fix punctuation and tone. The recognition can happen on your own computer or on a server.

How accurate is voice typing software?

Modern tools are good enough to trust for first drafts without training. Dragon advertises up to 99% recognition accuracy from first use, and the open-source Whisper model handles accents and noise across 99 languages on its multilingual variants. A $20 USB microphone improves accuracy more than any software upgrade. That is the boring truth.

What is the best free voice typing software?

The best free option is the one already on your device. Windows users get Voice typing with Windows key + H; Mac users get Apple Dictation; and Google Docs users get Voice typing under Tools. Whisper by Remskill's local pipeline is also free for signed-in users.

Can voice typing software type in any app?

Built-in dictation and dedicated desktop apps are system-wide. They type wherever your cursor is, in any text field. Browser-based tools like Google Docs Voice typing only work inside their own app, so they cannot fill your email or chat.

Is voice typing built into Windows and Mac?

Yes. Windows 11 has Voice typing, opened with the Windows logo key + H, though it needs an internet connection. Mac has Apple Dictation, turned on in System Settings under Keyboard. Both are free.

How much faster is voice typing than keyboard typing?

People speak at roughly 145 words a minute and type at about 40, so dictation is around three to four times faster. The real gain is not raw speed; it is skipping the keyboard entirely while your hands do something else.

Does voice typing software work offline?

Some do, some do not. Windows Voice typing requires internet because it processes in the cloud. Whisper by Remskill's local engines, Parakeet and Whisper, run fully offline on your machine, which is also why your audio never leaves the laptop.

Por Denys Medvediev13 de maio de 2026

Guia

Software de digitação por voz: opções nativas gratuitas vs ferramentas pagas

Alguns dos melhores softwares de digitação por voz já estão no seu computador. Veja qual usar e quando pagar por um aplicativo dedicado realmente faz sentido.

Última atualização: junho de 2026

Notebook elegante e copo de água sobre uma mesa de escritório iluminada, preparado para digitação por voz sem usar as mãos

O software de digitação por voz escuta pelo microfone e escreve o que você fala, transformando a fala em texto editável a cerca de 145 palavras por minuto, contra cerca de 40 ao digitar. As boas ferramentas funcionam em todo o sistema, então as palavras aparecem direto no cursor. Algumas são gratuitas e já vêm no Windows e no Mac; os aplicativos pagos acrescentam modo offline e limpeza por IA.

Fale, e as palavras aparecem no seu cursor

Na primeira vez que funciona, parece um pequeno truque de mágica. Você segura uma tecla, fala uma frase, solta, e a frase simplesmente aparece no seu e-mail. Sem teclado. Uma parente mais nova certa vez ditou um bilhete de 90 palavras para a avó antes mesmo de eu terminar de explicar o que era ditado. A parte difícil nunca foi falar. Por duas décadas, a parte difícil foi o software ser bom o bastante para se confiar, e essa parte finalmente foi resolvida.

Este artigo é sobre qual software de digitação por voz vale o seu tempo, incluindo as opções gratuitas que você já tem.

Pasted

O overlay do Whisper finalizando um ditado — o texto é colado no seu cursor.

A maioria das pessoas presas ao teclado faz isso por hábito, não por necessidade. Digitar é um meio-termo aprendido, uma forma de tirar os pensamentos da cabeça e colocá-los em uma máquina que não tem ouvidos. O software de digitação por voz elimina esse meio-termo. Por volta de 2022, a pergunta deixou de ser se funciona e passou a ser qual usar, e se preciso pagar por isso.

A resposta honesta depende de três coisas: quanto tempo você dita, se você quer que funcione em todos os aplicativos e se você se importa que suas palavras nunca saiam do seu notebook. Ao final disto, você saberá qual caminho combina com você, e eu vou dizer quando a opção nativa gratuita é tudo de que você precisa. Eu leio boa parte dos e-mails de suporte deste aplicativo, e uma fatia constante deles vem de gente que pagou por uma ferramenta quando a que já estava no computador teria resolvido. Então tenho um pequeno interesse em te convencer a não comprar.

O que é o software de digitação por voz

Close-up de uma interface de áudio digital mostrando uma onda sonora vibrante, ilustrando a fala capturada como dados

Software de digitação por voz é um programa que captura o áudio do seu microfone e o converte em texto escrito usando um modelo de reconhecimento de fala. O nome antigo é software de ditado. O nome de marketing mais novo é ditado por IA, que na maioria das vezes significa a mesma coisa com um modelo de linguagem acoplado para acertar a pontuação e o tom.

Ele aparece em três formatos. O ditado nativo vem com o seu sistema operacional: Digitação por voz do Windows, Apple Dictation. A digitação por voz no navegador vive dentro de um único aplicativo, como a Digitação por voz do Google Docs. E os aplicativos de desktop dedicados são instalados à parte e funcionam em tudo onde você digita. O formato importa mais do que a marca. Uma ferramenta de navegador que só escreve dentro do Google Docs é inútil para suas mensagens no Slack, por melhor que seja a precisão dela. A primeira pergunta a fazer sobre qualquer ferramenta não é o quão precisa ela é, mas onde ela deixa você digitar. A precisão hoje é um problema resolvido para a maioria delas; o alcance não é.

O que separa uma ferramenta séria de um brinquedo é onde ela cola. As ferramentas nativas e os aplicativos de desktop dedicados funcionam em todo o sistema: aperte o atalho em qualquer campo de texto e o texto aparece ali. É esse o jogo inteiro. Todo o resto — precisão, idiomas, limpeza por IA — é um refinamento em cima do fato de ela digitar onde você está olhando.

Uma segunda coisa separa as categorias: o que o modelo consegue ouvir. Algumas ferramentas só lidam com inglês. Outras lidam com dezenas de idiomas e conseguem trocar no meio da frase. Os modelos só em inglês do Whisper suportam exatamente um idioma, enquanto suas versões multilíngues cobrem 99. O Parakeet da NVIDIA fica no meio, com 25 idiomas, inglês mais 24 europeus. Se você só escreve em inglês, nada disso importa e você deveria escolher pela velocidade. Se você rascunha em dois idiomas antes do almoço, importa muito. A maioria das pessoas superestima de quantos idiomas precisa e subestima o quanto se importa com a latência. O atraso entre soltar a tecla e ver o texto é o que você sente toda santa vez.

Se você prefere ver a versão para todo o sistema funcionando em vez de ler sobre a categoria, a página de digitação por voz do Whisper mostra o ciclo de segurar um atalho no Windows e no Mac, com motores locais gratuitos incluídos.

Como funciona (e por que a precisão finalmente ficou boa)

Por baixo dos panos, o processo tem três etapas. Seu microfone grava um clipe curto de áudio. Um modelo de reconhecimento de fala transforma esse áudio em texto. Depois o texto é colado, às vezes após um modelo de linguagem dar uma arrumada.

CancelTranscribing

O Whisper no meio da transcrição — o modelo de fala transformando áudio em texto.

O salto de precisão que todo mundo notou veio do modelo do meio. O modelo Whisper de código aberto da OpenAI mudou o que se entendia por bom. Ele lida com sotaques, ruído de fundo e 99 idiomas nas variantes multilíngues, sem nenhuma etapa de treinamento. Essa última parte é a revolução silenciosa. Você não ensina o seu jeito de falar ao software moderno de digitação por voz. Você instala e fala.

Sou velho o bastante para lembrar de quando isso era ficção científica. No fim dos anos 1990, um parente rodava o Dragon NaturallySpeaking em um desktop com Windows 98 e 64 MB de RAM. A configuração exigia ler uma lista de palavras em voz alta por 45 minutos para o software calibrar à sua voz. Aí funcionava, mal e mal, com talvez 70% de precisão e um atraso de quatro segundos por frase. Levava quinze minutos para ditar um parágrafo de uma carta de fim de ano. O fone de ouvido foi atirado contra a parede. O fone sobreviveu; o experimento, não. Vinte e cinco anos depois, a mesma tarefa leva noventa segundos e zero treinamento. O hardware alcançou a ideia.

Existem hoje dois sabores da etapa do meio. O processamento local roda o modelo no seu próprio computador, offline, então o seu áudio nunca sai da máquina, do jeito que a transcrição de fala offline funciona. O processamento na nuvem envia o áudio para um servidor, o que pode ser mais rápido em hardware fraco, mas significa que suas palavras viajam. Qual deles você quer depende do que você está ditando. Uma lista de compras, quem se importa. O contrato do seu cliente, talvez você se importe.

A terceira etapa, a limpeza, é onde mora a IA do ditado por IA. A transcrição bruta te entrega uma parede de palavras sem quebras de parágrafo e um "é" aqui e ali. Um modelo de linguagem pode acertar a pontuação, tirar os vícios de linguagem e até adotar um tom que você pedir. No Whisper by Remskill essa etapa é opcional e roda localmente via Ollama, ou na nuvem com a sua própria chave OpenAI se você ativar o Pro. Você também pode acioná-la por voz: diga a frase de ativação, atualmente "Hey whisper", e o texto é entregue ao modelo em vez de colado bruto. Nada disso muda o truque central. Só decide o quão polidas as palavras chegam.

As opções gratuitas que você já tem: Digitação por voz do Windows, Apple Dictation, Google Docs

Antes de pagar por qualquer coisa, confira o que já está no seu computador. Três opções gratuitas e nativas cobrem bastante terreno.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak

O ditado que já está no seu computador, em dois sabores — sem precisar instalar nada.

Digitação por voz do Windows

No Windows 11, aperte a tecla com o logotipo do Windows mais H em qualquer caixa de texto e uma barra de digitação por voz aparece. É boa para mensagens rápidas. A pegadinha: ela precisa de conexão com a internet e de um microfone funcionando para rodar, porque o reconhecimento acontece na nuvem. Ela suporta 43 idiomas, segundo a lista da Microsoft. Se você está offline em um trem, ela para de funcionar. Há um passo a passo completo no nosso guia de voz para texto no Windows.

Apple Dictation

Em um Mac, ative em Ajustes do Sistema, Teclado, Ditado, e então inicie com a tecla de microfone ou o atalho que você escolher. A versão atual transcreve textos de qualquer tamanho e só para após 30 segundos de silêncio, não após um limite rígido de tempo. Em chips Apple Silicon, ela pode processar sua fala no próprio aparelho. Para anotações curtas, é gratuita e dá conta; a configuração mais longa está em voz para texto no Mac.

Digitação por voz do Google Docs

Abra um Google Doc no Chrome, Edge ou Safari, clique em Ferramentas, depois em Digitação por voz, e uma caixa de microfone aparece. Suporta mais de 100 idiomas e variantes regionais. O limite rígido está bem ali no nome: ela só escreve dentro do Google Docs e do Apresentações. Ela não vai digitar seu e-mail, seu Slack ou seu código.

O jeito honesto de entender essas três: são ferramentas de verdade, não demonstrações, e para uma grande parcela das pessoas elas são o fim da busca. Onde elas param é previsível. A Digitação por voz do Windows morre no instante em que você perde o sinal. A Digitação por voz do Google Docs nunca sai do documento. O Apple Dictation é excelente em um Mac e ausente em todo o resto. Se o seu trabalho cabe dentro desses limites, está resolvido. Feche esta aba e aperte a tecla. A categoria paga existe para o trabalho que não cabe: ditar o dia inteiro, offline num avião, em todos os aplicativos em vez de um só, e áudio que precisa ficar no seu próprio disco.

As ferramentas pagas que vale conhecer (Dragon, Wispr Flow, Superwhisper, Voicy, Whisper by Remskill)

Quando as ferramentas gratuitas ficam pequenas — quando você dita o dia inteiro ou precisa de modo offline ou quer limpeza por IA — a categoria paga se abre. Aqui estão os nomes que vale conhecer, com uma linha honesta sobre cada um.

Se você prefere ver o campo inteiro enfileirado em ordem, aqui está o melhor software de digitação por voz, classificado.

Eu não rodei esses lado a lado no cronômetro, então não vou fingir que rodei. Escolhi os nomes abaixo com base em três coisas: alcance de plataforma documentado (funciona onde você realmente digita), suporte offline documentado (o seu áudio sai da máquina) e cobertura de idiomas documentada. A tabela contém apenas fatos que cada fornecedor publica; deixei de fora velocidade e precisão porque não existe um benchmark neutro que abranja todos eles, e inventar um seria exatamente aquilo de que eu vim aqui te dissuadir.

Software de digitação por voz comparado por plataforma, modo de processamento, suporte offline, modelo de preços e cobertura de idiomas.
Ferramenta	Plataforma	Local / Nuvem	Funciona offline	Modelo de preços	Idiomas	Melhor para
Digitação por voz do Windows	Windows 11	Nuvem	Não	Gratuito, nativo	43	Mensagens rápidas em um PC conectado
Apple Dictation	macOS	Local no Apple Silicon	Sim (Apple Silicon)	Gratuito, nativo	Dezenas	Anotações curtas em um Mac
Digitação por voz do Google Docs	Navegador	Nuvem	Não	Gratuito, recurso do navegador	100+	Escrever apenas dentro do Google Docs
Dragon by Nuance	Windows	Local	Sim	Pago, licença única	Focado em inglês	Ditado o dia inteiro no Windows
Whisper by Remskill	Windows, macOS (Apple Silicon)	Local ou Nuvem (sua chave)	Sim (motores locais)	Local gratuito, Pro pago para nuvem	99 no Whisper multilíngue	Ditado em todo o sistema, offline, em qualquer app

Dragon by Nuance é a velha guarda. O Dragon Professional v16 anuncia ditado três vezes mais rápido do que digitar, com até 99% de precisão de reconhecimento desde o primeiro uso, e é otimizado para o Windows 11. Esses 99% são o número da própria Nuance, não um benchmark neutro. A pegadinha: o Dragon Professional é só para Windows, sem nenhuma versão atual de desktop para Mac.

Wispr Flow, Superwhisper e Voicy são a nova onda de aplicativos de ditado por IA. Eles embrulham um modelo de fala em uma interface limpa e acrescentam ajustes de tom ou de formatação. São competentes. O padrão na maior parte dessa categoria é a mesma arquitetura — um modelo de fala, uma interface e uma fatura mensal — e a fatura é onde eles mais diferem. Se a fatura é a parte que dói, escrevemos uma alternativa honesta ao superwhisper que mantém o pipeline local inteiro gratuito para sempre.

Whisper by Remskill, o nosso aplicativo, é uma ferramenta de desktop para Windows e macOS em Apple Silicon. Você aperta um atalho, fala, e o texto é colado no seu cursor em qualquer aplicativo. O atalho padrão é Ctrl+Space no Windows e um acorde push-to-talk Command+Option no Mac — segure os dois, solte qualquer um para parar. O que você escolhe é o motor. Você opta por três caminhos: o NVIDIA Parakeet local (~600 MB, 5–10× mais rápido que o Whisper na CPU, inglês mais 24 idiomas europeus); o Whisper local (oito modelos, 99 idiomas nos multilíngues, traduzir-para-inglês); ou o modo Nuvem, que usa a sua própria chave OpenAI para o gpt-4o-mini-transcribe ou o gpt-4o-transcribe, sem nenhuma comissão nossa. Toda a transcrição local é pure-Rust, sem Python. A comparação completa do campo mais amplo está no nosso compilado de softwares de transcrição.

Whisper

O aplicativo Whisper de verdade — Local e Nuvem, clique à vontade no seletor de motor.

É aqui também que entra a minha única opinião: experimente primeiro o modo local. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos quatro anos, você não precisa da nuvem para o ditado do dia a dia. O Parakeet local começa a transcrever em bem menos de dois segundos em hardware moderno, o seu áudio nunca sai do notebook, e a nuvem é a saída de emergência para quando você quer precisão de nível OpenAI ou busca na web, não o padrão. Recorra à rede quando bater numa parede, não antes. Eu sou o tipo de arquiteto que parte para a solução maior e mais sofisticada por reflexo e depois se convence a recuar. O local-primeiro é eu me convencendo a recuar, em público, para que você possa pular a parte em que eu perco uma semana.

O motivo prático é o hardware. Um notebook moderno já tem um microfone e um processador rápido o bastante para rodar um modelo de fala por conta própria. Mandar um parágrafo de áudio para um servidor e de volta, para um trabalho que a sua máquina faz offline em menos de dois segundos, é um hábito que sobrou de quando os notebooks eram lentos demais. Eles não são mais. A nuvem se justifica nos casos difíceis: uma sala barulhenta, um sotaque incomum, um pedido que precisa de uma resposta da web ao vivo colada na sua resposta. Para o fluxo diário de e-mail, anotações e bate-papo, o local é mais rápido para começar, privado por padrão e gratuito para usuários conectados. A saída de emergência está lá quando você precisar; na maioria dos dias, você não vai precisar.

Quando dispensar um aplicativo dedicado e usar o nativo

Aqui está a parte que a maioria dos artigos de "melhor software" pula. Se você manda mensagens curtas — um texto de 30 palavras, uma resposta rápida no Slack — o ditado gratuito que já está no seu computador é tudo de que você precisa. A Digitação por voz do Windows (tecla Windows + H) e o Apple Dictation são gratuitos, são nativos e funcionam. Não instale nem pague por nada para escrever uma frase. Um aplicativo dedicado começa a se justificar quando você dita com frequência, precisa que funcione offline num avião, quer que esteja em todos os aplicativos e não em apenas um, ou se importa que suas palavras fiquem no seu aparelho. Abaixo desse limiar, a verdade sem graça é que você já tem a ferramenta certa.

Quanto custa o Whisper by Remskill

O Whisper by Remskill é gratuito para todo usuário conectado em todo o pipeline local: Whisper local, Parakeet, limpeza por IA baseada em Ollama, histórico, atalho personalizado, downloads de modelos, sem precisar de forma de pagamento para se cadastrar. O Whisper Pro adiciona a camada de Nuvem: transcrição na nuvem da OpenAI, aprimoramento por IA na nuvem e busca por voz na web através da sua própria chave OpenAI. O modo Nuvem cobra você diretamente pela OpenAI; não ficamos com nenhuma comissão. Os planos atuais e o teste do Pro estão na página de preços. Não vou ficar te jogando números aqui; a página faz isso melhor do que um parágrafo conseguiria.

Leitura complementar

Um parente meu atirou um fone de ouvido contra a parede em 1999 porque o ditado era uma chateação de 45 minutos que produzia lixo. O fone sobreviveu ao experimento. Vinte e cinco anos depois, a chateação acabou. Você aperta uma tecla e fala, e as palavras aparecem. A única decisão de verdade que sobra é qual ferramenta, e para muita gente a resposta certa já está no computador, desligada, esperando. Meus próprios filhos nunca vão saber que um dia foi difícil, que é justamente o objetivo, mesmo que renda uma história pior na mesa do jantar.

Experimente primeiro a que você já tem

Se ela ficar pequena, baixe o Whisper e escolha o motor que combina com o seu jeito de trabalhar.

Baixar o Whisper Veja como funciona

Gratuito para usuários conectados em todo o pipeline local. Sem cartão no cadastro.

Denys Medvediev

Sou o cara que lê os e-mails de suporte da gente, provavelmente ditando as respostas.

Perguntas frequentes

Ele grava o áudio do seu microfone, passa por um modelo de reconhecimento de fala que converte o som em texto e cola o resultado onde está o seu cursor. Algumas ferramentas então passam o texto por um modelo de linguagem para acertar a pontuação e o tom. O reconhecimento pode acontecer no seu próprio computador ou em um servidor.