Solução de problemas
Ditado digitando palavras erradas? 5 soluções
O ditado digita palavras erradas quando o modelo escuta um som de forma errada e tenta adivinhar. Cinco causas, quatro delas você resolve em dez minutos.
Última atualização: junho de 2026

O ditado digita palavras erradas quando o modelo de fala escuta um som incorretamente e reescreve a frase com base nessa suposição. As causas mais comuns são: microfone fraco, ruído de fundo, homófonos que o modelo não consegue distinguir, configuração de idioma errada ou um nome que ele nunca viu. Corrija o áudio primeiro e depois ensine ao programa o seu vocabulário.
Você diz "enviar para staging". A tela mostra "destruir o estádio". Você corrige. Próxima frase, mesma coisa. Na terceira correção, você está digitando mais rápido do que falando — o que derrota completamente o propósito. Já vi esse ciclo frustrar um escritor, um vendedor e minha própria mãe, que tentou o ditado uma vez e voltou para a digitação com dois dedos por pura teimosia. A boa notícia é que quase todas as palavras erradas têm origem em uma de cinco causas, e quatro delas você resolve nos próximos dez minutos.
Aqui está o que ninguém te conta. A maioria das ferramentas de ditado não está quebrada quando faz isso. Elas estão chutando, em tempo real, em condições ruins, sem saber como se chama o seu colega ou que "Kubernetes" é uma palavra. O modo local do Whisper tem uma configuração que resolve esse último problema de uma vez — um campo de Palavras personalizadas onde você lista os nomes e jargões que espera que ele ouça, para que ele os escreva corretamente em vez de inventar algo parecido. É gratuito e funciona offline. Chegaremos lá. Mas a verdade menos empolgante é que o microfone importa mais do que o software — então começamos por aí.
Seu ditado não está quebrado. Ele está chutando.

A transcrição de fala não ouve letras. Ela ouve sons e aposta nas palavras mais prováveis que aquele som representa — ajustando essa aposta conforme mais sons chegam. É por isso que o ditado às vezes reescreve texto que você já disse. Ele erra uma palavra no final da frase, decide que uma palavra anterior deve ter sido outra coisa para fazer sentido gramatical e a muda silenciosamente.
"Cesto" e "sexto". "Cervo" e "servo". "Mal" e "mau". São homófonos — palavras que soam de forma idêntica — e nenhuma quantidade de fala clara resolve isso, porque clareza nunca foi o problema. O modelo precisa adivinhar pelo contexto, e às vezes erra.
Depois há palavras que o modelo simplesmente nunca encontrou. O sobrenome do seu gerente. Um código de produto. "Remskill". O modelo não consegue escrever o que não conhece, então substitui pela palavra real mais próxima que ele conhece. Isso não é um bug. É uma lacuna de vocabulário, e existe uma solução específica que vamos abordar abaixo.
Seu microfone é o principal suspeito

Antes de culpar o software, veja o que está alimentando ele. O microfone embutido de um notebook fica ao lado do ventilador, aponta para o teto e capta o ambiente tanto quanto a sua voz. Lixo na entrada, palavras erradas na saída.
Essa é a única opinião em que vou apostar este artigo inteiro: "IA" não conserta um áudio ruim. Um microfone USB de R$100 faz mais pela precisão do que qualquer atualização de modelo que você possa fazer. Passei uma semana carregando modelos maiores e mais lentos para corrigir minhas próprias palavras erradas antes de perceber que o microfone do meu notebook estava apontado para o ventilador. O microfone era o problema o tempo todo. Eu desenvolvo este software profissionalmente. Invista no hardware primeiro. O modelo é a parte barata.
O teste de verificação: dite as mesmas três frases com seu microfone embutido e depois com um fone de ouvido ou microfone USB. Se a contagem de palavras erradas cair, o microfone era o problema e você resolveu. A maioria das pessoas para de ler aqui, e tudo bem.
Ruído de fundo e acústica do ambiente

Uma máquina de lavar em outro cômodo. A ligação de um colega. Aquele tipo de escritório aberto onde você consegue ouvir alguém comendo biscoitos a dez metros de distância. O modelo não consegue separar sua voz do ruído — ele transcreve qualquer som que estiver mais alto, e às vezes os biscoitos ganham.
A Visão Geral de IA do Google para exatamente esse problema lista o ruído de fundo como uma causa primária, ao lado de sotaques e homófonos. A solução é simples e sem glamour: feche a porta, desligue o ventilador, afaste-se da janela aberta. Uma sala silenciosa faz mais do que um algoritmo sofisticado.
Verificação: tente o mesmo ditado em um espaço silencioso e depois no seu lugar habitual. Se os erros diminuírem no silêncio, o ruído era o culpado. Se você não consegue um lugar quieto, um microfone direcional ou com cancelamento de ruído que só capta o que está diretamente à sua frente é o próximo melhor passo — e voltamos ao hardware, que é onde o dinheiro deveria ir de qualquer forma.
Idioma errado ou incompatibilidade de sotaque

Se o seu ditado está configurado para detecção automática e você alterna entre idiomas, o modelo gasta esforço identificando o idioma antes de identificar as palavras — e um palpite errado sobre o idioma contamina tudo o que vem depois. Defina o idioma explicitamente sempre que puder.
No Whisper, isso fica em Configurações, Transcrição, Idioma. Escolher diretamente o idioma que você fala elimina a etapa de detecção e ajuda o modelo a captar suas palavras com mais precisão. Deixe na detecção automática apenas se você realmente alterna de idioma no meio da sessão. Os modelos multilíngues do Whisper cobrem 99 idiomas com detecção automática; as versões exclusivas para inglês fixam no inglês, o que é exatamente o que você quer se só fala inglês.
A incompatibilidade de sotaque é uma variação desse problema. Um modelo treinado principalmente com falantes de uma região vai tropeçar em um sotaque regional forte. Selecionar a variante regional mais próxima disponível na sua ferramenta e fornecer um sinal limpo ajuda a reduzir a diferença.
Corrigindo no Windows, Mac e iPhone
O ditado nativo de cada plataforma tem suas próprias particularidades e seus próprios limites. No Windows, a Digitação por Voz abre com a tecla Windows mais H, mas o cursor precisa estar em uma caixa de texto e você precisa de conexão com a internet — a ferramenta nativa envia seu áudio para a nuvem para transcrever. Se estiver digitando besteira, verifique a conexão primeiro; os fóruns de suporte da Apple para o mesmo problema de palavras erradas colocam "verificar conexão com a internet" no topo da lista. (Para um passo a passo mais completo, confira nosso guia sobre voz para texto não funcionando no Windows.)
No Mac, ative o Ditado com a tecla Microfone na fileira de teclas de função, o atalho de Ditado ou Editar e depois Iniciar Ditado. Uma coisa a esclarecer de vez: o Ditado do macOS atual permite ditar texto de qualquer comprimento sem limite de tempo — ele só para após cerca de 30 segundos de silêncio, o que as pessoas confundem com um limite rígido. Se as palavras erradas persistirem, nosso guia de solução de problemas de voz para texto no Mac vai passo a passo. No iPhone, os fóruns da Apple também indicam desativar o texto preditivo, que às vezes interfere com o que o ditado acertou.
O limite mais difícil: a Digitação por Voz do Windows (Win+H) não oferece nenhuma forma de adicionar palavras personalizadas ou treinar seu dicionário. A superfície de ditado separada do Word permite criar um pequeno dicionário de ditado, mas a ferramenta que a maioria das pessoas usa — Win+H — não pode ser ensinada o seu vocabulário. O que nos leva à única correção que realmente resolve o problema de nomes e jargões errados.
Ensine suas palavras: vocabulário personalizado
Esta é a correção que as ferramentas nativas não conseguem oferecer. Quando você usa um modelo Whisper no modo local do Whisper, você tem um campo de Palavras personalizadas — uma lista separada por vírgulas de nomes, termos de produto e jargões que você espera que ele ouça. Você digita "Kubernetes, PostgreSQL, Remskill, João Silva" e a transcrição passa a priorizar a grafia correta quando essas palavras aparecem na sua fala. Fica em Configurações, Transcrição, no nível local gratuito — sem cartão, sem nuvem.
Um aviso importante: Palavras personalizadas é uma funcionalidade do modelo Whisper. O Parakeet, a opção local mais rápida, não aceita palavras personalizadas nem dicas de prompt — a própria descrição dele diz isso claramente. Então, se ensinar ao programa o seu vocabulário é importante para você, escolha um modelo Whisper, não o Parakeet.
Aprendi o quanto isso importa com minha filha mais nova. Mostrei o ditado para ela uma vez — pressione, fale, solte. Ela imediatamente escreveu um e-mail de 90 palavras para a avó sobre um dente que havia perdido e a taxa de câmbio do ratinho do dente, sem fazer perguntas. Depois voltou irritada porque o programa continuava errando o nome da melhor amiga dela. Ela não sabia o que era uma lacuna de vocabulário. Ela só sabia que o nome estava errado. Adicionei o nome em Palavras personalizadas e as reclamações pararam. A pessoa comum não quer entender por que o ditado erra um nome. Ela quer uma caixa para digitar o nome. Essa caixa é o ponto central desta seção.
Uma segunda alavanca, se quiser: o Whisper expõe uma configuração de Perfil — Rápido, Equilibrado ou Preciso — que controla com que cuidado o modelo escuta. Preciso é mais lento, mas capta mais. E escolher um modelo maior entre os oito que o Whisper oferece, do Base com cerca de 140 MB até o Large v3 com cerca de 3 GB, troca velocidade por precisão. Nenhum deles é "a escolha certa" para todos — são ajustes, e o problema de palavras erradas determina qual você vai girar. Se não souber qual carregar, nosso guia para escolher um modelo Whisper apresenta as vantagens e desvantagens.
Uma passagem de limpeza que corrige o resto
Mesmo após o áudio estar limpo e o vocabulário carregado, alguns erros residuais passam. O Whisper pode executar uma passagem opcional de limpeza por IA na transcrição bruta antes que ela chegue ao seu cursor — ela corrige gramática, pontuação e capitalização, e remove palavras de preenchimento como "hum" e "sabe". Roda no seu dispositivo de graça, ou no modo Cloud com OpenAI se você forneceu sua própria chave.
Essa é a rede de segurança, não o primeiro passo. Corrija o microfone, quiete o ambiente, configure o idioma, ensine seus nomes — e depois deixe a passagem de limpeza arrumar o que sobrar. Tentar fazer a correção de texto por IA compensar um microfone embutido com ventilador soprando direto é resolver o problema errado com a ferramenta cara. Eu sei, porque lancei a passagem de limpeza primeiro e o seletor de idioma depois, exatamente na ordem errada, e fiquei um mês usando meu próprio aplicativo sem entender o porquê. Para quem quer controle mais fino, nosso guia de prompts do Whisper vai mais fundo em moldar a saída.
O atalho para gravar é Ctrl+Space no Windows e Command+Option no Mac, ambos personalizáveis em Configurações se entrarem em conflito com algo que você já usa.
Quando a ferramenta nativa não tem conserto
Às vezes a resposta não é uma correção — é uma ferramenta diferente, ou nenhuma ferramenta. Se você só usa ditado para uma mensagem ocasional de 30 palavras, o Apple Dictation e a Digitação por Voz do Windows são gratuitos e já vêm instalados, e buscar precisão perfeita é exagero. Use o que já está disponível.
Mas há um limite real. A Digitação por Voz do Windows precisa de internet e não consegue aprender seu vocabulário. Se o seu problema de palavras erradas é especificamente a ferramenta estraçalhando nomes, termos de produto ou jargão técnico — e você não consegue adicionar essas palavras em lugar nenhum — a ferramenta nativa genuinamente não tem conserto para o seu caso de uso. Essa é a linha onde uma ferramenta ensinável e offline ganha seu lugar. E se você transcrive principalmente reuniões com vários participantes em vez de ditar sua própria escrita, essa é uma categoria completamente diferente de ferramenta — transcrição de reuniões, não ditado. Não force um aplicativo de ditado a fazer um trabalho para o qual ele não foi criado.
Qual precisão você deve esperar do ditado?
Defina expectativas de forma honesta. Áudio limpo, idioma conhecido e vocabulário carregado vão te levar ao ponto em que as correções são a exceção, não a regra. Os benchmarks públicos do Whisper ficam em torno de 3% de taxa de erro de palavras em fala lida com áudio limpo usando o modelo médio em inglês. A vida real — seu sotaque, seu ambiente, seu jargão — fica acima disso. Isso é normal.
O objetivo não é zero erros. O objetivo é menos erros do que a digitação teria produzido no mesmo tempo, e essa barra é mais baixa do que as pessoas pensam. Ditar a 145 palavras por minuto supera digitar a 40 mesmo quando você para para corrigir uma ou duas palavras. Se você está corrigindo uma palavra sim e outra não, alguma coisa na lista acima ainda está com problema. Se você está corrigindo uma a cada dez palavras, você já ganhou.
Se o seu ditado continua digitando palavras erradas, corrija o áudio, configure o idioma e ensine seus nomes — depois deixe que ele faça a digitação enquanto você faz outra coisa. Minha filha mais nova ainda chama de "o computador que fala". Ela não tem ideia de que existe um campo de vocabulário, um seletor de idioma ou oito modelos por trás do pressionar-falar-soltar. Essa é a versão que realmente está funcionando — quando as palavras erradas param, e você para de notar a ferramenta por completo.
Quer que seus nomes saiam certos?
Baixe o Whisper, adicione sua primeira palavra personalizada e veja as palavras erradas pararem já na primeira frase.



