Por Denys Medvediev

Solução de problemas

Por que meu ditado está tão impreciso?

Geralmente o ditado fica impreciso por causa da configuração, não porque o software está com defeito — um microfone ruim, um ambiente barulhento, o idioma errado ou o modelo errado.

Última atualização: junho de 2026

Close de um microfone condensador de estúdio, ilustrando a discussão sobre por que o ditado por voz falha

Geralmente o ditado fica impreciso por causa da configuração, não porque o software está com defeito. Os maiores culpados são um microfone ruim, um ambiente barulhento, o idioma errado e um modelo que não combina com a sua máquina. Áudio limpo em um ambiente silencioso com o idioma certo leva a maioria das pessoas a cerca de 95% de precisão — mais ou menos uma palavra errada a cada vinte.

Uma vez vi um parente jogar um headset do outro lado da sala. Era o fim dos anos 1990, o computador era um desktop com Windows 98 e 64MB de RAM, e o software era o Dragon NaturallySpeaking. O treinamento levava 45 minutos — você lia uma lista de palavras em voz alta para "calibrá-lo". Aí funcionava, mais ou menos, com talvez 70% de precisão e quatro segundos de atraso por frase. Quinze minutos para ditar um parágrafo de uma carta de fim de ano. O headset sobreviveu. A experiência com ditado, não.

Menciono isso porque a frustração na sua pergunta é antiga, mas a causa mudou. O ditado moderno não precisa de um ritual de calibração de 45 minutos. Quando ele erra palavras hoje, quase nunca é porque o modelo é burro. É porque o áudio que chega ao modelo é pior do que você imagina — e uma parte surpreendente disso dá para resolver em menos de um minuto. A precisão do modo local do próprio Whisper fica entre 95% e 99% em áudio limpo em inglês — mas esse número pressupõe algumas coisas que muitas vezes não são verdade.

Isto é um diagnóstico, não uma listinha de soluções. Vamos descobrir qual de cinco coisas está quebrando a sua transcrição, mais ou menos na ordem em que cada uma costuma ser o verdadeiro motivo. Se você quer o passo a passo completo sobre microfone e palavras personalizadas, nosso guia para corrigir o ditado que digita as palavras erradas domina esse assunto. Este texto ajuda você a encontrar a causa primeiro, para corrigir a coisa certa.

Qual precisão é realmente realista

Close de um gráfico de barras azul no papel, ilustrando expectativas realistas para as taxas de transcrição

Aqui está o número que ninguém coloca na página de marketing. O reconhecimento de fala é medido em taxa de erro por palavra, ou WER — a fração de palavras que o sistema erra, contando substituições, omissões e inserções em relação ao que você realmente disse. Quanto menor, melhor. Um WER de zero é uma transcrição perfeita; a precisão das palavras é simplesmente um menos o WER.

No benchmark limpo LibriSpeech em inglês, o modelo medium em inglês do Whisper registra cerca de 3% de WER — mais ou menos 97% de precisão. O modelo small em inglês fica em torno de 5,1% de WER, cerca de 95%. Esses são números de áudio limpo: um ambiente silencioso, um bom microfone, um leitor cuidadoso. A vida real adiciona ruído, sotaques, conversas cruzadas e jargão, e cada um desses legitimamente eleva o WER.

Então, o que é normal? Cerca de 95% em áudio decente em inglês — uma palavra errada a cada vinte. Isso não é um defeito. É a ferramenta funcionando como projetada. Se você está em 85% numa cozinha barulhenta usando o microfone embutido do notebook, o software não está com defeito — as condições estão abaixo do que o modelo precisa. A solução são as condições, não um modelo maior. Coloque a régua em "uma pequena correção por parágrafo" e a maior parte da raiva some da experiência.

Os cinco suspeitos, em ordem de probabilidade

Lupa sobre uma superfície azul, evocando a caça pelo que está quebrando a transcrição

Quando o ditado dá errado, a causa quase sempre é uma de cinco coisas. Percorra esta lista em ordem. Os dois primeiros resolvem a maioria dos casos.

  1. O idioma configurado. Você fala um idioma; a ferramenta está ouvindo outro, ou adivinhando.
  2. O microfone. Um microfone embutido de notebook a um metro de distância está ouvindo mais o ambiente do que a sua boca.
  3. O ambiente. Ruído de fundo, uma TV, uma cozinha com eco — o modelo transcreve tudo isso.
  4. O modelo. Você escolheu um pesado demais para o seu hardware, então ele fica lento ou engasga.
  5. A expectativa. O áudio está bom e a ferramenta está boa; você está comparando com 100%, que nada atinge.

Um autoteste de 60 segundos: dite as mesmas duas frases três vezes — uma num ambiente silencioso, perto do microfone, uma do outro lado da sala e uma com música tocando. Se a precisão oscilar muito entre essas tomadas, seu problema é áudio (suspeitos 2 e 3), e nenhuma mudança de software vai superar aproximar o microfone e fechar a porta. Se estiver ruim até na tomada silenciosa de perto, olhe o idioma configurado e o modelo. Esse único teste classifica a maioria das pessoas em um minuto.

Causa 1: o idioma errado configurado

Dois globos terrestres sobre um fundo cinza, representando a escolha do idioma e do sotaque certos

Esta é a solução de dez segundos que ninguém verifica primeiro. Se você sabe qual idioma está falando, escolha-o explicitamente nas configurações em vez de deixar a ferramenta na detecção automática. Quando você define um idioma específico, a ferramenta para de tentar adivinhar qual idioma está ouvindo e concentra todo o esforço em acertar as palavras — visivelmente mais rápido e mais confiável.

As armadilhas de incompatibilidade são reais. Os modelos multilíngues do Whisper cobrem 99 idiomas com detecção automática, mas os modelos exclusivos de inglês estão travados em inglês — alimente-os com outro idioma e você obtém bobagem. O Parakeet local lida com inglês mais 24 idiomas europeus e nada além disso, então ditar japonês para ele nunca vai funcionar por mais limpo que seja o seu microfone. E se você realmente alterna de idioma no meio da frase, você quer um modelo Whisper multilíngue com detecção automática, não um exclusivo de inglês. Combine a configuração com as palavras que saem da sua boca e uma boa parte da "imprecisão" desaparece antes mesmo de você mexer em qualquer outra coisa.

Causa 2: seu microfone faz mais estrago do que o seu sotaque

Microfone condensador com pop filter em um estúdio, ilustrando os equipamentos que moldam a qualidade do áudio

As pessoas culpam o sotaque. Quase sempre é o microfone. Por anos eu culpei o meu — acontece que minha voz estava boa e meu microfone de notebook de $0 era o problema. Aqui está a opinião que vou defender: "IA" não conserta áudio ruim. Um microfone USB de $20 faz mais pela precisão do que qualquer upgrade de modelo — o microfone e um ambiente silencioso são as duas maiores alavancas de precisão, à frente de qual modelo você escolhe. Gaste o dinheiro em hardware antes de gastar num download maior.

O mecanismo é banal e físico. Um microfone embutido de notebook fica a um palmo ou mais da sua boca e capta a mesa, o ventilador e o ambiente. Um headset com haste ou um microfone USB a quinze centímetros ouve a sua voz e quase nada mais. A ferramenta só pode transcrever o que chega até ela, e um sinal embolado, distante e barulhento dá menos material para trabalhar — então ela adivinha, e adivinhações são como você acaba com as palavras erradas. Não vou reensinar todo o manual de microfone e vocabulário aqui; nosso mergulho profundo sobre o ditado digitando as palavras erradas cobre posicionamento do microfone, ganho de entrada e vocabulário personalizado em detalhe. Para este artigo, o ponto é mais estreito: se o seu teste de três tomadas mostrou a precisão despencando com a distância, o suspeito é o seu microfone, não a sua voz.

Causa 3: o ambiente, não as palavras

Microfone com pop filter em um estúdio musical tratado, um ambiente de baixo ruído para captação clara

Um microfone não consegue "desouvir" um ambiente. Se tem uma TV ligada, uma máquina de lavar louça funcionando, um escritório aberto atrás de você ou crianças discutindo as regras de um jogo de tabuleiro a dois metros, o modelo transcreve toda essa energia junto com a sua voz. Ele não sabe qual som é o que você quis dizer.

A solução é constrangedoramente simples: feche a porta, desligue a música, afaste-se do ventilador. Superfícies macias ajudam — um cômodo com tapete e cortinas é mais gentil com o microfone do que uma cozinha de azulejos com paredes nuas, onde sua voz quica e chega duas vezes. Você não precisa de espuma acústica. Você precisa que a máquina de lavar louça termine o ciclo. Já ditei e-mails da escola enquanto montava as marmitas e o modelo acompanhou tranquilamente — mas isso é porque a cozinha estava silenciosa, não porque o software é mágico. No momento em que o liquidificador liga, a precisão cai, e isso não é um bug para reportar.

Causa 4: o modelo é errado para o seu hardware

Whisper
O app Whisper de verdade — ele apresenta três caminhos e deixa você escolher o modelo que combina com a sua máquina. Clique pelas Configurações; está ao vivo.

Esta é a que os concorrentes tratam como caixa-preta, e ela importa. Maior nem sempre é melhor. Escolha um modelo pesado demais para a sua máquina e ele roda lento, fica para trás, e a experiência parece quebrada mesmo quando a precisão no papel está boa.

O Whisper by Remskill não escolhe um modelo por você. Ele apresenta três caminhos e deixa você escolher: modo Cloud usando sua própria chave OpenAI, Parakeet local ou Whisper local. O modo Cloud roda em qualquer hardware porque é apenas uma chamada de rede. Localmente, a conta é sobre RAM. Numa máquina de 8 GB, o Parakeet (~600 MB), o modelo Base ou o modelo Small rodam confortavelmente, e o modelo Medium vai sofrer. Os maiores modelos Whisper — o Large v3 com ~3 GB, ou o Turbo — querem 16 GB ou mais e se beneficiam mais de uma GPU dedicada. A melhor opção multilíngue em precisão é o Large v3, que suporta 99 idiomas mas precisa daquela folga de 16 GB.

O fluxo de pressionar-para-falar é o mesmo qualquer que seja o caminho que você escolha — segure a tecla de atalho, fale, solte, e o texto é colado no cursor. A tecla de atalho padrão é Ctrl+Space no Windows e o atalho Command+Option no macOS, ambos alteráveis nas Configurações. Sem certeza de qual modelo combina com o seu notebook? Nosso guia para escolher o modelo Whisper certo mapeia cada um para o hardware de que precisa. A regra de bolso: um modelo que cabe e roda rápido vence um maior que trava.

Quando a ferramenta realmente é o problema, e quando é só física

Às vezes você fez tudo certo — microfone perto, ambiente silencioso, idioma correto, modelo sensato — e ainda erra uma palavra a cada quinze. Esse pode ser o teto real. Sotaques carregados que o modelo viu pouco, jargão técnico denso, duas pessoas falando uma por cima da outra, um viva-voz de telefone do outro lado — esses legitimamente elevam o WER, e nenhuma configuração resolve totalmente. Para nomes e jargão de domínio, o Whisper local e o modo Cloud permitem adicionar uma lista de Palavras Personalizadas que enviesa o reconhecimento para a grafia certa; o Parakeet não aceita essas dicas. Mas "ele aprende a minha voz quanto mais eu uso" é um mito da era do Dragon — a fala-para-texto moderna não se adapta à sua voz individual ao longo do tempo, e nenhuma quantidade de repetição a treina. A alavanca é o áudio e as configurações, não a paciência.

Quando dispensar o Whisper para isso

Se tudo o que você faz é disparar uma mensagem de 20 palavras ou uma anotação rápida, não baixe nada. Seu sistema operacional já dita. No Mac, o Apple Dictation é embutido e gratuito — pressione a tecla de Microfone ou o atalho de teclado, e em configurações compatíveis ele processa no próprio dispositivo. Ele para sozinho depois de 30 segundos de silêncio, então combina mais com rajadas curtas do que com textos longos. No Word, o Dictate da Microsoft faz o mesmo com um microfone e uma conexão de internet.

Recorra a uma ferramenta dedicada quando estiver ditando parágrafos inteiros, quiser que funcione offline ou precisar de precisão em nomes e jargão que as ferramentas embutidas erram — nossa seleção de alternativas ao Apple Dictation cobre as opções. Para uma resposta de uma linha, a ferramenta embutida gratuita é a escolha certa.

Na maior parte das vezes, a resposta para "por que meu ditado está tão impreciso" não é uma confissão sobre a sua voz. É um palmo de distância até o microfone e uma máquina de lavar louça que você esqueceu que estava ligada. Conserte o áudio, defina o idioma certo, escolha um modelo que o seu notebook aguente e, então, avalie tudo contra 95%, não 100%. O parente com o headset do Dragon estava lutando contra 1999. Você não está. Você está, na maior parte, lutando contra a sua cozinha.

Quer descobrir em um minuto?

Baixe o Whisper e faça o teste de três tomadas — você vai saber em menos de um minuto se é a ferramenta, o ambiente ou só física.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, provavelmente ditando as respostas.