Por Denys Medvediev

Explicação

Qual é a precisão do Whisper, de verdade

O Whisper é muito preciso com áudio em inglês claro e funciona bem nos principais idiomas, mas não é perfeito. O fator que mais influencia sua precisão é o microfone e um ambiente silencioso, não o modelo que você escolhe. Uma correção por IA limpa a pontuação e os vícios de linguagem depois.

Última atualização: junho de 2026

Forma de onda de áudio azul em uma tela escura, representando a fala sendo medida para precisão de transcrição

O Whisper é preciso o suficiente para ditado do dia a dia e anotações profissionais, atingindo cerca de 3% de taxa de erro por palavra em inglês lido com clareza usando o modelo médio. A precisão cai com sotaques, ruído de fundo, jargão e falantes que se sobrepõem. A maior melhoria que a maioria das pessoas pode fazer é um microfone melhor e um ambiente silencioso, não um modelo maior.

"Qual é a precisão do Whisper" é uma daquelas perguntas que tem uma resposta honesta e uma resposta de marketing, e elas não são a mesma coisa. A resposta de marketing é "incrivelmente preciso, estado da arte." A resposta honesta é "muito bom em uma gravação limpa, visivelmente pior em uma ruim, e a diferença entre os dois é principalmente o seu microfone." Já vi o mesmo modelo transcrever uma frase perfeitamente com um microfone USB de $20 e destruí-la com o microfone do notebook em uma cozinha barulhenta.

Então este não é um post de ranking de benchmarks. É a resposta que eu daria a um amigo que me perguntasse se pode confiar na digitação por voz para trabalho de verdade. Versão curta: sim, com ressalvas que você pode controlar. Versão longa abaixo, incluindo o único número que realmente importa e as três coisas que silenciosamente destroem a precisão, independentemente de quão bom seja o modelo.

Aqui está o que a maioria das páginas sobre "precisão do Whisper" ignora. Precisão não é um número único. É um número que muda com o tamanho do modelo, o idioma que você fala e — mais do que ambos — a qualidade do áudio de entrada. Um modelo pequeno em uma gravação limpa supera um modelo enorme em uma gravação abafada, sempre.

A forma como os pesquisadores medem isso é a taxa de erro por palavra, geralmente escrita como WER. É o percentual de palavras que o sistema erra. A WER publicada do Whisper em inglês claro é baixa. Sua WER em uma tarde de terça-feira com a máquina de lavar rodando é uma história diferente. Vou explicar o que o número significa, qual é a pontuação real do Whisper, o que a derruba e a solução simples e barata que ajuda mais do que qualquer atualização de modelo.

O que "precisão" realmente significa: taxa de erro por palavra

Close de uma forma de onda de edição de áudio em um monitor escuro, ilustrando a fala medida para erros

Quando as pessoas dizem que um sistema de transcrição é "95% preciso", quase sempre estão se referindo à taxa de erro por palavra, ou WER. É a medida honesta mais simples que existe: pegue uma passagem conhecida, peça ao sistema para transcrevê-la e conte as palavras que ele errou. Uma WER de 5% significa que 5 palavras em cada 100 saíram erradas — uma substituição, uma omissão ou uma palavra inserida que não foi dita. Quanto menor, melhor. Zero seria perfeito, e nada real chega a zero.

Essa última parte importa, então vou ser direto. Nenhum motor de fala é perfeito, e qualquer produto que afirme o contrário está arredondando para uma apresentação. Humanos também não são transcritores perfeitos — transcricionistas humanos profissionais ficam em torno de 4% de WER em áudio limpo, e pior em gravações difíceis. Então, quando você lê que o Whisper tem "3% de WER", isso é aproximadamente no nível humano ou próximo disso para esse tipo de áudio, não mágica. É uma ferramenta que acerta na maioria das vezes e erra às vezes, como qualquer ferramenta.

Mais uma nuance que vale trinta segundos. A WER conta cada palavra igualmente, o que não reflete como você realmente sente os erros. O Whisper ouvir "seu" como "seu" (um homófono) é um erro de 1 palavra que mal chama atenção. Ouvir errado o nome de um cliente ou a dosagem de um medicamento também é um erro de 1 palavra, mas arruína a frase. Então o número principal diz o panorama geral; não diz se a palavra que realmente importa sobreviveu. Por isso uma leitura final nunca sai de moda, por menor que seja a WER.

Então qual é a precisão do Whisper na prática

Em inglês lido com clareza, o Whisper é genuinamente forte. Os benchmarks documentados publicamente colocam o modelo médio em torno de 3% de taxa de erro por palavra em um conjunto de testes padrão de fala limpa, e o modelo menor em torno de 5%. Em termos simples, em uma gravação decente de alguém falando claramente, você está olhando para uma ou duas palavras erradas por poucas frases — geralmente um homófono ou uma vírgula perdida, não um significado distorcido. Para ditar e-mails, anotações e rascunhos, isso está bem além do limiar onde economiza tempo em vez de custar.

O funcionamento no aplicativo é o mesmo independentemente de quão precisa seja a execução. Você pressiona um atalho, fala, solta e a transcrição é colada no cursor em qualquer aplicativo que estiver em foco. Uma pequena cápsula aparece enquanto você fala para que você saiba que está ouvindo. O que você vê nessa cápsula é a gravação ao vivo — a questão de precisão é decidida no meio segundo após você soltar, quando o modelo transforma esse áudio em texto.

Cancel
O overlay de gravação: uma pequena cápsula que aparece enquanto você fala, para que você saiba que o Whisper está ouvindo.

A ressalva honesta fica bem ao lado do bom número. Esses valores de benchmark são fala lida em laboratório. Sua cozinha, seu sotaque, seu hábito de deixar a frase no ar — nada disso está no conjunto de testes. O benchmark diz o teto. O restante deste guia é sobre o quão perto desse teto você realmente chega, e os fatores que decidem isso. Spoiler: o maior deles não é o modelo.

O que realmente move o número para cima ou para baixo

Três coisas moldam sua precisão no mundo real muito mais do que o modelo escolhido: o áudio, o idioma e as próprias palavras. A qualidade do áudio vem em primeiro lugar com grande margem. Um microfone embutido de notebook captando eco do ambiente, um ventilador e uma criança perguntando por que a lua às vezes some vai dar a qualquer modelo um problema muito mais difícil do que um microfone de podcast em uma sala silenciosa. O mesmo modelo, a mesma frase, pode ir de quase perfeito a visivelmente errado puramente pela gravação. Esse é o fator que quase ninguém ajusta e o que traz mais retorno.

O idioma é o segundo fator. As versões multilíngues do Whisper cobrem 99 idiomas, mas essa cobertura não é uniforme. O inglês é o mais bem suportado, os principais idiomas europeus e asiáticos são fortes, e os idiomas de baixo recurso — aqueles com menos dados de treinamento na internet — são mais fracos e propensos a erros. A tradução para inglês é exclusiva do Whisper multilíngue; as versões apenas em inglês não fazem isso, e os 25 idiomas do Parakeet também não. Então "suporta 99 idiomas" é verdade e também não significa que todos os 99 são igualmente precisos. Teste seu idioma específico no seu próprio áudio antes de confiar nele para algo importante.

O terceiro fator é o conteúdo. Sotaques alteram o número — o Whisper lida com uma ampla variedade sem nenhuma etapa de "treinamento", mas um sotaque forte em jargão técnico é o pior cenário para qualquer motor. Vocabulário específico de domínio também o atrapalha: nomes de produtos incomuns, termos médicos ou jurídicos, sobrenomes que ele nunca viu. E falantes que se sobrepõem são o verdadeiro obstáculo difícil — o Whisper é construído para uma voz por vez, então duas pessoas falando ao mesmo tempo vão produzir uma bagunça. No Whisper local você pode resistir com vocabulário personalizado e viés de hotword, direcionando-o para os nomes e termos que você realmente usa. O Parakeet não oferece hotwords, e esse é um bom motivo para escolher o Whisper se o seu trabalho está cheio de nomes próprios.

Modelo maior, mais precisão, menos velocidade

Há uma troca real entre precisão e velocidade, e o aplicativo faz você ver isso em vez de esconder. Como regra geral, quanto maior o modelo Whisper, mais preciso ele é e mais lento roda. O modelo Small apenas em inglês tem cerca de 480 MB e é rápido; o Medium tem cerca de 1,5 GB e é mais preciso; o Large v3 multilíngue tem aproximadamente 3 GB e a melhor precisão disponível, mas quer 16 GB de RAM e uma máquina recente para ser ágil. Escolha o maior modelo que seu hardware roda confortavelmente, não o maior que existe.

A exceção interessante é o Turbo. A versão Turbo do Whisper (distil-large-v3) é documentada como aproximadamente 6 vezes mais rápida que o Large v3, mantendo cerca de 99% de sua precisão. Esse é o ponto ideal em que muita gente para: quase a qualidade do modelo maior sem a espera. Tem cerca de 1,5 GB. Se você quer boa precisão e não quer ficar olhando para uma tela de carregamento, o Turbo é o meio-termo pragmático.

Aqui está a parte que reformula toda a troca. A diferença de precisão entre um modelo pequeno e o maior é real, mas menor do que você esperaria — alguns pontos percentuais de WER em áudio limpo. A diferença de precisão entre um microfone de notebook e um microfone USB decente no mesmo modelo é maior. Então, antes de baixar 3 GB atrás do último ponto de precisão, conecte um microfone melhor e grave em algum lugar silencioso. A verdade pouco glamourosa é que a maioria das reclamações de "o modelo errou" são na verdade "o ambiente errou."

Local ou nuvem: onde vive a melhor precisão

O aplicativo não escolhe um caminho para você. Ele apresenta três e deixa você escolher com base no que você quer — velocidade, cobertura de idiomas ou precisão de alto nível. Para precisão especificamente, veja como eles se comparam, porque a diferença é real e vale entender antes de comprometer uma gravação a um deles.

Os três caminhos, classificados da forma como a precisão realmente se apresenta:

  • Parakeet localMotor TDT da NVIDIA, cerca de 600 MB, a opção local mais rápida, de 5 a 10 vezes mais rápida que o Whisper na CPU. A precisão é boa — não tão boa quanto o Large v3, mas mais do que suficiente para ditado diário em inglês. Cobre inglês mais 24 idiomas europeus, 25 no total. Sem tradução para inglês, sem hotwords. Escolha quando a velocidade importa e você fala principalmente inglês.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas as versões multilíngues alcançam 99 idiomas, traduzem para inglês e permitem direcionar para vocabulário personalizado e hotwords — os controles de precisão que importam para nomes próprios e jargão. A versão maior (Large v3) é a opção local mais precisa. Escolha para trabalho multilíngue, tradução ou controle refinado.
  • Nuvem (OpenAI, BYOK)precisão de primeira linha e acesso à web usando sua própria chave OpenAI, cobrado diretamente pela OpenAI. A transcrição roda em gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho onde o seu áudio sai da sua máquina. O modo nuvem faz parte do Whisper Pro.

A classificação honesta para precisão bruta é aproximadamente: nuvem no topo, Large v3 local como segundo próximo, Parakeet como terceiro capaz para inglês. Mas "precisão máxima" só vence se o seu áudio for limpo o suficiente para merecer. Enviar para a nuvem uma gravação abafada do outro lado da sala não vai superar o Whisper local em uma gravação limpa. Para a maioria dos ditados, ambos os motores locais rodam completamente na sua máquina sem nada sendo enviado a um servidor, e isso é suficiente. Recorra à nuvem quando tiver uma gravação genuinamente difícil ou quando precisar de um fato da web no meio de uma frase.

Quatro maneiras de melhorar sua precisão

O teto do Whisper é definido pelo modelo. Seu piso é definido por tudo ao redor dele, e é no piso onde a maioria das pessoas perde precisão. A boa notícia é que as correções são baratas e levam alguns minutos. Aqui estão as quatro que importam, na ordem de quanto ajudam.

Passo 1 — Corrija o microfone primeiro.

Um microfone USB de $20 faz mais pela precisão do que qualquer atualização de modelo. Posicione-o perto, fora do eixo da sua boca para evitar estouros, e longe do ventilador do notebook. Essa é a mudança com o maior retorno que você pode fazer.

Você vai saber que funcionou quando a mesma frase que saiu distorcida no microfone do notebook sair limpa.

Passo 2 — Silencies o ambiente.

Feche a porta, pause a música, espere o ciclo da máquina de lavar terminar. Ruído de fundo e eco são o que a maioria dos momentos de "o modelo errou" realmente são. Um ambiente silencioso é de graça.

Você vai saber que funcionou quando palavras de preenchimento e frases incompletas pararem de aparecer na transcrição.

Passo 3 — Combine o modelo com a tarefa.

Escolha o maior modelo que sua máquina roda confortavelmente, ou o Turbo para precisão quase máxima com velocidade. Para nomes e jargão no Whisper local, adicione vocabulário personalizado e hotwords para que ele se incline aos seus termos.

Você vai saber que funcionou quando um modelo terminar de baixar, aparecer como pronto e seus nomes próprios começarem a sair certos.

Passo 4 — Deixe uma correção de IA limpar o resultado.

O ditado bruto é um texto corrido cheio de vícios de linguagem. O Whisper pode executar uma correção de IA que conserta a pontuação, remove os "éhh" e organiza a frase antes de ela ser colada. Diga a frase de ativação "Hey whisper" para acionar.

Você vai saber que funcionou quando o texto colado parecer uma prosa editada, não uma transcrição.

Whisper
O aplicativo desktop real do Whisper na tela de configurações, com os painéis de Transcrição e IA abertos.

Esse último passo vale ver, porque muda o que "precisão" significa para o seu resultado. A transcrição pode ser palavra por palavra perfeita e ainda assim parecer um texto corrido, porque é assim que as pessoas falam. A correção resolve a legibilidade que a WER nunca mede. Em um modelo local, roda pelo Ollama; no modo nuvem é o gpt-5-mini por padrão. Veja a mesma frase antes e depois da correção:

Thinking...
O overlay durante a correção de IA, antes do texto organizado ser colado no cursor.
Bruto

éh então a precisão depende principalmente do mic não do modelo e tipo um ambiente silencioso ajuda mais do que as pessoas pensam

Corrigido

A precisão depende principalmente do microfone, não do modelo — e um ambiente silencioso ajuda mais do que as pessoas pensam.

Perceba que a correção não mudou o significado de uma única palavra; ela adicionou a pontuação e removeu os vícios de linguagem que a transcrição bruta carregava. Essa é a parte que as pessoas confundem com precisão e não deveriam. O trabalho do modelo é ouvir você corretamente. O trabalho da correção de IA é fazer as palavras certas ficarem bem escritas. Acerte o microfone e o ambiente, e os dois trabalhos ficam mais fáceis. Se você quer o fluxo falar-e-limpar em qualquer aplicativo, o mesmo atalho vai ditar prosa limpa em qualquer aplicativo, não só em um.

O veredicto honesto sobre a precisão do Whisper

Uma balança em uma superfície escura, ilustrando uma avaliação honesta de pontos fortes e limites

Então, a resposta direta. O Whisper é preciso o suficiente para confiar em trabalho de verdade — e-mails, anotações, rascunhos, resumos de reuniões — em áudio limpo em um idioma bem suportado. Não é perfeito, e nunca afirma ser. Sotaques, ruído de fundo, jargão pesado e falantes sobrepostos puxam o número para baixo, e nenhuma etiqueta de modelo resgata completamente uma gravação ruim. Se você veio aqui esperando "100% preciso", a resposta honesta é que nada é, e quem vende isso está vendendo uma apresentação.

Quando você não deveria se preocupar em buscar a precisão do nível Whisper? Se você só dita um texto de 30 palavras de vez em quando, o seu sistema operacional já faz isso de graça. No Windows, pressione Windows + H para abrir a Digitação por Voz onde o cursor estiver — ele pontua sozinho, embora use os servidores da Microsoft e precise de internet, então não é offline. No Mac, o Ditado nas Configurações do Sistema digita em qualquer campo, e no Apple Silicon o texto geral pode ser processado no dispositivo. Para usos curtos, esses recursos são suficientes, e não vou pedir que você instale nada para um lembrete de uma linha. Uma ferramenta dedicada ganha espaço em anotações mais longas, trabalho multilíngue, privacidade offline e nos controles de precisão — hotwords, escolha de modelo, uma correção — que os recursos nativos não oferecem.

Se você está comparando os motores locais entre si, a escolha entre precisão e velocidade é toda a decisão, e ela está coberta de forma direta em qual modelo Whisper usar e na análise do modelo Parakeet. Para a maioria das pessoas, a resposta é sem glamour: um modelo de tamanho médio, um microfone decente, um ambiente silencioso e uma correção. Essa combinação te aproxima muito do benchmark no áudio que você realmente grava.

Se a precisão é sua preocupação porque você quer dispensar a nuvem completamente, as trocas em fala para texto offline cobrem como os modelos locais se saem sem uma rede de por meio.

Passei uma semana no começo convencido de que uma atualização de modelo consertaria minhas transcrições, baixei 3 GB e recuperei talvez um ponto de WER. Depois comprei um microfone USB de $20 e saí da mesa da cozinha, e as transcrições ficaram visivelmente mais limpas na mesma tarde. O modelo nunca foi o problema. O ambiente era. O Whisper é muito preciso; se você vê isso depende do que você oferece a ele.

Ouça você mesmo na sua própria voz

Baixe o Whisper, conecte um microfone decente e dite um parágrafo. A precisão é muito mais fácil de avaliar no seu próprio áudio do que no benchmark de outra pessoa.

Modo local gratuito para qualquer conta conectada. Não é necessário cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou quem lê nosso e-mail de suporte, provavelmente ditando as respostas.

Leitura adicional