Por Denys Medvediev

Explicativo

Qual modelo do Whisper eu devo usar

Não existe um único modelo do Whisper certo — o ideal depende do que importa mais para você: velocidade, precisão, idioma ou espaço em disco. Este guia liga cada modelo disponível a um caso de uso, para você escolher em cerca de um minuto, e mostra quando vale mais a pena deixar o Whisper de lado e usar o Parakeet.

Última atualização: junho de 2026

Vários interruptores rotulados em um painel escuro, sugerindo uma escolha entre opções

O melhor modelo do Whisper depende da tarefa: escolha um modelo pequeno em inglês para ditado em inglês no dia a dia, um modelo multilíngue para outros idiomas, o modelo large para máxima precisão, ou o Turbo para velocidade com qualidade perto do large. Para velocidade em uso majoritariamente em inglês, o Parakeet supera o Whisper. O app apresenta todos eles e deixa o usuário escolher.

Recebo esta pergunta mais do que qualquer outra, normalmente assim: "baixei o app, agora qual modelo eu escolho?". É uma pergunta justa, e a resposta honesta de cara é que não existe um modelo que ganhe de todos. Existe um modelo que ganha para a sua máquina, o seu idioma e o quanto você liga de esperar meio segundo a mais. Por isso o app não escolhe por você. Ele mostra as opções e sai do caminho.

Isso parece uma desculpa esfarrapada até você ver a diferença. O menor modelo em inglês tem cerca de 140 MB e roda num notebook de 2016. O melhor multilíngue tem cerca de 3 GB e pede 16 GB de RAM. Entre esses dois extremos vivem outras seis opções, mais um motor separado chamado Parakeet. Escolha errado e você ou espera demais ou transcreve no idioma errado. Escolha certo e esquece que o modelo existe — que é exatamente o objetivo.

Aqui está a ideia que faz a lista inteira fazer sentido. Todo modelo é uma troca entre quatro coisas: velocidade, precisão, quantos idiomas ele conhece e quanto disco e RAM ele consome. Você não consegue maximizar as quatro. Um modelo de 3 GB é mais preciso e conhece mais idiomas, mas é mais lento e não cabe numa máquina de 8 GB. Um modelo de 140 MB é instantâneo, mas só faz inglês, e mesmo assim até certo ponto.

Então a pergunta real não é "qual modelo é o melhor". É "qual troca eu quero". Assim que você descobre se é alguém que dita só em inglês num notebook modesto, um tradutor trabalhando em nove idiomas, ou alguém que só quer a opção local mais rápida que existe, a escolha aparece sozinha. Vou passar pelos modelos só de inglês, pelos multilíngues, por onde o Parakeet vence todos eles, e pela recomendação de uma linha caso você não queira ler o resto.

Comece com uma pergunta: o que mais importa para você?

Uma placa de madeira gasta com setas apontando em várias direções contra um céu limpo

Antes de qualquer nome de modelo, responda uma pergunta: qual destes mais importa para você agora — velocidade, precisão, cobertura de idiomas ou espaço em disco? Você só pode eleger um como prioridade, porque os modelos trocam um pelo outro. A maioria das pessoas que se atormenta com isso ainda não decidiu o que está otimizando, e por isso a lista parece paralisante. Não é. São quatro respostas curtas usando oito nomes.

Se você quer velocidade e fala inglês, vai parar num modelo pequeno em inglês ou, mais provavelmente, no Parakeet. Se você precisa de um idioma diferente do inglês, está na família multilíngue, queira ou não. Se você quer a transcrição mais precisa possível localmente e tem RAM para isso, esse é o modelo large. E se o espaço em disco está apertado, o menor modelo é seu amigo e o de 3 GB está fora de cogitação. Essa é a árvore de decisão inteira, e o resto deste guia só preenche os nomes.

Uma coisa que o app faz de propósito: ele nunca força um padrão em você. Não há nenhum selo de "recomendado" te empurrando para o modelo que por acaso nos deixa bem num benchmark. Você vê Cloud, você vê Parakeet, você vê os oito modelos do Whisper divididos em só inglês e multilíngue, e você escolhe. Se você já configurou voz para texto no Windows ou no Mac antes, esta é a mesma tela apontada para uma pergunta diferente.

Os modelos só de inglês, do notebook pequeno à máxima precisão

Se você só dita em inglês, os modelos só de inglês são a escolha eficiente — eles abrem mão da maquinaria multilíngue e gastam esse orçamento no inglês. São quatro, e eles se organizam direitinho do "notebook antigo" ao "melhor inglês que você consegue rodar localmente". Você aperta a tecla de atalho, fala, solta, e a transcrição cola no cursor, independentemente de qual deles você escolheu; a única diferença é a velocidade e a frequência com que ele acerta uma palavra complicada. Uma pequena cápsula aparece enquanto você fala, para você saber que está ouvindo:

Cancel
A sobreposição de gravação: uma pequena cápsula que aparece enquanto você fala, para você saber que o Whisper está ouvindo.

O menor é o Base, com cerca de 140 MB. É o que escolher num notebook de 2016 ou numa máquina de 8 GB, onde você quer ditado que simplesmente funciona sem se preocupar com RAM. Acima dele está o Small, com cerca de 480 MB, a opção equilibrada em inglês — mais lento que o Parakeet, mas suporta tradução para o inglês e priorização de palavras-chave, coisas que o Parakeet não tem. Depois o Medium, com cerca de 1,5 GB, que pede 16 GB de RAM e entrega a maior precisão em inglês puro da família. (Num benchmark público, o modelo medium em inglês fica em torno de 3% de taxa de erro por palavra em áudio limpo; o Small fica mais perto de 5%. Os números do mundo real dependem muito mais do seu microfone do que de qual destes você escolher.)

O quarto confunde as pessoas, então deixa eu ser direto. O Turbo, que é o modelo distil-large-v3, também tem cerca de 1,5 GB e é descrito como 6× mais rápido que o modelo large com 99% da sua precisão. Isso parece almoço grátis, e para o inglês quase é — é a escolha quando você quer precisão em inglês perto da melhor sem a penalidade de velocidade do modelo large completo. O detalhe é o rótulo "só inglês": esses quatro conhecem inglês e só inglês. No momento em que você precisa de um segundo idioma, você saiu completamente desta família, que é a próxima seção.

Os modelos multilíngues, para os outros 98 idiomas

No momento em que seu áudio não é inglês, você quer um modelo multilíngue. As versões multilíngues do Whisper cobrem 99 idiomas com detecção automática, e são o único caminho local que consegue traduzir a fala para o inglês enquanto transcreve. Os modelos só de inglês não conseguem fazer isso, e o Parakeet também não. Então, se você dita em ucraniano, rascunha uma nota em japonês, ou quer que uma gravação em espanhol saia como texto em inglês, esta família é a resposta, ponto final.

Aqui também são quatro, e eles espelham os tamanhos dos modelos só de inglês. O Small, com cerca de 480 MB, é a base multilíngue rápida — o modelo padrão geral com que o app vem, porque é o primeiro palpite mais seguro quando ninguém ainda sabe seu idioma. O Medium, com cerca de 1,5 GB, troca velocidade por uma qualidade sensivelmente melhor. O Large v3, com cerca de 3 GB, é a melhor precisão que você consegue localmente e a escolha certa para trabalho multilíngue profissional, desde que você tenha 16 GB de RAM para alimentá-lo. E o Large v3 Turbo, com cerca de 1,62 GB, é o nível multilíngue rápido — quase toda a qualidade do modelo large por uma fração da espera.

Uma palavra sobre a contagem de idiomas, porque o número seguro para o marketing e o número real diferem dependendo do que você quer dizer. Os modelos multilíngues cobrem genuinamente 99 idiomas; os modelos só de inglês cobrem exatamente um. Se você fala inglês na maior parte do tempo e ocasionalmente esbarra num segundo idioma europeu, você tem uma opção mais rápida do que qualquer um destes, e é o Parakeet — que é a próxima coisa a entender, porque é o modelo que as pessoas mais escolhem por engano ou ignoram por engano.

Quando o Parakeet vence o Whisper, e quando não vence

Um corredor em movimento desfocado numa pista, sugerindo velocidade e vantagem na largada

O Parakeet não é um modelo do Whisper — é o motor TDT da NVIDIA, com cerca de 600 MB, e é a opção local mais rápida que o app oferece, descrita como 5 a 10 vezes mais rápida que o Whisper na CPU. Se você tem uma CPU mais antiga ou de notebook, sem GPU sobrando, essa diferença de velocidade é a diferença entre um ditado que parece instantâneo e um ditado que te faz esperar. Para o trabalho do dia a dia em inglês, o Parakeet é o primeiro que eu pego.

Ele cobre inglês mais 24 outros idiomas europeus — 25 no total — então, para muitos usuários europeus, é mais que suficiente. O que ele deliberadamente não faz é o que só o Whisper faz: sem tradução para o inglês, sem priorização de palavras-chave, sem prompt de vocabulário personalizado. Se o seu trabalho é monolíngue em inglês (ou em um daqueles 24 idiomas europeus) e você só quer rapidez, o Parakeet vence e a discussão acabou. Tem mais sobre ele no detalhamento do modelo Parakeet se você quiser o quadro completo.

O Whisper vence no momento em que você sai dessa caixa. Precisa de chinês, japonês ou coreano? Whisper multilíngue, porque o Parakeet não fala esses idiomas. Precisa traduzir uma gravação para o inglês? Whisper multilíngue, o único caminho local que faz isso. Quer direcionar o modelo para uma lista de nomes de produtos ou jargão, para ele parar de distorcê-los? Whisper, via palavras-chave. A regra de bolso: Parakeet para velocidade em inglês, Whisper para idiomas, tradução e controle. O app traz os dois porque nenhum deles é a resposta certa para todo mundo.

Tamanho, velocidade e precisão: como a troca funciona de verdade

Ajuda ver as três forças lado a lado, porque todo modelo é só um ponto diferente no mesmo triângulo. Arquivos maiores são mais precisos e mais lentos; arquivos menores são mais rápidos e mais leves de RAM; e os motores especiais entortam a curva. Aqui está a versão honesta de cada força, já que o app faz você escolher e eu prefiro que você escolha sabendo o custo.

Três jeitos de ler a lista, dependendo do que está te apertando:

  • Se velocidade é o problemapegue o Parakeet primeiro — cerca de 600 MB e de 5 a 10 vezes mais rápido que o Whisper na CPU. Numa máquina sem GPU, nada local chega perto dele para o inglês do dia a dia. O custo é não ter tradução para o inglês e não ter palavras-chave.
  • Se precisão ou idioma é o problemavá maior na família Whisper. O Large v3, com cerca de 3 GB, é a melhor precisão local e cobre 99 idiomas, mas pede 16 GB de RAM. As variantes Turbo te dão quase toda essa qualidade com bem menos espera. Small e Medium são o meio-termo sensato.
  • Se espaço em disco ou RAM é o problemafique no pequeno (Base, com cerca de 140 MB), ou pule o local de vez e use o modo Cloud, que roda em qualquer hardware porque é só uma chamada de rede à OpenAI com a sua própria chave. O Cloud faz parte do Whisper Pro e precisa de internet.

A verdade chata é que, para a maioria das pessoas, numa máquina recente, a diferença entre os modelos de tamanho médio é menor do que a diferença que o seu microfone faz. Um microfone USB de $20 ajuda mais na precisão do que pular do Small para o Large — os benchmarks públicos do Whisper confirmam isso, e eu vi acontecer na minha própria mesa mais de uma vez. Então não se atormente com Medium versus Large no primeiro dia. Escolha algo que caiba na sua RAM, comece a ditar e atualize o modelo depois se uma palavra insistir em sair errada. O modelo que você vai realmente manter é aquele rápido o bastante para você esquecer que ele está lá.

Experimente um e troque em dois cliques se estiver errado

Aqui está a parte que tira o peso da decisão inteira: você não está se casando com o modelo que escolher primeiro. Trocar são dois cliques nas Configurações, e o único custo real é o download de qualquer modelo para o qual você for. Então a estratégia certa não é pesquisar por uma hora — é fazer um primeiro palpite razoável, ditar com ele por um dia, e trocar se ele te incomodar. Toda a estrutura local é gratuita para qualquer conta logada, sem pedir forma de pagamento no cadastro, então experimentar alguns modelos não te custa nada além de espaço em disco.

Passo 1 — Abra as Configurações e encontre o painel de Transcrição.

É ali que vive a lista de modelos, dividida em só inglês e multilíngue, com o Parakeet e o Cloud ao lado. Nada vem pré-selecionado como "o melhor".

Você vai saber que está no lugar certo quando vir a lista de modelos com os tamanhos ao lado de cada nome.

Passo 2 — Faça seu primeiro palpite a partir da seção acima.

Inglês e quer velocidade: Parakeet. Inglês e quer precisão: Small ou Medium em inglês. Outros idiomas: um modelo multilíngue. RAM apertada: Base.

Você vai saber que deu certo quando o modelo terminar de baixar e aparecer como pronto.

Passo 3 — Dite com ele por um dia.

Use no trabalho de verdade, não numa frase de teste. Você aprende mais com uma tarde de anotações reais do que com qualquer gráfico de benchmark.

Você vai saber que é o modelo certo quando parar de notá-lo e simplesmente falar.

Passo 4 — Troque se estiver errado.

Muito lento, escolha algo menor ou o Parakeet. Faltando um idioma ou distorcendo palavras, vá para o multilíngue ou para um maior. Dois cliques, um download, pronto.

Você vai saber que deu certo quando o novo modelo carregar e a sua próxima gravação usá-lo.

Whisper
O app de desktop real do Whisper na tela de configurações, com o painel de Transcrição onde você escolhe e troca de modelos.

As pessoas tratam isso como uma porta sem volta, e não é. O primeiro modelo que rodei não foi o que mantive; comecei num modelo multilíngue por hábito, percebi que estava ditando em inglês o dia inteiro, e mudei para o Parakeet pela velocidade. Levou dois cliques e o tempo de um café para baixar. Trate sua primeira escolha como um rascunho.

A recomendação rápida, se você pulou para o final

Se você não ler mais nada, aqui está. Inglês, quer rapidez, máquina modesta: Parakeet. Inglês, quer a melhor precisão local: o modelo Medium em inglês, ou o Turbo se quiser essa precisão sem a espera. Outro idioma, ou você precisa de tradução: um modelo multilíngue — Small para começar, Large v3 se a precisão importa e você tem 16 GB de RAM. Apertado em disco ou RAM: Base. Quer precisão de primeira linha com acesso à web e está de boa em usar a sua própria chave da OpenAI: Cloud. Esse é o mapa inteiro.

Qualquer um que você escolher, a transcrição bruta sai num bloco corrido, e isso vale para todo motor de fala, não só o nosso. Você diz "ok então define o modelo da reunião como medium e me lembra de testar o large depois", e é essa parede sem pontuação que você recebe de volta. O Whisper pode rodar uma passada de limpeza por IA para corrigir a pontuação e tirar as muletas de fala antes que o texto chegue — diga a frase de ativação "Hey whisper" e ele arruma primeiro. Num modelo local isso roda pelo Ollama; no modo cloud é o gpt-5-mini por padrão.

Thinking...
A sobreposição de aprimoramento: uma passada opcional por IA limpa a pontuação e as muletas de fala antes que o texto chegue.
Bruto

ok então define o modelo da reunião como medium e me lembra de testar o large depois hum talvez parakeet pras coisas rápidas

Limpo

Ok, então define o modelo da reunião como Medium e me lembra de testar o Large depois — talvez o Parakeet para as coisas rápidas.

Uma ressalva honesta que cabe no final de qualquer guia do tipo "qual modelo": se tudo o que você faz é jogar uma nota de 30 palavras num campo de texto, talvez você não precise escolher modelo nenhum. No Windows, a barra de Digitação por Voz integrada abre com tecla Windows + H onde estiver o seu cursor — ela pontua sozinha e é gratuita, mas passa pelos servidores da Microsoft e precisa de internet. No Mac, o Ditado em Ajustes do Sistema faz a mesma coisa, e no Apple Silicon o texto geral pode ser processado no próprio dispositivo. Abaixo do limite em que a precisão e o comprimento começam a doer, use o que já está na sua máquina. Nós começamos a valer o download quando você está fazendo volume de verdade, quer privacidade offline, ou precisa de um idioma e controle que os recursos integrados não oferecem. Não vou te dizer para instalar um app para ditar uma lista de compras.

O "melhor" modelo do Whisper é aquele em que você para de pensar. Escolha a troca que importa para você, faça um primeiro palpite e troque em dois cliques se ele te incomodar. Já entreguei sistemas em que o diagrama de arquitetura estava errado já no segundo commit, então tenho um respeito saudável pelo "só experimenta e ajusta". A sua escolha de modelo tem menos em jogo do que isso, e é bem mais fácil de desfazer. Comece por algum lugar. O download é a parte lenta; a decisão não deveria ser.

Escolha um modelo e comece a falar

Faça um primeiro palpite, dite por um dia, troque em dois cliques se estiver errado. O app mostra todas as opções e deixa você escolher.

Modo local gratuito para qualquer conta logada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu que leio nosso e-mail de suporte, provavelmente ditando as respostas.

Leitura complementar