Explicativo
O modelo NVIDIA Parakeet
Parakeet é o modelo de fala para texto de código aberto da NVIDIA. A versão atual, parakeet-tdt-0.6b-v3, tem cerca de 600 MB, funciona offline e é de 5 a 10 vezes mais rápida que o Whisper em uma CPU. Veja o que ela é e como se compara.
Última atualização: junho de 2026

O modelo NVIDIA Parakeet é um modelo de fala para texto de código aberto construído sobre um encoder FastConformer e um decoder Token-and-Duration Transducer. A versão atual, parakeet-tdt-0.6b-v3, tem cerca de 600 milhões de parâmetros, transcreve 25 idiomas europeus incluindo inglês e é de 5 a 10 vezes mais rápida que o Whisper em uma CPU. Ela não traduz para o inglês.
A maioria das pessoas encontra a palavra "Parakeet" esperando um pássaro e sai com um modelo de fala para texto. É da NVIDIA, é aberto sob uma licença permissiva, e a versão que importa para a ditação do dia a dia se chama parakeet-tdt-0.6b-v3. O "0.6b" é a contagem de parâmetros — cerca de 600 milhões. No disco ocupa em torno de 600 MB. É pequeno o suficiente para viver no seu notebook sem nunca precisar chamar um servidor.
Me importo com isso por um motivo prosaico: nós o distribuímos. Parakeet é um dos motores locais dentro do Whisper, logo ao lado dos modelos Whisper da OpenAI, e a pergunta que mais recebo é "qual usar, e por que o pássaro é tão rápido". Então esta é a versão direta — o que o Parakeet realmente é, como o decoder o torna rápido, e o ponto exato em que eu indicaria o Whisper no lugar.
Aqui está o que o jargão do cartão do modelo esconde. Parakeet é um modelo de transcrição, e somente de transcrição. Ele ouve o áudio e escreve as palavras, já com pontuação e capitalização. Não resume, não traduz para o inglês e não aceita hotwords. O que ele faz, faz muito rápido.
Portanto, o enquadramento útil não é "Parakeet versus Whisper, quem vence". É "para que serve cada um". Parakeet é a escolha rápida para inglês e idiomas europeus, funcionando totalmente offline. Whisper é a escolha para 99 idiomas, tradução para inglês e controle refinado — mais lento na mesma máquina. Vou explicar a velocidade, dar a lista de idiomas sem rodeios e mostrar como rodar o Parakeet de graça, localmente, em cerca de dois minutos.
O que o modelo Parakeet realmente é

Parakeet é uma família de modelos de reconhecimento automático de fala lançada pela NVIDIA. O que distribuímos, e o que a maioria das pessoas conhece, é o parakeet-tdt-0.6b-v3, lançado em agosto de 2025 sob a licença CC-BY-4.0. "0.6b" são 600 milhões de parâmetros. O download é de aproximadamente 600 MB. Dentro do Whisper ele chega como um modelo ONNX executado pelo transcribe-rs, nossa camada de transcrição em Rust puro — sem runtime Python e sem processo separado para gerenciar.
Seu trabalho é específico e ele é honesto quanto a isso. Parakeet recebe áudio e retorna texto com pontuação e capitalização automáticas, mais timestamps em nível de palavra se você pedir. Ele detecta o idioma por conta própria — você não precisa informar o que está falando. O que ele não faz é tão importante quanto o que faz: sem tradução para o inglês, sem ajuste de vocabulário personalizado, sem lista de hotwords para "priorizar essas palavras". Ele transcreve. Esse é o contrato inteiro.
O "TDT" no nome é a parte interessante, e é o motivo pelo qual o modelo é rápido, não apenas pequeno. TDT significa Token-and-Duration Transducer. O encoder é um FastConformer, que é a versão eficiente da NVIDIA da arquitetura Conformer usada pela maioria dos modelos de fala modernos. A combinação — encoder rápido, decoder inteligente — é a engenharia por trás do número destaque, e merece uma seção própria.
Como um Token-and-Duration Transducer vai rápido
Modelos transducer mais antigos percorrem o áudio quadro a quadro e, em cada quadro, perguntam: "há uma nova peça de palavra aqui ou não?". Na maioria das vezes a resposta é "não" — eles emitem um espaço em branco, avançam um quadro e perguntam de novo. Esse loop de emitir brancos é a maior parte do trabalho e do tempo desperdiçado. É o equivalente, em modelos de fala, de ler uma frase um pixel por vez.
Um Token-and-Duration Transducer muda a pergunta. Em vez de prever apenas o próximo token, ele prevê o token e quantos quadros pular antes do próximo. Quando há uma vogal longa ou uma pausa, o modelo a ultrapassa em um único passo em vez de avançar quadro a quadro. Menos etapas de decodificação, as mesmas palavras na saída. Essa previsão de duração é o truque que o nome "TDT" aponta, e é daí que vem a velocidade.
Do seu ponto de vista, nada disso aparece. Você segura um hotkey, fala, solta e o texto cai no cursor — a cápsula de overlay acima é a única coisa que você vê enquanto o app escuta. A matemática do decoder fica nos bastidores. Mas é por isso que o Parakeet termina um trecho de áudio enquanto um modelo Whisper comparável ainda está mastigando os espaços em branco — e em uma CPU essa diferença é o que separa "instantâneo" de "espera aí".
Parakeet versus Whisper, sem marketing
As pessoas tratam isso como uma disputa de gladiadores. Não é. São duas ferramentas com formatos diferentes, e dentro do nosso app você pode manter as duas instaladas e alternar por gravação. A forma mais simples de guardar isso na cabeça: Parakeet otimiza velocidade e simplicidade offline; Whisper otimiza cobertura e controle.
Parakeet é mais rápido — de 5 a 10 vezes mais rápido que o Whisper em uma CPU, segundo a própria NVIDIA e nossas próprias medições. Cobre 25 idiomas, todos europeus, com inglês entre eles. Adiciona pontuação e capitalização de graça. O que ele abre mão: não consegue traduzir outros idiomas para inglês, não tem ajuste de hotword ou vocabulário personalizado, e não toca nos dezenas de idiomas não europeus — chinês, japonês, coreano, árabe, hindi — que as versões multilíngues do Whisper lidam sem esforço.
Whisper, nas versões multilíngues da OpenAI, alcança 99 idiomas e traduz qualquer um deles para o inglês. Também expõe os controles que o Parakeet não tem: tamanho do beam, prompt inicial, ajuste de hotword para nomes e jargões. O custo é tempo de execução no mesmo hardware, e modelos maiores exigem mais RAM. Então a regra prática é simples: se você fala inglês ou outro idioma europeu e quer resultado imediato, Parakeet. Se precisa de tradução, de um idioma não europeu ou de controle fino, Whisper. A verdade sem glamour é que a maioria das pessoas que experimenta os dois acaba ficando com os dois.
Os números reais: velocidade e 25 idiomas

Comece pela velocidade, porque é o motivo pelo qual o Parakeet existe no nosso app. O número declarado pela NVIDIA é de 5 a 10 vezes mais rápido que o Whisper em uma CPU, e isso bate com o que vemos. No Open ASR Leaderboard público, o modelo apresenta um fator de tempo real na casa dos milhares — o que significa que consegue transcrever muito mais rápido do que o áudio é reproduzido quando tem uma GPU robusta disponível. Você provavelmente não terá essa GPU. Mas mesmo em uma CPU comum de notebook, o decoder que pula durações mantém uma ditação curta com sensação de instantânea, não de lenta.
Agora a lista de idiomas, declarada com precisão para você não se surpreender. Parakeet v3 suporta 25 idiomas, todos europeus, com inglês como um deles — ou seja, inglês mais 24 outros, não 99. O conjunto vai dos óbvios (inglês, francês, alemão, espanhol, italiano, português, holandês, polonês) pelos países nórdicos e bálticos até o russo e o ucraniano. Ele detecta automaticamente qual idioma você está falando. Se uma página de modelo ou um fórum disser que o Parakeet faz 99 idiomas, está confundindo com o Whisper. Ele faz 25, e os faz rapidamente.
Mais dois limites que vale mencionar em voz alta, porque são os que pegam as pessoas de surpresa. Parakeet não tem modo de tradução para inglês — ele transcreve o que você disse no idioma em que você disse, ponto final. E não aceita hotwords, então se sua ditação está cheia de nomes de produtos ou sobrenomes incomuns, você não pode alimentá-los previamente. Nenhum dos dois é um defeito; são apenas as bordas de um modelo rápido e focado. (A precisão em inglês claro é genuinamente boa — no benchmark padrão de fala limpa fica abaixo de 2% de taxa de erro de palavras — mas "bom" e "ajustável para seu jargão específico" são promessas diferentes.)
Rode o Parakeet de graça, localmente, em dois minutos
Você não precisa de uma conta NVIDIA, de uma instalação Python ou de uma GPU para experimentar. Precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e alguns minutos. Todo o pipeline local — incluindo o Parakeet — é gratuito para qualquer conta com login, sem exigir método de pagamento no cadastro. Veja a sequência.
Passo 1 — Instale o Whisper e faça login.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local abre imediatamente.
Você saberá que funcionou quando o ícone do app aparecer na bandeja do sistema e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha Local Parakeet.
O app apresenta três caminhos e não escolhe por você: Cloud, Local Parakeet, Local Whisper. Escolha Local Parakeet e deixe o modelo de aproximadamente 600 MB baixar uma vez.
Você saberá que funcionou quando o Parakeet terminar o download e aparecer como pronto.
Passo 3 — Confirme seu hotkey.
Windows usa Ctrl+Space por padrão; Mac usa Command+Option mantido pressionado como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, a colagem no cursor não consegue alcançar outros apps.
Você saberá que funcionou quando uma gravação de teste colar em qualquer campo de texto.
Passo 4 — Posicione o cursor em qualquer lugar e fale.
Clique em qualquer caixa de texto — um e-mail, um documento, um chat — segure o hotkey, diga uma frase, solte. O Parakeet transcreve e o texto aparece onde o cursor está.
Você saberá que funcionou quando a frase que você falou aparecer no campo como texto, um instante depois de soltar o hotkey.
A parte demorada é aquele único download do modelo. Tudo depois são os quatro passos acima, e uma vez que o Parakeet está no disco ele nunca liga para casa — o áudio e a transcrição ficam na sua máquina. Se você já configurou ditação no Windows ou no Mac, este é o mesmo fluxo com um motor mais rápido por baixo.
Precisão, textos corridos e limpeza do resultado
A ditação bruta de qualquer motor, incluindo o Parakeet, sai como um texto corrido. Você diz "ok então mova o standup para as dez registre o rascunho do parakeet e chame o marco" e essa é a parede sem pontuação que você recebe. O Parakeet adiciona sua própria pontuação e capitalização, o que já é mais do que muitos modelos fazem, mas ele não vai remover seus "éis" ou transformar um pensamento desorganizado em uma linha limpa.
É aí que um refinamento por IA se paga. Diga a frase de ativação "Hey whisper" e o texto transcrito é aprimorado antes de chegar — palavras de preenchimento removidas, textos corridos divididos, a bagunça falada transformada em algo que você realmente enviaria. Em uma configuração local isso roda pelo Ollama na sua própria máquina; no modo cloud é o gpt-5-mini por padrão. O Parakeet faz a escuta, o refinamento faz a arrumação.
ok então mova o standup para as dez registre o rascunho do parakeet e chame o marco ahn antes do almoço
Ok, então mova o standup para as dez, registre o rascunho do Parakeet e chame o Marco antes do almoço.
Quanto à precisão em si, o Parakeet é genuinamente forte no inglês claro — abaixo de 2% de taxa de erro de palavras no benchmark padrão, o que está na mesma faixa do Whisper, não abaixo dele. O aviso honesto é o que ninguém anuncia: nenhum modelo conserta áudio ruim. Um microfone USB de R$100 faz mais pela sua precisão de transcrição do que trocar de motor. Aprendi isso da forma chata, depois de culpar o modelo por uma semana de gravações incompreensíveis que no final eram meu microfone embutido do notebook captando a louça sendo lavada.
Esse mesmo hábito de falar e depois limpar compensa muito além de um único app — você pode escrever e-mails e documentos inteiros com a sua voz usando um único hotkey, então um parágrafo longo se torna algumas frases faladas em vez de algo que você digita laboriosamente no teclado.
Quando escolher o Whisper em vez do Parakeet

Estaria fazendo um desserviço se vendesse o Parakeet como a resposta para tudo. É a escolha rápida, não a universal, e há casos claros em que eu alcançaria um dos modelos Whisper — ou a ditação gratuita que já está na sua máquina.
Escolha o Whisper em vez do Parakeet quando qualquer uma dessas situações for verdade. Você precisa de um idioma fora dos 25 do Parakeet — chinês, japonês, coreano, árabe, hindi, qualquer coisa não europeia — porque o Parakeet simplesmente não os cobre. Você precisa de tradução para inglês, o que o Parakeet não tem modo para fazer. Ou você dita muito jargão técnico, nomes incomuns ou termos de produto e quer ajuste de hotword para fixá-los, o que só o Whisper expõe. Para qualquer um desses casos, as versões multilíngues do Whisper com alcance de 99 idiomas são a ferramenta certa, mesmo rodando mais devagar no mesmo notebook.
E às vezes a ferramenta certa não é a nossa. Se você só solta uma nota de 20 palavras em um campo de texto, seu sistema operacional já faz isso de graça: a tecla Windows + H abre a Digitação por Voz onde quer que o cursor esteja (precisa de internet, então não é offline), e no Mac, a Ditação em Ajustes do Sistema → Teclado digita em qualquer lugar, processada no dispositivo com Apple Silicon. Abaixo do patamar em que velocidade, privacidade offline ou um refinamento por IA realmente importam, use o que é gratuito. Não vou te dizer para instalar um motor para um lembrete de uma linha.
Se você está escolhendo uma configuração especificamente em uma máquina Apple, as trocas entre Parakeet, Whisper e a própria ditação da Apple estão detalhadas em as melhores opções de fala para texto no Mac, que percorre a mesma decisão de velocidade versus cobertura pelo lado do Mac.
Parakeet é um modelo de 600 MB com nome de pássaro que faz uma coisa — transforma fala europeia em texto, rápido, na sua própria máquina — e se recusa a fingir que faz mais. Acho essa contenção estranhamente reconfortante num ano em que toda ferramenta afirma fazer tudo. Ditei o primeiro rascunho bagunçado deste explicativo com o Parakeet rodando localmente, depois deixei o refinamento de IA corrigir os textos corridos, depois troquei para um modelo Whisper para uma citação em ucraniano que o Parakeet teria transcrito bem, mas que eu queria traduzir. Dois motores, um hotkey, nenhum servidor. Esse é o ponto de ter os dois.
Experimente o Parakeet na sua própria máquina
Segure o hotkey, fale, solte. O Parakeet transcreve localmente e o texto cai no seu cursor — em todo app que você abrir.
Modo local gratuito para qualquer conta com login. Sem cartão para começar.



