Explicação
O Whisper é gratuito?
Sim — o Whisper da OpenAI é open-source sob a licença MIT, então o modelo pode ser baixado e usado gratuitamente, inclusive para fins comerciais. O problema está em rodá-lo: configuração, dependências e hardware próprio. O caminho livre mais fácil é rodar o Whisper localmente por meio de um aplicativo de desktop.
Última atualização: junho de 2026

O Whisper é gratuito. A OpenAI lançou tanto o código quanto os pesos do modelo sob a permissiva licença MIT — qualquer pessoa pode baixar, rodar e até usar comercialmente o modelo de conversão de fala em texto sem pagar nada. O único porém é a configuração: rodar o Whisper por conta própria exige Python, ffmpeg e hardware próprio. Um aplicativo de desktop elimina esse obstáculo.
Quando as pessoas perguntam "o Whisper é gratuito", já esperam alguma pegadinha — porque em 2026 quase nada bom é realmente de graça. Então vou ser direto antes de qualquer ressalva: sim. A OpenAI publicou o Whisper sob a licença MIT — tanto o código quanto os pesos do modelo — que é uma das licenças de software mais permissivas que existem. Você pode baixar, rodar, modificar, embutir no seu próprio produto, cobrar pelo produto, e a OpenAI não pede nem um centavo nem crédito.
Esse é o título, e ele é verdadeiro. O que o título não diz é a diferença entre "o modelo é gratuito" e "usar o modelo é gratuito". São coisas diferentes. O modelo é um arquivo. Transformar esse arquivo em palavras na sua tela exige configuração, alguma paciência com linha de comando e um computador capaz de fazer os cálculos. Nada disso está oculto — é só trabalho, e o trabalho é o preço real da versão open-source.
Aqui está o ponto que a maioria das páginas disputando essa palavra-chave mistura. Existem dois Whispers nessa conversa. Um é o modelo open-source que a OpenAI lançou no GitHub — gratuito, MIT, seu para rodar. O outro é a API de transcrição hospedada pela OpenAI, que usa a mesma família de modelos, mas cobra por minuto. Mesmo nome, fatura bem diferente.
Então "o Whisper é gratuito" se divide em três respostas honestas. O próprio modelo: gratuito, ponto final. Rodar por conta própria: gratuito em dinheiro, mas você paga em configuração e hardware. Deixar alguém hospedar para você: isso custa dinheiro, seja na API da OpenAI ou no nível cloud de um app pago. Este guia percorre os três caminhos, mostra o caminho livre e fácil, e é honesto sobre o que genuinamente não é gratuito.
O que o Whisper realmente é

O Whisper é um modelo de conversão de fala em texto que a OpenAI lançou no final de 2022. Você fornece áudio, ele devolve texto. E faz isso muito bem — foi treinado em uma enorme coleção de áudios multilíngues, então lida com sotaques, ruído de fundo e dezenas de idiomas melhor do que os softwares de ditado que a maioria de nós xingava no passado. Ele também consegue traduzir falas em outros idiomas para texto em inglês, algo que as ferramentas antigas nunca fizeram de forma limpa.
A palavra importante é "modelo". O Whisper não é um aplicativo que você clica duas vezes. É o cérebro — um arquivo de pesos treinados mais o código para executá-los. Por si só, não tem janela, botão nem entrada de microfone. É o motor, não o carro. Vários produtos que você já ouviu falar são, discretamente, apenas o Whisper com uma camada de pintura por cima — o que é totalmente válido, mas vale saber que o motor por baixo é a mesma peça gratuita em todos eles.
Essa distinção é exatamente a razão pela qual a pergunta confunde. Quando alguém diz "o Whisper custa $30 por mês", não está falando do modelo — está falando de algum app que embrulhou o modelo e cobrou pelo embrulho. Quando alguém diz "o Whisper é gratuito", está falando do motor que a OpenAI deu de presente. As duas afirmações são verdadeiras ao mesmo tempo, sobre coisas diferentes — é exatamente por isso que você foi procurar uma resposta direta.
Sim, a licença MIT o torna genuinamente gratuito
Não é aquele "gratuito" de marketing, onde "grátis" significa um trial que expira ou um nível que fica te incomodando. A OpenAI lançou o código e os pesos do Whisper sob a licença MIT. A MIT é uma licença open-source permissiva e bem conhecida: ela permite usar, copiar, modificar e distribuir o software — inclusive comercialmente — com essencialmente uma condição: manter o aviso de direitos autorais junto. Sem taxa, sem royalty, sem custo por usuário, sem pedir permissão.
Na prática: você pode baixar o Whisper para uso pessoal, rodar num negócio, embutir num produto que você vende, e transcrever um podcast para um cliente — tudo sem pagar à OpenAI. Os pesos do modelo — a parte treinada, que é cara de produzir — também são gratuitos, não só o código de embrulho. Esse é o ponto que as pessoas não acreditam, porque empresas normalmente mantêm os pesos treinados bloqueados. A OpenAI não fez isso aqui.
Uma ressalva honesta para que ninguém me cite errado depois. "Gratuito sob a MIT" diz respeito à licença, não é uma promessa de que não custa nada para operar. Eletricidade não é gratuita. Um computador não é gratuito. Seu tempo não é gratuito. Mas o software e o modelo — as partes pelas quais uma empresa normalmente cobraria uma assinatura — esses são genuinamente, permanentemente, sem asterisco gratuitos. (O tipo de gratuito em que você lê a licença duas vezes porque tem certeza de que perdeu alguma coisa. Você não perdeu.)
O porém é rodar por conta própria
É aqui que a versão gratuita ganha seu preço, pago em tempo em vez de dinheiro. Rodar o Whisper do jeito open-source puro significa trabalhar pela linha de comando. A instalação padrão é um pacote Python, o que exige ter o Python configurado corretamente antes. O Whisper também precisa do ffmpeg, uma ferramenta de áudio separada, instalada e no path do sistema. Em algumas máquinas você ainda precisará do Rust só para que uma dependência de tokenizador possa ser compilada. Para um desenvolvedor, nada disso é exótico. Para todo mundo, é uma tarde inteira.
Depois há o hardware. O Whisper faz cálculos de verdade, e os modelos maiores e mais precisos fazem muitos deles. Numa CPU comum, o modelo grande pode demorar mais para transcrever um áudio do que o próprio áudio dura. Para ter velocidade, você precisa de uma GPU decente, que a maioria dos notebooks não tem. Então o custo honesto da versão gratuita não é em dinheiro — é um ambiente Python que você mantém, um comando que você roda manualmente para cada arquivo, e um computador rápido o suficiente para não te fazer esperar. (Já assisti a uma pessoa sem perfil técnico seguir um tutorial de "configuração do Whisper em 5 minutos". Não foram cinco minutos. Foi um sábado, e uma ligação pra mim.)
E mais uma coisa que a versão bruta não oferece: ditado em tempo real. O Whisper pela linha de comando transcreve um arquivo que você já gravou. Ele não fica em segundo plano, esperando um atalho de teclado, para colar o texto no cursor enquanto você fala. Para isso — o que a maioria das pessoas realmente quer quando pesquisa isso — você precisa de um embrulho em torno do modelo. A boa notícia é que o melhor embrulho também é gratuito, o que é o assunto da próxima seção.
O caminho livre e fácil: rodar o Whisper num app
Você pode manter todo o "gratuito" do modelo open-source e pular completamente o custo de "rodar por conta própria". É exatamente para isso que construímos o Whisper by Remskill — ele roda o mesmo modelo open-source Whisper localmente na sua máquina, sem Python, sem ffmpeg, sem linha de comando. Todo o pipeline local é gratuito para qualquer conta autenticada, sem pedir forma de pagamento no cadastro. Você tem o motor open-source sem o dever de casa open-source. Veja como configurar.
Passo 1 — Instale o app e faça login.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. O pipeline de transcrição local abre imediatamente — sem Python, sem ffmpeg, nada disso.
Você saberá que funcionou quando o ícone na bandeja aparecer e o assistente de configuração oferecer para escolher um modelo.
Passo 2 — Escolha um modelo local.
O app não escolhe por você. Para uso local, você tem o Whisper (8 modelos, 99 idiomas, tradução para inglês) ou o Parakeet (mais rápido, inglês mais 24 idiomas europeus). O modelo baixa uma vez e roda inteiramente na sua máquina.
Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme seu atalho de teclado.
No Windows o padrão é Ctrl+Space; no Mac, Command+Option mantidos como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado, ou a colagem no cursor não conseguirá alcançar outros apps.
Você saberá que funcionou quando uma gravação de teste colar em qualquer campo de texto.
Passo 4 — Posicione o cursor em qualquer lugar e fale.
Clique em qualquer caixa de texto — um e-mail, um documento, uma barra de pesquisa — segure o atalho, diga uma frase, solte. A transcrição aparece onde está o cursor, transcrita pelo Whisper, na sua máquina, de graça.
Você saberá que funcionou quando a frase que você disse aparecer no campo como texto.
A parte demorada é o download único do modelo, não nenhum ritual de configuração. Depois disso, o mesmo modelo open-source que precisava de um ambiente Python e um comando por arquivo fica simplesmente na bandeja e cola texto quando você pressiona uma tecla. Se você tem pesado opções de ditado no Windows ou no Mac, esta é a versão em que o Whisper finalmente parece um aplicativo em vez de um projeto.
Whisper local é gratuito, a nuvem é a parte paga
É aqui que a resposta sobre "é gratuito" precisa de uma linha clara traçada. Rodar o Whisper localmente é gratuito — sua máquina, sua CPU, sem servidor, sem cobrança por minuto. A parte paga é a nuvem: a API de transcrição hospedada da OpenAI cobra por minuto, e qualquer app no nível cloud repassa esse custo. No nosso app, todo o pipeline local é gratuito; o recurso de nuvem é a única coisa por trás do Whisper Pro. Veja como os três caminhos diferem na prática, porque você pode escolher:
- Parakeet local — gratuito — O motor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais veloz que o Whisper na CPU. Suporta inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para inglês. Se você fala principalmente inglês e quer velocidade em hardware modesto, esta é a escolha rápida, totalmente offline e sem custo.
- Whisper local — gratuito — o modelo Whisper open-source de verdade, rodando na sua máquina sem custo algum. As versões multilíngues suportam 99 idiomas e podem traduzir para inglês; as versões só em inglês ficam restritas ao inglês. Mais lento que o Parakeet no mesmo hardware, mas a escolha certa para chinês, japonês, coreano ou qualquer trabalho de tradução. O modelo padrão em inglês tem cerca de 480 MB.
- Nuvem (OpenAI, BYOK) — pago por minuto — melhor precisão e acesso à web em tempo real, usando sua própria chave OpenAI cobrada diretamente pela OpenAI — a transcrição roda via gpt-4o-mini-transcribe por padrão. Esta é a parte que custa dinheiro, cobrada por minuto pela OpenAI, não por nós. Precisa de internet. O recurso de nuvem é a única coisa dentro do Whisper Pro.
A verdade simples é que, para a maioria dos ditados do dia a dia, o Whisper local ou o Parakeet são mais do que suficientes — e é o caminho gratuito do início ao fim. Ambos rodam completamente na sua máquina sem enviar nada para um servidor. A nuvem justifica seu custo por minuto apenas quando você precisa de precisão máxima em uma gravação difícil ou quer que o modelo busque uma informação na web no meio de uma frase. Se sua pergunta era estritamente "o Whisper é gratuito", a resposta que importa é: o caminho local é, comece por ele.
Modelos, precisão e como limpar o texto bruto
O modelo gratuito não é um único modelo — é uma família, e qual você escolhe é o principal fator de precisão. Modelos menores são rápidos e leves; o modelo multilíngue grande é o mais preciso e o mais pesado. Na versão open-source pela linha de comando, você escolhe o tamanho do modelo e convive com a velocidade. Num app, você escolhe em uma lista e o modelo baixa uma vez. O ponto mais importante: a precisão vem muito mais do modelo e do seu microfone do que de qualquer coisa que você pague. Um microfone USB de $20 faz mais pelas suas transcrições do que qualquer upgrade.
Seja qual for o modelo que você rode, o ditado bruto sai como um bloco sem pontuação. Você diz "tá então o modelo é gratuito sob a MIT mas rodar por conta própria precisa de python e ffmpeg" e é esse muro sem pontuação que qualquer motor de fala devolve. Limpar o texto é um passo separado. O Whisper by Remskill pode fazer uma passagem de IA sobre a transcrição: diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de chegar — vícios de linguagem removidos, pontuação corrigida. Num modelo local, isso roda pelo Ollama de graça; no modo nuvem, o padrão é o gpt-5-mini.
tá então o modelo é gratuito sob a mit mas rodar por conta própria precisa de python e ffmpeg e um computador decente senão é lento
Certo, o modelo é gratuito sob a MIT, mas rodar por conta própria precisa de Python e ffmpeg, e de um computador decente — senão fica lento.
Então a questão da precisão tem duas alavancas gratuitas e uma paga. As gratuitas: escolha um modelo que caiba no seu hardware e alimente-o com áudio limpo de um microfone razoável. A paga: transcrição na nuvem, que oferece os últimos modelos hospedados quando a qualidade local não satisfaz. Para a grande maioria dos ditados, as alavancas gratuitas são as que importam. Quem promete "transcrições perfeitas, sem esforço" não está sendo honesto — o modelo é gratuito, mas uma boa entrada ainda faz a maior parte do trabalho.
Esse mesmo fluxo de falar e depois limpar compensa em todo lugar, não só aqui — você pode ditar texto limpo em qualquer app com um único atalho, transformando uma mensagem longa em algumas frases faladas em vez de um parágrafo que você digita.
Quando pagar pelo Whisper faz sentido de verdade

Como o artigo inteiro é "é gratuito", devo a você a outra metade honesta: há momentos em que pagar é a decisão certa, e fingir o contrário seria discurso de vendas, não uma resposta. Se o caminho local gratuito te atende, use-o e feche a aba — a maioria das pessoas já terminou aqui. Mas algumas situações genuinamente justificam um nível pago.
Pague pelo caminho na nuvem quando a precisão em uma gravação difícil importa mais do que seu dinheiro — uma entrevista com sotaque carregado, uma gravação em campo com muito ruído, uma transcrição jurídica onde uma palavra errada tem consequências. Os modelos OpenAI hospedados superam os locais nos casos difíceis, e você paga à OpenAI por minuto exatamente por essa vantagem. Pague também se quiser que o assistente busque uma informação ao vivo na web no meio de uma frase, o que um modelo local simplesmente não consegue fazer offline. E se você realmente precisa de configuração zero em uma máquina que não controla — um notebook corporativo bloqueado onde não pode instalar Python nem baixar um modelo — um serviço hospedado pode ser a única porta aberta. Fora esses casos, o caminho local gratuito não é uma versão inferior. É o mesmo modelo open-source, fazendo o mesmo trabalho, de graça.
Recorra ao pago quando o caminho gratuito começa a doer: precisão máxima em áudio difícil, buscas na web em tempo real ou uma máquina onde você não pode rodar nada localmente. Abaixo dessa barra, o modelo gratuito no seu próprio hardware é a resposta certa, e não vou te dizer para pagar pelo que a OpenAI já deu de presente. A versão gratuita existe, funciona, e é o mesmo motor por baixo.
E se o motivo para você querer o Whisper gratuito e local é privacidade — manter sua voz fora do servidor de outra pessoa — o caso para conversão de fala em texto totalmente offline vale a pena ler a seguir, porque é exatamente isso que rodar o modelo na sua própria máquina oferece.
Então: o Whisper é gratuito? O modelo é, genuinamente, licenciado MIT e seu para rodar. Usar de graça significa ou uma tarde na linha de comando ou um app que já fez essa tarde por você. A parte paga é sempre e somente a nuvem — uma hospedagem que você não precisa estritamente para o ditado do dia a dia. Escrevi boa parte deste texto falando para uma caixa de texto, com o modelo local gratuito fazendo a escuta, num notebook que nunca me pediu um cartão de crédito para transcrever uma frase. Essa é a resposta completa, e é raro poder dá-la.
Rode o Whisper gratuito sem a configuração
Segure o atalho, fale, solte. O modelo open-source transcreve na sua máquina, de graça, e cola o texto onde estiver o cursor.
Modo local gratuito para qualquer conta autenticada. Sem cartão para começar.



