Explicativo
Como rodar o Whisper localmente
Há duas formas honestas de rodar o Whisper na sua própria máquina: a rota do desenvolvedor, via Python e linha de comando, ou um aplicativo de desktop que faz tudo por você sem precisar de terminal. Nos dois casos, o áudio fica no seu computador. Este guia explica cada caminho e quando escolher cada um.
Última atualização: junho de 2026

Rodar o Whisper localmente significa transcrever áudio no seu próprio computador, em vez de um servidor na nuvem. Há dois caminhos: instalar o Whisper de código aberto da OpenAI com Python, pip e ffmpeg e rodar pela linha de comando, ou usar um aplicativo de desktop como o Whisper by Remskill, que já inclui os modelos e dita no cursor sem precisar de terminal. Nos dois casos, o áudio fica no dispositivo.
Whisper é o modelo de reconhecimento de fala de código aberto da OpenAI, lançado sob a licença MIT. O motivo pelo qual "como rodar o Whisper localmente" é tão pesquisado é simples: ele roda de verdade no seu próprio hardware, de graça. Sem chave de API, sem cobrança por minuto, sem áudio saindo do notebook. É um baita negócio, e o projeto oficial no GitHub entrega tudo isso de mão beijada.
O porém está no que "rodar" significa. A rota oficial é uma ferramenta de linha de comando. Você instala o Python, executa o `pip install openai-whisper`, instala o ffmpeg e aponta o terminal para um arquivo de áudio. Perfeito se você tem uma pasta cheia de gravações para processar em lote. Nem um pouco perfeito se o que você queria mesmo era falar no e-mail e ver as palavras aparecerem. São dois trabalhos diferentes, e vou explicar os dois com honestidade.
Aqui está a bifurcação que a maioria das páginas ignora. "Rodar o Whisper localmente" pode significar duas coisas completamente diferentes dependendo de quem está perguntando. Para um desenvolvedor: baixar o modelo no disco e transcrever arquivos a partir de um script. Para um escritor ou vendedor: parar de digitar e ter a voz convertida em texto em qualquer aplicativo que estiver usando.
Então a pergunta real não é só "como eu instalo o Whisper". É "qual Whisper local eu quero — o CLI para processamento em lote e scripts, ou um atalho de teclado que dita no meu cursor". O primeiro é o projeto oficial da OpenAI e é ótimo no que faz. O segundo é um aplicativo de desktop que roda a mesma família de modelos sem linha de comando. Vou configurar os dois, mostrar a conta do hardware e dizer claramente quando o terminal é a melhor escolha.
O que "rodar o Whisper localmente" significa de verdade

Rodar o Whisper localmente significa que a transcrição acontece no processador do seu próprio computador, não em algum servidor remoto. Você fornece o áudio, o modelo converte em texto, e nada sai da máquina. Esse é o atrativo. A planilha de salários do seu chefe lida em voz alta, o e-mail para a escola do seu filho, uma ligação gravada com um cliente — nada disso toca os logs de um fornecedor só porque você quis digitar com a voz. Local primeiro ou nem começa, na minha opinião — e vou marcar essa opinião com um número mais adiante.
O Whisper em si é só o modelo. A OpenAI o treinou e liberou os pesos sob a licença MIT, por isso qualquer um pode baixar e rodar sem pagar. Existem vários tamanhos de modelo, de um minúsculo com 39 milhões de parâmetros até um modelo grande com 1,55 bilhão, e você escolhe com base em quanta precisão precisa versus quanto o seu hardware aguenta. O modelo é o mesmo seja rodando pelo terminal ou dentro de um aplicativo. O que muda é o invólucro ao redor dele.
E o invólucro é toda a questão. Existem dois, ambos legítimos. A ferramenta oficial de linha de comando da OpenAI: gratuita, scriptável, baseada em Python, feita para transcrever arquivos. E aplicativos de desktop que carregam o mesmo tipo de modelo por trás de uma janela normal, então você aperta uma tecla e fala em vez de digitar um comando. A verdade chata é que a maioria das pessoas que pesquisa esse termo quer um dos dois e ainda não sabe qual. As próximas duas seções são exatamente esses dois caminhos.
A rota do desenvolvedor: Python, pip e ffmpeg
Se você se sente à vontade no terminal, o projeto oficial é a resposta mais direta — e é genuinamente gratuito. Você precisa de três coisas na máquina: Python (o projeto tem como alvo as versões 3.8 a 3.11), o pacote Whisper em si e o ffmpeg, que é a ferramenta de áudio que o Whisper usa para ler os arquivos. A instalação são dois comandos. `pip install -U openai-whisper` baixa o pacote e a dependência do PyTorch. Depois o ffmpeg, que depende do seu sistema operacional — `brew install ffmpeg` no Mac, `choco install ffmpeg` ou `scoop install ffmpeg` no Windows, `sudo apt install ffmpeg` no Ubuntu.
Com tudo instalado, você roda contra um arquivo. `whisper audio.mp3 --model turbo` transcreve a gravação e grava o texto. Adicione `--language Japanese` para pular a detecção automática, ou `--task translate` para que uma gravação em outro idioma saia em inglês. Isso é o núcleo do negócio. É uma ferramenta de áudio-entra, texto-sai, e ela é boa exatamente nisso. Aponte para uma pasta de memorandos de voz de noite e ela vai processar tudo sem você precisar ficar olhando.
A realidade do hardware é onde as expectativas batem numa parede. Os tamanhos oficiais de modelo são tiny (39M de parâmetros), base (74M), small (244M), medium (769M), large (1,55B) e turbo (809M). A VRAM que cada um exige conta a história real: cerca de 1 GB para o tiny, uns 2 GB para o small, em torno de 5 GB para o medium e aproximadamente 10 GB para o modelo large. Esses números são para uma GPU. Você consegue rodar os modelos menores numa CPU, mas uma GPU dedicada é o que torna os maiores suportáveis. Certa vez desenhei uma configuração limpa de "só rodar o large no meu notebook" e fiquei vendo ele arrastar na placa integrada. O diagrama sempre erra na segunda revisão. A CPU termina eventualmente; o modelo large num notebook fino não é um plano para uma tarde tranquila de terça-feira.
A rota sem terminal: rodar o Whisper em um aplicativo de desktop
Se você nunca quer ver um prompt de comando, esse é o outro caminho honesto. Whisper by Remskill é um aplicativo de desktop para Windows 10 ou mais recente e Macs com Apple Silicon que roda o Whisper localmente por você — os modelos são baixados dentro do próprio aplicativo, sem pip, sem ffmpeg, sem Python. Ele também roda o Parakeet, um segundo motor local que vou mencionar mais adiante. Todo o pipeline local é gratuito para qualquer conta conectada, sem pedir método de pagamento no cadastro. Aqui está a sequência.
Passo 1 — Instale o Whisper e faça login.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. O pipeline de transcrição local abre imediatamente.
Você saberá que funcionou quando o ícone do aplicativo aparecer na bandeja do sistema e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha um caminho de transcrição e baixe um modelo.
O aplicativo não escolhe por você. Você tem três opções: Nuvem (OpenAI, traga sua própria chave), Parakeet Local ou Whisper Local. Para rodar as coisas na sua própria máquina, escolha um dos dois motores locais e deixe o modelo baixar dentro do aplicativo.
Você saberá que funcionou quando o modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme seu atalho de teclado.
No Windows o padrão é Ctrl+Space; no Mac é Command+Option mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, o colar-no-cursor não consegue alcançar outros aplicativos.
Você saberá que funcionou quando uma gravação de teste colar em qualquer campo de texto.
Passo 4 — Posicione o cursor em qualquer lugar e fale.
Clique em qualquer campo de texto — um e-mail, um documento, uma caixa de chat — segure o atalho, diga uma frase, solte. A transcrição aparece onde o cursor estiver.
Você saberá que funcionou quando a frase que você disse estiver no campo de texto como texto.
A parte lenta é o download do modelo, igual à rota CLI — os pesos são os pesos. Todo o resto são os quatro passos acima. A diferença é que não há terminal entre você e o modelo, e em vez de áudio-entra-texto-sai, você tem um atalho de teclado que dita onde quer que o cursor esteja. Mesmo Whisper por baixo, trabalho diferente por cima.
Qual modelo e que hardware você precisa
As duas rotas pedem para você escolher um modelo, e a decisão se resume ao mesmo equilíbrio: modelos maiores são mais precisos e mais lentos; modelos menores são mais rápidos e mais leves. Na CLI oficial, o modelo large quer cerca de 10 GB de VRAM e o small uns 2 GB, então sua placa de vídeo define o teto. No aplicativo de desktop, os modelos Whisper se dividem em somente inglês e multilíngue, com o modelo padrão de inglês ocupando cerca de 480 MB em disco e o maior multilíngue cerca de 3 GB. As versões multilíngues cobrem 99 idiomas e conseguem traduzir para o inglês; as versões somente inglês são somente inglês.
O outro motor local do aplicativo vale ser mencionado aqui, porque ele contorna o problema de hardware para muita gente. Parakeet é o modelo TDT da NVIDIA, com cerca de 600 MB, e roda de 5 a 10 vezes mais rápido que o Whisper numa CPU. Cobre inglês mais 24 outras línguas europeias, 25 no total, sem tradução para o inglês. Se você fala principalmente em inglês e não tem uma GPU potente, o Parakeet é a escolha local rápida. Se você precisa de chinês, japonês, coreano ou tradução, esse é o território multilíngue do Whisper e o Parakeet não chega lá. Enquanto você fala, uma pequena cápsula mostra que o aplicativo está escutando:
A única coisa que você pode fazer para melhorar a precisão não é um modelo maior. Um microfone USB de $20 faz mais pela sua transcrição do que pular dois tamanhos de modelo — áudio limpo ganha de um modelo mais pesado alimentado com a bagunça do microfone do notebook. Invista no microfone primeiro, depois pense no modelo. Esse é o único conselho de hardware que eu colocaria no papel e defenderia.
Local ou nuvem: qual modo para qual trabalho
Se sua máquina tem Apple Silicon ou seu PC é dos últimos anos, tente o local primeiro. A nuvem é a válvula de escape, não o padrão. Mas o aplicativo de desktop faz você escolher entre três caminhos, e prefiro que você escolha bem — por isso, veja como eles diferem.
Veja como os três caminhos diferem, porque o aplicativo faz você escolher:
- Parakeet Local — Motor TDT da NVIDIA, com cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre inglês mais 24 outras línguas europeias, 25 no total. Sem tradução para o inglês. Se você dita em inglês ou em outra língua europeia e quer velocidade sem precisar de GPU, essa é a escolha totalmente offline.
- Whisper Local — mais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e conseguem traduzir para o inglês. As versões somente inglês são somente inglês, não 99. Escolha esse para chinês, japonês, coreano ou qualquer trabalho de tradução que o Parakeet não consegue fazer. O modelo padrão de inglês tem cerca de 480 MB; o maior multilíngue tem cerca de 3 GB.
- Nuvem (OpenAI, BYOK) — melhor precisão e acesso à web, usando sua própria chave da OpenAI cobrada diretamente pela OpenAI. A transcrição roda em gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina. O recurso de Nuvem faz parte do Whisper Pro.
A verdade chata é que, para ditado do dia a dia, o local é mais do suficiente, e os dois motores locais rodam totalmente na sua máquina sem enviar nada a um servidor. A nuvem ganha seu espaço quando você quer precisão máxima numa gravação difícil, ou precisa que o modelo busque um dado na web no meio de uma frase. Qualquer que tenha sido o caminho que você escolheu para rodar o Whisper localmente — a CLI ou o aplicativo — a história de privacidade é a mesma: o áudio fica onde está. Se ficar offline é o principal motivo de você estar aqui, reconhecimento de voz offline vai mais fundo nisso.
Precisão, pontuação e como limpar a transcrição bruta
Seja lá o que rodar o Whisper, o ditado bruto sai como um texto corrido. Você diz "tá bom então transcreve a gravação da daily depois manda o resumo pro time antes do almoço", e esse é o muro sem pontuação que qualquer motor de fala te entrega. A CLI oficial te dá esse texto e para por aí — a limpeza é sua responsabilidade, num script ou na mão. Tudo bem para transcrição em lote onde você vai processar o resultado depois de qualquer jeito.
O aplicativo de desktop pode fazer a limpeza por você antes do texto chegar. Diga a frase de ativação "Hey whisper" e um passe de IA remove os vícios de linguagem, corrige o texto corrido e adiciona pontuação. Num modelo local, isso roda pelo Ollama na sua máquina; no modo nuvem é gpt-5-mini por padrão. A diferença entre bruto e limpo é a diferença entre uma transcrição que você precisa editar e uma que você já consegue enviar:
tá bom então transcreve a gravação da daily depois manda o resumo pro time antes do almoço hum e copia o gerente
Tá bom, então transcreve a gravação da daily, depois manda o resumo pro time antes do almoço e copia o gerente.
A precisão em si é basicamente uma questão de modelo e microfone, e já falei do microfone. No lado do modelo, as versões multilíngues maiores do Whisper são fortes em 99 idiomas, e o modo nuvem adiciona a transcrição de ponta da OpenAI se uma gravação for genuinamente difícil. Mas para áudio limpo e fala normal, até os modelos pequenos são sólidos, e sair correndo atrás do maior modelo num hardware fraco te compra uma saída mais lenta por uma precisão que você provavelmente nem vai notar. Combine o modelo com o trabalho, não com as fichas técnicas.
Se seu objetivo principal é falar em vez de digitar o dia inteiro, o mesmo fluxo fala-depois-limpa é o que permite converter voz em texto no Windows sem abrir um terminal em nenhum momento — que é justamente o ponto da rota sem CLI.
Quando a linha de comando é a escolha certa

Às vezes o terminal é genuinamente a ferramenta melhor, e fingir o contrário para te vender um aplicativo seria desonesto. A CLI oficial da OpenAI é gratuita, licenciada pelo MIT e feita para um trabalho que o aplicativo de desktop não faz: transcrever arquivos, em lote, a partir de um script. Se esse é o seu trabalho, pule o aplicativo.
Recorra à linha de comando quando você tem uma pasta de gravações para processar em lote de noite, quando quer o Whisper dentro de um pipeline Python maior ou num servidor que você controla, quando precisa de um flag de modelo específico que a GUI não expõe, ou quando você simplesmente já vive no terminal e não quer mais uma janela aberta. Também é a escolha certa no Linux, para o qual o aplicativo de desktop não tem versão. A CLI roda em qualquer lugar onde o Python e o ffmpeg rodam. Nada disso é uma crítica ao aplicativo — é só um formato diferente de problema.
Recorra ao aplicativo de desktop quando o trabalho é ditado, não processamento de arquivo: você quer falar no e-mail, nos documentos, no chat e ter as palavras aparecendo no cursor com uma tecla. A CLI não consegue colar no cursor de outro programa; nunca foi esse o trabalho dela. Então a divisão honesta é — arquivos e scripts, use o terminal; falar em vez de digitar, use o aplicativo. A maioria das pessoas, assim que fica clara sobre o que queria, sabe imediatamente de qual lado está.
A mesma lógica de no dispositivo, sem nuvem se aplica se você estiver configurando isso num Mac — o passo a passo em voz para texto no Mac cobre o lado do Apple Silicon, incluindo a permissão de Acessibilidade que o atalho de teclado precisa.
Whisper rodando na sua própria máquina é um dos melhores negócios do mundo do software agora — um modelo que a OpenAI deu de graça, o mesmo que grandes ferramentas de nuvem chamam discretamente por baixo dos panos, sentado no seu disco sem custar nada. A única decisão real é qual invólucro se encaixa no seu dia. Eu uso a CLI quando tenho arquivos para processar, e o aplicativo nos outros 95% do tempo, porque troco de programa umas quarenta vezes por hora e não quero digitar um comando para cada uma. Ditei boa parte deste guia com um atalho de teclado, numa caixa de texto que não era um terminal, com o modelo rodando no mesmo notebook o tempo todo.
Rode o Whisper localmente sem o terminal
Segure o atalho, fale, solte. O modelo roda na sua máquina e a transcrição cai onde o cursor estiver — sem Python, sem pip, sem ffmpeg.
Modo local gratuito para qualquer conta conectada. Sem cartão para começar.



