Por Denys Medvediev

Guia

OpenAI Whisper para Windows

O OpenAI Whisper é um modelo de fala para texto gratuito e de código aberto, sob a licença MIT. No Windows, ele normalmente roda pelo Python e pela linha de comando para transcrever arquivos de áudio. O Whisper by Remskill empacota esses modelos em um aplicativo de desktop para que você possa ditar ao vivo dentro de qualquer programa.

Última atualização: junho de 2026

Um notebook com Windows sobre uma mesa exibindo um editor de código, evocando um espaço de trabalho limpo para ditado

O OpenAI Whisper é um modelo de fala para texto gratuito e de código aberto, lançado sob a licença MIT. No Windows, ele normalmente roda pelo Python e pela linha de comando, transcrevendo os arquivos de áudio que você indica. O Whisper by Remskill empacota esses modelos em um aplicativo de desktop para que você possa ditar ao vivo dentro de qualquer programa.

O OpenAI Whisper é um modelo gratuito e de código aberto. Em uma máquina Windows recém-instalada, a versão oficial pede Python, ffmpeg e a linha de comando para transcrever arquivos. Se você tem um arquivo, ferramentas gratuitas com interface gráfica como Buzz ou Whisper Desktop dão conta. Se você quer falar e ver suas palavras aparecerem no cursor em qualquer programa, o Whisper by Remskill empacota os mesmos modelos sem nada para compilar e com um nível local gratuito.

O que as pessoas querem dizer com "OpenAI Whisper para Windows"

A verdade sem graça é que "OpenAI Whisper" são duas coisas diferentes usando o mesmo nome, e os resultados de busca confundem as duas todos os dias.

A primeira coisa é o modelo. O Whisper é um modelo de reconhecimento de fala que a OpenAI abriu sob a licença MIT, então tanto o código quanto os pesos treinados podem ser baixados e usados de graça. Ele vem em seis tamanhos (tiny, base, small, medium, large e turbo), quatro deles com uma variante só em inglês, trocando velocidade por precisão. É multilíngue e consegue traduzir fala para o inglês com uma única opção. Isso é genuinamente impressionante e genuinamente gratuito.

A segunda coisa é o jeito como você de fato roda tudo isso. O Whisper oficial é um pacote Python. Você o instala com o pip, instala a ferramenta de linha de comando ffmpeg junto e então passa um arquivo de áudio para ele a partir de um terminal. Se "terminal", "pip" e "ffmpeg" já soam como um sábado que você não planejava ter, você encontrou exatamente a lacuna sobre a qual este artigo trata. A linha de comando é a ferramenta que você usa para digitar comandos no computador em vez de clicar. A maioria das pessoas no Windows nunca a abriu de propósito.

Então, quando alguém digita "OpenAI Whisper para Windows" no Google, geralmente quer uma de duas respostas. Ou: como faço para esse modelo gratuito transcrever meus arquivos sem precisar de um diploma em ciência da computação? Ou: eu só quero falar e ver minhas palavras aparecerem, isso é possível? São necessidades diferentes, e cada uma pede ferramentas diferentes. Vou responder às duas e vou ser honesto sobre qual ferramenta vence em cada caso.

O modelo gratuito é ótimo. A pegadinha está na instalação.

Aqui está a parte que as páginas de produto pulam. O Whisper como modelo não custa nada. O Whisper como experiência, em uma máquina Windows recém-instalada, custa uma tarde inteira.

Para rodar o OpenAI Whisper oficial você instala o Python, depois instala o pacote Whisper, depois instala o ffmpeg e garante que o Windows consiga encontrá-lo, depois abre um terminal e roda um comando para cada arquivo. Nada disso é difícil para uma pessoa que programa. Tudo isso é um paredão para todo mundo: o escritor, o advogado, o estudante, o vendedor, a minha própria mãe, que topou testar o ditado na terceira demonstração e teria topado exatamente zero demonstrações envolvendo a frase "adicione o ffmpeg ao seu PATH".

Existem caminhos mais amigáveis, e vale a pena conhecê-los. O Whisper.cpp é uma versão em C/C++ puro do mesmo modelo: licença MIT, rápido, só usa CPU e sem nada de Python. Mas você ainda precisa compilá-lo a partir do código-fonte ou rodá-lo pela linha de comando. É uma bela peça de engenharia voltada justamente para quem gosta de compiladores. O resto deste artigo é para quem não gosta.

Quando você quer o Whisper de linha de comando (ou um transcritor de arquivos)

Agora vou te mandar para outro lugar, porque esta é a parte honesta.

Se o que você de fato tem é um arquivo de áudio (uma entrevista gravada, um episódio de podcast, uma chamada do Teams que você salvou, uma mensagem de voz), então o nosso aplicativo é a ferramenta errada, e prefiro te dizer isso a te vender algo que não combina. Nós fazemos ditado ao vivo: você fala, as palavras aparecem no seu cursor. Nós não pegamos um arquivo existente e o transcrevemos. É outro tipo de trabalho.

Para esse trabalho, três ferramentas gratuitas são genuinamente boas e foram feitas exatamente para isso:

  • Buzz transcreve e traduz arquivos de áudio offline, com a tecnologia do Whisper da OpenAI, licença MIT, e roda no Windows. Se você quer uma janela de verdade com botões em vez de um terminal, comece por aqui.
  • Whisper Desktop (Const-me) é um aplicativo com interface gráfica para Windows. Você descompacta, executa o WhisperDesktop.exe, aponta para um arquivo e ele transcreve usando a sua GPU via DirectCompute. Tem licença MPL-2.0 e é rápido em uma placa de vídeo decente.
  • whisper.cpp é a opção enxuta se você se sente à vontade na linha de comando e quer velocidade bruta sem Python.

Não estou sendo diplomático por esporte. Mandar você para a ferramenta certa quando ela não é a nossa é justamente a razão pela qual você deveria acreditar no resto. Se você tem um arquivo, vá usar o Buzz. Se você tem um microfone e uma frase na cabeça, continue lendo.

O que o Whisper by Remskill de fato faz no Windows

Pegamos os mesmos modelos Whisper de código aberto, mais um segundo motor, e os embrulhamos em um aplicativo Windows para que não haja nada para compilar nem nada para digitar em um terminal.

Você instala um único aplicativo, cerca de 25 MB. Você faz login. Você pressiona a tecla de atalho, que é Ctrl + Space por padrão e totalmente remapeável. Você fala. Você solta. O texto aparece no seu cursor em qualquer programa em que você já estava: Word, Outlook, o navegador, Slack, um editor de código, a caixa de busca. Sem arquivo, sem terminal, sem GPU necessária; toda a transcrição local roda na sua CPU.

Whisper
O aplicativo Whisper by Remskill em funcionamento — barra lateral, painel de transcrição e cartões de instrução de IA. Esta é a interface real, não uma captura de tela.

Por baixo dos panos você escolhe entre três caminhos, porque não escolhemos um modelo por você:

  • Whisper local (8 modelos) é o Whisper de código aberto que você veio buscar, empacotado e pronto. Otimizado para inglês, do Base (~140 MB) até o Medium (~1,5 GB), além das versões multilíngues até o Large v3 (~3 GB). As versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês.
  • Parakeet (NVIDIA TDT, ~600 MB) é um motor separado, de 5 a 10 vezes mais rápido que o Whisper na CPU, cobrindo o inglês mais 24 outros idiomas europeus. Sem tradução para o inglês. Escolha-o se você quer velocidade e trabalha principalmente em inglês.
  • Nuvem (OpenAI, BYOK) permite que você use sua própria chave da OpenAI para precisão de ponta e busca na web; não ficamos com nenhuma fatia. Este é o único recurso Pro.

O pipeline local (todos os modelos Whisper, o Parakeet, a limpeza por IA via Ollama, o histórico, as predefinições, a tecla de atalho personalizada, os downloads de modelos) é gratuito para qualquer usuário com login feito, sem cartão no cadastro. O caminho da Nuvem é o nível Pro pago; você pode ver os números na página de preços.

Por que um aplicativo de ditado de verdade para Windows é mais difícil que um pip install

Aqui está aquilo que ninguém te avisa quando diz "é só embrulhar o Whisper em uma interface".

O modelo é a parte fácil. Fazer uma tecla de atalho se comportar no Windows não é. A primeira versão do nosso gerenciador de tecla de atalho disparava o callback de parar a gravação seis vezes para um único toque real. Funcionava perfeitamente no Mac. Funcionava perfeitamente em uma instalação limpa do Windows. Desmoronava nas máquinas reais dos clientes, aquelas com um método de entrada de idioma ativado, que no Windows gera eventos fantasmas de soltura do Ctrl + Space em momentos imprevisíveis. Foram dias de telemetria, depois um debounce de 50ms que não bastou, depois um debounce de 300ms que finalmente bastou. Aprendi mais sobre o framework de método de entrada do Windows do que qualquer pessoa deveria, e eu tenho um mestrado. O veredito da minha filha mais velha, quando expliquei: "é por isso que os e-mails do papai demoram uma eternidade".

Pasted
O overlay pós-ditado que vai no produto — o que um ditado gratuito e totalmente local mostra no instante em que termina.

Essa é a diferença entre um modelo e um produto. O Whisper gratuito te dá a transcrição de um arquivo. Um aplicativo de ditado precisa sobreviver ao desktop real do Windows, em programas reais, enquanto você faz outra coisa. O modelo nunca enfrenta essa briga. Nós enfrentamos, e perdemos por cerca de uma semana primeiro.

Quando a ferramenta nativa do Windows é tudo de que você precisa

Diga às pessoas quando elas não devem comprar o seu produto, e elas talvez acreditem em você sobre o resto. Então: se você só dita uma anotação curta de vez em quando, talvez não precise de nada disso. O Windows 11 tem uma ferramenta nativa de digitação por voz que você abre com Win + H. É gratuita e suficiente para algumas linhas, embora ela envie o seu áudio para o reconhecimento de fala online da Microsoft em vez de rodar na sua máquina. Para uma resposta rápida no Teams, isso já basta.

Começamos a valer a instalação por volta do ponto em que você está redigindo texto de verdade (e-mails longos, petições, resumos de aula, comentários de código, variações de marketing) e quer que tudo fique na sua máquina, em 99 idiomas, com a mesma tecla de atalho em todo lugar. Se o seu dia é de conversas de duas linhas, você está pronto sem nós. Se o seu dia é escrever, fique com o aplicativo.

Leitura complementar

O OpenAI Whisper é um modelo gratuito e de código aberto, e no Windows ele normalmente pede Python, ffmpeg e um terminal para transcrever arquivos. Se você tem um arquivo, o Buzz ou o Whisper Desktop dão conta de graça com uma janela de verdade. Se o que você realmente quer é falar e ver suas palavras aparecerem no cursor em qualquer programa, sem compilação, sem linha de comando, rodando localmente na sua CPU, foi isso que criamos.

Para um tratamento mais completo do cenário gratuito versus pago, veja voz para texto no Windows. Para escolher entre os nossos dois motores locais, veja Whisper vs Parakeet.

Dite sua primeira frase em cerca de um minuto

Baixe o Whisper by Remskill para Windows, faça login sem precisar de cartão, pressione Ctrl + Space e fale. O pipeline local é gratuito por todo o tempo que você usar.

Transcrição local gratuita para sempre. Sem forma de pagamento no cadastro. O nível Nuvem é o único recurso pago.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.