Por Denys Medvediev

Guia

Como converter mp3 em texto

Para converter um mp3 em texto, passe o arquivo por uma ferramenta de fala para texto. O caminho gratuito e privado é um aplicativo local de código aberto, como o Buzz ou a linha de comando do OpenAI Whisper, que transcrevem na sua própria máquina. O caminho mais rápido de começar é um conversor na web em que você faz o upload.

Última atualização: junho de 2026

Tela de computador mostrando a forma de onda de uma gravação de áudio em um software de edição

Para converter um mp3 em texto, passe o arquivo por uma ferramenta de fala para texto. O caminho gratuito e privado é um aplicativo local de código aberto, como o Buzz ou a linha de comando do OpenAI Whisper, que transcrevem na sua própria máquina. O caminho mais rápido de começar é um conversor na web em que você faz o upload. Os dois transformam áudio em texto editável.

Então você tem um mp3 e precisa das palavras que estão dentro dele. Uma entrevista gravada, um recado de voz, um episódio de podcast, uma aula que você salvou no celular. O trabalho é o mesmo em todos os casos: pegar o áudio e obter um texto que dá para editar.

A boa notícia é que isso é um problema resolvido em 2026, e a maioria das formas de fazer é gratuita. A notícia ligeiramente chata é que as ferramentas têm nomes que soam todos parecidos, então deixa eu organizar isso.

Existem três caminhos honestos. Rodar uma ferramenta local gratuita no seu próprio computador (o mais privado, sem upload, custo zero). Usar um aplicativo de Mac feito para o serviço. Ou enviar o arquivo para um serviço web que o transcreve em um servidor, que é o mais rápido de começar, embora o áudio saia da sua máquina. O caminho certo depende de você se importar mais com privacidade ou com praticidade, e do quanto você se sente técnico hoje.

Vou dizer logo a parte estranha, porque seria desonesto escondê-la. O aplicativo que a minha equipe faz, o Whisper by Remskill, não converte arquivos mp3. Ele é uma ferramenta de ditado ao vivo. Você segura uma tecla de atalho, fala, e suas palavras aparecem no que quer que você esteja digitando. Serviço totalmente diferente. Vou explicar onde ele se encaixa lá perto do final, mas se você veio aqui para converter uma gravação que já existe, as ferramentas abaixo são as que você quer.

O caminho gratuito e privado é uma ferramenta local de código aberto

Se você não quer que sua gravação fique parada no servidor de outra pessoa, rode a transcrição no seu próprio computador. O motor que quase todo mundo usa para isso é o OpenAI Whisper, lançado sob a licença MIT, gratuito para usar, gratuito para ler, gratuito para rodar. É a mesma família de modelo que move boa parte dos aplicativos pagos que você já viu anunciados.

Há algumas formas de realmente usá-lo, indo de "me viro bem num terminal" até "por favor, me dê um botão para clicar".

OpenAI Whisper (linha de comando em Python)

Instale com o pip, instale a ferramenta ffmpeg da qual ele depende e depois aponte para o seu arquivo: whisper recording.mp3 --model turbo. Ele lê o mp3, transcreve e gera um arquivo de texto. São seis tamanhos de modelo, de um bem pequeno e rápido a um grande e preciso, então dá para trocar velocidade por precisão. É multilíngue e até consegue traduzir áudio que não está em inglês para o inglês. O porém é a configuração. pip e ffmpeg não são difíceis, mas também não são nada. Uma vez passei vinte minutos consertando um caminho do ffmpeg num notebook novo. Eu tenho mestrado.

whisper.cpp

Mesmo modelo Whisper, reescrito em C e C++ puro para rodar rápido sem Python e sem dependências pesadas. Roda só na CPU e é fortemente ajustado para Macs com Apple Silicon. Também licenciado sob MIT. Você compila a partir do código-fonte e roda pela linha de comando, então ele é claramente para o pessoal que se vira bem num terminal. É a opção enxuta se você tiver muitos arquivos para processar.

Buzz

Esse é o que eu indico para pessoas não técnicas. O Buzz é um aplicativo de desktop normal, com uma janela normal. Você abre, escolhe seu mp3 e ele transcreve offline na sua máquina. É construído sobre o OpenAI Whisper, consegue transcrever e traduzir, e roda no macOS, Windows e Linux. Licenciado sob MIT e gratuito. Sem terminal, sem pip, sem lidar com ffmpeg. Se você tem um arquivo e quer resolver com o mínimo de complicação, a resposta é essa.

Whisper Desktop (Const-me)

Um aplicativo de Windows para quem tem placa de vídeo. Ele transcreve arquivos de áudio e usa a GPU para fazer isso rápido, o que faz diferença quando seu arquivo é longo. É de código aberto sob a licença MPL-2.0. Só para Windows. Se você está num PC com uma GPU decente e uma gravação de duas horas, essa é a pista rápida.

Código e um terminal de linha de comando abertos na tela de um notebook sobre uma mesa limpa

No Mac, um aplicativo dedicado poupa você da configuração

Se você está no Mac e a linha de comando não é a sua ideia de uma boa noite, o MacWhisper foi feito exatamente para isso. Você arrasta um arquivo de áudio ou vídeo para dentro dele e ele transcreve no próprio dispositivo, então nada sai da sua máquina. Ele roda os mesmos modelos do OpenAI Whisper, além do motor Parakeet da NVIDIA, e faz bem o trabalho de transcrever arquivos. Também exporta para os formatos de que você realmente precisa, como arquivos de legenda para vídeo.

O MacWhisper é, por design, voltado a arquivos: entra gravação, sai texto. É todo o propósito dele, e ele é bom nisso. Estou destacando justamente porque é a coisa mais próxima de uma resposta de um clique no Mac para exatamente o que você pesquisou.

Um conversor na web é o mais rápido de começar, mas seu áudio sai da sua máquina

O outro caminho não exige instalação nenhuma. Há vários serviços web que deixam você enviar um mp3, esperar um minuto e baixar uma transcrição. Sem configuração, sem modelo para baixar, funciona de um celular ou de um notebook emprestado. Para uma coisa pontual e rápida, essa praticidade é real, e não vou fingir o contrário.

Aqui vai a única opinião forte deste artigo, e vou sustentá-la com o motivo óbvio em vez de enrolação. Quando você envia uma gravação para um conversor na web, o áudio sai do seu computador e cai no servidor de outra pessoa. Para um podcast que você vai publicar de qualquer jeito, não tem problema. Para uma ligação gravada de RH, um atestado médico, ou uma reunião com cliente em que se fala em voz alta um valor de salário ou o nome de um paciente, isso é uma decisão de privacidade que você está tomando, muitas vezes sem ler a página que explica por quanto tempo o arquivo fica guardado. Uma ferramenta local faz o mesmo trabalho e o áudio nunca vai a lugar nenhum. A transcrição só na nuvem é, para gravações sensíveis, um desastre de privacidade esperando para ser transcrito.

Se um conversor na web for de fato a escolha certa para você, vale conhecer o cenário dos serviços de transcrição. Já escrevi sobre essa turma em outro lugar. Comece pelo passo a passo de transcrição rápida e pelo guia de conversor de áudio em texto, que tratam lado a lado tanto do caminho de upload quanto do local.

Escolha precisão e idioma pelo modelo, não pelo marketing

Seja qual for a ferramenta em que você parar, a precisão se resume principalmente a duas coisas que você controla: o tamanho do modelo e o microfone em que o áudio foi gravado. Modelos maiores são mais lentos e mais precisos. Modelos menores são mais rápidos e mais leves. A maioria das ferramentas locais acima deixa você escolher, porque todas estão rodando os mesmos modelos Whisper por baixo de botões diferentes.

A verdade chata que ninguém vendendo um conversor de "IA inteligente" quer dizer em voz alta: uma gravação limpa num microfone USB baratinho ganha de uma embolada passada pelo maior modelo. A ferramenta não consegue desouvir o ar-condicionado. Se o seu mp3 foi gravado do outro lado da sala no microfone do notebook, ajuste suas expectativas e, se ainda der, talvez regrave.

Onde o Whisper by Remskill se encaixa, e onde não

Agora a parte honesta que prometi. O Whisper by Remskill não pega o seu mp3 e o transforma em texto. Ele foi feito para um momento diferente.

Ele é uma ferramenta de ditado ao vivo. Você pressiona uma tecla de atalho (Ctrl+Space no Windows por padrão, remapeável), fala, e suas palavras são digitadas direto no aplicativo em que você está: seu e-mail, seu documento, uma mensagem do Slack, um comentário de código. A transcrição acontece localmente enquanto você fala, e o texto aparece no seu cursor um instante depois de você parar. Sem arquivo, sem upload, sem aquele ciclo de gravar e depois converter.

Pasted
O overlay pós-ditado que está no produto — um ditado ao vivo terminando no seu cursor, não um arquivo sendo convertido.

Então quando essa é a ferramenta que você de fato quer? Quando as palavras de que você precisa ainda não existem como gravação, porque ainda estão na sua cabeça. Se o seu objetivo real nunca foi "converter este arquivo", e sim "colocar minhas próprias palavras faladas num documento rápido", você pula a gravação por completo. Você pensa, fala e está digitado. Todo o pipeline local é gratuito, e ele roda no Windows e no Mac (Apple Silicon). Uma vez ditei um e-mail para a professora, uma lista de compras e uma resposta para a minha irmã no tempo que a chaleira levou para ferver, e aí esqueci de servir o chá. A ferramenta funcionou. Eu não.

Whisper
O aplicativo Whisper by Remskill ao vivo — barra lateral, painel de transcrição e cards de instrução de IA. Esta é a interface real, não uma captura de tela.

Para o quadro completo de como funciona, por baixo dos panos, a transcrição offline ao vivo, o guia de fala para texto offline vai mais fundo. Mas se você tem uma gravação parada na sua pasta de downloads agora, volte ali para cima na página. O Buzz ou a linha de comando do Whisper é o que você quer, não nós.

Se você só precisa disso uma vez

Um arquivo, uma vez só, sem planos de fazer de novo? Abra o Buzz, jogue seu mp3 dentro, deixe rodar. É gratuito, funciona offline, e você não terá instalado nada que precise manter. É essa a recomendação inteira. Guarde as ferramentas de terminal para o dia em que você tiver cinquenta arquivos em vez de um.

A forma mais rápida de converter um mp3 é não ter um mp3. Mas, para a gravação que você já tem, uma ferramenta local gratuita resolve sem enviá-la a lugar nenhum.

O Whisper by Remskill é para ditado ao vivo, não para conversão de arquivos

Se o seu objetivo é colocar suas próprias palavras faladas num documento sem digitar, veja como o ditado ao vivo funciona. Para converter uma gravação que você já tem, o Buzz é a resposta gratuita lá em cima.

Pipeline local gratuito. Windows e Mac (Apple Silicon).

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura complementar