Por Denys Medvediev

Guia

Conversor de áudio para texto, explicado

Ferramentas web gratuitas, aplicativos de desktop offline e a nuvem com chave própria: todos transformam som em texto. A escolha que realmente importa é onde o seu áudio é processado.

Última atualização: junho de 2026

Close-up de uma interface de áudio digital exibindo uma onda sonora brilhante em uma tela escura

Um conversor de áudio para texto transforma uma gravação ou fala ao vivo em texto editável e pesquisável usando um modelo de fala para texto. A escolha que realmente importa é onde o áudio é processado: ferramentas web gratuitas enviam arquivos para um servidor, enquanto um aplicativo de desktop como o Whisper consegue transcrever inteiramente no seu próprio computador, offline, e colar o resultado onde quer que o cursor esteja.

A maioria das ferramentas gratuitas de áudio para texto limita você aos primeiros 10 a 30 minutos de transcrição e depois pede o cartão. Essa parte é justa. Servidores custam dinheiro. A parte que ninguém diz em voz alta é que o seu áudio precisou viajar até esses servidores antes. Um recado de voz de um médico, a gravação de uma reunião de diretoria, um arquivo de preparação para uma audiência de guarda: tudo enviado para um fornecedor que você nunca conheceu.

Eu tenho uma opinião sobre isso, e já vou chegar nela.

Um conversor de áudio para texto faz um único trabalho: ele escuta o som e escreve as palavras. As diferenças interessantes são como ele escuta (um modelo), onde ele escuta (sua máquina ou um servidor) e o que ele faz com o texto depois (joga em um arquivo ou cola onde você já está digitando). Os três conversores gratuitos mais bem ranqueados nessa busca são todos do tipo envie-um-arquivo-e-espere. O Whisper by Remskill é outro bicho. Ele é focado em ditado, o que significa que você aperta um atalho, fala e o texto aparece no cursor em qualquer aplicativo.

Este guia explica como os conversores funcionam, percorre o caminho de três passos para um arquivo gravado e diz quando um conversor web é a escolha certa e quando não é. Depois de um ano lendo nosso e-mail de suporte, posso dizer que a maior parte dele vem de pessoas que escolheram uma ferramenta na nuvem para áudios que jamais deveriam ter saído do laptop.

Um conversor de áudio para texto transforma gravações em palavras que você pode editar

Whisper
O aplicativo Whisper de verdade — clique pelas Configurações para ver como a transcrição local e na nuvem são montadas.

Por baixo dos panos, todo conversor roda a mesma coisa: um modelo de reconhecimento de fala. Ele pega a forma de onda do seu áudio e prevê as palavras, um pedaço de cada vez. O modelo é onde mora a precisão. O grande modelo aberto por trás de muitas dessas ferramentas é o Whisper, da OpenAI, que suporta 99 idiomas em suas variantes multilíngues. A mesma OpenAI Speech-to-Text API expõe o whisper-1 além dos modelos mais recentes gpt-4o-transcribe e gpt-4o-mini-transcribe.

A saída é texto puro e editável. Você pode corrigir um nome, buscar uma frase, jogar em um e-mail. É esse o propósito. Som é difícil de passar o olho; texto é fácil. O Whisper produz o mesmo texto editável, mas em vez de te entregar um download, ele consegue colar direto em qualquer aplicativo em que você esteja. O aplicativo embutido acima é a interface real do desktop, não uma maquete.

Qual modelo você escolhe é a decisão de precisão, e o modelo aberto Whisper e o Google Cloud Speech-to-Text se posicionam em lugares diferentes; nossa comparação entre Whisper e Google Speech-to-Text coloca os dois motores lado a lado em precisão, cobertura de idiomas e para onde vai o seu áudio.

Como converter um arquivo de áudio em texto em três passos

Para um arquivo gravado, o caminho é curto. Os conversores web gratuitos resumem assim: enviar, clicar, baixar.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Um conversor web típico: solte um arquivo, espere o envio, baixe a transcrição.
1

Escolha onde ele roda. Conversores na nuvem precisam que você envie o arquivo para o servidor deles. O Whisper roda a transcrição na sua própria máquina no modo local, então o arquivo nunca sai do seu computador.

2

Escolha um modelo para o seu idioma. Arquivos só em inglês são mais rápidos em um modelo menor. Áudio multilíngue ou com idiomas misturados precisa de um modelo multilíngue que cubra 99 idiomas.

3

Pegue o texto e edite. A transcrição volta como texto puro. Corrija os erros de digitação que todo modelo comete em nomes próprios, e pronto.

CancelTranscribing
O Whisper transcrevendo uma gravação localmente — o arquivo nunca sai da sua máquina.

Um detalhe que vale conhecer: APIs na nuvem têm tetos de tamanho. O endpoint de transcrição da OpenAI limita os envios a 25 MB por requisição. A gravação de uma reunião longa em WAV estoura isso rapidinho. O processamento local não tem esse limite além do seu próprio disco e da sua paciência.

Arquivos gravados x ditado ao vivo: de qual você precisa?

Aqui está a pergunta que a maioria das páginas de conversor pula. Você está transcrevendo um arquivo que já existe, ou está tentando escrever algo novo com a sua voz?

Se você tem uma gravação (uma entrevista, uma aula, um podcast), um conversor de arquivos é a ferramenta certa. Envie, pegue a transcrição, siga em frente. As três ferramentas gratuitas mais populares dão conta disso, com limites diários de minutos no plano gratuito.

Cancel
O overlay de gravação ao vivo do Whisper — segure o atalho, fale, solte.

Se você está rascunhando um novo e-mail, nota ou documento, você não quer um arquivo de jeito nenhum. Você quer que as palavras apareçam à medida que fala. Isso é ditado, e é um mecanismo diferente. Com o Whisper você segura um atalho, fala e solta. No Windows o padrão é Ctrl+Space, e no macOS é um atalho push-to-talk de Command+Option (segure os dois, solte qualquer uma das teclas para parar). O texto transcrito é colado no seu cursor em qualquer aplicativo. Sem envio, sem download, sem trocar de aba. O overlay acima é o que você vê enquanto ele está escutando.

A maioria das pessoas que busca um conversor de áudio para texto quer a primeira coisa e descobre que também queria a segunda. Você grava menos coisas do que escreve. Passei duas semanas no ano passado caçando um conversor de arquivos melhor quando o que eu realmente precisava era parar de digitar respostas com um dedo só durante o treino de natação da minha filha.

Local x nuvem: onde o seu áudio é processado (e por que isso importa)

Fileiras de racks de servidores de data center com equipamentos em funcionamento, representando o processamento de áudio na nuvem

A bifurcação que importa aparece aqui, e é justamente aquela sobre a qual as ferramentas gratuitas são mais caladas. Um conversor web processa o seu áudio nos servidores dele. A AudioConvert.ai diz que os arquivos são apagados em até 24 horas. A HappyScribe e a NoteGPT também enviam para a nuvem. Isso é o padrão, e para um podcast público está tudo bem.

Agora a opinião que prometi. A conversão de áudio só na nuvem é um desastre de privacidade esperando para ser transcrito. Uma equipe com a qual trabalhei certa vez contratou alguém de fora para construir um protótipo interno de ditado que chamava uma IA na nuvem a cada fala. O gerente abriu o painel de custos no fim do trimestre e encontrou uma conta de cinco dígitos, a maior parte dela por transcrever gravações de reuniões diárias quatro vezes seguidas porque a lógica de repetição era agressiva demais. A resposta do CFO foi curta: ou a gente podia simplesmente não pagar para enviar reuniões que já têm anotações. O dinheiro era o problema pequeno. O maior era que trimestres inteiros de ligações internas agora moravam nos servidores de outra pessoa.

O modo local do Whisper responde a isso. No modo local, todo o áudio é processado no seu computador e nada sai do dispositivo; depois de um download único do modelo (de cerca de 140 MB a 3 GB, dependendo do modelo), ele funciona totalmente offline. Dois motores rodam no dispositivo: os modelos Whisper e o Parakeet, da NVIDIA, que é de 5 a 10 vezes mais rápido que o Whisper na CPU, mas cobre apenas o inglês mais 24 idiomas europeus, sem tradução para o inglês. Se você prefere a nuvem, o Whisper tem um modo OpenAI com chave própria usando gpt-4o-mini-transcribe ou gpt-4o-transcribe (os mesmos modelos que a API expõe), cobrado diretamente pela OpenAI, sem nenhuma margem da nossa parte. O ponto é que você escolhe. As ferramentas web gratuitas escolhem por você, e a resposta é sempre o servidor delas. Para saber mais sobre ficar totalmente fora da nuvem, veja o nosso guia de fala para texto offline.

Escolhendo a precisão: qual modelo dá conta do seu sotaque e idioma

Precisão é, em grande parte, uma questão de modelo, e o modelo é uma questão de idioma. Os conversores gratuitos anunciam números altos. A AudioConvert.ai afirma até 99% de precisão em áudio nítido; a HappyScribe diz até 96%. São alegações de marketing dos fornecedores, sem método publicado, então trate-as como o folheto, não como o benchmark.

O que move a precisão é casar o modelo com o seu áudio. O Whisper vem com 8 modelos locais divididos entre só inglês e multilíngues. As versões só em inglês (Base com ~140 MB até Medium com ~1,5 GB) travam o seletor de idioma no inglês e fazem esse único trabalho bem. As versões multilíngues (Small, Medium, Large v3 com ~3 GB e uma Large v3 Turbo) cobrem 99 idiomas com detecção automática. Ucraniano e inglês misturados na mesma frase? Isso precisa de um modelo multilíngue. Um recado de voz limpo em inglês? O modelo Base em inglês é mais rápido e mais leve.

Whisper
O seletor de modelo e idioma no aplicativo Whisper de verdade — versões só em inglês e multilíngues lado a lado.

A verdade chata que nenhuma página de modelo admite: um microfone de lapela baratinho faz mais pela precisão do que qualquer upgrade de modelo. Lixo de áudio na entrada, lixo de texto na saída. Nenhuma quantidade de IA conserta uma gravação feita ao lado de uma lava-louças ligada. Passei um fim de semana ajustando configurações do modelo para limpar o meu próprio áudio embolado antes de perceber que o problema era o microfone do laptop a quinze centímetros de um ventilador. Eu tenho mestrado. O painel de configurações acima é onde você escolhe o modelo e o idioma.

Quando deixar um conversor web de lado (e usar outra coisa)

Uma mesa de trabalho organizada com um caderno, óculos e canetas, sugerindo alternativas manuais para fazer anotações

Um conversor web é a melhor escolha às vezes, e prefiro te dizer isso a deixar você brigar com a ferramenta errada. Se você tem uma gravação curta (um trecho de entrevista de cinco minutos, um único recado de voz) e não se importa que ela passe por um servidor, um conversor gratuito como a HappyScribe te dá os primeiros 10 minutos de graça, sem cartão. Abra a página, envie, pronto. Instalar um aplicativo de desktop só para isso é exagero.

Deixe o conversor web de lado quando uma de três coisas for verdade: o áudio é sensível (médico, jurídico, financeiro), o arquivo é grande o suficiente para bater no teto de 25 MB da nuvem, ou você está escrevendo algo novo em vez de transcrever algo antigo. Os dois primeiros casos pedem processamento local. O terceiro pede ditado, e não um conversor. Para transcrição em estilo de reunião, com vários participantes e resumos, uma ferramenta dedicada a essa categoria se encaixa melhor do que qualquer uma das duas — esse é outro trabalho, abordado na nossa seleção de softwares de transcrição.

Quanto custa

O Whisper é gratuito para todo mundo em todo o pipeline local (os dois motores de transcrição, a limpeza de texto por IA, o histórico e o atalho personalizado), sem precisar de meio de pagamento para se cadastrar. A camada na nuvem com chave própria é o plano Pro pago, e a OpenAI cobra você diretamente pelos minutos que de fato transcrever. Os conversores web gratuitos dessa busca funcionam num modelo freemium com teto de minutos: a HappyScribe dá 10 minutos gratuitos; a AudioConvert.ai dá 30 minutos por dia. O Whisper roda hoje no Windows e no macOS em Apple Silicon. Para os números exatos dos planos, a página de preços tem tudo por escrito.

Os conversores gratuitos são bons no que fazem — solte um arquivo, espere, copie o texto. Use um deles para aquele trecho de podcast que você não se importa em compartilhar. Mas as gravações que mais importam costumam ser justamente as que você menos gostaria de enviar, e é nesse momento que um conversor que roda no seu próprio laptop deixa de ser um luxo.

Experimente uma gravação que nunca sai da sua máquina

Minha filha mais nova ditou um e-mail de 90 palavras para a avó no último sábado e me perguntou para onde as palavras tinham ido. Para lugar nenhum, eu disse. Elas ficaram bem aqui. Essa resposta é a razão inteira pela qual eu construí isto.

Gratuito em todo o pipeline local. Não precisa de meio de pagamento para se cadastrar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura adicional