Por Denys Medvediev

Tutorial

Áudio para legendas: o que funciona

Um gerador de legendas a partir de áudio converte um arquivo de som em um SRT ou VTT com marcações de tempo. Aqui está o fluxo de trabalho real, as ferramentas que realmente exportam o arquivo e a opção gratuita offline que nunca faz upload do seu áudio.

Última atualização: junho de 2026

Ondas de áudio exibidas em uma tela, ilustrando a conversão de um arquivo de som em uma trilha de legendas

Um gerador de legendas a partir de áudio recebe um arquivo de som — um MP3, um WAV ou a exportação de um podcast — e escreve um arquivo de legendas com marcações de tempo. Cada linha de texto traz um timestamp de início e fim. Ferramentas web como VEED, Kapwing e Descript fazem isso direto no navegador. A ferramenta gratuita de linha de comando OpenAI Whisper faz o mesmo offline, na sua própria máquina.

Certa vez, passei quarenta minutos legendando manualmente um trecho de dez minutos de podcast, pausando a cada três segundos para digitar e tentar adivinhar os timestamps. Tenho mestrado em engenharia de software. A conta não fecha de jeito nenhum. Legendar na mão consome várias vezes a duração do áudio. Um gerador de legendas moderno faz o mesmo trabalho em mais ou menos o tempo do arquivo mais um café. O que ninguém te conta de cara é que a ferramenta certa depende de uma única pergunta: você precisa de um arquivo com timestamps para baixar, ou só do texto?

"Gerador de legendas" é usado para dois trabalhos bem diferentes, e a ferramenta errada te custa uma tarde inteira. O espaço se divide entre ferramentas de navegador que exportam arquivos com timing e ferramentas offline que fazem o mesmo de graça, desde que você não tenha medo de um terminal. Este guia explica como o fluxo funciona, quais ferramentas geram um arquivo .srt de verdade só a partir do áudio, o que SRT, VTT e TXT significam na prática e quando um app de ditado como o nosso é a escolha errada. Ao final, você vai saber qual ferramenta abrir para o seu entregável. A maior parte da confusão que leio na nossa caixa de suporte vem de pessoas que escolheram uma ferramenta de digitação quando precisavam de um arquivo de legenda. Um ano desses e-mails é, em grande parte, o motivo pelo qual este artigo existe.

Você precisa de timestamps, não só do texto

Um arquivo de legenda não é uma transcrição. Transcrição é só texto. Arquivo de legenda é texto mais timing. Cada bloco de legenda diz "mostre esta linha de 00:01:04 até 00:01:07." Esse timing é o trabalho todo. Ele permite que o player de vídeo exiba as palavras certas na tela no segundo certo.

A maioria das ferramentas de "voz para texto" — incluindo a nossa — entrega só palavras, nada mais. Colam um parágrafo limpo no seu cursor e param por aí. Um gerador de legendas a partir de áudio precisa fazer mais. Ele divide a fala em blocos curtos do tamanho de uma legenda, alinha cada bloco ao relógio do áudio e escreve tudo em um formato de arquivo rígido que um player consegue ler. Se o seu entregável é um arquivo para fazer upload no YouTube, num editor de vídeo ou numa plataforma de cursos, você precisa dos timestamps. Se o seu entregável é texto num documento, não precisa — e você não deveria pagar por uma ferramenta de legenda para isso.

Como gerar legendas a partir de um arquivo de áudio em três passos

Laptop rodando software de edição de áudio com fones de ouvido sobre uma mesa em um espaço de trabalho doméstico

O fluxo é praticamente o mesmo em quase todas as ferramentas, sejam elas web ou offline.

1

Faça upload ou aponte para o arquivo de áudio. A maioria das ferramentas aceita MP3, WAV, M4A e FLAC — sem precisar de vídeo. VEED aceita MP3, WAV, gravações de podcast, áudio de entrevistas e notas de voz. Se sua única fonte for um vídeo, a ferramenta extrai o áudio para você.

2

Deixe a ferramenta transcrever e marcar o tempo da fala. A ferramenta passa o áudio por um modelo de fala, divide o resultado em linhas do tamanho de uma legenda e carimba cada uma com um tempo de início e fim. A versão manual consome várias vezes a duração do áudio. A versão automática leva mais ou menos o tempo do arquivo.

3

Revise e exporte o arquivo. Leia a transcrição uma vez (a saída do modelo é boa, mas não perfeita), corrija os nomes que ficaram tortos e exporte. Aqui você escolhe o formato: SRT, VTT ou TXT simples.

Esse é o ciclo inteiro. As diferenças entre as ferramentas se resumem a preço, cobertura de idiomas, para onde vai o seu áudio e se o terceiro passo é gratuito.

SRT vs VTT vs TXT: qual arquivo você precisa

Três formatos aparecem em todo menu de exportação, e as pessoas escolhem o errado o tempo todo.

  • SRT (SubRip) é o arquivo de legenda padrão. É um arquivo de texto simples com blocos numerados, cada um com um intervalo de timecode e uma ou duas linhas de texto. YouTube, a maioria dos editores de vídeo e quase todos os players leem SRT. Se você não sabe qual escolher, escolha SRT.
  • VTT (WebVTT) é o primo web do SRT. Mesma ideia, sintaxe ligeiramente diferente, com suporte a estilos e posicionamento. Use VTT quando um site ou player de vídeo HTML5 pedir explicitamente por ele.
  • TXT são só as palavras, sem timestamps. Esse é o formato que você quer quando está escrevendo um artigo, alimentando um resumo ou citando uma entrevista. É também o único dos três que uma ferramenta de ditado simples consegue gerar.

Minha regra prática: SRT para vídeo, TXT para documentos, VTT quando uma plataforma web pede pelo nome. A maioria das ferramentas exporta os três: VEED, Kapwing e Descript.

As ferramentas que convertem áudio em arquivos de legenda

Veja onde cada ferramenta de navegador se encaixa, com as afirmações de capacidade tiradas diretamente da página de cada uma.

  • VEED é um gerador automático de legendas para web e mobile que transcreve a partir de um arquivo só de áudio e permite baixar o resultado como SRT, VTT ou TXT. Começa de graça. Baixar o arquivo de legenda e legendar vídeos mais longos requer um plano pago.
  • Kapwing anuncia "legendas com 99% de precisão, geradas em segundos." Esse é o número de marketing do próprio Kapwing, não um benchmark independente. Aceita qualquer arquivo de vídeo ou áudio, incluindo MP3, consegue traduzir legendas para mais de 100 idiomas e exporta SRT, VTT e TXT. Contas gratuitas têm até 10 minutos de legendas e uma marca d'água; o Pro remove a marca.
  • Descript gera legendas em mais de 22 idiomas, aceita arquivos só de áudio e exporta legendas suaves como SRT ou VTT pelo caminho Publicar, depois Exportar, depois Legendas. Funciona em modelo freemium com uma hora de mídia gratuita por mês.

Veja como essas quatro ferramentas se comparam nos aspectos que você consegue verificar antes de se comprometer. Sem números de precisão ou velocidade, porque ninguém as testou lado a lado com o mesmo áudio:

FerramentaPlataformaLocal ou nuvemFunciona offlineModelo de preçoIdiomasIdeal para
VEEDWeb, mobileNuvemNãoGrátis para começar, pago para exportarLista 40+ opções, sem total declaradoUma passagem rápida no navegador com download
KapwingWebNuvemNãoPlano gratuito (com marca d'água), ProTraduz para 100+Legendas rápidas mais tradução
DescriptWebNuvemNãoFreemium, uma hora de mídia gratuita22+Editar áudio e legendas juntos
OpenAI Whisper CLIWindows, macOS, LinuxLocalSimGrátis, código aberto99 multilíngue, 1 para builds .enGrátis, privado, sem upload

As três ferramentas de navegador enviam o seu áudio para o servidor de outra pessoa. Para um clipe de marketing, tudo bem. Para uma ligação gravada com um cliente ou qualquer coisa que tenha um valor salarial, continue lendo.

Essas ferramentas compartilham uma interface que tem mais ou menos esta cara:

interview-audio.mp3Legenda automática
SRTVTTTXTBaixar

Upload, clique em gerar, escolha um formato, baixe. Essa barra — não a nossa — é o que um gerador de legendas a partir de áudio parece.

Grátis e offline: gerando SRT com o Whisper de código aberto

Código em uma tela de computador no modo escuro, evocando um fluxo de trabalho de legendas na linha de comando

Se você prefere não fazer upload de nada, a ferramenta de linha de comando Whisper de código aberto da OpenAI escreve arquivos de legenda na sua própria máquina, de graça. O flag --output_format aceita txt, vtt, srt, tsv, json ou all, e o padrão é all. Então um único comando — whisper interview.mp3 --model turbo — produz um arquivo .srt offline, sem conta e sem upload.

O Whisper de código aberto é um projeto diferente do Whisper by Remskill, e vale deixar isso claro. É o modelo de linha de comando da OpenAI que roda no seu computador e gera arquivos de legenda com timing. Ele vem em seis tamanhos de modelo (tiny, base, small, medium, large e turbo), com variantes só para inglês nos quatro menores. Os modelos multilíngues cobrem 99 idiomas; as variantes .en são exclusivas para inglês.

Aqui vai uma opinião que vou defender: para qualquer coisa sensível, o áudio nunca deve sair do seu notebook. Uma avaliação de desempenho gravada, as anotações ditadas de um médico, um depoimento jurídico — nada disso tem lugar nos logs de processamento de um fornecedor só porque você precisava de timestamps.

Certa vez, vi uma equipe acumular uma fatura de IA em nuvem de cinco dígitos em um único trimestre, transcrevendo gravações de standup. A reação do CFO na reunião seguinte não foi "vamos otimizar o prompt". Foi "por que estamos enviando áudio de reuniões para um servidor?". O seu notebook já tem CPU e microfone. Para material privado, o Whisper CLI offline é a resposta — e não custa nada.

Existe uma versão local mais rápida chamada whisper.cpp, uma implementação em C/C++ puro do Whisper sem dependências que roda só na CPU com uma licença aberta. Pessoas relatam que ela também escreve arquivos de legenda, mas eu indicaria o Whisper CLI oficial da OpenAI para o caminho verificado do .srt e trataria o whisper.cpp como a melhoria de velocidade quando você já estiver confortável.

Quando o Whisper by Remskill é a ferramenta errada para isso

Pasted
O overlay do Whisper no seu estado completo — ele cola um parágrafo limpo no seu cursor, não um arquivo de legenda com timing. O widget azul fica sobre qualquer app.

Aqui está a parte que a maioria dos blogs de produto pula. Se o seu trabalho é um arquivo .srt ou .vtt para baixar, o nosso app é a ferramenta errada — e prefiro te dizer isso agora a desperdiçar o seu download.

O Whisper by Remskill é voltado para ditado. Você segura um atalho de teclado (Ctrl+Space no Windows, Command+Option no macOS), fala, solta, e a transcrição aparece no cursor, no app que estiver aberto. Ele não divide a fala em blocos de legenda, não alinha o texto ao relógio do áudio e não escreve um arquivo de legenda com timing. Alimente-o com uma entrevista e você vai receber um parágrafo limpo, não um SRT. Montei o menu de exportação na cabeça umas dez vezes e nunca lancei, porque legendas com timing são um produto em si — fazer isso mal não ajuda ninguém.

Use as ferramentas acima para arquivos de legenda. Recorra ao nosso app para o trabalho adjacente: transformar a sua própria fala em texto no momento em que você precisa. Um e-mail, um rascunho, uma legenda que você vai digitar numa publicação social à mão. Ele roda em dois motores em Rust puro — OpenAI Whisper e NVIDIA Parakeet — sem Python e sem upload. Trabalho diferente, ferramenta diferente. Escolher a certa é o ponto central deste artigo.

Antes de abrir qualquer coisa, responda à pergunta que decide tudo: você está entregando um arquivo ou entregando palavras? Um arquivo significa timestamps — ou seja, um gerador de legendas de verdade. VEED ou Kapwing para uma passagem rápida no navegador; o Whisper CLI para quem quer grátis e privado. Palavras significam uma transcrição — e essa é uma ferramenta diferente. Construí um app de ditado e ainda assim vou te mandar para outro lugar quando outro lugar é o certo. Semana passada, meu filho de sete anos me perguntou o que eu faço no trabalho, e a resposta honesta é que eu ajudo pessoas a parar de digitar — o que ele achou profundamente desinteressante. A tarde que você vai economizar é aquela que passei legendando aquele trecho de podcast à mão, três segundos de cada vez.

Quer a metade do ditado em vez disso?

Se o seu trabalho é texto no cursor — não um arquivo de legenda — o Whisper transforma a sua própria fala em texto no momento em que você precisa, totalmente offline.

Ditado local gratuito para todo usuário autenticado. Para arquivos de legenda, use as ferramentas acima.

Foto de Denys Medvediev

Denys Medvediev

Sou o que lê os e-mails de suporte — provavelmente ditando as respostas.

Leitura adicional