Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Por Denys Medvediev23 de abril de 2026

Tutorial

Áudio para legendas: o que funciona

Um gerador de legendas a partir de áudio converte um arquivo de som em um SRT ou VTT com marcações de tempo. Aqui está o fluxo de trabalho real, as ferramentas que realmente exportam o arquivo e a opção gratuita offline que nunca faz upload do seu áudio.

Última atualização: junho de 2026

Ondas de áudio exibidas em uma tela, ilustrando a conversão de um arquivo de som em uma trilha de legendas

Um gerador de legendas a partir de áudio recebe um arquivo de som — um MP3, um WAV ou a exportação de um podcast — e escreve um arquivo de legendas com marcações de tempo. Cada linha de texto traz um timestamp de início e fim. Ferramentas web como VEED, Kapwing e Descript fazem isso direto no navegador. A ferramenta gratuita de linha de comando OpenAI Whisper faz o mesmo offline, na sua própria máquina.

Certa vez, passei quarenta minutos legendando manualmente um trecho de dez minutos de podcast, pausando a cada três segundos para digitar e tentar adivinhar os timestamps. Tenho mestrado em engenharia de software. A conta não fecha de jeito nenhum. Legendar na mão consome várias vezes a duração do áudio. Um gerador de legendas moderno faz o mesmo trabalho em mais ou menos o tempo do arquivo mais um café. O que ninguém te conta de cara é que a ferramenta certa depende de uma única pergunta: você precisa de um arquivo com timestamps para baixar, ou só do texto?

"Gerador de legendas" é usado para dois trabalhos bem diferentes, e a ferramenta errada te custa uma tarde inteira. O espaço se divide entre ferramentas de navegador que exportam arquivos com timing e ferramentas offline que fazem o mesmo de graça, desde que você não tenha medo de um terminal. Este guia explica como o fluxo funciona, quais ferramentas geram um arquivo .srt de verdade só a partir do áudio, o que SRT, VTT e TXT significam na prática e quando um app de ditado como o nosso é a escolha errada. Ao final, você vai saber qual ferramenta abrir para o seu entregável. A maior parte da confusão que leio na nossa caixa de suporte vem de pessoas que escolheram uma ferramenta de digitação quando precisavam de um arquivo de legenda. Um ano desses e-mails é, em grande parte, o motivo pelo qual este artigo existe.

Você precisa de timestamps, não só do texto

Um arquivo de legenda não é uma transcrição. Transcrição é só texto. Arquivo de legenda é texto mais timing. Cada bloco de legenda diz "mostre esta linha de 00:01:04 até 00:01:07." Esse timing é o trabalho todo. Ele permite que o player de vídeo exiba as palavras certas na tela no segundo certo.

A maioria das ferramentas de "voz para texto" — incluindo a nossa — entrega só palavras, nada mais. Colam um parágrafo limpo no seu cursor e param por aí. Um gerador de legendas a partir de áudio precisa fazer mais. Ele divide a fala em blocos curtos do tamanho de uma legenda, alinha cada bloco ao relógio do áudio e escreve tudo em um formato de arquivo rígido que um player consegue ler. Se o seu entregável é um arquivo para fazer upload no YouTube, num editor de vídeo ou numa plataforma de cursos, você precisa dos timestamps. Se o seu entregável é texto num documento, não precisa — e você não deveria pagar por uma ferramenta de legenda para isso.

Como gerar legendas a partir de um arquivo de áudio em três passos

Laptop rodando software de edição de áudio com fones de ouvido sobre uma mesa em um espaço de trabalho doméstico

O fluxo é praticamente o mesmo em quase todas as ferramentas, sejam elas web ou offline.

Faça upload ou aponte para o arquivo de áudio. A maioria das ferramentas aceita MP3, WAV, M4A e FLAC — sem precisar de vídeo. VEED aceita MP3, WAV, gravações de podcast, áudio de entrevistas e notas de voz. Se sua única fonte for um vídeo, a ferramenta extrai o áudio para você.

Deixe a ferramenta transcrever e marcar o tempo da fala. A ferramenta passa o áudio por um modelo de fala, divide o resultado em linhas do tamanho de uma legenda e carimba cada uma com um tempo de início e fim. A versão manual consome várias vezes a duração do áudio. A versão automática leva mais ou menos o tempo do arquivo.

Revise e exporte o arquivo. Leia a transcrição uma vez (a saída do modelo é boa, mas não perfeita), corrija os nomes que ficaram tortos e exporte. Aqui você escolhe o formato: SRT, VTT ou TXT simples.

Esse é o ciclo inteiro. As diferenças entre as ferramentas se resumem a preço, cobertura de idiomas, para onde vai o seu áudio e se o terceiro passo é gratuito.

SRT vs VTT vs TXT: qual arquivo você precisa

Três formatos aparecem em todo menu de exportação, e as pessoas escolhem o errado o tempo todo.

SRT (SubRip) é o arquivo de legenda padrão. É um arquivo de texto simples com blocos numerados, cada um com um intervalo de timecode e uma ou duas linhas de texto. YouTube, a maioria dos editores de vídeo e quase todos os players leem SRT. Se você não sabe qual escolher, escolha SRT.
VTT (WebVTT) é o primo web do SRT. Mesma ideia, sintaxe ligeiramente diferente, com suporte a estilos e posicionamento. Use VTT quando um site ou player de vídeo HTML5 pedir explicitamente por ele.
TXT são só as palavras, sem timestamps. Esse é o formato que você quer quando está escrevendo um artigo, alimentando um resumo ou citando uma entrevista. É também o único dos três que uma ferramenta de ditado simples consegue gerar.

Minha regra prática: SRT para vídeo, TXT para documentos, VTT quando uma plataforma web pede pelo nome. A maioria das ferramentas exporta os três: VEED, Kapwing e Descript.

As ferramentas que convertem áudio em arquivos de legenda

Veja onde cada ferramenta de navegador se encaixa, com as afirmações de capacidade tiradas diretamente da página de cada uma.

VEED é um gerador automático de legendas para web e mobile que transcreve a partir de um arquivo só de áudio e permite baixar o resultado como SRT, VTT ou TXT. Começa de graça. Baixar o arquivo de legenda e legendar vídeos mais longos requer um plano pago.
Kapwing anuncia "legendas com 99% de precisão, geradas em segundos." Esse é o número de marketing do próprio Kapwing, não um benchmark independente. Aceita qualquer arquivo de vídeo ou áudio, incluindo MP3, consegue traduzir legendas para mais de 100 idiomas e exporta SRT, VTT e TXT. Contas gratuitas têm até 10 minutos de legendas e uma marca d'água; o Pro remove a marca.
Descript gera legendas em mais de 22 idiomas, aceita arquivos só de áudio e exporta legendas suaves como SRT ou VTT pelo caminho Publicar, depois Exportar, depois Legendas. Funciona em modelo freemium com uma hora de mídia gratuita por mês.

Veja como essas quatro ferramentas se comparam nos aspectos que você consegue verificar antes de se comprometer. Sem números de precisão ou velocidade, porque ninguém as testou lado a lado com o mesmo áudio:

Ferramenta	Plataforma	Local ou nuvem	Funciona offline	Modelo de preço	Idiomas	Ideal para
VEED	Web, mobile	Nuvem	Não	Grátis para começar, pago para exportar	Lista 40+ opções, sem total declarado	Uma passagem rápida no navegador com download
Kapwing	Web	Nuvem	Não	Plano gratuito (com marca d'água), Pro	Traduz para 100+	Legendas rápidas mais tradução
Descript	Web	Nuvem	Não	Freemium, uma hora de mídia gratuita	22+	Editar áudio e legendas juntos
OpenAI Whisper CLI	Windows, macOS, Linux	Local	Sim	Grátis, código aberto	99 multilíngue, 1 para builds .en	Grátis, privado, sem upload

As três ferramentas de navegador enviam o seu áudio para o servidor de outra pessoa. Para um clipe de marketing, tudo bem. Para uma ligação gravada com um cliente ou qualquer coisa que tenha um valor salarial, continue lendo.

Essas ferramentas compartilham uma interface que tem mais ou menos esta cara:

interview-audio.mp3Legenda automática

SRTVTTTXTBaixar

Upload, clique em gerar, escolha um formato, baixe. Essa barra — não a nossa — é o que um gerador de legendas a partir de áudio parece.

Grátis e offline: gerando SRT com o Whisper de código aberto

Código em uma tela de computador no modo escuro, evocando um fluxo de trabalho de legendas na linha de comando

Se você prefere não fazer upload de nada, a ferramenta de linha de comando Whisper de código aberto da OpenAI escreve arquivos de legenda na sua própria máquina, de graça. O flag --output_format aceita txt, vtt, srt, tsv, json ou all, e o padrão é all. Então um único comando — whisper interview.mp3 --model turbo — produz um arquivo .srt offline, sem conta e sem upload.

O Whisper de código aberto é um projeto diferente do Whisper by Remskill, e vale deixar isso claro. É o modelo de linha de comando da OpenAI que roda no seu computador e gera arquivos de legenda com timing. Ele vem em seis tamanhos de modelo (tiny, base, small, medium, large e turbo), com variantes só para inglês nos quatro menores. Os modelos multilíngues cobrem 99 idiomas; as variantes .en são exclusivas para inglês.

Aqui vai uma opinião que vou defender: para qualquer coisa sensível, o áudio nunca deve sair do seu notebook. Uma avaliação de desempenho gravada, as anotações ditadas de um médico, um depoimento jurídico — nada disso tem lugar nos logs de processamento de um fornecedor só porque você precisava de timestamps.

Certa vez, vi uma equipe acumular uma fatura de IA em nuvem de cinco dígitos em um único trimestre, transcrevendo gravações de standup. A reação do CFO na reunião seguinte não foi "vamos otimizar o prompt". Foi "por que estamos enviando áudio de reuniões para um servidor?". O seu notebook já tem CPU e microfone. Para material privado, o Whisper CLI offline é a resposta — e não custa nada.

Existe uma versão local mais rápida chamada whisper.cpp, uma implementação em C/C++ puro do Whisper sem dependências que roda só na CPU com uma licença aberta. Pessoas relatam que ela também escreve arquivos de legenda, mas eu indicaria o Whisper CLI oficial da OpenAI para o caminho verificado do .srt e trataria o whisper.cpp como a melhoria de velocidade quando você já estiver confortável.

Quando o Whisper by Remskill é a ferramenta errada para isso

Pasted

O overlay do Whisper no seu estado completo — ele cola um parágrafo limpo no seu cursor, não um arquivo de legenda com timing. O widget azul fica sobre qualquer app.

Aqui está a parte que a maioria dos blogs de produto pula. Se o seu trabalho é um arquivo .srt ou .vtt para baixar, o nosso app é a ferramenta errada — e prefiro te dizer isso agora a desperdiçar o seu download.

O Whisper by Remskill é voltado para ditado. Você segura um atalho de teclado (Ctrl+Space no Windows, Command+Option no macOS), fala, solta, e a transcrição aparece no cursor, no app que estiver aberto. Ele não divide a fala em blocos de legenda, não alinha o texto ao relógio do áudio e não escreve um arquivo de legenda com timing. Alimente-o com uma entrevista e você vai receber um parágrafo limpo, não um SRT. Montei o menu de exportação na cabeça umas dez vezes e nunca lancei, porque legendas com timing são um produto em si — fazer isso mal não ajuda ninguém.

Use as ferramentas acima para arquivos de legenda. Recorra ao nosso app para o trabalho adjacente: transformar a sua própria fala em texto no momento em que você precisa. Um e-mail, um rascunho, uma legenda que você vai digitar numa publicação social à mão. Ele roda em dois motores em Rust puro — OpenAI Whisper e NVIDIA Parakeet — sem Python e sem upload. Trabalho diferente, ferramenta diferente. Escolher a certa é o ponto central deste artigo.

Antes de abrir qualquer coisa, responda à pergunta que decide tudo: você está entregando um arquivo ou entregando palavras? Um arquivo significa timestamps — ou seja, um gerador de legendas de verdade. VEED ou Kapwing para uma passagem rápida no navegador; o Whisper CLI para quem quer grátis e privado. Palavras significam uma transcrição — e essa é uma ferramenta diferente. Construí um app de ditado e ainda assim vou te mandar para outro lugar quando outro lugar é o certo. Semana passada, meu filho de sete anos me perguntou o que eu faço no trabalho, e a resposta honesta é que eu ajudo pessoas a parar de digitar — o que ele achou profundamente desinteressante. A tarde que você vai economizar é aquela que passei legendando aquele trecho de podcast à mão, três segundos de cada vez.

Quer a metade do ditado em vez disso?

Se o seu trabalho é texto no cursor — não um arquivo de legenda — o Whisper transforma a sua própria fala em texto no momento em que você precisa, totalmente offline.

Veja como o Whisper funciona Ver preços

Ditado local gratuito para todo usuário autenticado. Para arquivos de legenda, use as ferramentas acima.

Denys Medvediev

Sou o que lê os e-mails de suporte — provavelmente ditando as respostas.

Leitura adicional

Perguntas frequentes

Sim. VEED, Kapwing, Descript e o Whisper CLI de código aberto transcrevem a partir de um arquivo de áudio: MP3, WAV, M4A, FLAC. Não é preciso nenhuma trilha de vídeo; a ferramenta faz o timing da fala sozinha.

Por Denys Medvediev23 de abril de 2026

Tutorial

Áudio para legendas: o que funciona

Última atualização: junho de 2026

Você precisa de timestamps, não só do texto

Como gerar legendas a partir de um arquivo de áudio em três passos

O fluxo é praticamente o mesmo em quase todas as ferramentas, sejam elas web ou offline.

Esse é o ciclo inteiro. As diferenças entre as ferramentas se resumem a preço, cobertura de idiomas, para onde vai o seu áudio e se o terceiro passo é gratuito.

SRT vs VTT vs TXT: qual arquivo você precisa

Três formatos aparecem em todo menu de exportação, e as pessoas escolhem o errado o tempo todo.

SRT (SubRip) é o arquivo de legenda padrão. É um arquivo de texto simples com blocos numerados, cada um com um intervalo de timecode e uma ou duas linhas de texto. YouTube, a maioria dos editores de vídeo e quase todos os players leem SRT. Se você não sabe qual escolher, escolha SRT.
VTT (WebVTT) é o primo web do SRT. Mesma ideia, sintaxe ligeiramente diferente, com suporte a estilos e posicionamento. Use VTT quando um site ou player de vídeo HTML5 pedir explicitamente por ele.
TXT são só as palavras, sem timestamps. Esse é o formato que você quer quando está escrevendo um artigo, alimentando um resumo ou citando uma entrevista. É também o único dos três que uma ferramenta de ditado simples consegue gerar.

Minha regra prática: SRT para vídeo, TXT para documentos, VTT quando uma plataforma web pede pelo nome. A maioria das ferramentas exporta os três: VEED, Kapwing e Descript.

As ferramentas que convertem áudio em arquivos de legenda

Veja onde cada ferramenta de navegador se encaixa, com as afirmações de capacidade tiradas diretamente da página de cada uma.

VEED é um gerador automático de legendas para web e mobile que transcreve a partir de um arquivo só de áudio e permite baixar o resultado como SRT, VTT ou TXT. Começa de graça. Baixar o arquivo de legenda e legendar vídeos mais longos requer um plano pago.
Kapwing anuncia "legendas com 99% de precisão, geradas em segundos." Esse é o número de marketing do próprio Kapwing, não um benchmark independente. Aceita qualquer arquivo de vídeo ou áudio, incluindo MP3, consegue traduzir legendas para mais de 100 idiomas e exporta SRT, VTT e TXT. Contas gratuitas têm até 10 minutos de legendas e uma marca d'água; o Pro remove a marca.
Descript gera legendas em mais de 22 idiomas, aceita arquivos só de áudio e exporta legendas suaves como SRT ou VTT pelo caminho Publicar, depois Exportar, depois Legendas. Funciona em modelo freemium com uma hora de mídia gratuita por mês.

Ferramenta	Plataforma	Local ou nuvem	Funciona offline	Modelo de preço	Idiomas	Ideal para
VEED	Web, mobile	Nuvem	Não	Grátis para começar, pago para exportar	Lista 40+ opções, sem total declarado	Uma passagem rápida no navegador com download
Kapwing	Web	Nuvem	Não	Plano gratuito (com marca d'água), Pro	Traduz para 100+	Legendas rápidas mais tradução
Descript	Web	Nuvem	Não	Freemium, uma hora de mídia gratuita	22+	Editar áudio e legendas juntos
OpenAI Whisper CLI	Windows, macOS, Linux	Local	Sim	Grátis, código aberto	99 multilíngue, 1 para builds .en	Grátis, privado, sem upload

Essas ferramentas compartilham uma interface que tem mais ou menos esta cara:

interview-audio.mp3Legenda automática

SRTVTTTXTBaixar

Upload, clique em gerar, escolha um formato, baixe. Essa barra — não a nossa — é o que um gerador de legendas a partir de áudio parece.

Grátis e offline: gerando SRT com o Whisper de código aberto

Quando o Whisper by Remskill é a ferramenta errada para isso

Pasted

O overlay do Whisper no seu estado completo — ele cola um parágrafo limpo no seu cursor, não um arquivo de legenda com timing. O widget azul fica sobre qualquer app.

Quer a metade do ditado em vez disso?

Se o seu trabalho é texto no cursor — não um arquivo de legenda — o Whisper transforma a sua própria fala em texto no momento em que você precisa, totalmente offline.

Veja como o Whisper funciona Ver preços

Ditado local gratuito para todo usuário autenticado. Para arquivos de legenda, use as ferramentas acima.

Denys Medvediev

Sou o que lê os e-mails de suporte — provavelmente ditando as respostas.

Áudio para legendas: o que funciona

Você precisa de timestamps, não só do texto

Como gerar legendas a partir de um arquivo de áudio em três passos

SRT vs VTT vs TXT: qual arquivo você precisa

As ferramentas que convertem áudio em arquivos de legenda

Grátis e offline: gerando SRT com o Whisper de código aberto

Quando o Whisper by Remskill é a ferramenta errada para isso

Quer a metade do ditado em vez disso?

Leitura adicional

Perguntas frequentes

Digitação por voz no Word

O atalho de digitação por voz em todo sistema operacional

Alternativa à digitação por voz do Google: dite em qualquer lugar

Áudio para legendas: o que funciona

Você precisa de timestamps, não só do texto

Como gerar legendas a partir de um arquivo de áudio em três passos

SRT vs VTT vs TXT: qual arquivo você precisa

As ferramentas que convertem áudio em arquivos de legenda

Grátis e offline: gerando SRT com o Whisper de código aberto

Quando o Whisper by Remskill é a ferramenta errada para isso

Quer a metade do ditado em vez disso?

Leitura adicional

Perguntas frequentes

Digitação por voz no Word

O atalho de digitação por voz em todo sistema operacional

Alternativa à digitação por voz do Google: dite em qualquer lugar

Áudio para legendas: o que funciona

Você precisa de timestamps, não só do texto

Como gerar legendas a partir de um arquivo de áudio em três passos

SRT vs VTT vs TXT: qual arquivo você precisa

As ferramentas que convertem áudio em arquivos de legenda

Grátis e offline: gerando SRT com o Whisper de código aberto

Quando o Whisper by Remskill é a ferramenta errada para isso

Quer a metade do ditado em vez disso?

Leitura adicional

Perguntas frequentes

Continue lendo

Digitação por voz no Word

O atalho de digitação por voz em todo sistema operacional

Alternativa à digitação por voz do Google: dite em qualquer lugar

Áudio para legendas: o que funciona

Você precisa de timestamps, não só do texto

Como gerar legendas a partir de um arquivo de áudio em três passos

SRT vs VTT vs TXT: qual arquivo você precisa

As ferramentas que convertem áudio em arquivos de legenda

Grátis e offline: gerando SRT com o Whisper de código aberto

Quando o Whisper by Remskill é a ferramenta errada para isso

Quer a metade do ditado em vez disso?

Leitura adicional

Perguntas frequentes

Continue lendo

Digitação por voz no Word

O atalho de digitação por voz em todo sistema operacional

Alternativa à digitação por voz do Google: dite em qualquer lugar