Por Denys Medvediev

Tutorial

Transcrever vídeos do YouTube: 3 jeitos

Três métodos cobrem quase tudo: abra o painel de transcrição do próprio vídeo, cole o link em um gerador gratuito ou dite suas próprias anotações por voz. Os dois primeiros precisam apenas de um navegador.

Última atualização: junho de 2026

Notebook rodando um software de edição de vídeo sobre uma mesa moderna, um ambiente para transformar vídeo em texto

Para transcrever vídeos do YouTube, três métodos cobrem quase tudo: abra o painel Mostrar transcrição do próprio vídeo, disponível em qualquer vídeo com legendas; cole o link em um gerador de transcrição online gratuito para um texto mais limpo e com opção de download; ou capture e dite suas próprias anotações com uma ferramenta de desktop. Os dois primeiros precisam apenas de um navegador.

Semana passada gastei vinte minutos tentando copiar três frases de uma palestra de quarenta minutos. Não a palestra inteira. Três frases, ditas por volta dos dezoito minutos, que eu queria citar em um e-mail. Eu avançava e voltava como se estivesse desarmando uma bomba. A verdade chata é que a maioria das pessoas que procuram uma ferramenta para transcrever vídeos do YouTube não precisa da transcrição inteira. Elas precisam ler em vez de assistir, pegar uma citação ou transformar um vídeo em anotações que possam pesquisar depois.

Vídeos do YouTube se acumulam em abas do mesmo jeito que livros não lidos se acumulam na estante, e assistir a um deles em velocidade normal é a forma mais lenta de extrair informação dele. Hoje, os resultados de busca para isso são uma parede de widgets de colar-um-link, todos quase iguais, todos prometendo transcrições gratuitas em segundos. A maioria funciona bem. A questão é qual método combina com o que você está fazendo. Este guia mostra três: a transcrição embutida do próprio YouTube, os geradores que pedem só a URL e uma ferramenta de ditado de desktop para a parte que esses geradores não alcançam. No fim, você vai saber qual escolher em menos de dez segundos, e não vai mais arrastar a linha do tempo com o maxilar cerrado. Eu leio nosso e-mail de suporte, então já vi muita gente escolher a opção errada primeiro. Geralmente logo depois de eu mesmo ter escolhido a errada.

O jeito gratuito já está dentro do YouTube

Transcript··· Toggle timestamps
0:00so the thing people get wrong about this is
0:04you don't actually need the whole transcript
0:09you need three sentences and a way to find them
0:14which is what the panel on the right is for
O painel Mostrar transcrição do próprio YouTube — gratuito, instantâneo e já no seu navegador.

Se o vídeo tem legendas, você já tem a transcrição. Não precisa de ferramenta, de conta, nem de cartão de crédito. Abra o vídeo, procure a área de descrição abaixo dele e clique em Mostrar transcrição. Um painel abre ao lado do player com o texto completo e, conforme o vídeo toca, o painel rola até a linha que está sendo falada. Clique em qualquer linha e o vídeo pula para aquele momento.

Esse é o método que a maioria dos artigos enterra lá no fim, provavelmente porque não há nada para vender em torno dele. Funciona no desktop e no celular. O detalhe: o vídeo precisa ter legendas em primeiro lugar. A maioria dos canais populares tem, geradas automaticamente ou adicionadas por quem subiu o vídeo, mas um upload antigo de um criador pequeno pode não ter.

Confira se deu certo: o painel de transcrição mostra um texto que rola no mesmo ritmo do áudio. Se ele nem abrir, o vídeo não tem legendas e você parte para o método dois.

Mais uma coisa que as pessoas deixam passar. O painel de transcrição tem um pequeno menu para desativar os carimbos de tempo, o que deixa o texto bem mais fácil de copiar como prosa limpa. Esse botão fica no painel, não na documentação de suporte. É amplamente documentado, mas não na página oficial de ajuda do YouTube. Vale saber antes de colar uma parede de números num documento.

Cole um link, ganhe um texto mais limpo

Quando você quer a transcrição fora do YouTube (para baixá-la, passar por um resumidor ou ler um vídeo que dificulta no painel embutido), um gerador gratuito que pede só a URL é o caminho. O formato é sempre o mesmo. Copie a URL do YouTube, cole numa caixa e receba o texto de volta.

Gerador de Transcrição do YouTube
A transcrição aparece aqui — copie ou baixe como .txt
Um gerador de transcrição típico, daqueles que pedem só a URL, reduzido à parte que importa.

O gerador gratuito de transcrição do YouTube da Tactiq aceita uma URL colada, não pede instalação, login nem e-mail, e deixa você baixar o resultado como arquivo .txt. Ele é honesto ao avisar que o reconhecimento automático de fala nem sempre é 100% preciso, o que é a coisa certa a dizer. O gerador da NoteGPT faz o mesmo truque de colar-um-link, devolve uma transcrição com carimbos de tempo, suporta vários idiomas, deixa você copiar com ou sem os carimbos de tempo e ainda inclui resumo por IA. O resultado número um, o youtubetotranscript.com, anuncia no seu FAQ tradução, limites de duração e uma API. Trate isso como anunciado, não como testado.

Confira se deu certo: você consegue selecionar, copiar ou baixar o texto da transcrição. Se a ferramenta travar ou não devolver nada, normalmente é porque o vídeo não tem legendas para puxar. Esses geradores leem a faixa de legendas que já existe no YouTube; eles não escutam o áudio.

Essa última frase é toda a limitação. E é aí que entra o terceiro método.

O que as ferramentas de link não conseguem fazer

Todo método acima depende de o YouTube ter uma faixa de legendas para entregar. Sem legendas, sem transcrição. Isso cobre a maioria dos vídeos públicos, mas deixa uma lacuna: áudio que não é um vídeo público do YouTube. Um link privado que alguém compartilhou com você. Uma transmissão ao vivo ainda sem legendas. Um trecho dentro do player de um curso. Suas próprias gravações antes de você subir.

E deixa uma segunda lacuna, mais silenciosa. Às vezes você não quer as palavras do vídeo. Você quer as suas palavras sobre o vídeo. A anotação que faria enquanto assiste. O resumo no seu próprio jeito de falar. As três frases que ditaria a um colega para explicar por que aquela palestra importa.

É aqui que uma ferramenta de voz de desktop ganha seu espaço, e vale ser preciso sobre o que ela faz e o que não faz. Whisper by Remskill é um aplicativo de ditado acionado por atalho. Pressione o atalho, fale no microfone e suas palavras aparecem como texto no cursor, em qualquer aplicativo em que você esteja. Ele não pega um link do YouTube e transcreve o vídeo por você. Esse é o trabalho dos geradores de colar-um-link, não o nosso. O que ele faz é deixar você assistir a um vídeo e capturar suas próprias anotações falando em vez de digitar, que, para muita gente, é a tarefa de verdade escondida por trás de "transcrever este vídeo".

Fale suas anotações enquanto o vídeo toca

Aqui está o fluxo que eu uso. Toque o vídeo. Quando aparecer algo que vale guardar, segure o atalho, diga a anotação em voz alta, solte. O texto aparece no seu documento. Sem trocar de aba, sem pausar para digitar, sem perder o fio da meada.

No Windows, o atalho padrão é Ctrl+Space. No macOS, é um acorde push-to-talk só com modificadores: segure Command+Option juntos e solte qualquer uma das teclas para parar. Você pode mudar isso em Configurações se entrar em conflito com outra coisa. A sobreposição de gravação mostra que está ouvindo, então você nunca fica na dúvida se ela captou o que você disse.

Cancel
A sobreposição de gravação do Whisper enquanto você dita uma anotação — ela mostra que está ouvindo.

A transcrição funciona de dois jeitos, e você escolhe. O modo local roda na sua própria máquina por meio de dois motores em puro Rust: o OpenAI Whisper, com modelos de cerca de 140 MB até uns 3 GB e 99 idiomas nas variantes multilíngues, e o NVIDIA Parakeet TDT, um único modelo de ~600 MB que cobre 25 idiomas (inglês mais 24 europeus), o mais rápido dos dois. No modo local, nada sai do seu notebook. O modo nuvem usa sua própria chave da OpenAI, empregando o gpt-4o-mini-transcribe ou o gpt-4o-transcribe para a transcrição de fala, para quando você quer os modelos mais recentes e acesso à web.

O pipeline local é gratuito para qualquer usuário com login; a nuvem é a camada Whisper Pro.

Esta é a parte em que eu admito meu próprio viés. A maioria das ferramentas de produtividade são problemas de digitação disfarçados. Um app de notas, um gerenciador de área de transferência, um segundo cérebro com onze bancos de dados aninhados: por baixo de tudo isso está o mesmo ato de mover os dedos pelas teclas para capturar algo que você já sabe dizer. O ditado pula o teclado. Falar gira em torno de 145 palavras por minuto contra cerca de 40 da digitação, então uma anotação de vídeo que levaria um minuto para digitar leva uns quinze segundos para ser dita. A solução para um problema de digitação geralmente não é um app mais bonito. É não digitar.

Confira se deu certo: você consegue assistir ao vídeo inteiro e terminar com uma página de anotações sem nunca tocar no teclado, exceto para rolar.

Carimbos de tempo, arquivos SRT e outros idiomas

Três coisas que as pessoas pedem e que não vêm todas do mesmo lugar, então deixa eu organizar.

Carimbos de tempo. O painel embutido do YouTube e a NoteGPT entregam linhas com carimbos de tempo que você pode copiar com ou sem os números. Se você quer carimbos de tempo amarrados às legendas que o vídeo já tem, use esses. Uma ferramenta de ditado por microfone não sabe em que ponto você está no vídeo de outra pessoa.

Arquivos de legenda SRT e VTT. Isso é um trabalho de exportação de legendas. A própria API de transcrição de fala da OpenAI consegue gerar os formatos srt e vtt com o modelo whisper-1, e ferramentas de edição como o Descript produzem arquivos de legenda a partir da mídia que você sobe. O Whisper by Remskill cola texto puro no cursor. Ele foi feito para colocar palavras nos seus aplicativos, não para criar um arquivo .srt. Ferramenta certa, trabalho certo.

Outros idiomas. Os geradores de colar-um-link lidam com vários idiomas a partir da faixa de legendas do YouTube. Se você está ditando suas próprias anotações multilíngues, o motor Whisper local cobre 99 idiomas em seus modelos multilíngues e consegue traduzir a fala para o inglês; o Parakeet cobre 25 e não traduz. Para a configuração de ditado passo a passo, o guia do app de voz para texto explica tudo.

Entrevistas e conversas gravadas. O mesmo fluxo de soltar-o-arquivo dá conta de entrevistas gravadas, em que você normalmente quer um texto limpo dos interlocutores de uma conversa longa. Nosso guia sobre como transcrever entrevistas automaticamente cobre esse caso específico de ponta a ponta.

Whisper
O app Whisper de verdade — os controles de idioma e tradução ficam em Configurações. Explore à vontade.

Quando pular o Whisper por completo

Se seu único objetivo é ler um vídeo público do YouTube como texto, pule o Whisper sem pensar duas vezes. A transcrição embutida do YouTube é gratuita, instantânea e já está instalada no seu navegador.

Se você precisa de um arquivo para baixar ou de uma cópia mais limpa, um gerador gratuito como a Tactiq faz isso sem conta e sem e-mail, e exporta um .txt.

Se você está colocando legendas em um vídeo que está editando, um editor robusto como o Descript (que anuncia mais de 30 idiomas e até 95% de precisão em mídia enviada) é a categoria certa, não nós. Nós somos para a parte que essas ferramentas não tocam: capturar suas próprias palavras, por voz, enquanto você assiste.

Na tarde em que perdi vinte minutos por causa de três frases, minha filha mais velha passou, me viu arrastar os mesmos dez segundos pela quarta vez e perguntou por que eu não lia logo. Eu disse que o vídeo não vinha com transcrição. Ela disse que hoje tudo tem transcrição, pai, e foi fazer a lição de casa de que ela arrumaria um jeito de escapar uma hora depois. Ela estava quase certa. A transcrição normalmente já está lá: embaixo do vídeo, atrás de um link ou a um atalho de distância, nas suas próprias palavras.

Experimente no seu próximo vídeo

Baixe o Whisper e dite sua próxima rodada de anotações de vídeo em vez de digitá-las.

Gratuito para todo o pipeline local. Sem cartão no cadastro.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura complementar