Guia
Apps de transcrição de aulas, explicados
Captura ao vivo ou autoditado: de onde vem o áudio e por que a escolha entre local e nuvem merece mais atenção do que os estudantes costumam dar.
Última atualização: junho de 2026

Um app de transcrição de aulas converte aulas faladas em texto pesquisável — seja capturando o áudio ao vivo ou transcrevendo uma gravação depois. Algumas ferramentas gravam o ambiente e processam tudo na nuvem. Outras, como o Whisper, transcrevem o que você dita diretamente no seu dispositivo com uma tecla de ativação. A escolha certa depende de qual voz você quer capturar e onde o áudio é processado.
No semestre passado, um estudante me mandou a gravação de uma aula de química orgânica de 90 minutos e perguntou por que o app de transcrição tinha transformado "enantiômero" em "uma anti-mor". Boa pergunta. A resposta honesta é que a maioria dos apps de aula está tentando resolver o mesmo problema difícil: transformar o áudio ruidoso de uma sala com um professor distante em texto limpo. O que diferencia esses apps é para onde o áudio vai e quem fica com ele. Uma aula de 90 minutos é o pior cenário possível: distância, eco, jargão técnico e um microfone projetado para videochamadas.
Os estudantes já querem transcrição confiável de aulas há anos, e os apps de anotação integrados sempre ficaram a um passo do inútil para gravações curtas. Em 2026, essa lacuna diminuiu. Vários apps já conseguem transformar uma aula completa em transcrição pesquisável com resumo — e alguns rodam diretamente no seu notebook, sem nada sair dele. Este artigo cobre a diferença entre gravar uma aula ao vivo e ditar suas próprias anotações, de onde vem o áudio, e por que a escolha entre local e nuvem merece mais atenção do que os estudantes costumam dar. Ao final, você vai saber qual tipo de ferramenta se encaixa na sua realidade. Eu leio boa parte dos e-mails de suporte que recebemos dos estudantes, e a verdade é que a maioria vem de quem escolheu a categoria errada de app no primeiro dia. Essa pilha de tickets é, de certa forma, o motivo pelo qual este artigo existe.
Três tipos de estudante vão atrás de um app de transcrição de aulas: o que tem a mão calejada depois de 20 minutos de anotações, o que se distrai e quer um apoio, e o que estuda em um idioma que não é o seu. Os três estão resolvendo o mesmo problema — acompanhar um ser humano falando — e os três estão prestes a descobrir que "app de transcrição" significa duas coisas completamente diferentes.
Gravar a aula e obter texto limpo. É só isso.
Tire o marketing de cena e todo app de transcrição de aulas faz uma coisa só: pega o áudio de alguém falando e devolve um texto que você pode pesquisar, citar e estudar. O professor fala, o app ouve, as palavras aparecem na página. As diferenças entre as ferramentas estão nos detalhes: se o áudio é capturado ao vivo ou depois, se é processado em um servidor ou no seu dispositivo, e como o app refina o resultado.
O Whisper by Remskill cuida da parte do ditado. Você segura um atalho de teclado, fala e a transcrição é colada no cursor, em qualquer app que estiver usando — seja o Notion, o Word, um Google Doc ou um e-mail. No Windows, o atalho padrão é Ctrl+Space. No macOS, é o atalho push-to-talk Command+Option: segure para gravar, solte para parar. Depois de soltar, o microfone permanece ativo por um buffer de 500 milissegundos para que a última palavra não seja cortada. Não tem passo de "entrar na reunião" nem espera de upload. Você fala e, um ou dois segundos depois, o texto aparece.
Essa distinção importa mais para aulas do que para a maioria dos casos de uso — e esse é o próximo ponto que vale entender.
Capturar ao vivo e ditar suas próprias anotações são coisas diferentes

Aqui está a divisão que confunde a maioria dos estudantes. Alguns apps foram criados para capturar uma aula ao vivo: eles gravam o ambiente ou entram em uma chamada do Zoom e transcrevem a voz do professor para você. Outros foram criados para você ditar — com a sua própria voz — as anotações e resumos que quer registrar. Os dois geram uma transcrição. Mas não são intercambiáveis.
O Whisper está no segundo grupo. Ele transcreve o que o microfone capta enquanto você fala. Isso é ótimo para a parte dos estudos que vem depois da aula: ditar seu resumo enquanto ainda está fresco, falar em voz alta enquanto resolve um exercício, regravar sua própria explicação de um conceito, ou rascunhar um e-mail para o grupo de estudos. Ele não é um bot que fica na sala e captura o professor por você. Se você precisa de captura ao vivo de outra pessoa sem nenhuma intervenção sua, um gravador feito pra isso é a melhor escolha — e vou indicar alguns mais adiante, na seção honesta.
A verdade simples é que a transcrição mais precisa de uma aula é aquela em que a fala acontece perto de um bom microfone. Quando você dita seu resumo, a boca fica a 20 centímetros do mic. Quando você grava o professor, a boca dele está a 20 metros de distância, atrás de um púlpito, competindo com o barulho do ar-condicionado. Mesmo software, dois mundos completamente diferentes de resultado.
De onde vem o áudio da aula

Toda transcrição começa com um microfone, e um anfiteatro é onde bons microfones vão sofrer. O áudio pode vir de três lugares. O primeiro é o microfone embutido do notebook, calibrado para a pessoa sentada bem na frente dele — ótimo para ditar suas próprias anotações, péssimo para um professor do outro lado de uma sala com 200 lugares. O segundo é o áudio de loopback do sistema, o som que sai dos seus alto-falantes — é o que você capturaria durante uma aula ao vivo no Zoom ou uma aula gravada online. O terceiro é um microfone externo dedicado, posicionado perto da fonte.
O posicionamento do microfone é o maior fator de precisão, e não é o modelo. Um microfone USB de $20 faz mais pela transcrição do que qualquer upgrade de modelo. Já vi estudantes debatendo qual app é "mais preciso" enquanto ditavam no microfone do notebook num café barulhento. O app nunca foi o problema. O áudio era.
Para uma aula online ou no Zoom, capturar o loopback funciona bem porque o áudio já chega por canais digitais limpos. Para uma sala grande presencial, o caminho realista é gravar perto da fonte — sente-se na frente ou use um microfone de lapela — e transcreva depois. Nenhum app transforma uma gravação com áudio ruim em uma transcrição perfeita. Eles transformam bom áudio em ótimo texto, e áudio ruim em "uma anti-mor".
Transcrição local e na nuvem traçam uma linha de privacidade que os estudantes deveriam enxergar
A maioria das comparações de apps de aula pula essa parte, mas é a que eu mais levaria em conta se fosse estudante. Onde o áudio é processado? Duas respostas. Ferramentas na nuvem enviam sua gravação para um servidor, transcrevem lá e devolvem o texto. Ferramentas locais fazem tudo no seu notebook, sem nada sair da máquina.
Entre nós, a transcrição de aulas exclusivamente na nuvem é uma decisão de privacidade que as pessoas tomam sem perceber que estão tomando. A gravação do seu professor — as palavras dele, a pesquisa ainda não publicada, o comentário sobre a prova que está chegando — ficando nos logs de um fornecedor é algo pequeno até deixar de ser. Local primeiro, ou nem começa. É uma afirmação mais forte do que costumo fazer, e vou fundamentar: quando uma gravação fica apenas no seu notebook, não há violação de servidor que possa vazar, nenhuma mudança nos termos de uso que conceda direitos de treinamento sem você saber, nenhuma conta esquecida para deletar.
O Whisper roda transcrição local em Rust puro, sem sidecar Python, usando dois mecanismos à sua escolha. O Whisper Local oferece vários tamanhos de modelo — de um modelo Base em torno de 140 MB até um Large v3 multilíngue com cerca de 3 GB — e as variantes multilíngues cobrem 99 idiomas com tradução para o inglês. O NVIDIA Parakeet tem um único modelo de cerca de 600 MB, cobre inglês mais 24 idiomas europeus (25 no total) e roda de 5 a 10 vezes mais rápido que o Whisper em CPU — mas não traduz nem suporta idiomas asiáticos. Se você quiser a melhor qualidade e acesso à web, há também um modo Cloud que usa sua própria chave OpenAI. O pipeline local completo é gratuito para qualquer usuário logado, sem cartão no cadastro; o Cloud é um complemento pago. O app funciona também sem internet alguma, e tem um guia completo no nosso guia de reconhecimento de voz offline se essa for sua principal preocupação.
Os outros apps de aula que valem conhecer
O Whisper é uma ferramenta de ditado, não um bot para gravar a sala — então, para captura ao vivo de aulas, o movimento honesto é indicar os apps feitos para isso. Veja como as opções mais comuns se diferenciam, com números reais onde uma fonte primária os forneceu.
| App | Para que foi criado | Onde o áudio é processado | Plano gratuito na prática | Idiomas |
|---|---|---|---|---|
| Whisper by Remskill | Ditar suas próprias anotações e resumos | Local (Whisper ou Parakeet) ou Cloud com chave própria | Pipeline local completo grátis, sem cartão | 99 no Whisper multilíngue; 25 no Parakeet |
| Otter | Gravar e resumir reuniões e aulas ao vivo | Nuvem | 300 min/mês, limite de 30 min por gravação | Não informado pela fonte |
| Apple Voice Memos | Gravar uma aula e ler a transcrição depois | Apple (integrado) | Já incluído no macOS | Não informado pela fonte |
| Notta | Assistente de reuniões com IA na nuvem | Nuvem | Preços não verificados | Dezenas, segundo a própria Notta |
Algumas linhas merecem um comentário. O plano Basic gratuito do Otter oferece 300 minutos de transcrição por mês com um limite de 30 minutos por gravação — o que significa que uma única aula de 90 minutos não cabe em uma única gravação gratuita. O Apple Voice Memos consegue gravar áudio e exibir a transcrição depois, então, para estudantes com Mac, é uma opção genuína de "gravar a aula e ler mais tarde" que já está instalada. A Notta afirma suportar dezenas de idiomas, mas não consegui abrir a página de preços para verificar os limites de minutos — então trate os detalhes do plano como "confira antes de se comprometer".
Quando não usar o Whisper para aulas
Se o que você precisa é colocar uma ferramenta na frente de um professor ao vivo e sair de lá com as palavras dele, o Whisper não é a escolha. Nós transcrevemos o que você dita, não o que alguém do outro lado da sala fala. Para captura automática ao vivo, use um gravador feito para isso. No Mac, o Apple Voice Memos grava o ambiente e exibe a transcrição de graça, já instalado. Se você quer captura ao vivo de reuniões com identificação de falantes e resumos, o Otter foi criado para isso. O plano gratuito cobre 300 minutos por mês, mas o limite de 30 minutos por gravação significa que uma aula completa exige o plano pago. Use o Whisper para os estudos que acontecem depois da aula: o resumo que você dita, o problema que você pensa em voz alta, o e-mail que você dispara enquanto faz o jantar.
Transcrição local grátis, Pro para a superfície Cloud
É a parte que os estudantes mais perguntam: quanto custa. Toda a parte local do Whisper — os dois modelos, o refinamento por IA via modelo local, histórico, atalho personalizado, downloads de modelos — é gratuita para qualquer usuário logado, sem precisar de método de pagamento no cadastro. Isso é intencional. A transcrição local roda na CPU do seu próprio notebook. Cobrar uma mensalidade por um processamento que você já pagou nunca fez sentido.
O plano pago, o Whisper Pro, adiciona a superfície Cloud: transcrição em nuvem via OpenAI, refinamento por IA na nuvem e pesquisa web por voz. É a parte que tem custo por uso do lado da OpenAI e um servidor no processo, então fica atrás de uma assinatura com um teste Cloud curto. Os valores exatos estão na página de preços. Para ditado puro de estudos, a maioria dos estudantes nunca sai do plano local gratuito. Esse é o ponto.
Em uma terça-feira à noite no semestre passado, eu estava fazendo as lancheiras (sanduíche, fruta, o iogurte que a menor se recusa a comer) quando minha filha mais velha precisava de uma resposta para a professora sobre uma visita técnica. Peguei o notebook com uma mão só, segurei o atalho e ditei o e-mail entre fatias de pepino: parei para perguntar como se escrevia o nome da professora, parei de novo quando a caçula quis saber por que a lua some às vezes, continuei. O e-mail foi. As lancheiras ficaram prontas. Minha letra, por sinal, não teria garantido nenhum dos dois. É essa versão de transcrição que cabe em uma vida real — não um bot em um anfiteatro, mas uma voz que acompanha você enquanto suas mãos estão ocupadas. Escolha a ferramenta que combina com o trabalho, e vá estudar. Veja como o Whisper funciona.
Quer testar na sua próxima sessão de estudos?
Baixe o Whisper, segure o atalho e dite o resumo da aula enquanto ainda está fresco. O pipeline local completo é gratuito.
Transcrição local gratuita para qualquer conta logada — sem cartão no cadastro.



