Por Denys Medvediev

Guia

Transcrição em tempo real, explicada

Dois aplicativos carregam o mesmo nome e fazem coisas opostas. Veja como distinguir legendas ao vivo de ditado quase instantâneo, e escolha o que resolve o seu problema de verdade.

Última atualização: junho de 2026

Vista de cima de uma pessoa anônima digitando em um notebook sobre uma mesa, evocando ditado rápido por atalho de teclado

Um aplicativo de transcrição em tempo real converte palavras faladas em texto no momento em que você fala, sem etapas de upload ou espera. Existem dois tipos: legendas ao vivo contínuas que transmitem uma transcrição durante reuniões, e ditado quase instantâneo que transcreve ao soltar um atalho e cola no cursor. O que você precisa depende de se está acompanhando uma conversa ou escrevendo algo.

Uma equipe de finanças com a qual trabalhei certa vez criou sua própria ferramenta de "transcrição em tempo real". Um prestador de serviços conectou o GPT-4 ao microfone de cada notebook e deixou rodando. No fim do trimestre, o gerente abriu o painel da nuvem e se deparou com uma fatura de cinco dígitos. Boa parte vinha de uma equipe que tinha transcrito as gravações do standup quatro vezes seguidas, por causa de uma lógica de "nova tentativa inteligente" que era zelosa demais. O prestador disse que precisavam otimizar o prompt. O CFO disse algo bem mais curto. A expressão "transcrição em tempo real" tinha significado coisas diferentes para cada um deles.

Essa confusão é o problema central dessa categoria. Duas pessoas dizem "aplicativo de transcrição em tempo real" e estão falando de duas ferramentas completamente diferentes. Uma quer ver as palavras rolando na tela enquanto um colega fala numa videochamada. A outra quer segurar uma tecla, ditar uma frase, soltar e ver o texto aparecer no e-mail que já está redigindo. Este artigo esclarece cada caso, mostra como a versão local e rápida funciona e explica quando usar uma ferramenta de reuniões no lugar. No final, você vai saber qual categoria resolve o seu problema. A maioria das pessoas escolhe a errada na primeira tentativa. Eu sei disso porque boa parte dos e-mails de suporte que leio vem de pessoas que fizeram exatamente isso, e passei o primeiro mês respondendo cada um na mão antes de me dar ao trabalho de explicar a diferença logo de cara.

A distinção importa porque os dois designs se destacam em tarefas opostas. As legendas ao vivo são feitas para nunca parar. Acompanham uma reunião por uma hora enquanto você lê. O ditado é feito para acabar rápido: você fala por quinze segundos, o texto aparece e você continua trabalhando. Um e-mail de vendas frio tem doze variações de oitenta palavras — cerca de doze minutos por voz contra quarenta e cinco minutos digitando. O resumo de uma aula é uma gravação de noventa minutos condensada em uma nota de seiscentas palavras. O mesmo termo na barra de busca, duas ferramentas completamente diferentes.

O que 'tempo real' realmente significa

Interface de áudio digital exibindo uma onda sonora vibrante, representando a fala capturada e convertida em tempo real

Existem duas definições honestas de "tempo real", e os aplicativos que as reivindicam se dividem em dois grupos.

O primeiro é a legenda ao vivo contínua. A transcrição aparece palavra por palavra enquanto o áudio ainda está sendo reproduzido: uma reunião, uma aula, um vídeo. Você lê o texto à medida que ele é transmitido. O Otter faz isso durante chamadas, com legendas ao vivo para Zoom e Google Meet. O Maestra anuncia transcrição e tradução em tempo real em mais de 125 idiomas com um nível gratuito ao vivo. O Windows 11 tem Legendas ao Vivo integradas, no dispositivo e offline, em cerca de 21 idiomas. Essas ferramentas acompanham um fluxo e o narram.

O segundo é o ditado quase instantâneo. Você segura um atalho, dita uma frase ou um parágrafo, solta, e o texto finalizado aparece onde o cursor já estava. Sem legenda em streaming. Uma pausa curta de um ou dois segundos, e o bloco inteiro chega. É isso que o Whisper by Remskill faz. Ele transcreve ao soltar o atalho e cola no cursor; o microfone fica aberto por 500 milissegundos depois que você solta a tecla, para capturar a última palavra que as pessoas deixam cair no final.

Ambos são "tempo real" no sentido que importa para um ser humano: você não grava um arquivo, faz upload e espera. Mas resolvem problemas diferentes. Legenda ao vivo é uma ferramenta de leitura; você está consumindo a fala de outra pessoa. Ditado é uma ferramenta de escrita; você está produzindo a sua própria. Confundi-los é como você acaba pagando uma assinatura de notas de reunião para responder um e-mail de uma linha, ou brigando com um aplicativo de ditado para legendar um webinar que ele nunca foi feito para acompanhar.

Uma terceira categoria é frequentemente agrupada aqui, mas não é tempo real de jeito nenhum: a transcrição de arquivos. Você grava uma entrevista, faz upload do áudio, e a ferramenta retorna uma transcrição alguns minutos depois. Ferramentas como Rev e Trint são mais voltadas para esse tipo de trabalho, e é uma tarefa diferente: editar uma gravação pronta, não capturar a fala enquanto acontece. Vale nomear para que você possa descartar. Se você está esperando uma barra de progresso de upload, não está usando um aplicativo em tempo real, independentemente do que o marketing diz.

Então a categoria tem uma forma quando você a enxerga. Ler a fala que está acontecendo agora: legendas ao vivo. Escrever a fala que você está dizendo agora: ditado. Organizar uma gravação de antes: transcrição de arquivos. O termo de busca "aplicativo de transcrição em tempo real" colide os dois primeiros e puxa o terceiro por acidente. Saber em qual dos grupos você se encaixa é a coisa mais útil que você pode fazer antes de instalar qualquer coisa.

Pressione um atalho, obtenha texto no cursor

Aqui está o ciclo do ditado, do início ao fim. Você pressiona o atalho: Ctrl+Space no Windows, ou Command+Option juntos no macOS, um acorde push-to-talk onde você mantém as duas teclas pressionadas enquanto fala e solta qualquer uma para parar. Você fala. Você solta. Um pequeno overlay mostra o aplicativo transcrevendo, e um ou dois segundos depois o texto está no aplicativo que você já estava usando: o e-mail, o documento, o chat, o comentário de código.

CancelTranscribing
O overlay ao vivo do Whisper no meio da transcrição, não uma captura de tela — é isso que você vê no meio segundo entre soltar a tecla e as palavras aparecerem.

Sem janela para trocar. Sem "copiar da aba de transcrição e colar de volta". O texto chega no cursor porque esse é o ponto central. Você estava escrevendo, e agora está escrevendo mais rápido. O overlay acima é o aplicativo ao vivo, não uma captura de tela; esse estado de transcrição é o que você vê no meio segundo entre soltar a tecla e as palavras aparecerem.

Eis por que "tempo real" parece diferente do que em um fluxo de legendas. Uma legenda é algo que você assiste acontecer com outra pessoa. O ditado é algo que acontece com a sua própria frase, rápido o suficiente para que você não perca o fio do que estava dizendo. O buffer de cauda de 500 milissegundos existe por esse motivo. As pessoas deixam a voz cair no final de uma frase, e cortar o microfone no instante em que a tecla é solta cortaria a última palavra. Um detalhe pequeno. É a diferença entre "obrigado por organizar o even" e uma frase completa.

Vale entender por que o tempo de resposta cai onde cai. Quando você solta a tecla, o áudio que você acabou de falar já está capturado na memória. O modelo processa esse clipe curto — uma frase ou um parágrafo, não um fluxo ao vivo — e é por isso que o resultado chega como um bloco finalizado em vez de rolar palavra por palavra. Um clipe curto é rápido de processar; essa é a sacada. Uma ferramenta de legenda ao vivo precisa continuar decodificando um fluxo aberto e mostrar palpites parciais que ela revisa à medida que mais áudio chega. O ditado pula tudo isso. Espera você terminar, depois transcreve uma vez, em uma passagem limpa.

Essa escolha de design é o que mantém você no fluxo. Na minha experiência, o que quebra o ditado é o atraso: quando a pausa se estende por mais de um ou dois segundos, percebo que minha atenção volta para o aplicativo em que eu estava e perco o fio da frase que estava no meio. Isso é uma opinião de quem usa o ciclo diariamente, não uma especificação publicada. Clipes curtos mais um motor local rápido mantêm a pausa curta. É a pausa que vale a pena se preocupar, e é o motivo pelo qual o ciclo parece escrita em vez de ditado-e-espera.

Se você quiser a versão mais detalhada de como todo o pipeline se encaixa, escrevemos um artigo separado sobre como o Whisper transforma um atalho em texto colado. Esta é a versão curta: pressionar, falar, soltar, pronto.

Por que o Parakeet é a opção local mais rápida

Transcrição local costumava significar lentidão. Isso deixou de ser verdade quando o modelo Parakeet da NVIDIA apareceu. No aplicativo Whisper, a própria descrição do Parakeet no app é "5-10× mais rápido que o Whisper na CPU", cobrindo inglês mais 24 idiomas europeus, com cerca de 600 MB em disco. Essa velocidade é o que faz o ditado local parecer quase instantâneo em vez de quase uma pausa para café. É a razão principal pela qual o ciclo de atalho acima funciona sem um servidor no meio.

Whisper
O aplicativo Whisper real — clique em Configurações e no seletor de modelos para ver os motores locais lado a lado. Este é o frontend ao vivo, não uma captura de tela.

Você não está preso a um único motor. O Whisper by Remskill oferece duas opções locais. O Parakeet suporta 25 idiomas (inglês mais 24 europeus), mas não cobre idiomas asiáticos nem traduz para o inglês. O motor faster-whisper cobre mais terreno: as versões multilíngues lidam com 99 idiomas com detecção automática, enquanto as versões .en são exclusivas para inglês, um único idioma, em troca de serem menores e mais rápidas. Os modelos Whisper vão de um Base em inglês de ~140 MB até um Large v3 multilíngue de ~3 GB, com um Large v3 Turbo de ~1,62 GB no meio para quem quer boa parte da precisão com uma fração do tempo de espera.

O aplicativo não escolhe por você, e isso é deliberado. O embed acima é a tela de configurações real. Você escolhe o Parakeet se fala principalmente inglês e quer velocidade bruta, ou um modelo Whisper se precisa de cobertura para 99 idiomas ou tradução para o inglês. Passei uma tarde constrangedora tentando selecionar automaticamente o motor "ideal" para as pessoas antes de admitir que a única pessoa que sabe qual é o certo é quem está falando. A troca é real: o Parakeet é o mais rápido e o menor, mas não consegue lidar com chinês, japonês ou coreano, e não traduz. As versões multilíngues do Whisper fazem tudo isso, ao custo de um modelo maior e uma espera mais longa por clipe. Nenhum é "melhor" em abstrato; um é melhor para a sua boca específica e os seus idiomas específicos.

Existe também um caminho via nuvem que usa sua própria chave OpenAI: transcrição via gpt-4o-mini-transcribe ou gpt-4o-transcribe, com limpeza de texto feita por gpt-5-mini por padrão. A nuvem precisa de internet; os motores locais, não. O caminho na nuvem é a saída de emergência, não o ponto de partida. Se um notebook de quatro anos roda os motores locais sem problemas — e a maioria roda — você nunca vai precisar de um servidor no ciclo para um parágrafo de e-mail.

Pense nisso por um momento. Ditado exclusivamente na nuvem é um desastre de privacidade. A planilha de salários do seu chefe, o e-mail para a escola do seu filho, o documento jurídico no trem: nada disso deveria acabar nos logs de um fornecedor só porque você quis digitar com a voz. O modo local roda no dispositivo e funciona offline após o download único do modelo; nada é enviado a nenhum servidor durante a transcrição local. Aquele trimestre de cinco dígitos da equipe de finanças aconteceu porque as palavras saíram do prédio. Era evitável.

Se você quiser o argumento mais completo, aqui está nosso caso pelo reconhecimento de voz offline que nunca sai do dispositivo.

Legendas ao vivo para reuniões vs. ditado no cursor

Sala de conferências moderna e espaçosa com uma tela de projeção, o ambiente de reunião onde as legendas ao vivo são usadas

Escolha a ferramenta pelo que você está fazendo, não por qual delas grita "tempo real" mais alto.

Se você está em uma reunião e precisa da conversa capturada em tempo real (vários participantes, uma hora de duração, com um resumo depois), você quer legendas ao vivo contínuas. Essa é uma tarefa de leitura e gravação. Otter, Maestra, as legendas integradas do Google Meet, Legendas ao Vivo do Windows 11: todas acompanham um fluxo e o registram. O Windows 11 legenda qualquer áudio tocando na tela, no dispositivo e offline, mas legenda o áudio apenas para leitura. Ele não digita as palavras no aplicativo em que você está trabalhando.

Essa distinção do Windows confunde muita gente. As Legendas ao Vivo leem o áudio que está sendo reproduzido (um vídeo, uma chamada, a voz de um colega pelos seus alto-falantes) e exibem na tela para você ler. Elas não colocam texto no documento que você está escrevendo. Essa é a linha entre uma ferramenta de leitura e uma ferramenta de escrita: o mesmo motor de transcrição no dispositivo por baixo, um destino diferente para as palavras. Uma as envia para uma barra de legendas que você lê. A outra as envia para o cursor onde você está digitando.

Se você está escrevendo um e-mail, um documento, uma mensagem no Slack, uma nota de commit, você quer ditado. Você está produzindo as palavras, não transcrevendo as de outra pessoa. Você as quer no cursor, rápido, e pronto. Esse é o ciclo do atalho. Uma ferramenta de legenda ao vivo vai transcrever você de certa forma, mas despeja o texto na própria janela e deixa você copiar e colar, o que anula a velocidade que você veio buscar.

Alguns casos concretos tornam a distinção óbvia. Um vendedor ditando notas de CRM entre chamadas (cinquenta palavras, um toque de tecla, trinta segundos) é ditado. Uma equipe rodando uma reunião de planejamento semanal que precisa de uma transcrição pesquisável e itens de ação depois é legenda ao vivo. Um estudante transformando uma aula de noventa minutos em um resumo de seiscentas palavras quer legendas durante a aula e depois uma ferramenta para comprimi-las. Um pai respondendo o e-mail da professora enquanto prepara as lancheiras quer ditado, porque está escrevendo uma resposta, não gravando a cozinha. A mesma pessoa pode precisar das duas ferramentas em um único dia. Ainda assim, são duas ferramentas diferentes.

A regra: assistir à fala → legendas ao vivo; escrever por voz → ditado. Alguns aplicativos borram essa linha, mas a maior parte da frustração nessa categoria vem de usar uma ferramenta de reuniões para escrever ou uma ferramenta de escrita para legendar uma reunião. O Whisper está no lado da escrita: quase instantâneo, cursor em primeiro lugar, push-to-talk. É o mesmo ciclo seja ditando no Gmail ou em qualquer outro lugar com um campo de texto.

Os outros aplicativos de transcrição em tempo real que valem conhecer

Você não precisa acreditar só na minha palavra sobre a categoria. Aqui está a leitura honesta em uma linha sobre os principais players, para você saber onde cada um se encaixa antes de decidir.

  • Otter cobre transcrição de reuniões com legendas ao vivo para Zoom e Google Meet, aplicativos para iOS, Android e Web, e transcrição por IA em inglês, espanhol, francês, alemão, japonês e chinês. O nível gratuito limita você a 300 minutos de transcrição por mês.
  • Maestra anuncia transcrição e tradução em tempo real em mais de 125 idiomas, além de legendas e dublagem, com um nível de transcrição ao vivo que a empresa diz ser gratuito. Feito para legendas e subtítulos, não para ditado no cursor.
  • Notta faz transcrição de áudio e vídeo em tempo real e reporta suporte a 58 idiomas com tradução. Uma ferramenta de reuniões e gravações, baseada na nuvem.
  • Rev e Trint se posicionam mais em torno de mídia gravada do que de ditado no cursor. O Rev é mais conhecido pela transcrição de reuniões e gravações; o Trint é amplamente usado em fluxos de trabalho jornalísticos e de redação para trabalhar com entrevistas gravadas. Ambos são ferramentas de leitura e edição, não um ciclo de segurar tecla e digitar no seu aplicativo.

Perceba o padrão: a maioria dessas são ferramentas de reuniões e gravações que vivem na nuvem. Esse é o mercado inteiro de "aplicativos de transcrição ao vivo". O campo do ditado no cursor, a ferramenta de escrita, é a categoria menor e mais discreta, e é a que a maioria das pessoas que busca esse termo precisa sem saber o nome.

Para colocar lado a lado nos pontos que você pode verificar, não em pontuações de velocidade ou precisão inventadas:

FerramentaPlataformaLocal / NuvemFunciona offlineModelo de preçoIdiomasMelhor para
Whisper by RemskillWindows, macOS (Apple Silicon)Local + nuvem opcional (BYOK)Sim, modo localNível local gratuito; add-on de nuvem pago99 (Whisper multilíngue) / 25 (Parakeet)Ditado no cursor
OtteriOS, Android, WebNuvemNãoNível gratuito + planos pagos6Legendas ao vivo em reuniões
MaestraWebNuvemNãoNível ao vivo gratuito + planos pagos125+Legendas, dublagem, subtítulos
NottaWeb, mobileNuvemNãoNível gratuito + planos pagos58 (informado)Notas de reuniões e gravações
Windows 11 Live CaptionsWindows 11Local (no dispositivo)SimIntegrado ao sistema operacional~21Legendas na tela para leitura
Aplicativos de transcrição em tempo real comparados em fatos verificáveis, não em pontuações inventadas.

Vale uma frase entender por que esse mercado é assim. Reuniões são onde está o dinheiro. Uma empresa paga por assento para capturar cada chamada, resumi-la e enviar itens de ação para um rastreador de projetos. Isso é uma linha de despesa recorrente e dedutível. Escrita pessoal por voz, não é. Por isso a metade barulhenta e bem financiada da categoria é feita para salas de conferência, e a metade que ajuda uma pessoa a responder e-mails mais rápido recebe menos atenção de marketing. A frase "aplicativo de transcrição em tempo real" cobre as duas, que é por isso que as pessoas chegam a uma ferramenta de reuniões quando queriam uma ferramenta de digitação. Se você quiser o campo mais amplo organizado por categoria, mantemos um guia de softwares de transcrição por categoria.

Quando pular o Whisper e usar uma ferramenta de reuniões

Vou ser direto, porque a alternativa é te vender a coisa errada. Se o seu trabalho é capturar uma reunião ao vivo (várias pessoas falando, uma hora de duração, com um resumo organizado no final), não use o Whisper para isso. Use o Otter. Ele foi feito para isso, com legendas ao vivo para Zoom e Google Meet e aplicativos em todas as plataformas, e o nível gratuito te dá 300 minutos por mês para testar. Para legendas multilíngues ou dublagem, o nível ao vivo do Maestra cobre mais de 125 idiomas. E se você só precisa de legendas de áudio já reproduzindo na sua tela Windows, o Windows 11 Live Captions é gratuito, no dispositivo e já instalado. Fazemos uma ferramenta de escrita. Quando você precisa de uma ferramenta de leitura, essas são as melhores escolhas, e preferimos que você use a certa. (Para a comparação lado a lado no caso de reuniões, escrevemos um comparativo completo de alternativas ao Otter.ai.)

Quanto custa

O Whisper by Remskill é gratuito para todos os usuários logados em todo o pipeline local (Parakeet, todos os modelos Whisper, limpeza de texto por IA no dispositivo, histórico, presets, atalhos personalizados) sem solicitar nenhuma forma de pagamento no cadastro. O nível pago, o Whisper Pro, adiciona o acesso à nuvem: transcrição OpenAI com chave própria e busca na web. Os valores exatos estão na página de preços, e não ficam escondidos em rodapés de "a partir de". Para contexto sobre os outros: o nível gratuito do Otter para em 300 minutos por mês, com planos pagos acima disso. O ponto do pipeline local gratuito é que você pode testar todo o ciclo de escrita — atalho para falar para colar — antes de decidir se a nuvem vale um centavo para você.

Duas pessoas vão ler isso e querer dois aplicativos diferentes. Uma delas está prestes a legendar um standup. A outra está prestes a responder trinta e-mails antes de levar as crianças para a escola, um atalho de cada vez. O único erro é pegar a ferramenta errada porque as duas diziam "tempo real" na caixa, e depois abrir um painel na nuvem três meses depois sem entender de onde veio a fatura. Escolha pelo que você está fazendo. Assistindo à fala, ou escrevendo. Tudo o mais segue naturalmente.

Experimente o ciclo de escrita no seu próprio notebook

Baixe o Whisper, segure a tecla, dite uma frase, veja cair onde o cursor já estava.

Gratuito em todo o pipeline local. Sem cartão no cadastro.

Foto de Denys Medvediev

Denys Medvediev

Sou quem lê os e-mails de suporte, provavelmente ditando as respostas.

Leitura adicional