Por Denys Medvediev

Guia

Software de transcrição de reuniões

Um único termo de pesquisa, dois trabalhos completamente diferentes. Algumas ferramentas enviam um bot para entrar na sua chamada e criar anotações compartilhadas. Outras processam uma gravação que você já tem, offline, no seu próprio notebook. Veja como identificar qual delas você realmente precisa.

Última atualização: junho de 2026

Mesa de conferência vazia com microfones e monitores, pronta para uma reunião que um software irá transcrever

O software de transcrição de reuniões converte conversas faladas em uma chamada em texto escrito e pesquisável. Ele funciona de duas formas: em tempo real, em que a transcrição aparece ao vivo enquanto as pessoas falam, e pós-reunião, em que uma gravação é processada depois para gerar notas mais limpas, com identificação de falantes e carimbos de tempo. A maioria das ferramentas entra automaticamente nas chamadas via sincronização de calendário e um bot de reunião; algumas funcionam sem bot, a partir de uma gravação que você já tem.

A primeira vez que vi uma equipe acumular uma conta de verdade por transcrever reuniões, o número tinha cinco dígitos — e as reuniões já tinham anotações. Um contratado havia conectado um protótipo interno de ditado com IA que chamava a API na nuvem a cada fala, com uma lógica de repetição tão agressiva que transcreveu a mesma gravação de standup quatro vezes. O gerente abriu o painel de custos no fim do trimestre. O silêncio tomou conta da sala.

A verdade sem rodeios sobre essa categoria é que escolher a ferramenta errada sai caro — em dinheiro, em privacidade ou em tempo — quase sempre antes que alguém perceba.

Esse é o ponto central deste artigo. As equipes querem anotações automáticas de reuniões há uma década, e as ferramentas finalmente cumprem esse papel. O problema é que elas fazem trabalhos completamente diferentes sob um mesmo termo de pesquisa. Algumas entram na sua videochamada como um bot e criam anotações compartilhadas para todos. Outras processam uma gravação depois do fato, offline, no seu próprio notebook.

A seguir, apresento os dois caminhos, indico as ferramentas que valem a pena conhecer e sou honesto sobre o que o nosso aplicativo não faz: ele não é um bot de reunião. Como a pessoa que lê os e-mails de suporte, posso dizer que a maior confusão nessa categoria vem de quem escolhe o tipo errado de ferramenta logo no começo. Já respondi esse mesmo e-mail vezes suficientes para reconhecê-lo pelo assunto.

O que o software de transcrição de reuniões faz (e as duas formas em que funciona)

Por baixo do marketing, toda ferramenta aqui faz uma coisa: pega áudio e gera texto. O áudio é a fala humana de uma reunião. O texto é uma transcrição. Tudo o mais — resumos, itens de ação, identificação de falantes, pesquisa — é construído sobre essa única conversão.

A categoria se divide no momento em que essa conversão acontece.

  • Transcrição em tempo real ocorre enquanto as pessoas estão falando. As palavras aparecem na tela um ou dois segundos depois do falante. É o que você obtém de uma legenda ao vivo no Zoom ou no Microsoft Teams, e dos bots de anotação que mostram uma transcrição em execução durante a chamada. É útil no momento: para acessibilidade, para acompanhar a conversa, para pegar um nome que você perdeu.
  • Transcrição pós-reunião ocorre a partir de uma gravação após o término da chamada. A ferramenta tem o arquivo completo, então pode trabalhar com calma. Ela limpa falsos começos, identifica quem disse o quê, adiciona carimbos de tempo e monta um documento legível. O processamento pós-reunião gera texto mais limpo, com identificação de falantes e carimbos de tempo, do que a versão ao vivo. O tradeoff é que você precisa esperar.

A maioria das ferramentas conhecidas (Otter, Fireflies, Fathom, tl;dv) faz as duas coisas, e obtém o áudio da mesma forma: um bot entra na chamada. Você conecta seu calendário do Google ou Outlook, a ferramenta vê uma reunião com um link de vídeo e envia um participante para a sala ouvir e gravar. Aquele pequeno quadrado de gravação que você já viu na grade do Zoom é o modelo inteiro em um único frame.

Um terceiro caminho mais discreto se esconde por trás do termo de pesquisa: transcrever uma gravação que você já tem, na sua própria máquina, sem bot e sem chamada. Isso é software de ditado e transcrição — não um anotador de reuniões —, e é onde o nosso aplicativo se encaixa. Mais sobre isso abaixo, incluindo a parte honesta sobre quando ele não é a escolha certa.

Quando um bot de reunião é a escolha certa (e o Whisper não é)

Anotador · Sync SemanalGravando
Na chamada
Maria (anfitriã)
Tom
Priya
Bot anotador
Transcrição ao vivo

Maria 10:02 Vamos começar pela data de lançamento.

Tom 10:02 Acho que vamos atrasar uma semana.

Entrada automática: calendário sincronizado · Resumo + itens de ação após a chamada
Um bot anotador de reunião: ele entra automaticamente na chamada pelo seu calendário, aparece na lista de participantes e cria uma transcrição ao vivo compartilhada para todos. O Whisper não faz isso.

Se o seu problema é "algo deveria entrar na minha chamada do Zoom, Teams ou Google Meet, capturar tudo e entregar anotações compartilhadas para toda a equipe depois", você precisa de um bot de reunião. O Whisper não faz isso. Ele não entra automaticamente em uma chamada, não grava outros participantes e não realiza diarização multifalante em uma videochamada. Fingir o contrário seria desperdiçar sua tarde.

Para esse trabalho, as escolhas certas são os bots anotadores. Otter.ai entra no Zoom, Microsoft Teams e Google Meet para escrever e compartilhar notas automaticamente, e tem um plano Basic gratuito para você experimentar o modelo antes de pagar. Fireflies.ai entra por convite ou por entrada automática nas reuniões do calendário, e seu plano gratuito inclui transcrição ilimitada com resumos de IA limitados. tl;dv grava Google Meet, Zoom e Teams, oferece um modo de captura sem bot e tem um plano gratuito para sempre sem limite de tempo. Fathom tem um plano gratuito para sempre com gravações ilimitadas e a opção de captura sem bot (em beta) ou com bot.

Esta é a parte do artigo em que eu deliberadamente mando você para outro lugar. Otter é para reuniões. Whisper é para escrever. São categorias diferentes, e pagar pela errada é o erro mais comum nesse universo. Se você precisa de diarização multifalante em uma chamada gravada, entrada automática por calendário e um resumo no canal da equipe antes de a reunião terminar, um bot anotador faz um trabalho que nosso aplicativo nunca foi criado para fazer. Nós tornamos o ato de escrever por voz rápido; eles tornam o ato de capturar uma sala automático. Escolha a categoria primeiro, a ferramenta depois.

Qual é a precisão real da transcrição de reuniões com IA?

A resposta honesta: melhor do que você espera em áudio limpo, pior do que você gostaria em uma reunião real. A categoria chega a cerca de 85 a 95 por cento de precisão em áudio claro e de um único idioma, caindo com ruído de fundo, sotaques, jargões e pessoas falando ao mesmo tempo. Serviços com verificação humana chegam perto de 99 por cento, porque uma pessoa corrige o que o modelo errou.

Nosso modo local reporta precisão que normalmente fica entre 95 e 99 por cento, com modelos maiores pontuando mais alto. Quero ser cuidadoso aqui. Essa é nossa medição no nosso software, não um comparativo independente contra Otter ou Fireflies, e não vou inventar um. Quem te entrega uma única porcentagem de precisão para transcrição de reuniões sem dizer as condições do áudio está vendendo, não medindo.

Esta é a parte que ninguém divulga no marketing, porque não tem como vender a partir disso. O microfone importa mais do que o modelo. Um microfone USB de vinte dólares faz mais pela sua transcrição do que saltar de um modelo pequeno para o maior disponível. A maioria das transcrições ruins que já vi não foi falha do modelo. Foi um microfone de notebook captando o ar-condicionado, quatro pessoas dividindo uma sala com um speakerphone, ou um fone Bluetooth cortando a primeira palavra de cada frase. Resolva o áudio primeiro. A IA não consegue desouvir uma chaleira.

Mais dois fatores impactam a precisão por baixo dos panos. Um é como a ferramenta decide onde uma pessoa para e outra começa — o que fica mais difícil quando as pessoas falam ao mesmo tempo (razão pela qual qualquer transcrição do meu jantar em família leria como uma única frase de 400 palavras sem parar). O outro é o suporte a vocabulário personalizado: a capacidade de alimentar a ferramenta com nomes de produtos, sobrenomes e siglas que nenhum modelo geral já viu. O Whisper permite definir vocabulário personalizado e priorizar hotwords no seu mecanismo local Whisper, e muitos bots de reunião também fazem isso. Se suas chamadas estão cheias de jargões, essa única configuração vale mais do que uma atualização de modelo.

Sem bot e offline: transcrever uma gravação que você já tem

Este é o caminho que o termo de pesquisa mantém em silêncio — e para o qual nosso aplicativo foi criado. Você nem sempre precisa de um software que entre em uma reunião. Às vezes você já tem a gravação — um áudio de um tête-à-tête, uma entrevista, uma exportação de webinar, um clipe que um colega enviou — e só precisa de texto limpo a partir dela, na sua própria máquina, sem bot em nenhuma chamada.

Software de ditado e transcrição como o Whisper se encaixa aqui e justifica seu uso pela privacidade. Tudo no modo local roda no seu notebook. O áudio nunca sai do dispositivo: nenhum servidor no meio, nenhum log de fornecedor, nenhum medidor de custo na nuvem. A discussão salarial do seu chefe, a gravação jurídica, a conversa com o RH: nada disso deveria parar no armazenamento de terceiros só porque você precisou de uma transcrição. Local primeiro não é um recurso aqui. É o ponto central.

Whisper
O aplicativo Whisper real, rodando localmente — clique à vontade. Este é o caminho sem bot: aponte para uma gravação que você já tem e obtenha texto limpo, na sua própria máquina.

O Whisper roda dois mecanismos locais, ambos em Rust puro via transcribe-rs, sem sidecar Python para atrasar a inicialização. O primeiro é o Whisper de código aberto da OpenAI, que em suas versões multilíngues cobre 99 idiomas e pode traduzir para o inglês, com tamanhos de modelo que vão do Base com cerca de 140 MB até o Large v3 com cerca de 3 GB. As versões apenas em inglês são exatamente isso — somente inglês — e tendem a rodar de forma um pouco mais leve. O segundo mecanismo é o Parakeet TDT da NVIDIA, com cerca de 600 MB, descrito no aplicativo como 5 a 10 vezes mais rápido que o Whisper na CPU, cobrindo inglês mais 24 idiomas europeus (25 no total) sem tradução para o inglês. Escolha o Parakeet pela velocidade se você trabalha principalmente em inglês. Escolha o Whisper se precisar de tradução ou de um idioma que o Parakeet não cobre.

CancelTranscribing
O overlay do Whisper enquanto processa uma gravação — um pequeno widget flutuante, sem bot em nenhuma chamada.

A interação é a mesma que uso o dia todo. Você segura o atalho — Ctrl+Space no Windows, ou o acorde Command+Option push-to-talk no Mac, segurando as duas teclas e soltando qualquer uma para parar — fala, e o texto cai no cursor em qualquer aplicativo que estiver em foco. Um pequeno overlay mostra o estado enquanto trabalha. Para uma gravação em vez de fala ao vivo, você aponta o aplicativo para o arquivo e recebe a transcrição de volta. Se você quiser especificamente o lado do ditado, nosso guia de fala para texto offline aprofunda como rodar tudo no dispositivo.

Uma opção na nuvem também existe, para quem quer os modelos mais recentes da OpenAI e uma pesquisa web por voz na mesma ferramenta. Traga sua própria chave da OpenAI, diga "Hey whisper" para rotear o texto pela IA. Mas para transcrever uma gravação que você já tem, o modo local é a resposta — e é gratuito para qualquer usuário conectado.

As outras ferramentas que vale conhecer

Essa categoria é disputada, e os resultados de pesquisa são dominados por listas com seis a dez ferramentas cada. Aqui está um mapa direto para que você não precise ler dez avaliações para entender para o que cada uma serve. Cada recurso abaixo vem das próprias páginas das ferramentas.

  • Otter.aio anotador de reunião padrão. O bot entra no Zoom, Teams e Meet; plano Basic gratuito com 300 minutos mensais, planos pagos Pro e Business acima. Transcrição em seis idiomas: inglês, espanhol, francês, alemão, japonês e chinês.
  • Fireflies.aibot entra por convite ou entrada automática pelo calendário. Plano gratuito com transcrição ilimitada e resumos de IA limitados; anuncia mais de 100 idiomas nos planos pagos.
  • tl;dvgrava Meet, Zoom e Teams, oferece um modo sem bot, transcreve em mais de 30 idiomas, plano gratuito para sempre sem limite de tempo e sem necessidade de cartão.
  • Fathomplano gratuito para sempre com gravações ilimitadas, além de opção de captura sem bot (beta) ou com bot; planos pagos Premium, Team e Business acima.
  • Nottatem bot de reunião para Zoom, Teams e Meet e um plano gratuito; a própria central de ajuda lista cerca de 58 idiomas.
  • Zoom e Teams, integradosantes de comprar qualquer coisa, verifique o que você já paga. O Zoom transcreve gravações na nuvem e oferece transcrição em tempo real com o AI Companion em 46 idiomas nos planos pagos elegíveis. O Microsoft Teams tem transcrição ao vivo integrada em cerca de 50 idiomas falados ou mais; a transcrição traduzida ao vivo precisa do Teams Premium.

Aqui está o mesmo mapa em forma de tabela, com apenas as informações que você pode verificar nas próprias páginas de cada ferramenta. Sem números de precisão ou velocidade, porque ninguém os comparou com o mesmo áudio, e não vou inventar o teste.

Ferramentas de transcrição de reuniões comparadas por método de captura, onde rodam, suporte offline, modelo de preços, número de idiomas e para o que cada uma é mais indicada.
FerramentaCapturaLocal/NuvemFunciona offlineModelo de preçosIdiomasMelhor para
Otter.aiBot entra na chamadaNuvemNãoPlano gratuito + pago por usuário6O anotador de equipe padrão
Fireflies.aiBot por convite ou entrada automáticaNuvemNãoPlano gratuito + pago por usuário100+Transcrição gratuita generosa
tl;dvGrava a chamada, modo sem bot disponívelNuvemNãoGratuito para sempre + pago30+Sem bot na grade da reunião
FathomSem bot (beta) ou com botNuvemNãoGratuito para sempre + pagoNão informado na página de preçosGravações gratuitas ilimitadas
NottaBot entra na chamadaNuvemNãoPlano gratuito + pago~58 (central de ajuda)Bot com plano gratuito
Zoom / Teams (integrado)Nativo da chamadaNuvemNãoIncluído nos planos pagos elegíveisZoom 46, Teams 50+O que você já paga
Whisper by RemskillSem chamada; transcreve arquivo ou ditadoLocal (Nuvem opcional)SimPlano local gratuito + Pro99 multilíngue, 25 ParakeetPrivado, sem bot, no dispositivo

Se suas reuniões já rodam em um plano pago do Zoom ou Teams, a transcrição integrada pode ser tudo que você precisa — sem adicionar outra assinatura ou mais um bot à chamada.

O que eu escolheria para cada situação

Leio os e-mails de suporte, então vejo o arrependimento de quem escolheu a ferramenta errada com frequência suficiente para ter opiniões. É assim que eu escolheria.

  • Você quer anotações de uma videochamada em equipe, automaticamente, compartilhadas com todos. Use um bot anotador. Otter se quiser o padrão polido, Fireflies ou Fathom se quiser um plano gratuito generoso, tl;dv se não quiser bot na grade da reunião.
  • Você já tem um plano pago do Zoom ou Teams. Experimente a transcrição integrada antes de pagar por uma terceira ferramenta.
  • Você tem uma gravação e quer texto limpo, com privacidade, na sua própria máquina. Este é o caminho sem bot e offline: Whisper, ou outra ferramenta de transcrição local. O áudio fica no dispositivo.
  • Você quer escrever por voz (e-mails, documentos, anotações durante ou após a chamada) no cursor, em qualquer aplicativo. Isso é ditado, e é o trabalho para o qual o Whisper foi criado. Nossa comparação de softwares de transcrição detalha a diferença entre ditado e anotações de reunião.
  • Você precisa de uma transcrição garantida e quase perfeita para um registro jurídico ou de conformidade. Use um serviço com verificação humana. A IA sozinha não chega a 99 por cento em áudio real.

O erro a evitar é pagar por um bot de reunião para fazer ditado, ou esperar que uma ferramenta de ditado entre nas suas chamadas. Categorias diferentes. Escolha a que corresponde ao trabalho. Trabalho com software há quinze anos e ainda comprei a ferramenta errada para um trabalho no ano passado — então isso não é uma lição de quem acertou na primeira tentativa.

Preços em números diretos

A maioria das ferramentas aqui tem um plano gratuito que vale experimentar antes de qualquer cobrança. Otter, Fireflies, tl;dv e Fathom têm planos gratuitos, com planos pagos quando você precisa de mais minutos, mais usuários ou armazenamento ilimitado. Os bots anotadores geralmente cobram por usuário por mês, o que sobe rápido em uma equipe.

O Whisper é gratuito para todo usuário conectado em todo o pipeline local — os dois mecanismos, aprimoramento de IA via Ollama, histórico, presets, vocabulário personalizado, o atalho de teclado, tudo — sem necessidade de método de pagamento no cadastro. O plano pago adiciona a superfície na Nuvem para quem quer os modelos da OpenAI e pesquisa web por voz. Os valores exatos para mensal, anual, vitalício e vagas em equipe estão na página de preços. Prefiro que você comece grátis e decida por conta própria a apresentar um preço fora de contexto aqui.

Escolha o tipo de ferramenta antes da marca. Se um bot deve entrar na sua chamada, use um anotador. Se uma gravação no seu notebook deve virar texto privado, use algo offline. A conta de cinco dígitos que vi uma equipe acumular veio de nunca perguntar para qual trabalho estavam pagando — e essa é uma reunião que ninguém precisava transcrever.

Experimente o caminho sem bot em uma gravação que você já tem

Baixe o Whisper, aponte para uma gravação e veja o texto limpo aparecer — na sua própria máquina, sem bot em nenhuma chamada.

Gratuito para todo usuário conectado em todo o pipeline local. Sem método de pagamento no cadastro.

Foto de Denys Medvediev

Denys Medvediev

Sou quem lê os e-mails de suporte da nossa equipe — provavelmente ditando as respostas.

Leitura adicional