Por Denys Medvediev

Guia

Ferramentas de transcrição por IA, explicadas

O que uma ferramenta de transcrição por IA realmente é, como funciona o processo de fala para texto, o quão precisa ela de fato é quando o áudio não vem de um estúdio e a única decisão (local ou nuvem) que importa mais do que qual logo você escolhe.

Última atualização: junho de 2026

Close-up de uma interface de áudio digital exibindo uma forma de onda sonora vibrante, evocando a fala captada para transcrição

Uma ferramenta de transcrição por IA é um software que transforma áudio falado em texto escrito usando modelos de reconhecimento de fala. Ela ouve uma gravação ou a fala ao vivo, prevê as palavras mais prováveis e gera uma transcrição. A mesma tecnologia é chamada de fala para texto ou reconhecimento automático de fala, e a maioria das ferramentas modernas roda um modelo da família OpenAI Whisper.

Há uma década, vi um parente tentar ditar uma carta de fim de ano em um computador com Windows 98. O software precisava de 45 minutos de "treinamento" antes de tudo, e depois funcionava com talvez 70% de precisão e um atraso de quatro segundos por frase. Um parágrafo levava quinze minutos. O headset foi atirado para o outro lado da sala. O headset sobreviveu; o experimento, não. Hoje minha filha de sete anos dita um e-mail para a avó em 90 segundos e nunca faz uma única pergunta depois da demonstração. Essa diferença é a história inteira da transcrição por IA, e ela se fechou mais rápido do que quase todo mundo previu.

Eis a parte que as páginas de marketing pulam: fala para texto já foi um problema de pesquisa, até que, em 2022, o modelo open-source Whisper apareceu e, em silêncio, deixou de ser um problema para a maioria das pessoas. Uma ferramenta de transcrição por IA hoje significa um modelo bom o suficiente para, na maior parte do tempo, sair do seu caminho, embrulhado em um software que decide para onde vai o seu áudio e o que acontece com o texto depois. Este artigo explica como funciona esse processo, o quão preciso ele é quando o áudio não é um estúdio de podcast e a única decisão (local ou nuvem) que importa mais do que qual logo você escolhe. Eu leio todos os e-mails de suporte que recebemos, e as pessoas que estão insatisfeitas quase sempre escolheram errado nessa única decisão, não na ferramenta.

Uma ferramenta de transcrição por IA transforma fala em texto. É esse o trabalho inteiro.

Tire os dashboards e o branding de "mecanismo conversacional de conhecimento", e toda ferramenta dessa categoria faz uma coisa só: áudio entra, texto sai. As diferenças estão em tudo o que envolve esse núcleo: onde o modelo roda, o que ele faz com a transcrição e quanto cobra para fazer isso.

Pasted
O overlay de gravação do Whisper no seu estado final — um pequeno widget flutuante que devolve o texto pronto no momento em que você para de falar. A interface real que está no produto, não uma maquete.

Três formatos de produto dominam. O anotador de reuniões entra na sua chamada, grava todo mundo e cospe um resumo com itens de ação. O Otter é o exemplo clássico, com 300 minutos gratuitos de transcrição por mês. O serviço de upload de arquivos permite que você jogue um arquivo de áudio e baixe a transcrição depois. Rev e Sonix vivem aqui, e o Rev também vende transcritores humanos como alternativa de alta precisão. A ferramenta de ditado fica em segundo plano e cola o texto onde quer que seu cursor esteja no instante em que você para de falar. Esse último é o que o Whisper by Remskill faz: pressione um atalho global, fale, e o texto transcrito aparece em qualquer app em que você já esteja.

O mesmo trabalho por baixo. Três experiências diárias completamente diferentes. Boa parte da confusão nessa categoria vem de comparar um anotador de reuniões com uma ferramenta de ditado como se eles competissem. Não competem, assim como um ônibus não compete com uma bicicleta.

Como a transcrição por IA realmente funciona (e onde ainda tropeça)

O mecanismo é mais simples do que o branding sugere. Seu microfone capta o som como uma forma de onda, um fluxo de números que descreve a pressão do ar ao longo do tempo. O modelo quebra esse fluxo em trechos curtos, converte cada trecho em uma representação numérica de suas características acústicas e então prevê, token a token, a sequência de texto mais provável que produziu aqueles sons. Ele está fazendo estatística sobre áudio, não compreendendo significado. Passei minha primeira semana neste projeto desenhando o processo como um diagrama de caixinhas bem organizado antes mesmo de rodar o modelo uma vez. O diagrama já estava errado no segundo commit. O modelo não ligou para o meu diagrama.

CancelTranscribing
O estado de transcrição do overlay — o modelo transformando uma forma de onda em texto, na sua máquina, enquanto você espera o segundo (ou pouco mais) que isso leva.

Esse detalhe é a razão de a transcrição por IA tropeçar onde tropeça. O modelo prevê as palavras mais prováveis, não as corretas. Dê a ele uma fala limpa e uma dicção clara, e o provável e o correto são a mesma coisa. Dê a ele conversas sobrepostas, um sotaque carregado que ele viu pouco no treinamento, jargão técnico ou um microfone ruim, e os dois divergem. A versão honesta, que o próprio AI Overview desta busca diz em voz alta, é que essas ferramentas podem alucinar palavras que nunca foram ditas, confundir um interlocutor com outro e, sem alarde, transcrever errado uma frase para algo que lê perfeitamente bem e significa o oposto.

Vale conhecer um truque de tradução. Os modelos multilíngues do Whisper conseguem transcrever 99 idiomas, e conseguem traduzir fala não inglesa para texto em inglês em uma única passagem. As variantes do modelo só em inglês, as builds .en, abrem mão disso e fazem apenas inglês, o que as deixa um pouco mais afiadas nessa tarefa. Nada disso exige que você "treine" coisa alguma. Se uma ferramenta ainda pede que você leia um roteiro de calibração antes de funcionar, ela está rodando com premissas de 1999.

O quão precisa ela é, de verdade? A resposta honesta.

Uma lupa sobre um documento impresso, ilustrando a revisão atenta da precisão da transcrição

A resposta honesta é: precisa o suficiente para te poupar um tempo real, mas não precisa o suficiente para publicar sem reler. Nossa própria faixa publicada para transcrição local é de 95% a 99%, com os modelos maiores chegando mais alto. Mas um único número de precisão é quase sem sentido por conta própria, porque o número que importa é o do seu áudio: seu sotaque, sua sala, seu microfone, seu vocabulário.

Desconfie das afirmações redondas, sem condições. Uma página de produto que diz "99% de precisão" sem mencionar a qualidade do áudio está citando o melhor cenário, não uma promessa. Quando o Rev anuncia 99%, esse número está ligado aos seus transcritores humanos, não ao seu modelo de IA. A versão de marketing achata uma curva em um único ponto lisonjeiro.

Eis a melhoria de precisão mais barata que ninguém te vende: um microfone. Sair do microfone embutido do laptop para um microfone USB básico faz mais pela sua transcrição do que pular de um modelo pequeno para o maior de todos. A IA não conserta áudio ruim. Ela apenas chuta com mais confiança. Passei duas noites comparando o maior modelo que consegui baixar antes de perceber que estava falando para a dobradiça do laptop a um metro de distância; um microfone de doze dólares resolveu mais do que os dois gigabytes extras. Gaste os vinte dólares em hardware antes de gastar uma noite baixando um modelo de três gigabytes. Para trabalhos de alto risco, leia a transcrição. Para uma mensagem no Slack, mande do jeito que está.

Local vs nuvem: para onde vai o seu áudio importa

Para onde vai o seu áudio é a decisão que mais importa, e ela não tem nada a ver com precisão.

Uma ferramenta de transcrição em nuvem envia seu áudio para os servidores de uma empresa, roda o modelo lá e devolve o texto. Uma ferramenta local baixa o modelo uma vez e o roda na sua própria máquina. Depois disso, ela funciona offline, e nada sai do seu computador. O Whisper by Remskill faz as duas coisas, e a alternância é um único botão. No modo local, o áudio é processado inteiramente na sua máquina e nada é enviado a nenhum servidor. No modo nuvem, o áudio vai direto do seu computador para a OpenAI por meio da sua própria chave de API, e nós nunca ficamos no meio.

Whisper
O app real do Whisper, rodando ao vivo — tanto a interface Local quanto a da Nuvem em uma só janela. Entre em Configurações e escolha um mecanismo; alternar entre local e nuvem é um único botão.

Vou fincar uma bandeira aqui, porque as páginas de marketing não vão: ditado só na nuvem é um desastre de privacidade esperando para ser transcrito. Uma equipe com quem trabalhei certa vez contratou um prestador para construir um protótipo interno de ditado com IA na nuvem. Ele chamava a API a cada fala, incluindo gravações de daily que re-transcrevia quatro vezes porque a lógica de "nova tentativa inteligente" era agressiva demais. O gerente abriu o painel de custos no fim do trimestre e encontrou uma conta de cinco dígitos. A solução do prestador foi "otimizar o prompt". A solução do CFO foi "parar de mandar para um servidor reuniões das quais já temos as notas". A planilha de salários do seu chefe, o e-mail para a escola do seu filho, a petição jurídica que você está redigindo — nada disso pertence aos logs de um fornecedor só porque você quis digitar com a voz. Seu laptop já tem um microfone e uma CPU. Para a maioria dos parágrafos, ele não precisa de um servidor no meio. Se você quiser o raciocínio completo, nós o detalhamos no nosso guia de fala para texto offline.

Dito isso, a nuvem não é uma vilã. É uma troca. O modo nuvem te dá os modelos mais recentes da OpenAI, acesso à web e zero carga de hardware. O local te dá privacidade e confiabilidade offline. A questão não é que um esteja certo. É que você deveria escolher de propósito, e não descobrir depois que suas gravações moram no disco de outra pessoa.

As outras ferramentas que vale conhecer

Você vai ver os mesmos nomes em toda lista de recomendações, e eles se encaixam em faixas claras.

FerramentaFaixaO que você precisa saber
Otter.aiNotas de reunião300 minutos gratuitos por mês, resumos e identificação de quem fala; seis idiomas nomeados.
RevUpload de arquivo + humanoO nível gratuito de IA é de 45 minutos por mês; vende transcritores humanos para áudio de alto risco.
OpenAI WhisperModelo open-sourceLicença MIT; o mecanismo que a maioria das outras ferramentas roda, não um app pronto.
API em nuvem da OpenAIAPI para desenvolvedoresLimite de upload de 25 MB; gpt-4o-transcribe e whisper-1; pagamento por minuto.
Notta, Sonix, Fireflies, Descript, RiversideMistoFocadas em reunião e edição; confira a própria página de cada ferramenta para os limites atuais.
Os mesmos nomes em toda lista de recomendações, separados em suas faixas. A maioria são ferramentas de reunião ou edição, e a maioria roda um modelo da família Whisper por baixo do branding.

Uma observação sobre essa última linha: essas cinco têm, cada uma, seus próprios detalhes de preço e idiomas que mudam com frequência, então não vou citar números que eu não tenha verificado nas próprias páginas delas hoje. O padrão, porém, se mantém: a maioria delas são ferramentas de reunião ou edição, e a maioria roda um modelo da família Whisper por baixo do branding.

O Whisper by Remskill fica em uma faixa diferente de todas elas. É uma ferramenta de ditado, não um anotador de reuniões. Nós nos batizamos com o nome do modelo open-source que rodamos; se você já comparou os apps de ditado só na nuvem, nossa análise de alternativas ao Otter.ai e o guia mais amplo de softwares de transcrição cobrem as faixas com mais detalhes.

Quando dispensar totalmente uma ferramenta de transcrição por IA

Uma mesa com uma estatueta da justiça, um diploma e documentos, evocando trabalhos de alto risco em que a transcrição manual vence

Às vezes a ferramenta certa é nenhuma ferramenta. Se o áudio é de alto risco e tem peso legal (um depoimento em tribunal, um prontuário médico, um documento regulatório), pague um humano. O serviço humano do Rev existe justamente porque uma taxa de erro de cinco por cento em um contrato é um processo judicial, não um erro de digitação. E se tudo o que você precisa é uma resposta de texto de 30 palavras, o ditado já embutido no seu celular ou no seu Mac é grátis e dá conta; não baixe nada. A transcrição por IA conquista seu lugar no meio do caminho: mais longa que uma mensagem de texto, menos arriscada que um depoimento, frequente o suficiente para valer um atalho. Fora dessa faixa, recorra a uma pessoa ou ao recurso gratuito que já está no seu dispositivo.

Quanto custa

Os preços nessa categoria vão de grátis a genuinamente caro, e a variação te diz o que cada ferramenta está vendendo. Os níveis gratuitos são reais, mas medidos — o Otter limita o plano grátis a 300 minutos por mês, o nível gratuito de IA do Rev a 45 minutos, e o modelo open-source Whisper é gratuito para sempre se você estiver disposto a rodá-lo por conta própria. As APIs em nuvem cobram por minuto, o que é tranquilo até um loop descontrolado de novas tentativas transformar um trimestre em uma fatura de cinco dígitos. O Whisper by Remskill é gratuito para todo o processo local depois que você cria uma conta, sem precisar de método de pagamento para começar; os recursos de nuvem ficam por trás do Whisper Pro. Os números exatos, os planos e o que o Pro inclui estão na página de preços — prefiro que você confira o valor atualizado a confiar em um número que digitei em um post de blog.

Quando você terminar de ler isto, minha filha já poderia ter ditado três e-mails e me perguntado duas vezes por que a lua às vezes não está lá. A tecnologia não é mais a parte difícil. A única escolha de verdade que sobrou é se as suas palavras ficam na sua máquina ou dão um passeio até a de outra pessoa — e essa é uma escolha que vale a pena fazer antes de apertar gravar, não depois.

Quer testar sem enviar sua voz para lugar nenhum?

Baixe o Whisper, escolha o modo local, segure o atalho e veja a transcrição aparecer em qualquer app em que você já esteja. Nada sai da sua máquina.

Transcrição local gratuita para todo usuário com login. O Pro adiciona os recursos de nuvem em um teste separado.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura complementar