Por Denys Medvediev

Comparativo

O melhor software de transcrição em 2026

O melhor software de transcrição em 2026 depende da tarefa, não de um único vencedor. Anotações de reunião vão para o Otter, precisão de nível jurídico vai para serviços humanos como o Rev, áudio multilíngue vai para o Sonix, e o ditado prático que cola texto em qualquer lugar vai para uma ferramenta local como o Whisper by Remskill. Primeiro, escolha a ferramenta certa para a tarefa.

Revisado em 3 de junho de 2026, conferido nas páginas de preços e especificações atualizadas de cada fornecedor.

Close-up de uma interface de áudio digital mostrando uma forma de onda sonora vibrante, evocando o processamento de fala em texto

Não existe um único melhor software de transcrição em 2026, porque as ferramentas mal fazem a mesma coisa. Escolha pela tarefa: Otter para anotações de reunião e identificação de quem falou, Rev para precisão revisada por humanos em gravações críticas, Descript para editar áudio ou vídeo pela própria transcrição, Sonix para arquivos multilíngues, e uma ferramenta local como o Whisper by Remskill para ditar texto direto em qualquer aplicativo, offline. Defina a tarefa em uma frase e a ferramenta se escolhe sozinha.

Um amigo me mandou mensagem em abril perguntando qual aplicativo de transcrição ele deveria comprar. Ele tinha aberto doze abas, lido quatro listas e terminado mais confuso do que quando começou. Cada lista chamava uma ferramenta diferente de "a melhor". Uma colocou um editor de vídeo em primeiro lugar, cobrado por mês. Outra pôs um serviço humano que cobra por minuto ao lado de um modelo offline gratuito e fingiu que eles competiam. Ele só queria transformar uma entrevista gravada em texto limpo sem perder uma tarde inteira. Quando terminou de ler, tinha perdido a tarde de qualquer jeito.

Esse é o problema de toda essa categoria. "Melhor software de transcrição" é a pergunta errada, porque as ferramentas mal fazem a mesma coisa.

Algumas transcrevem arquivos gravados. Algumas legendam reuniões ao vivo. Algumas deixam você editar um podcast editando o texto dele. Uma delas, a que eu construo, digita suas palavras em qualquer aplicativo em que o cursor estiver, no instante em que você para de falar. A lacuna que leva meu amigo a abrir doze abas é que "transcrição" cobre pelo menos quatro tarefas diferentes, e quase ninguém as separa antes de criar um ranking.

Este guia as separa. Ele mostra como cada ferramenta importante foi conferida em suas próprias páginas de preços e especificações, quais são as diferenças reais, e qual eu escolheria em cada situação, incluindo os casos em que a resposta não somos nós. Depois de um ano lendo a caixa de entrada do nosso suporte, posso dizer que a maioria dos e-mails vem de pessoas que compraram a categoria errada de ferramenta, não a marca errada.

A resposta curta, conforme o que você está fazendo

Nenhuma ferramenta sozinha vence essa categoria, e qualquer lista que coroa uma sem perguntar o que você está transcrevendo está só enchendo linguiça. Então aqui vai o mapa honesto, por tarefa.

  • Anotações de reuniãoGrava reuniões e quer anotações, identificação de quem falou e resumos depois? Você quer uma ferramenta de reuniões. O Otter.ai é a escolha óbvia aqui: transcrição ao vivo, identificação dos participantes pelo nome e legendas ao vivo para o Google Meet.
  • Precisão críticaSe você precisa de precisão quase perfeita em um depoimento jurídico ou um prontuário médico e está disposto a pagar para uma pessoa revisar, você quer um serviço com revisão humana no processo. O Rev anuncia "Transcrição Humana Especializada com 99% de Precisão" para exatamente isso.
  • Edição de conteúdoEditando um podcast ou vídeo e quer cortar o áudio cortando as palavras? Isso é um editor baseado em transcrição. O Descript mede seus planos por horas de mídia, não por minutos de transcrição, porque é isso que ele é: um editor.
  • Arquivos multilínguesSe o seu áudio é multilíngue, você quer ampla cobertura de idiomas. O Sonix anuncia mais de 54 idiomas para transcrição.
  • Escrever por vozE se você quer parar de digitar, ditar e-mails, anotações e documentos direto em qualquer aplicativo, offline, com uma única tecla de atalho, você quer uma ferramenta de ditado. É nessa categoria que o Whisper by Remskill vive. Tarefa diferente. Lista diferente.

Como escolhi estas, e o que "precisão" significa

Uma nota rápida de honestidade sobre o método, porque listas de "melhores" com carimbo de ano costumam pular isso. Eu não submeti essas ferramentas a um laboratório com amostras de áudio equivalentes e cronômetro. Li a própria página de preços e especificações de cada ferramenta na data em que isto foi escrito, e me apoiei em um ano rodando meu próprio aplicativo de ditado e a caixa de entrada do seu suporte. Então as escolhas se baseiam em capacidades documentadas mais o tempo prático com uma ferramenta do grupo, não em benchmarks diretos que eu teria que inventar para parecer rigoroso.

Todo número neste artigo foi tirado da própria página de preços ou especificações da ferramenta. Não da memória, não do blog de um concorrente. Se o preço de uma ferramenta vivia atrás de um aplicativo JavaScript que não conseguimos ler, o preço não é citado. Ele fica de fora, porque um número errado é pior do que um número ausente.

Quatro coisas que pesei, definidas antes de olhar para qualquer produto:

  • PrecisãoO detalhe é que "99% de precisão" é uma frase de marketing, não um benchmark medido, a menos que alguém diga qual foi o conjunto de teste. Rev e Sonix anunciam 99 por cento. Essas são as afirmações dos próprios fornecedores sobre os próprios serviços, em suas próprias páginas. A precisão real depende do seu microfone, do seu sotaque, do ruído de fundo e de quantas pessoas falam por cima umas das outras. A verdade sem graça é que um microfone USB barato muda mais a precisão do que trocar entre duas ferramentas que alegam 99 por cento.
  • Cobertura de idiomasÉ aqui que as listas mais erram, então as contagens aqui são qualificadas por ferramenta. O Otter faz seis idiomas para transcrição por IA. O Rev faz inglês e espanhol no plano mais barato, mais de 37 nos planos superiores. O Sonix faz mais de 54. O Trint faz mais de 40. O modelo de código aberto OpenAI Whisper — o que várias dessas ferramentas rodam por baixo dos panos — lida com 99 idiomas em suas variantes multilíngues.
  • Para onde vai o seu áudioFerramentas na nuvem enviam sua gravação para um servidor. Para um podcast, tudo bem. Para uma planilha de salários lida em voz alta ou uma ligação jurídica sigilosa, nem tanto. O offline importa mais do que a maioria das listas admite.
  • A tarefa de verdade: ditado versus transcriçãoUma ferramenta de reuniões que entra automaticamente nas suas chamadas é inútil se o que você quer é ditar um documento direto nela. A transcrição transforma uma gravação em texto depois do fato; o ditado transforma sua voz ao vivo em texto enquanto você fala. São tarefas diferentes, e eu pontuo pela adequação, não pela contagem de recursos.
  • O modelo de preço, no formatoNão o valor exato em dólares, que muda, mas o formato: tem ou não tem plano gratuito, assinatura por usuário, pagamento conforme o uso por hora, ou gratuito-e-local. O modelo diz mais sobre se uma ferramenta combina com o seu hábito do que qualquer preço isolado.

As ferramentas que vale conhecer, lado a lado

Aqui estão as ferramentas que aparecem em toda lista séria, com uma linha honesta cada uma sobre para que servem. O preço é descrito em formato, não em números exatos, porque os valores das lojas mudam e um preço desatualizado não ajuda ninguém. Confira a própria página de cada ferramenta antes de pagar.

A tabela primeiro, para a olhada de dez segundos. Cada coluna aqui é algo que o fornecedor documenta ou que o cartão do modelo declara. Sem números de precisão ou velocidade, porque ninguém comparou essas ferramentas diretamente, eu inclusive.

FerramentaPlataformaLocal ou nuvemFunciona offlineModelo de preçoIdiomasMelhor para
Otter.aiWeb, mobileNuvemNãoPlano gratuito mais assinatura por usuário6Anotações de reunião e legendas ao vivo
RevWebNuvemNãoPlano gratuito mais assinatura por usuário, serviço humano cobrado à parteInglês e espanhol na entrada, mais de 37 acimaPrecisão crítica com revisão humana
DescriptDesktop, webNuvemNãoPlano gratuito mais assinatura por usuário, medido em horas de mídiaNão é o ponto forteEditar áudio ou vídeo pela transcrição
SonixWebNuvemNãoPagamento conforme o uso por hora ou faixas mensais de horasMais de 54Arquivos multilíngues
TrintWebNuvemNãoAssinatura (preço atrás de um app JS, não citado)Mais de 40Jornalistas e redações
OpenAI Whisper (código aberto)CLI multiplataformaLocalSimGratuito, licença MIT99 nas variantes multilínguesDesenvolvedores à vontade no terminal
OpenAI Speech-to-Text APIAPI na nuvemNuvemNãoPagamento por uso, com sua própria chave65Desenvolvedores integrando transcrição
Wispr FlowWindows, macOSNuvemNãoPlano gratuito mais assinaturaMais de 100 com detecção automáticaDitado na nuvem entre aplicativos
Whisper by RemskillWindows, macOS (Apple Silicon)Local ou nuvemSim, no modo localPipeline local gratuito, o Pro adiciona a nuvem99 no Whisper multilíngue, 25 no ParakeetEscrever por voz em qualquer aplicativo, offline
Ferramentas de transcrição num relance — plataforma, onde o processamento acontece e a única tarefa para a qual cada uma foi feita.

Otter.ai: transcrição de reuniões. Transcrição ao vivo, identificação de quem falou e legendas no Google Meet, com um plano gratuito limitado a 300 minutos por mês. Seis idiomas. A escolha padrão se o seu problema é "estive numa reunião e preciso de anotações".

Rev: transcrição humana mais IA. Vende um serviço com 99 por cento de precisão humana, com um plano gratuito e planos pagos que incluem milhares de minutos de IA por mês. Inglês e espanhol no plano de entrada, mais de 37 idiomas acima. Recorra a ele quando um erro na transcrição tem consequências jurídicas.

Descript: edição de áudio e vídeo baseada em transcrição. Os planos são medidos em horas de mídia, não em minutos de transcrição, com um plano gratuito de uma hora por mês. É um editor que por acaso transcreve, não o contrário. A ferramenta certa se você está produzindo conteúdo.

Sonix: transcrição multilíngue. Anuncia mais de 54 idiomas para transcrição, mais de 55 para tradução, um relatório SOC 2 Type II e conformidade com HIPAA no plano corporativo, com pagamento conforme o uso e faixas mensais de horas. Forte quando seus arquivos não estão em inglês.

Trint: feito para jornalistas e redações. Transcreve em mais de 40 idiomas, inclusive ao vivo, com detecção de quem falou e dicionário personalizado.

OpenAI Whisper (código aberto): o modelo gratuito, não um produto. Lançado sob a licença MIT, código e pesos, e consegue traduzir fala para o inglês a partir de muitos idiomas na maioria dos tamanhos de modelo. Roda 99 idiomas em suas variantes multilíngues. O detalhe: é um modelo de linha de comando. Não tem tecla de atalho, nem sobreposição, nem aplicativo. Você teria que construir a praticidade por conta própria.

A Speech-to-Text API hospedada da OpenAI: a versão paga, na nuvem, da mesma família. Oferece whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe e uma variante com diarização que adiciona identificação de quem falou, com limite de upload de 25 MB por arquivo e 65 idiomas suportados. Um desenvolvedor integrando, não um usuário final transcrevendo.

Wispr Flow: ditado de voz em texto, o vizinho mais próximo do que fazemos. "Não digite, apenas fale", funciona entre aplicativos e suporta mais de 100 idiomas com detecção automática. Baseado na nuvem.

Whisper by Remskill: esses somos nós. Ditado que cola texto onde quer que esteja o seu cursor, em qualquer aplicativo, com uma tecla de atalho: Ctrl+Space no Windows, e um atalho push-to-talk Command+Option no macOS, onde você segura as duas teclas e solta qualquer uma para parar. Roda totalmente local e offline se você quiser, e o modelo baixa para a sua máquina, sem nada saindo do seu dispositivo. Ou você conecta sua própria chave da OpenAI para qualidade na nuvem e busca na web. A transcrição local roda em Rust puro, sem Python, com dois motores: oito modelos OpenAI Whisper e o Parakeet TDT da NVIDIA. Os modelos multilíngues do Whisper cobrem 99 idiomas e conseguem traduzir para o inglês; o Parakeet cobre 25 idiomas europeus e é o mais rápido dos dois. Melhor para: escrever por voz, na sua própria máquina, em qualquer aplicativo.

Whisper
O aplicativo Whisper de verdade, rodando ao vivo — clique pelas Configurações e pelo seletor de modelos.

Transcrição por IA versus transcrição humana, e quando cada uma vale a pena

Uma divisão decide a maior parte. A transcrição por IA é instantânea e barata. A transcrição humana é lenta e cara, e pega as coisas que a IA ainda erra: vozes sobrepostas, sotaques carregados, um nome murmurado que precisa estar exatamente certo.

Para 90 por cento das tarefas, a IA já é boa o suficiente a ponto de pagar um humano parecer comprar um aparelho de fax. Você dita um e-mail, grava um podcast, transforma uma palestra em anotações, e a IA moderna lida com tudo isso em segundos por uma fração de centavo por minuto.

Os 10 por cento em que você ainda quer um humano: qualquer coisa em que uma única palavra errada custe caro. Um depoimento em tribunal. Um prontuário clínico. Uma entrevista oficial que um advogado vai ler. É por isso que o Rev ainda vende um serviço humano e o anuncia com 99 por cento de precisão, para os casos em que "a IA tinha 96 por cento de certeza" não é uma frase que você pode bancar.

Aqui está a parte que as listas pulam. A transcrição por IA em si se divide em nuvem e local, e a diferença não é velocidade, é onde o seu áudio termina. Vi uma equipe de uma empresa com a qual trabalhei construir um protótipo interno de ditado na nuvem, rodando em todos os laptops, chamando a API a cada fala. O gerente abriu o painel de custos da nuvem no fim do trimestre e encontrou uma conta de cinco dígitos, a maior parte vinda de uma única equipe transcrevendo gravações de daily quatro vezes seguidas porque a lógica de "nova tentativa inteligente" era agressiva demais. O contratado disse que deveriam otimizar o prompt. O CFO disse que não deveriam estar pagando para transcrever na nuvem reuniões que já tinham anotações. A transcrição local não gera essa conta, e não coloca a sua gravação no servidor de ninguém.

Quando o Otter é a melhor escolha, e quando pular todas as ferramentas aqui

A seção honesta de "quando pular o Whisper"

Cancel
A sobreposição de gravação do Whisper — segure a tecla de atalho, fale, e o texto cola no seu cursor.

Vou dizer a parte que ninguém diz. O Otter é para reuniões. O Whisper é para escrever. São categorias diferentes, e você não deveria pagar pela errada. Se o seu problema de verdade é "passei por uma chamada de 50 minutos e preciso de anotações com quem-disse-o-quê", compre a ferramenta de reuniões: o Otter faz transcrição ao vivo e identificação dos participantes pelo nome, e nós não. Não vamos entrar automaticamente na sua chamada do Zoom nem rotular três participantes, e fingir o contrário só me renderia um e-mail de suporte na hora errada.

Pule as ferramentas de ditado por completo se o que você tem é uma pasta de arquivos gravados para processar em lote — isso é uma tarefa de enviar-e-transcrever, e o Sonix, o Rev ou o Trint foram feitos para isso. Pule o caminho local se você está num Mac Intel antigo ou no Linux; lançamos apenas para Windows e Macs com Apple Silicon. E se você só precisa transcrever uma gravação curta neste mês de graça, o modelo de código aberto OpenAI Whisper não custa nada sob a licença MIT, embora você vá viver numa linha de comando para usá-lo.

O Whisper by Remskill conquista seu lugar quando a tarefa é o oposto de uma reunião: você, falando, transformando fala em texto dentro de qualquer aplicativo em que já esteja. Se você não está fazendo isso, uma das outras oito ferramentas acima é a sua resposta, e eu prefiro te dizer isso a te vender algo que não combina. Para o caso específico de reuniões, nosso comparativo de alternativas ao Otter.ai aprofunda exatamente onde fica a linha divisória.

O que você ganha nos planos gratuitos

Os planos gratuitos são reais, mas são dimensionados para fazer você fazer upgrade, então conheça o teto antes de criar um hábito em cima de um deles.

O plano Basic gratuito do Otter te dá 300 minutos de transcrição por mês. O plano gratuito do Descript te dá uma hora de mídia por mês, que para um editor de vídeo some rápido. O Rev tem um plano gratuito além dos planos pagos. O modelo de código aberto OpenAI Whisper é gratuito, sem nenhum limite de minutos, porque roda no seu próprio hardware sob a licença MIT.

O Whisper by Remskill é gratuito para todo usuário autenticado em todo o pipeline local — todo modelo Whisper, o Parakeet, limpeza por IA local, histórico, predefinições, tecla de atalho personalizada — sem nenhuma forma de pagamento pedida no cadastro. O plano pago, o Whisper Pro, adiciona a camada de nuvem em cima disso: transcrição com qualidade OpenAI usando a sua própria chave, mais busca na web por voz. A metade local não custa nada e continua assim. Eu fico esperando alguém me mandar um e-mail perguntando onde está a pegadinha. Até agora a resposta honesta é que não existe nenhuma.

Preços, em termos simples

Não vou citar aqui os valores em dólar dos concorrentes como verdade absoluta, porque os preços das lojas mudam e as páginas em EUR e USD discordam mais do que você imagina. O resumo honesto: ferramentas de reunião e edição (Otter, Descript) vendem assinaturas mensais por usuário com planos gratuitos anexados. Ferramentas de serviço humano (Rev) cobram mais, porque uma pessoa está trabalhando. Ferramentas multilíngues na nuvem (Sonix) vendem por hora ou por mês. Confira a própria página de preços de cada uma no dia em que for comprar. Esse é o único número que é verdadeiro.

Quanto ao nosso próprio preço, o pipeline local é gratuito para usuários autenticados e o Whisper Pro adiciona a camada de nuvem. Os valores exatos ficam na página de preços, mantidos atualizados lá em vez de num artigo que envelhece. Se você quer o comparativo de ferramentas de ditado reduzido a um único rival, a alternativa ao Wispr Flow cobre a mais próxima frente a frente.

Na primavera passada, meu amigo das doze abas finalmente me contou o que estava fazendo: transformando uma entrevista gravada em um rascunho de artigo. Uma frase, e a resposta caiu pronta: envie o arquivo para um transcritor na nuvem, depois dite as edições direto no documento dele. Ele fechou onze abas. A categoria, não a marca, era a coisa que ele tinha deixado escapar o tempo todo, e a maioria das pessoas que me mandam e-mail está deixando escapar a mesma coisa. Eu sempre penso em colocar isso na página inicial, logo depois de terminar de explicar para minha filha mais nova por que o computador não tem hora de dormir.

Quer sentir como é ditar por tecla de atalho?

Baixe o Whisper, experimente o modo local de graça e veja suas palavras aparecerem em qualquer aplicativo no instante em que você para de falar.

Pipeline local gratuito para toda conta autenticada. Sem cartão no cadastro.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê os e-mails do nosso suporte, provavelmente ditando as respostas.

Leitura complementar