Comparação
Transcrição local vs na nuvem
A transcrição local roda o modelo de fala no seu próprio computador: o áudio nunca sai do dispositivo, funciona sem internet e não tem custo por minuto. A transcrição na nuvem envia o áudio para um servidor com os modelos mais recentes, o que é mais rápido em hardware mais fraco e pode incluir busca na web em tempo real, mas o áudio sai da sua máquina e você paga pelo uso.
Última atualização: junho de 2026

A transcrição local mantém o áudio no dispositivo, funciona offline e não tem custo por minuto após um único download do modelo. A transcrição na nuvem usa o modelo mais recente do provedor e pode pesquisar na web, mas exige conexão e cobra por uso. Nosso app oferece os dois modos com uma única chave de atalho e um botão de alternância, então você escolhe a cada uso em vez de se comprometer para sempre.
Esse é o tradeoff completo em dois parágrafos curtos. Tudo abaixo é o detalhe por trás disso.
Posso escrever isso sem tomar partido porque nosso app oferece os dois modos. O pipeline local roda oito modelos Whisper mais o Parakeet da NVIDIA, tudo em Rust puro no seu CPU, e é gratuito para qualquer usuário autenticado, sem cartão de crédito. O modo nuvem usa a transcrição da OpenAI com sua própria chave de API, disponível como o complemento Pro. Mesmo atalho, mesmo overlay, um botão de alternância. Então quando digo que o modo local é a escolha certa para a maioria das pessoas, não é porque só vendemos o local. É o que os números mostram.
Local significa que o modelo vive no seu disco
A transcrição local baixa um modelo de fala uma vez e o executa no seu processador. Sem upload, sem servidor, sem ping em nuvem durante uma gravação. Desconecte o cabo de rede e ela continua funcionando.
Nosso app faz isso em Rust puro por meio de uma biblioteca chamada transcribe-rs, sem nenhum Python no meio. Você escolhe entre oito modelos Whisper, do Base com cerca de 140 MB até o Large v3 com aproximadamente 3 GB, ou o Parakeet da NVIDIA com cerca de 600 MB, que é de cinco a dez vezes mais rápido que o Whisper no CPU. Sem necessidade de GPU. O modelo é carregado na RAM, sua voz entra, o texto sai, e nada disso toca a internet.
O download é o único ponto de atrito. Um modelo de 3 GB é um download pesado no Wi-Fi de hotel, e um notebook de 2018 roda bem um modelo pequeno, mas vai travar no maior. Depois desse primeiro download, porém, não há custo por minuto nem servidor no meio. Se quiser entender melhor como usar offline, escrevi um artigo completo sobre isso. Veja fala para texto offline no desktop.
Na nuvem, o seu áudio faz uma viagem
A transcrição na nuvem grava seu áudio, envia para o servidor de um provedor e o servidor devolve o texto. Você está alugando o hardware e o modelo mais recente de outra pessoa.
No nosso app, o modo nuvem usa a OpenAI com sua própria chave. A transcrição roda no gpt-4o-mini-transcribe ou no gpt-4o-transcribe de maior qualidade, e você pode adicionar refinamento por IA e busca na web em tempo real pela mesma chave. Você fornece sua própria chave da OpenAI e paga diretamente a ela. Não cobramos comissão nem margem. Não há nenhum modelo grande para baixar. Funciona igual em um netbook de cinco anos e em um workstation novo, porque o trabalho acontece no servidor, e ele pode responder a uma pergunta pesquisando na web, algo que um modelo local simplesmente não consegue fazer.
O custo está no próprio funcionamento. Seu áudio sai da sua máquina. Você precisa de conexão ativa. E você paga por minuto, em frações de centavo, mas vai acumulando, e é medido.
A comparação honesta
Não há valores em dólares nesta tabela de propósito. Veja nossa página de preços para os números reais. Aqui o foco é o perfil de cada escolha.
| O que importa para você | Transcrição local | Transcrição na nuvem |
|---|---|---|
| Privacidade | O áudio nunca sai da sua máquina | O áudio é enviado para o servidor do provedor |
| Funciona offline | Sim, após o download único do modelo | Não, exige conexão ativa |
| Modelo de custo | Sem custo por minuto após o download | Medido, você paga por minuto usado |
| Velocidade depende de | Seu próprio CPU e o tamanho do modelo | O hardware do provedor e sua conexão |
| Atualização do modelo | O modelo que você baixou, atualizado quando quiser | Sempre o modelo mais recente do provedor |
| Acesso à web em tempo real | Não | Sim, a nuvem pode pesquisar e responder |
Leia de cima a baixo e o padrão fica claro. O local troca conveniência por privacidade, uso offline e custo fixo. A nuvem troca privacidade e cobrança por uso pelo modelo mais recente e conexão à web. Nenhum é melhor que o outro. Eles são bons em trabalhos diferentes.
Quando a nuvem é a escolha certa
Não vou fingir que o local ganha sempre. Há situações reais em que eu escolheria a nuvem.
Se o seu hardware é antigo ou com pouca RAM, a nuvem é a opção mais gentil. Um notebook de 2017 com 8 GB de RAM vai brigar com um modelo local grande, enquanto a nuvem faz o trabalho pesado em outro lugar e sua máquina só cuida do microfone. Se você precisa da melhor qualidade absoluta de transcrição em áudios difíceis — sotaques carregados, múltiplos falantes ao mesmo tempo ou jargão técnico —, os modelos hospedados mais recentes tendem a superar o que você consegue rodar em casa. E se quiser ditar uma pergunta e receber uma resposta pesquisada na web direto no cursor, isso exige a nuvem, ponto final. Um modelo local não tem internet para pesquisar.
O fio condutor de tudo isso: a nuvem é a válvula de escape para hardware fraco, qualidade de ponta e acesso à web em tempo real.
Quando o local é a escolha certa
Para a maioria das pessoas, na maior parte do tempo, eu começaria pelo local.
Se as palavras que você dita são privadas — uma planilha de salários, um e-mail para a escola do seu filho, um rascunho jurídico —, elas não deveriam acabar nos logs de um fornecedor só porque você quis digitar com a voz. O local mantém esse áudio na sua máquina, ponto. Se você trabalha em aviões, trens ou em cafés com Wi-Fi ruim, o local não liga para sinal. E se você dita muito, o custo fixo importa.
Aqui está a opinião que eu realmente defendo: comece pelo local e trate a nuvem como a válvula de escape, não como padrão. Se o seu Mac é Apple Silicon ou seu PC é dos últimos quatro anos, o local lida com o ditado do dia a dia com 95% a 99% de precisão sem nenhum servidor no meio. Recorra à nuvem quando bater em uma parede — seja hardware fraco, áudio muito difícil ou necessidade de busca na web. A maioria das pessoas nunca bate nessa parede.
Tenho um motivo para ser cuidadoso com a nuvem como padrão. Uma equipe com quem trabalhei uma vez deixou um contratado construir um protótipo interno de ditado por IA na nuvem que chamava a API a cada fala. Um loop de retry esperto transcreveu as mesmas gravações de standup quatro vezes. O gerente abriu o painel de custos no fim do trimestre e encontrou uma conta de cinco dígitos. A solução do contratado foi otimizar o prompt. A solução do CFO foi parar de pagar para transcrever reuniões que já tinham anotações. A nuvem medida é ótima até que algo entre em loop. O local não tem um contador pra disparar.
Os dois modos em um único app
A divisão acima é real, mas não é uma bifurcação definitiva. No nosso app, os dois modos ficam atrás do mesmo atalho e do mesmo overlay de gravação, e alternar entre eles é um único botão. Dite um e-mail privado no modo local de manhã, mude para a nuvem para checar uma informação com busca na web à tarde, e volte. Você não reinstala nada. Você não escolhe um lado para sempre.
Essa é a parte que o enquadramento de local vs nuvem tende a ignorar. Não é uma guerra de religiões. São duas ferramentas na mesma gaveta, e a certa depende da frase que você está prestes a dizer. Se quiser comparar os motores locais entre si — velocidade versus cobertura de idiomas —, isso é um artigo à parte: Whisper vs Parakeet. E se você está comparando com um concorrente específico, a comparação com o superwhisper detalha um caso em profundidade.
Se você só vai lembrar de uma coisa
Local para privacidade, uso offline e custo fixo. Nuvem para o modelo mais recente, hardware fraco e acesso à web. Comece pelo local e guarde a nuvem como válvula de escape. O melhor de tudo é não precisar escolher para sempre: um botão, dois modos, o que encaixar na frase que você está prestes a dizer.
Experimente os dois
Os motores locais são gratuitos para qualquer usuário autenticado, e você pode adicionar o modo nuvem quando realmente precisar. Baixe o app, dite um e-mail privado no modo local, depois alterne e veja o que a nuvem muda para você.
Transcrição local gratuita para sempre. Sem dados de pagamento no cadastro.



