Comparativo
A alternativa honesta ao Aqua Voice
O Aqua Voice é um app de ditado na nuvem para Mac, Windows e iPhone que digita sua fala em qualquer aplicativo em tempo real, corrigindo gramática e formatação enquanto você fala. A alternativa privada mais forte é o Whisper by Remskill, cujo pipeline local roda offline, de graça, e nunca envia seu áudio para lugar nenhum.
Última atualização: junho de 2026

Deixa eu tirar logo o conflito de interesses do caminho. Este é um texto comparativo, e eu construí uma das duas coisas que ele compara. Então vou dar crédito ao Aqua Voice onde ele merece, o que é em mais lugares do que você esperaria de um blog de concorrente, e vou ser específico sobre o único ponto em que a gente realmente ganha.
O Whisper by Remskill é uma alternativa privada ao Aqua Voice cujo pipeline local inteiro roda offline e de graça para sempre, sem limite de palavras e sem pedir forma de pagamento no cadastro. O Aqua Voice é em tempo real, polido, e refina sua fala na nuvem enquanto você fala. A diferença que importa cabe em uma palavra: nuvem.
O que é este comparativo, e quem o escreveu
A verdade sem graça é que o Aqua Voice é bom no que faz. É em tempo real, é polido, e processa cada palavra enquanto você fala, ajustando frases e gramática na hora. Se você já paga por ele e está feliz, provavelmente pode fechar esta aba. Tem uma seção inteira perto do fim que diz exatamente quando vale a pena continuar com ele.
Para todo mundo que ainda está lendo, a diferença cabe em uma palavra: nuvem. O Aqua manda seu áudio para os servidores dele para fazer essa mágica em tempo real. A gente faz no seu notebook, de graça, e o áudio nunca sai da sala.
Esse é o argumento inteiro, e vou passar o resto do artigo mostrando isso em vez de só afirmar. Sem contagem de avaliações falsas, sem número de usuários inventado. Só duas listas de recursos e uma tabela que você pode conferir nos dois sites.
O que o Aqua Voice realmente faz
O Aqua Voice roda no Mac e no Windows, e tem app de iPhone também. Ele faz ditado ao vivo, em tempo real, que se encaixa em todos os aplicativos que você já usa, sem ritual de configuração. Aperte, fale, e o texto refinado aparece. O refinamento é o grande chamariz: ele corrige a gramática, limpa as frases e formata enquanto você fala.
Por baixo dos panos é um motor de nuvem proprietário. O marketing chama de Avalon no plano pago e Aqua Engine no gratuito, e não há pesos abertos para inspecionar. Ele entende 49 idiomas. Esse é um número real em um site real, e eu não vou diminuí-lo.
No tratamento de dados, o Aqua é mais cuidadoso do que a maioria das ferramentas de nuvem. O próprio site dele diz que nada é armazenado nos servidores deles nos planos Starter e Pro, com Zero Data Retention reservado para o Enterprise. É uma política justa. Mas continua sendo uma política. Seu áudio sai da sua máquina, viaja até a nuvem deles, é transcrito e volta. Você está confiando em uma promessa, em vez de confiar na física.
Tem um plano Starter gratuito limitado a 1.000 palavras, depois um plano Pro cobrado anualmente, um plano Team e o Enterprise. Não vou citar os valores aqui, porque páginas de preço mudam e você deveria ler a deles e a nossa direto na fonte. O que importa é o formato: o plano gratuito acaba, e tudo depois dele é assinatura.
O que você também ganha com o Whisper by Remskill
Aqui é a parte em que descrevo a coisa que eu construí, e depois deixo você julgar pela tabela. O Whisper by Remskill são dois produtos em um atalho de teclado. O plano gratuito é o pipeline local inteiro. Você ganha os 8 modelos de transcrição do Whisper, o motor Parakeet, limpeza por IA totalmente offline via Ollama, histórico de transcrições, presets, hotwords, aceleração por hardware, download de modelos e um atalho personalizado. Sem forma de pagamento no cadastro, e sem limite de palavras. Você cria uma conta, baixa o app, aperta o atalho e fala.
Você escolhe seu motor local pelo que precisa, não pelo que a gente empurra. O Whisper te dá 99 idiomas, tradução para o inglês, vocabulário personalizado, controle de beam-size e ajuste por hotwords, tudo ao custo de velocidade. O Parakeet é o motor NVIDIA TDT, cerca de 600 MB, e roda de 5 a 10 vezes mais rápido que o Whisper numa CPU, cobrindo inglês mais 24 outros idiomas europeus. Escolha o Parakeet para velocidade e inglês. Escolha o Whisper para idiomas, tradução ou controle fino. Nenhum dos dois é o padrão. A escolha é sua.
A precisão local geralmente fica entre 95% e 99%, e tudo roda na sua CPU, sem precisar de GPU. O app em si ocupa cerca de 25 MB em disco. Tudo isso acontece na sua máquina. Sem ida e volta, sem servidores, sem promessa para confiar.
Se você quiser a nuvem, a gente também tem, e é traga-sua-própria-chave. O plano Pro adiciona a transcrição na nuvem da OpenAI. Você cola sua própria chave da OpenAI e escolhe o modelo: gpt-4o-mini-transcribe a cerca de $0.003 por minuto, ou gpt-4o-transcribe para qualidade mais alta. O aprimoramento por IA roda no gpt-5-mini por padrão, e ainda tem busca na web no seu cursor através da Responses API da OpenAI. A gente não cobra nada por cima da tarifa da OpenAI. Sua chave, sua conta — leia a página de preços para os números do Pro.
A história das plataformas é a parte honesta. Windows e macOS no Apple Silicon, os dois já estão disponíveis hoje. Não há app de iPhone, nem app de iPad, nem Android. Se você dita pelo celular, é aqui que o Aqua está claramente na frente.
Aqua Voice vs Whisper by Remskill, lado a lado
A tabela que ninguém mais parece preencher com linhas de verdade. Sem números nela — confira as duas páginas de preço para isso.
| Recurso | Aqua Voice | Whisper by Remskill |
|---|---|---|
| Plataformas | Mac, Windows, iOS | Mac (Apple Silicon) e Windows; sem app mobile |
| Onde o áudio é processado | Nuvem; o áudio sai da sua máquina | Na sua máquina, offline |
| Plano gratuito | Grátis até 1.000 palavras | Pipeline local inteiro grátis para sempre, sem limite de palavras |
| Funciona sem internet | Não, é baseado na nuvem | Sim, totalmente offline no pipeline local |
| Motor | Nuvem proprietária (Avalon / Aqua Engine), sem pesos abertos | 8 modelos Whisper + Parakeet, modelos abertos |
| Traga sua própria chave da OpenAI | Não oferecido | Sim — a nuvem é BYOK, sem acréscimo |
| Idiomas | 49 | 99 no Whisper multilíngue, 25 no Parakeet |
| Traduzir para o inglês | Não informado | Sim, nos modelos Whisper |
| Refinamento em tempo real enquanto você fala | Sim; seu recurso de assinatura | A limpeza roda após a fala, via Ollama ou IA na nuvem |
| Ditado mobile | Sim — iPhone | Sem app mobile |
| Modelo de preços | Assinatura depois do limite gratuito | Local grátis; Pro opcional para a nuvem |
Algumas leituras honestas dessa tabela. O refinamento em tempo real do Aqua é genuinamente elegante, seus 49 idiomas cobrem a maior parte do que as pessoas ditam, e ele tem um app mobile, coisa que a gente não tem. Esses não são triunfos pequenos. Mas em toda linha que fala de offline, privacidade, pipeline local gratuito ou número de idiomas, a vantagem corre para o outro lado.
Seu áudio nunca sair da máquina é o ponto inteiro
É isso que a maioria veio aqui comparar, então deixa eu ser concreto. A política de dados do Aqua é boa. Ela diz que nada é armazenado nos servidores deles nos planos de consumo. Eu acredito neles. Mas "a gente não guarda" não é a mesma coisa que "nunca saiu". Seu áudio ainda viaja até uma nuvem para ser transcrito, porque é assim que um motor de nuvem funciona. Com o pipeline local do Whisper by Remskill, não há servidor nenhum no caminho. O modelo carrega na sua RAM, seu microfone o alimenta, e o texto aparece: num voo em modo avião, dentro de uma sala blindada, num trem atravessando um túnel. Você não está confiando em uma promessa. Não há nada a prometer.
Aqui vai a única opinião que vou gastar neste artigo. Ditado só na nuvem é um desastre de privacidade esperando para ser transcrito. A planilha de salários do seu chefe, o e-mail para a escola do seu filho, a petição jurídica que você está redigindo no trem: nada disso deveria sair do seu notebook só porque você quis digitar com a voz. Uma equipe com quem trabalhei uma vez teve um terceirizado construindo um protótipo interno de ditado na nuvem que chamava uma API de IA a cada fala. Ele transcreveu as mesmas gravações de daily quatro vezes seguidas porque a lógica de "retentativa inteligente" era agressiva demais. O gerente abriu o painel de custos da nuvem no fim do trimestre e encontrou uma conta de cinco dígitos. A solução do terceirizado foi "vamos otimizar o prompt". A solução do CFO foi "ou a gente para de mandar para um servidor reuniões das quais já temos anotações". Local-first era a resposta mais barata e a mais privada, na mesma frase.
Seu notebook já tem um microfone e uma CPU. Ele não precisa de um servidor no caminho para digitar um parágrafo. A nuvem é uma ótima saída de emergência e um padrão estranho.
Quando continuar no Aqua Voice
Esta seção justifica o resto do artigo. Existem motivos reais para continuar nele, e eu não vou fingir o contrário.
Você quer uma experiência de nuvem totalmente gerenciada e não liga para offline
Esse é o grande motivo. O Aqua é em tempo real, hospedado e sem configuração. Se o seu áudio morar por um instante no servidor de um fornecedor não te incomoda, e você prefere não baixar um modelo nem pensar em motores, a experiência de nuvem gerenciada é genuinamente mais fácil. Fique com o que funciona.
Você quer especificamente a formatação em tempo real dele
O Aqua refina frases e corrige gramática enquanto você fala, no momento, antes do texto aparecer. A nossa limpeza roda depois da fala, não no meio da frase. Se aquele refinamento ao vivo, palavra por palavra, é o recurso pelo qual você se apaixonou, o deles faz isso e o nosso funciona de outro jeito.
Você dita pelo celular
O Aqua tem um app de iPhone. A gente está no Windows e no Mac com Apple Silicon, e não há app mobile no nosso roadmap. Se o seu ditado do dia a dia acontece no celular, você precisa da ferramenta deles.
Para todo mundo mais — quem escreve sozinho, profissionais de marketing, vendedores, estudantes, pais respondendo o e-mail da professora enquanto fazem o jantar, qualquer pessoa cujas palavras não deveriam sair da sala — comece pelo nosso plano local gratuito e veja se você algum dia esbarra num limite. Não há limite de palavras e não precisa de internet.
Se você só lembrar de uma coisa
A maioria dos artigos comparativos de ditado termina mandando você transformar seu fluxo de trabalho. Este aqui termina menor. O que o ditado por voz conserta é a distância entre ter algo a dizer e colocar isso no documento. O Aqua fecha essa distância em tempo real, na nuvem, e cobra depois do limite gratuito. A gente fecha na sua máquina, offline, com a parte local de graça. Se suas palavras podem morar no servidor de outra pessoa, o Aqua é uma escolha boa. Se não podem, ou se você simplesmente preferiria que não morassem, é exatamente para esse limite que a gente foi construído.
Se você quiser a versão mais aprofundada desse argumento, eu escrevi sobre isso no nosso texto sobre transcrição de fala offline, e ainda tem o nosso comparativo de alternativa ao superwhisper caso você esteja pesando opções locais.
Experimente primeiro o pipeline local gratuito
Baixe o Whisper by Remskill, crie uma conta sem precisar de cartão, aperte o atalho e dite. Seu áudio fica na sua máquina, e se você nunca precisar do plano de nuvem, você nunca paga.
Transcrição local gratuita para sempre, totalmente offline. Sem forma de pagamento no cadastro. O teste de 7 dias da nuvem só pede cartão na hora do upgrade.



