Por Denys Medvediev

Comparativo

A alternativa honesta ao Aqua Voice

O Aqua Voice é um app de ditado na nuvem para Mac, Windows e iPhone que digita sua fala em qualquer aplicativo em tempo real, corrigindo gramática e formatação enquanto você fala. A alternativa privada mais forte é o Whisper by Remskill, cujo pipeline local roda offline, de graça, e nunca envia seu áudio para lugar nenhum.

Última atualização: junho de 2026

Um microfone condensador de estúdio sobre uma mesa em luz baixa e acolhedora, evocando ditado de voz offline

Deixa eu tirar logo o conflito de interesses do caminho. Este é um texto comparativo, e eu construí uma das duas coisas que ele compara. Então vou dar crédito ao Aqua Voice onde ele merece, o que é em mais lugares do que você esperaria de um blog de concorrente, e vou ser específico sobre o único ponto em que a gente realmente ganha.

O Whisper by Remskill é uma alternativa privada ao Aqua Voice cujo pipeline local inteiro roda offline e de graça para sempre, sem limite de palavras e sem pedir forma de pagamento no cadastro. O Aqua Voice é em tempo real, polido, e refina sua fala na nuvem enquanto você fala. A diferença que importa cabe em uma palavra: nuvem.

O que é este comparativo, e quem o escreveu

A verdade sem graça é que o Aqua Voice é bom no que faz. É em tempo real, é polido, e processa cada palavra enquanto você fala, ajustando frases e gramática na hora. Se você já paga por ele e está feliz, provavelmente pode fechar esta aba. Tem uma seção inteira perto do fim que diz exatamente quando vale a pena continuar com ele.

Para todo mundo que ainda está lendo, a diferença cabe em uma palavra: nuvem. O Aqua manda seu áudio para os servidores dele para fazer essa mágica em tempo real. A gente faz no seu notebook, de graça, e o áudio nunca sai da sala.

Esse é o argumento inteiro, e vou passar o resto do artigo mostrando isso em vez de só afirmar. Sem contagem de avaliações falsas, sem número de usuários inventado. Só duas listas de recursos e uma tabela que você pode conferir nos dois sites.

O que o Aqua Voice realmente faz

O Aqua Voice roda no Mac e no Windows, e tem app de iPhone também. Ele faz ditado ao vivo, em tempo real, que se encaixa em todos os aplicativos que você já usa, sem ritual de configuração. Aperte, fale, e o texto refinado aparece. O refinamento é o grande chamariz: ele corrige a gramática, limpa as frases e formata enquanto você fala.

Por baixo dos panos é um motor de nuvem proprietário. O marketing chama de Avalon no plano pago e Aqua Engine no gratuito, e não há pesos abertos para inspecionar. Ele entende 49 idiomas. Esse é um número real em um site real, e eu não vou diminuí-lo.

No tratamento de dados, o Aqua é mais cuidadoso do que a maioria das ferramentas de nuvem. O próprio site dele diz que nada é armazenado nos servidores deles nos planos Starter e Pro, com Zero Data Retention reservado para o Enterprise. É uma política justa. Mas continua sendo uma política. Seu áudio sai da sua máquina, viaja até a nuvem deles, é transcrito e volta. Você está confiando em uma promessa, em vez de confiar na física.

Tem um plano Starter gratuito limitado a 1.000 palavras, depois um plano Pro cobrado anualmente, um plano Team e o Enterprise. Não vou citar os valores aqui, porque páginas de preço mudam e você deveria ler a deles e a nossa direto na fonte. O que importa é o formato: o plano gratuito acaba, e tudo depois dele é assinatura.

O que você também ganha com o Whisper by Remskill

Aqui é a parte em que descrevo a coisa que eu construí, e depois deixo você julgar pela tabela. O Whisper by Remskill são dois produtos em um atalho de teclado. O plano gratuito é o pipeline local inteiro. Você ganha os 8 modelos de transcrição do Whisper, o motor Parakeet, limpeza por IA totalmente offline via Ollama, histórico de transcrições, presets, hotwords, aceleração por hardware, download de modelos e um atalho personalizado. Sem forma de pagamento no cadastro, e sem limite de palavras. Você cria uma conta, baixa o app, aperta o atalho e fala.

Whisper
O app Whisper by Remskill ao vivo — barra lateral, painel de transcrição e cartões de instrução de IA. Esta é a interface real, não uma montagem.

Você escolhe seu motor local pelo que precisa, não pelo que a gente empurra. O Whisper te dá 99 idiomas, tradução para o inglês, vocabulário personalizado, controle de beam-size e ajuste por hotwords, tudo ao custo de velocidade. O Parakeet é o motor NVIDIA TDT, cerca de 600 MB, e roda de 5 a 10 vezes mais rápido que o Whisper numa CPU, cobrindo inglês mais 24 outros idiomas europeus. Escolha o Parakeet para velocidade e inglês. Escolha o Whisper para idiomas, tradução ou controle fino. Nenhum dos dois é o padrão. A escolha é sua.

A precisão local geralmente fica entre 95% e 99%, e tudo roda na sua CPU, sem precisar de GPU. O app em si ocupa cerca de 25 MB em disco. Tudo isso acontece na sua máquina. Sem ida e volta, sem servidores, sem promessa para confiar.

Se você quiser a nuvem, a gente também tem, e é traga-sua-própria-chave. O plano Pro adiciona a transcrição na nuvem da OpenAI. Você cola sua própria chave da OpenAI e escolhe o modelo: gpt-4o-mini-transcribe a cerca de $0.003 por minuto, ou gpt-4o-transcribe para qualidade mais alta. O aprimoramento por IA roda no gpt-5-mini por padrão, e ainda tem busca na web no seu cursor através da Responses API da OpenAI. A gente não cobra nada por cima da tarifa da OpenAI. Sua chave, sua conta — leia a página de preços para os números do Pro.

A história das plataformas é a parte honesta. Windows e macOS no Apple Silicon, os dois já estão disponíveis hoje. Não há app de iPhone, nem app de iPad, nem Android. Se você dita pelo celular, é aqui que o Aqua está claramente na frente.

Aqua Voice vs Whisper by Remskill, lado a lado

A tabela que ninguém mais parece preencher com linhas de verdade. Sem números nela — confira as duas páginas de preço para isso.

Comparação de recursos entre o Aqua Voice e o Whisper by Remskill
RecursoAqua VoiceWhisper by Remskill
PlataformasMac, Windows, iOSMac (Apple Silicon) e Windows; sem app mobile
Onde o áudio é processadoNuvem; o áudio sai da sua máquinaNa sua máquina, offline
Plano gratuitoGrátis até 1.000 palavrasPipeline local inteiro grátis para sempre, sem limite de palavras
Funciona sem internetNão, é baseado na nuvemSim, totalmente offline no pipeline local
MotorNuvem proprietária (Avalon / Aqua Engine), sem pesos abertos8 modelos Whisper + Parakeet, modelos abertos
Traga sua própria chave da OpenAINão oferecidoSim — a nuvem é BYOK, sem acréscimo
Idiomas4999 no Whisper multilíngue, 25 no Parakeet
Traduzir para o inglêsNão informadoSim, nos modelos Whisper
Refinamento em tempo real enquanto você falaSim; seu recurso de assinaturaA limpeza roda após a fala, via Ollama ou IA na nuvem
Ditado mobileSim — iPhoneSem app mobile
Modelo de preçosAssinatura depois do limite gratuitoLocal grátis; Pro opcional para a nuvem

Algumas leituras honestas dessa tabela. O refinamento em tempo real do Aqua é genuinamente elegante, seus 49 idiomas cobrem a maior parte do que as pessoas ditam, e ele tem um app mobile, coisa que a gente não tem. Esses não são triunfos pequenos. Mas em toda linha que fala de offline, privacidade, pipeline local gratuito ou número de idiomas, a vantagem corre para o outro lado.

Seu áudio nunca sair da máquina é o ponto inteiro

É isso que a maioria veio aqui comparar, então deixa eu ser concreto. A política de dados do Aqua é boa. Ela diz que nada é armazenado nos servidores deles nos planos de consumo. Eu acredito neles. Mas "a gente não guarda" não é a mesma coisa que "nunca saiu". Seu áudio ainda viaja até uma nuvem para ser transcrito, porque é assim que um motor de nuvem funciona. Com o pipeline local do Whisper by Remskill, não há servidor nenhum no caminho. O modelo carrega na sua RAM, seu microfone o alimenta, e o texto aparece: num voo em modo avião, dentro de uma sala blindada, num trem atravessando um túnel. Você não está confiando em uma promessa. Não há nada a prometer.

Pasted
O overlay pós-ditado que já vem no app — como uma única transcrição local, gratuita e totalmente offline aparece no instante em que termina.

Aqui vai a única opinião que vou gastar neste artigo. Ditado só na nuvem é um desastre de privacidade esperando para ser transcrito. A planilha de salários do seu chefe, o e-mail para a escola do seu filho, a petição jurídica que você está redigindo no trem: nada disso deveria sair do seu notebook só porque você quis digitar com a voz. Uma equipe com quem trabalhei uma vez teve um terceirizado construindo um protótipo interno de ditado na nuvem que chamava uma API de IA a cada fala. Ele transcreveu as mesmas gravações de daily quatro vezes seguidas porque a lógica de "retentativa inteligente" era agressiva demais. O gerente abriu o painel de custos da nuvem no fim do trimestre e encontrou uma conta de cinco dígitos. A solução do terceirizado foi "vamos otimizar o prompt". A solução do CFO foi "ou a gente para de mandar para um servidor reuniões das quais já temos anotações". Local-first era a resposta mais barata e a mais privada, na mesma frase.

Seu notebook já tem um microfone e uma CPU. Ele não precisa de um servidor no caminho para digitar um parágrafo. A nuvem é uma ótima saída de emergência e um padrão estranho.

Quando continuar no Aqua Voice

Esta seção justifica o resto do artigo. Existem motivos reais para continuar nele, e eu não vou fingir o contrário.

Você quer uma experiência de nuvem totalmente gerenciada e não liga para offline

Esse é o grande motivo. O Aqua é em tempo real, hospedado e sem configuração. Se o seu áudio morar por um instante no servidor de um fornecedor não te incomoda, e você prefere não baixar um modelo nem pensar em motores, a experiência de nuvem gerenciada é genuinamente mais fácil. Fique com o que funciona.

Você quer especificamente a formatação em tempo real dele

O Aqua refina frases e corrige gramática enquanto você fala, no momento, antes do texto aparecer. A nossa limpeza roda depois da fala, não no meio da frase. Se aquele refinamento ao vivo, palavra por palavra, é o recurso pelo qual você se apaixonou, o deles faz isso e o nosso funciona de outro jeito.

Você dita pelo celular

O Aqua tem um app de iPhone. A gente está no Windows e no Mac com Apple Silicon, e não há app mobile no nosso roadmap. Se o seu ditado do dia a dia acontece no celular, você precisa da ferramenta deles.

Para todo mundo mais — quem escreve sozinho, profissionais de marketing, vendedores, estudantes, pais respondendo o e-mail da professora enquanto fazem o jantar, qualquer pessoa cujas palavras não deveriam sair da sala — comece pelo nosso plano local gratuito e veja se você algum dia esbarra num limite. Não há limite de palavras e não precisa de internet.

Se você só lembrar de uma coisa

A maioria dos artigos comparativos de ditado termina mandando você transformar seu fluxo de trabalho. Este aqui termina menor. O que o ditado por voz conserta é a distância entre ter algo a dizer e colocar isso no documento. O Aqua fecha essa distância em tempo real, na nuvem, e cobra depois do limite gratuito. A gente fecha na sua máquina, offline, com a parte local de graça. Se suas palavras podem morar no servidor de outra pessoa, o Aqua é uma escolha boa. Se não podem, ou se você simplesmente preferiria que não morassem, é exatamente para esse limite que a gente foi construído.

Se você quiser a versão mais aprofundada desse argumento, eu escrevi sobre isso no nosso texto sobre transcrição de fala offline, e ainda tem o nosso comparativo de alternativa ao superwhisper caso você esteja pesando opções locais.

Experimente primeiro o pipeline local gratuito

Baixe o Whisper by Remskill, crie uma conta sem precisar de cartão, aperte o atalho e dite. Seu áudio fica na sua máquina, e se você nunca precisar do plano de nuvem, você nunca paga.

Transcrição local gratuita para sempre, totalmente offline. Sem forma de pagamento no cadastro. O teste de 7 dias da nuvem só pede cartão na hora do upgrade.

Foto de Denys Medvediev

Denys Medvediev

Sou eu que leio o nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura adicional