Por Denys Medvediev

Explicativo

Ditado de voz privado, processado no dispositivo

Ditado de voz privado significa que sua voz é transcrita no próprio dispositivo, sem nada enviado para um servidor. O Whisper e o Parakeet locais funcionam completamente offline. Serviços de ditado na nuvem, por outro lado, enviam seu áudio para ser transcrito remotamente.

Última atualização: junho de 2026

Um cadeado sobre um teclado de notebook em luz baixa, evocando privacidade no dispositivo

Ditado de voz privado é a transcrição que roda no próprio dispositivo do usuário — a voz gravada nunca sai da máquina. Mecanismos locais como Whisper e Parakeet funcionam completamente offline, sem nada enviado a um servidor. Serviços de ditado na nuvem enviam o áudio para ser transcrito remotamente. Para o máximo de privacidade, escolha uma ferramenta local e offline.

Todo aplicativo de ditado se autoproclama privado. A maioria não é. A palavra acaba sendo esticada para significar "ciframos o upload" ou "apagamos em 30 dias" — o que ainda quer dizer que sua voz saiu da sua máquina, ficou num servidor de outra pessoa e foi transcrita por um computador que você não controla. Isso é uma política de privacidade, não privacidade de verdade. Existe uma definição real e precisa do termo, e vale entendê-la antes de confiar a uma ferramenta o e-mail que você manda para o seu advogado.

A definição honesta é simples: ditado de voz privado significa que o áudio é convertido em texto no seu dispositivo, sem nada ser enviado a lugar nenhum. Sem upload, sem servidor, sem internet. Essa versão existe, é gratuita para o pipeline local e roda no notebook que você já tem. O porém — e vou ser direto sobre isso — é que no momento em que você ativa o modo nuvem para melhor precisão, essa promessa muda. Vou deixar essa linha bem clara.

Aqui está o que fica enterrado sob o marketing. "Privado" não é uma sensação — é uma pergunta com uma única resposta: o áudio sai do dispositivo ou não? Se sair, outra pessoa pode, em princípio, ouvi-lo. Se não sair, não pode. Todo o resto — criptografia, janelas de retenção, selos de conformidade — é controle de danos para o caso em que o áudio sai.

Então a pergunta real não é "essa ferramenta é privada". É: "minha voz é transcrita na minha máquina ou na deles". O Whisper e o Parakeet locais fazem isso na sua, offline, com o modelo carregado na sua própria memória RAM. O ditado na nuvem faz na deles. Este guia explica o que essa distinção realmente muda, como configurar a versão local em dois minutos, e a única exceção honesta em que enviar áudio para a nuvem é uma troca razoável.

O que "privado" realmente significa para ditado de voz

Um cadeado fechado sobre o trackpad de um notebook, ilustrando privacidade de dados no dispositivo

Ditado de voz privado significa uma coisa específica: sua voz gravada é convertida em texto no seu próprio dispositivo, e o áudio nunca sai dele. Sem upload para servidor, sem ida e volta pela internet, sem terceiros no circuito. A transcrição acontece na sua própria memória e CPU, da mesma forma que a verificação ortográfica acontece, e então o áudio some. Essa é a definição completa — e a maioria das ferramentas que usam a palavra "privado" não a cumpre.

O que costuma ser vendido como "privado" é a versão na nuvem com uma fechadura melhor na porta. O áudio ainda vai para servidores de terceiros para ser transcrito; o fornecedor apenas promete criptografá-lo em trânsito e apagá-lo em algum momento. Isso é genuinamente melhor do que nada, e para muitas pessoas está ótimo. Mas não é o mesmo que o áudio nunca sair. Uma promessa de apagar é uma promessa. Processamento no dispositivo é um fato — não há nada a apagar porque nada foi enviado. Quando a privacidade realmente importa — um salário, uma anotação médica, um rascunho que você jamais gostaria de ter indexado — a diferença entre uma promessa e um fato é tudo.

A razão pela qual a transcrição no dispositivo é possível hoje é que os modelos ficaram menores e os notebooks ficaram rápidos. Há alguns anos você precisava de um data center para ter um bom reconhecimento de fala, por isso tudo foi para a nuvem. Hoje um modelo Whisper aberto roda localmente em um notebook de médio porte, e o Parakeet é ainda mais rápido. A nuvem era um contorno para limitações de hardware que já não existem mais. Ditado de voz privado não é um recurso premium que você paga à parte — é o padrão que se tornou prático, e o restante deste guia é sobre como usá-lo.

Por que a maioria dos ditados na nuvem não é privada

Quando você pressiona uma tecla em uma ferramenta de ditado na nuvem, veja o que acontece nos bastidores: seu microfone grava alguns segundos de áudio, esse arquivo é enviado pela internet para um servidor, um modelo nesse servidor transcreve o áudio, e o texto volta para sua tela. Tudo pode levar menos de um segundo, o que é exatamente por que parece invisível. Mas sua voz — a gravação real, não apenas as palavras — fez uma viagem até uma máquina que você não controla e voltou.

O Digitação por Voz do Windows é o exemplo mais claro, porque a maioria das pessoas já o tem. Pressione Windows + H e uma pequena barra aparece digitando sua fala onde o cursor estiver. Funciona bem. Mas também é um serviço na nuvem — o reconhecimento de fala online da Microsoft — por isso precisa de conexão com a internet e para de funcionar num avião. Seu áudio vai para os servidores da Microsoft para virar texto. O mesmo vale para a maioria dos aplicativos de "ditado com IA" lançados hoje: a parte inteligente roda no hardware de outra empresa, e uma cobrança mensal discreta é o custo de alugá-lo. Uma ferramenta local exibe uma pequena cápsula enquanto você fala, e o áudio gravado nunca sai do notebook:

Cancel
O overlay de gravação: uma pequena cápsula que aparece enquanto você fala. Com um mecanismo local, o áudio capturado é transcrito no dispositivo e nunca enviado.

Não estou dizendo que transcrição na nuvem é algo ruim — vou defendê-la mais adiante para os casos em que faz sentido. O que estou dizendo é que a palavra "privado" no marketing geralmente descreve a fechadura no upload, não a ausência do upload. Ditado exclusivamente na nuvem é um risco de privacidade esperando para acontecer, e quem sente primeiro são os que não conseguem ver a conta. Certa vez vi uma equipe acumular uma despesa de cinco dígitos em cloud-AI num único trimestre, em grande parte por causa de um bug de "nova tentativa automática" que reenviava as mesmas gravações de stand-up quatro vezes. O CFO abriu o dashboard na revisão trimestral e a sala ficou em silêncio absoluto. Ninguém havia decidido enviar todo aquele áudio para um servidor. A ferramenta simplesmente fazia isso, sempre, porque era assim que funcionava.

Como o ditado de voz local mantém sua privacidade

A versão privada roda inteiramente na sua máquina. Você pressiona um atalho, fala, solta, e um modelo já carregado na sua própria RAM converte o áudio em texto e cola na posição do cursor — sem internet, sem servidor, sem nada enviado. Você precisa de um Mac com Apple Silicon ou de um PC com Windows 10 ou mais recente, um microfone funcionando e alguns minutos. Todo o pipeline local é gratuito para qualquer conta conectada, sem solicitar forma de pagamento no cadastro. Veja a sequência.

Etapa 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. O pipeline completo de transcrição local fica disponível imediatamente, offline.

Você saberá que funcionou quando o ícone da bandeja do aplicativo aparecer e o assistente de configuração oferecer a escolha de um modelo.

Etapa 2 — Escolha um caminho de transcrição local.

O aplicativo não escolhe por você. Para ditado privado e offline, selecione Parakeet Local ou Whisper Local — ambos rodam na sua máquina. A terceira opção, Nuvem, faz upload do áudio, então deixe desativada se privacidade é o objetivo.

Você saberá que funcionou quando um modelo local terminar de baixar e aparecer como pronto.

Etapa 3 — Confirme seu atalho.

No Windows, o padrão é Ctrl+Space; no Mac, Command+Option pressionado como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitada; sem ela, a colagem na posição do cursor não consegue alcançar outros aplicativos.

Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.

Etapa 4 — Desconecte o cabo de rede e fale mesmo assim.

Este é o teste de privacidade. Desative o Wi-Fi, posicione o cursor em qualquer caixa de texto, segure o atalho, diga uma frase, solte. A transcrição ainda aparece — porque o modelo rodou localmente.

Você saberá que funcionou quando o ditado funcionar com a internet completamente desligada.

Whisper
O aplicativo Whisper real para desktop na tela de configurações, com os painéis de Transcrição e IA locais abertos.

A parte lenta é o download único do modelo, que obviamente precisa da internet. Depois disso, o áudio nunca vai mais para a internet no modo local. O teste de desconexão da etapa quatro não é truque — é a única prova que importa. Se o ditado continua funcionando com a rede desligada, o áudio está sendo transcrito no seu dispositivo, ponto. Se para, estava indo a algum lugar. Esse teste único corta toda e qualquer afirmação de "privado" em qualquer página de marketing.

voz para texto no Windows · no Mac

Até a limpeza por IA pode ficar na sua máquina

Aqui está o que a maioria das pessoas não pensa em perguntar. O ditado bruto sai como um texto corrido — sem pontuação, algum "é" ou "né", frases que se prolongam. A solução é um passo com IA que organiza o texto em algo que você realmente usaria. E é exatamente aqui que muitas ferramentas "privadas" locais discretamente se conectam à nuvem: transcrevem no dispositivo e então enviam o rascunho confuso para um modelo na nuvem fazer a limpeza. O áudio ficou privado; as palavras não ficaram.

O Whisper faz a limpeza localmente também, por meio do Ollama — um executor de modelos locais gratuito que fica na sua máquina em localhost e nunca toca a internet. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de chegar ao cursor, com todo o processo acontecendo dentro do seu notebook. Assim a cadeia permanece intacta: sua voz vira texto no seu dispositivo, e esse texto é limpo no seu dispositivo. Nada sobre a frase — nem o áudio, nem o rascunho, nem a versão final — sai jamais.

Esse é o detalhe que eu verificaria em qualquer ferramenta que se diz privada. É fácil manter a transcrição local e passar o aprimoramento para a nuvem, porque o aprimoramento é a parte que precisa de um modelo grande, e modelos grandes são tentadores de alugar. A verdade simples é que, para o ditado do dia a dia, um modelo local via Ollama é mais do que suficiente para corrigir pontuação e remover vícios de linguagem. Você só precisa de um modelo na nuvem quando pede algo genuinamente mais difícil — e essa deve ser uma escolha sua, não uma decisão que a ferramenta toma em segundo plano.

Local ou nuvem: qual modo para um fluxo de trabalho privado

Para qualquer coisa que você chamaria de privada, comece com o local. Se o seu Mac é Apple Silicon ou seu PC é dos últimos anos, os mecanismos locais lidam com o ditado do dia a dia sem reclamar, e a nuvem vira a saída de emergência em vez do padrão. O aplicativo faz você escolher um caminho conscientemente — não empurra um padrão — então veja como os três diferem, com a privacidade em evidência:

A escolha depende de onde o áudio é processado e do que você precisa da transcrição.

  • Parakeet LocalO mecanismo TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper no CPU. Cobre inglês e mais 24 idiomas europeus, 25 no total. Sem tradução para o inglês. Totalmente no dispositivo, sem nada enviado. A escolha rápida e privada se você fala inglês ou outro idioma europeu.
  • Whisper LocalMais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês. As versões apenas em inglês são somente inglês, não os 99. Também totalmente no dispositivo. Escolha este para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não suporta. O modelo padrão em inglês tem cerca de 480 MB.
  • Nuvem (OpenAI, BYOK)Melhor precisão e acesso à web, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição usa por padrão o gpt-4o-mini-transcribe. Este é o único caminho que faz upload do seu áudio — ele sai da sua máquina para chegar à OpenAI. É opcional, parte do Whisper Pro, e está desativado a menos que você ative.

A linha é clara: os dois caminhos locais são privados por construção — o áudio é transcrito no seu dispositivo e não há nada a vazar. O caminho na nuvem não é, e não fingimos o contrário. Ele envia seu áudio para a OpenAI, com a sua própria chave, porque é a única forma de ter a precisão da OpenAI e acesso à web em tempo real. Se o seu Mac é da linha M ou seu PC é recente, comece com o modo local e só recorra à nuvem quando o local realmente deixar você insatisfeito. A nuvem é a exceção que você escolhe, não o padrão que você herda.

O que realmente sai da sua máquina, em cada modo

Vamos ser concretos sobre os dados, porque "privado" não tem sentido sem nomear o que trafega. No modo local, a resposta é nada — nem o áudio, nem a transcrição, nem a versão limpa. A gravação é processada na sua RAM, a limpeza passa pelo Ollama na sua máquina, e a única coisa que se moveu foram as palavras, do modelo para a sua caixa de texto. Você pode verificar isso com a rede desconectada.

Quando a limpeza por IA roda, o overlay mostra um estado de aprimoramento enquanto o modelo local transforma o texto corrido em algo legível. Veja o tipo de transformação que ele faz — o ditado bruto em cima, o texto limpo abaixo — tudo acontecendo no seu dispositivo no modo local:

Thinking...
O overlay durante o passo de limpeza por IA. No modo local, isso roda via Ollama na sua máquina, então o texto nunca sai.
Bruto

okay então manda os números do q3 pro marcos antes da call do conselho e aponta a queda na margem hm mas não copia a lista inteira de finanças

Limpo

Ok, então manda os números do Q3 pro Marcos antes da call do conselho e aponta a queda na margem — mas não copia a lista inteira de finanças.

No modo nuvem, o balanço honesto é diferente e você deve saber disso antes de ativar. Seu áudio é enviado para o endpoint de transcrição da OpenAI, com sua própria chave de API, para ser convertido em texto lá. Se você também usa o aprimoramento de IA na Nuvem, a transcrição vai para um modelo GPT; se você usa busca na web, uma consulta também sai. Nada passa pela Remskill — é uma linha direta da sua máquina para a OpenAI na sua chave — mas sai da sua máquina, que é a única coisa que define se algo é privado. Aquela frase sobre os números do Q3 e o Marcos é exatamente o tipo de coisa que eu manteria local. Uma receita que estou ditando por diversão, sinceramente não me importo.

Esse mesmo fluxo de falar-e-limpar funciona em qualquer aplicativo, então uma vez configurado você pode digitar mais rápido com sua voz no editor, no e-mail e no terminal — com privacidade, sem nada sair do notebook no modo local.

Quando enviar áudio para a nuvem é uma troca justa

Uma balança sobre uma mesa, ilustrando o equilíbrio entre privacidade e precisão

Seria desonesto da minha parte dizer que o local é sempre a resposta. Às vezes a nuvem é a escolha certa, e fingir o contrário para defender um argumento de privacidade seria exatamente a mesma desonestidade de marketing que acabei de passar seis seções criticando. A troca é real: você abre mão da garantia de que nada sai da sua máquina, e ganha a melhor precisão de transcrição disponível mais acesso à web em tempo real no mesmo atalho.

Recorra ao modo nuvem quando o conteúdo não é sensível, mas a precisão importa. A transcrição de um podcast, um rascunho de post público, uma lista de compras, uma gravação difícil com sotaque carregado ou em sala barulhenta onde o modelo local tropeça — nada disso precisa ficar na sua máquina, e os modelos da OpenAI vão acertar mais. Você usa sua própria chave de API, então o áudio vai direto para a OpenAI e o custo por minuto cai na sua conta, sem margem de intermediário. Para trabalhos não sensíveis em que você está pagando pela qualidade, essa é uma troca sensata. O erro não é usar a nuvem — é usar a nuvem por padrão para tudo, inclusive o que você nunca gostaria que estivesse num servidor.

Para conteúdos muito curtos, pule a ferramenta dedicada completamente. Se você está ditando uma mensagem de 30 palavras, Windows + H ou o Ditado do macOS é gratuito e já está instalado — mas note que o Digitação por Voz do Windows é em si um serviço na nuvem, então não é a opção privada, apenas a conveniente. No Apple Silicon, o Ditado do macOS pode processar texto geral no dispositivo, o que o torna a única opção nativa que é realmente privada para trechos curtos. Abaixo de 200 palavras, não vou te pedir para instalar nada. A ferramenta dedicada se justifica quando as notas ficam longas, quando você quer privacidade offline no Windows, ou quando quer um único atalho que funciona igualmente em todo lugar.

Se você está escolhendo uma ferramenta principalmente pela garantia de privacidade, a versão mais aprofundada desse argumento está no guia de ditado de voz offline que mostra como rodar tudo com a rede desconectada.

"Privado" é a palavra mais abusada nesta categoria e a mais fácil de testar: desconecte a rede e veja se ainda funciona. O Whisper e o Parakeet locais passam nesse teste porque o áudio nunca sai da sua máquina, e a limpeza por IA também passa porque o Ollama roda bem ao lado deles. O modo nuvem falha de propósito, porque está alugando a precisão da OpenAI — e essa é uma troca justa para o trabalho certo. Ditei boa parte deste guia com o Wi-Fi desligado, o que ou é uma ótima demonstração do produto ou é sinal de que preciso sair mais de casa. As duas coisas podem ser verdade.

Dite com privacidade, agora mesmo

Escolha um modelo local, desconecte a rede e fale. A transcrição aparece no cursor — e sua voz nunca saiu do notebook.

Modo local gratuito para qualquer conta conectada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou o responsável por ler o suporte por e-mail — e provavelmente dito as respostas.

Leitura adicional