Por Denys Medvediev

Guia

Voz para texto no Standard Notes

O Standard Notes não tem ditado nativo no desktop. A solução é uma ferramenta que funciona em todo o sistema: aperte um atalho, fale, e a transcrição é colada onde está o cursor, em qualquer nota. Mantenha tudo local e sua voz nunca sai da máquina — que é justamente o sentido de um app de notas criptografado.

Última atualização: junho de 2026

Cadeado fechado sobre o teclado de um notebook em uma mesa escura, evocando anotações privadas e criptografadas

Voz para texto no Standard Notes funciona por meio de uma ferramenta que atua em todo o sistema, não pelo app em si. O editor desktop do Standard Notes não tem ditado nativo. Uma ferramenta como o Whisper resolve isso: aperte um atalho, fale, e a transcrição é colada onde está o cursor, em qualquer nota. Rode localmente e o áudio nunca sai da máquina.

Movi minhas notas privadas para o Standard Notes por um único motivo — ele criptografa tudo antes de sair do meu notebook, e eu não preciso acreditar nisso só na fé. A única coisa que eu sentia falta era falar dentro de uma nota em vez de digitá-la. Então fui procurar uma configuração de ditado. Não existe. O Standard Notes te entrega um editor limpo e pouca coisa além disso, por opção de projeto, e depois de fuçar bastante tenho certeza de que ele não está escondendo nenhum botão de microfone de mim.

As pessoas pesquisam "voz para texto no Standard Notes", não encontram nada no app e concluem que deixaram passar alguma chave. Não deixaram. A chave nunca foi criada. A boa notícia: a solução leva uns dois minutos, pode rodar totalmente offline e — se você configurar do jeito que vou descrever — mantém sua voz na mesma máquina que já está criptografando suas notas.

Aqui vai o que a maioria das páginas que ficam rodeando essa palavra-chave não diz com todas as letras. Um editor do Standard Notes é só uma caixa de texto, igual ao Gmail ou a uma barra de busca. Um ditado que cola onde está o cursor não liga para qual app o cursor está.

Então a pergunta de verdade não é "como ativo a digitação por voz no Standard Notes". Não existe interruptor. A pergunta é "qual ferramenta de ditado eu rodo por cima dele, e será que essa ferramenta manda minha voz para um servidor sem eu perceber". Para um app de notas criptografado por padrão, essa segunda metade pesa mais do que o normal. Vou passar pelas opções, configurar uma em dois minutos e te dizer quando vale a pena pular o caminho dedicado por completo.

O Standard Notes tem ditado nativo?

Pessoa falando de forma pensativa diante de um notebook em uma sala silenciosa, contrastando falar com digitar

Não. O app desktop do Standard Notes não tem nenhum recurso nativo de fala para texto, ditado ou digitação por voz para escrever numa nota falando. Não há botão de microfone no editor, nem comando de voz, nem preferência escondida. Isso não é um descuido — o Standard Notes é deliberadamente minimalista, um editor criptografado simples e não uma área de trabalho cheia de tudo. Se você anda vasculhando as configurações atrás de um botão de ditado, pode parar. Ele não está lá.

É aqui que ajuda entender em torno do que o Standard Notes foi construído. O texto da sua nota é criptografado de ponta a ponta antes mesmo de sair do seu dispositivo, e essa é a proposta inteira. Qualquer ditado que você acople vive fora dessa fronteira por definição — é uma ferramenta à parte transformando sua fala em caracteres e entregando esses caracteres ao editor como um teclado faria. A pergunta que realmente importa não é se o editor consegue te ouvir. É se aquilo que faz a escuta mantém seu áudio na sua máquina ou o manda para algum lugar. Guarde esse pensamento; ele dá o tom de todo o resto deste guia.

Vale uma única frase para você não correr atrás disso no dispositivo errado: no celular, você não precisa de nada disso. Toque no microfone do teclado do seu celular e dite dentro de uma nota do Standard Notes como em qualquer outro campo de texto. O Whisper é uma ferramenta de desktop para Windows e macOS, então o microfone do teclado do celular é o caminho prático por lá. No app desktop, onde a maioria das pessoas de fato escreve, você precisa de uma ferramenta que fique por cima do Standard Notes — e é melhor escolher essa ferramenta pensando em privacidade.

Aperte um atalho, fale, o texto cai na nota

Esse é o mecanismo inteiro, e é entediante no melhor sentido. Você aperta um atalho, fala, solta, e a transcrição é colada onde está o cursor, em qualquer campo de texto que estiver em foco. O Whisper segura um pequeno intervalo depois que você solta a tecla, para sua última palavra não ser cortada. Como ele cola na posição do cursor do sistema, um editor do Standard Notes é só "mais uma caixa de texto". App desktop ou versão web, mesmo comportamento.

Essa é a parte que as páginas de venda complicam à toa. Não há extensão para instalar no Standard Notes, nenhum token de API para colar no app, nenhuma rotina de sincronização para ficar de babá. Seu cursor está numa nota, você fala, as palavras aparecem na nota. Uma cápsula pequena surge enquanto você fala, para você saber que ele está ouvindo:

Cancel
O overlay de gravação: uma cápsula pequena que aparece enquanto você fala, para você saber que o Whisper está ouvindo.

O atalho é a única coisa que vale acertar logo de cara. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk só de modificador que você segura enquanto fala. Os dois podem ser trocados nas Configurações se entrarem em conflito com algo que você já usa. (Minha filha mais nova me disse uma vez que um atalho "não funcionava" no app de desenho dela. Era um conflito, não um bug, e foi assim que descobri que a pessoa comum não faz ideia do que é um conflito de atalho. Então agora todo atalho é personalizável.) Se você já configurou ditado no Windows, é a mesma memória muscular apontada para outro app.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e o Standard Notes aberto, seja no app desktop ou na versão web. Todo o pipeline local é gratuito para qualquer conta logada, sem pedir forma de pagamento no cadastro. Aqui vai a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline local de transcrição abre na hora.

Você vai saber que deu certo quando o ícone do app aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição local.

O app não escolhe por você. São três: Nuvem (OpenAI, com sua própria chave), Parakeet local ou Whisper local. Para notas privadas, escolha um dos dois caminhos locais — mais sobre o porquê algumas seções adiante.

Você vai saber que deu certo quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

No Windows o padrão é Ctrl+Space; no Mac, Command+Option segurado como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando for solicitada; sem ela, a colagem na posição do cursor não consegue alcançar outros apps.

Você vai saber que deu certo quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Coloque o cursor numa nota do Standard Notes e fale.

Abra uma nota, clique dentro do editor, segure o atalho, diga uma frase, solte. A transcrição aparece onde está o cursor, dentro da nota.

Você vai saber que deu certo quando a frase que você falou estiver no editor do Standard Notes em forma de texto.

Whisper
O app desktop real do Whisper na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte lenta é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Depois que está rodando, capturar uma ideia numa nota criptografada deixa de ser uma tarefa de digitação e vira uma tarefa de fala — e, com um modelo local escolhido, nada dessa ideia sai do seu notebook.

Mantendo sua voz tão privada quanto suas notas

Esta é a seção que mais importa para quem usa o Standard Notes, então vou ser direto. Se você escolheu um app de notas criptografado de ponta a ponta, mandar suas palavras faladas por um serviço de transcrição na nuvem só para colocá-las dentro desse app é uma contradição. O texto da sua nota é criptografado antes de sair do seu dispositivo; sua voz, nesse arranjo, não é. Seria como trancar a porta da frente e deixar a gravação de áudio de você mesmo destrancando-a no servidor de outra pessoa.

O modo local fecha essa brecha. Os dois mecanismos locais — Parakeet e Whisper local — rodam inteiramente na sua máquina, através do núcleo de transcrição em Rust puro. Sem upload de áudio, sem chamada de API, sem transcrição vinculada à sua conta parada nos logs de algum fornecedor. Você pode tirar o cabo de rede da tomada e o ditado continua funcionando, que é o teste em que eu de fato confio. O texto cai onde está o cursor, dentro do Standard Notes, que então o criptografa do mesmo jeito que criptografa todo o resto. A voz e a nota ficam ambas na mesma máquina, de ponta a ponta.

Eu não sou neutro nessa questão, e vou mostrar o raciocínio em vez de só acenar com a mão. Uma equipe com quem trabalhei deixou, certa vez, um terceirizado construir um protótipo interno de "ditado com IA" que chamava uma API na nuvem a cada fala. A lógica de "retry inteligente" era um tanto agressiva demais, então ela transcrevia as mesmas gravações de daily standup quatro vezes seguidas. No fechamento do trimestre, o gerente abriu o painel de custos da nuvem e viu uma conta de cinco dígitos, e a conclusão do CFO não foi "otimizem o prompt" — foi "ou então a gente não paga para mandar nossas reuniões para um servidor, para começo de conversa". Para um hábito de notas pessoais, o risco não é a conta; é o princípio. Se a razão de existir do app é que seus dados continuam seus, o ditado que o alimenta deveria seguir a mesma linha.

Local ou nuvem: qual modo para uma nota criptografada

Para o Standard Notes, eu começaria local e trataria a nuvem como exceção. O motivo de você estar aqui é privacidade, e os dois caminhos locais te dão um ditado que nunca toca em um servidor. O modo nuvem é genuinamente melhor em algumas coisas, mas é o único caminho que sai da sua máquina, então recorra a ele de propósito, não por padrão. Veja como os três diferem, porque o app te faz escolher e eu prefiro que você escolha bem:

  • Parakeet localO mecanismo TDT da NVIDIA, em torno de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápida que o Whisper na CPU. Cobre inglês mais outros 24 idiomas europeus, 25 no total. Sem traduzir para o inglês. Se você escreve suas notas em inglês ou em outro idioma europeu, esta é a escolha rápida e totalmente offline.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas os modelos multilíngues cobrem 99 idiomas e conseguem traduzir para o inglês. Os modelos só de inglês são só de inglês, não 99. Escolha este para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão de inglês tem em torno de 480 MB. Ainda totalmente offline.
  • Nuvem (OpenAI, BYOK)melhor precisão e acesso à web, usando sua própria chave da OpenAI, cobrada diretamente pela OpenAI. A transcrição roda no gpt-4o-mini-transcribe por padrão. Precisa de internet, então seu áudio sai da máquina — o único caminho que quebra a promessa local. A camada de Nuvem faz parte do Whisper Pro.

A verdade sem graça é que, para o tipo de texto que a maioria das pessoas coloca numa nota criptografada — uma entrada de diário, uma ideia ainda crua, uma dica de senha que você nunca colaria num documento na nuvem — o local dá e sobra. Os dois mecanismos locais rodam inteiramente na sua máquina, sem nada enviado a um servidor, que é exatamente o contrato que o Standard Notes já faz para a nota em si. A nuvem ganha seu lugar quando você quer precisão de primeira numa gravação difícil ou precisa que o modelo busque um dado na web no meio da frase. Para notas privadas, raramente é a troca que você quer fazer.

Se você realmente precisa de precisão de nível nuvem numa nota específica, o movimento honesto é fazer essa escolha de forma consciente, sabendo que o áudio sai da sua máquina naquela gravação, e voltar para o local para as coisas privadas. O app mantém o botão a um clique de distância justamente para você nunca ficar travado. Na maioria dos dias, para a maioria das notas, eu nem encosto nele.

Pontuação e limpeza sem sair da sua máquina

O ditado cru sai como um amontoado sem fim. Você diz "ok então move os códigos de recuperação para a nota criptografada marca como segurança e me lembra de rotacioná-los mês que vem", e é esse paredão sem pontuação que qualquer mecanismo de fala te entrega. Arrumar isso é onde os caminhos se separam — e, para um app de privacidade, onde a limpeza acontece também importa.

A Digitação por Voz do Windows adiciona pontuação enquanto você fala, e o Ditado do macOS lida com pontuação básica quando você diz "vírgula" ou "ponto". Para uma limpeza mais pesada — tirar os "é", consertar os amontoados, transformar um parágrafo falado em algo que você de fato guardaria numa nota — o Whisper pode rodar uma passada de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de cair na tela. Num modelo local, essa passada roda pelo Ollama na sua própria máquina, então até a limpeza fica offline; no modo nuvem é o gpt-5-mini por padrão, que de fato envia o texto para fora.

Thinking...
O overlay durante a passada de limpeza por IA, antes do texto arrumado cair onde está o cursor.
Cru

ok então move os códigos de recuperação para a nota criptografada marca como segurança e me lembra de rotacioná-los mês que vem é antes da renovação

Limpo

Ok, então move os códigos de recuperação para a nota criptografada, marca como segurança e me lembra de rotacioná-los mês que vem, antes da renovação.

Uma expectativa justa a deixar clara: o ditado te entrega as palavras, não a estrutura própria do Standard Notes. As tags do app, os títulos das notas, as opções de editor — você ainda define isso com as teclas e cliques que já usa. Dite a frase, depois adicione a tag ou renomeie a nota do jeito normal. Nenhuma ferramenta de ditado faz a organização de um app surgir do nada sob comando; quem promete "diga marca como segurança e veja a nota se arquivar sozinha" está te vendendo uma demonstração, não uma terça-feira comum. Coloque as palavras no papel rápido por voz, dê forma à nota com os controles que você já conhece.

Esse mesmo fluxo de falar-e-depois-limpar compensa bem além das suas notas — você também pode ditar um texto limpo em qualquer app com o único atalho, então uma entrada longa vira algumas frases faladas em vez de um parágrafo que você digita por inteiro.

Quando pular uma ferramenta de ditado para o Standard Notes

Duas setas desenhadas a giz na calçada apontando para direções diferentes, ilustrando uma escolha de ferramenta

Às vezes a ferramenta certa é a gratuita que já está na sua máquina, e fingir o contrário seria desonesto. Se você só joga capturas curtas no Standard Notes — uma linha rápida, um lembrete de duas palavras — o seu sistema operacional dá conta de graça.

No Windows, aperte a tecla Windows + H e a barra de Digitação por Voz nativa abre onde quer que esteja seu cursor, inclusive num editor do Standard Notes. Ela pontua sozinha e dá conta de rajadas curtas. Um detalhe que vale destacar especialmente para este público: o Win+H roteia sua fala pelos servidores da Microsoft e precisa de conexão com a internet, então não é uma opção offline. Para um app de notas cuja premissa inteira é que seus dados ficam no seu dispositivo, isso é um descompasso de verdade — um modelo local do Whisper é a escolha mais coerente quando a privacidade é o ponto. No Mac, o Ditado deixa você falar para inserir texto em qualquer lugar onde você consiga digitar, configurado nas Configurações do Sistema em Teclado, e no Apple Silicon o texto geral pode ser processado no dispositivo, o que mantém tudo local. Os dois são genuinamente bons para trechos curtos.

Recorra a uma ferramenta dedicada, que funcione em todo o sistema, quando as nativas começarem a doer: notas longas, trabalho multilíngue, querer limpeza, ou querer um único atalho que se comporte igual no Standard Notes, no seu e-mail e no seu editor — mantendo tudo offline. Abaixo dessa linha, use o que é gratuito, com a única ressalva de que, no Windows, "gratuito" significa "roteado pela Microsoft". Eu não vou te mandar instalar um app para um lembrete de uma linha.

A mesma troca aparece se você também guarda notas em outros lugares — a lógica de ditar no Notion é idêntica, porque, nos dois apps, o cursor, e não um recurso nativo, é o verdadeiro ponto de integração.

Leitura complementar

O Standard Notes nunca lançou um botão de microfone e, dado o quanto ele se esforça para continuar minimalista e privado, duvido que algum dia lance. Não precisa, porque o cursor é a integração. Fale dentro da nota, obtenha texto e, se você mantiver tudo local, o áudio fica na mesma máquina que faz a criptografia. Ditei a maior parte deste guia numa caixa de texto que não era o Standard Notes, com uma ferramenta que não liga para qual caixa é e nunca enviou uma sílaba a um servidor, e depois colei tudo na minha própria nota criptografada. É esse o truque inteiro.

Experimente na sua próxima nota do Standard Notes

Segure o atalho, fale, solte. A transcrição cai em qualquer nota onde seu cursor estiver — e fica na sua máquina, se você mantiver tudo local.

Modo local gratuito para qualquer conta logada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.