Por Denys Medvediev

Tutorial

Voz para texto no Evernote: ao vivo vs. gravado

O Evernote não tem um motor de ditado ao vivo próprio. No desktop, quem digita é o Ditado do macOS ou a Digitação por Voz do Windows; no celular, é o microfone do teclado. O AI Transcribe do próprio Evernote cuida do áudio gravado depois do fato. Este guia separa esses dois caminhos.

Última atualização: junho de 2026

Caderno aberto e caneta ao lado de um notebook sobre uma mesa de madeira, um espaço de anotações para ditar no Evernote

Voz para texto no Evernote funciona de duas formas diferentes, e a maioria dos guias confunde as duas. O Evernote não tem um motor de ditado ao vivo próprio — no desktop, quem digita é o Ditado do macOS ou a Digitação por Voz do Windows, e no celular é o microfone do teclado. O AI Transcribe do próprio Evernote cuida do áudio gravado depois do fato.

Uma vez passei vinte minutos tentando achar o "botão de ditado do Evernote" até aceitar que ele não existe. Não há uma configuração escondida. O microfone que você toca no desktop pertence ao seu sistema operacional, e o Evernote é só a caixa de texto para onde ele aponta. Isso não é uma crítica ao Evernote. Ele é um app de notas, não um motor de fala. Mas significa que a experiência de ditado ao vivo que você realmente quer — falar, ver as palavras aparecerem, continuar — depende inteiramente do que o seu sistema operacional oferece, e no desktop isso é uma coisa cheia de começa-e-para.

Então este guia divide a questão em duas. Se você quer ditar ao vivo numa nota enquanto pensa, esse é um caminho: o sistema operacional, ou uma ferramenta que funciona em todo o sistema, como o Whisper, que segura uma tecla de atalho e cola onde o cursor está. Se você já tem uma reunião gravada ou um memorando de voz e quer transformá-lo em texto, esse é o AI Transcribe do próprio Evernote, e ele é realmente bom nessa tarefa. Quase toda a confusão na internet vem de tratar essas duas coisas como se fossem o mesmo recurso. Não são.

A situação da voz no Evernote, sendo honesto

Microfone e notebook montados numa mesa para gravar áudio, contrastando áudio anexado com ditado ao vivo

Aqui vai a verdade sem graça. O Evernote não traz nenhum motor de ditado ao vivo proprietário e sempre ligado. Até a própria ajuda do Evernote te manda para o seu dispositivo: ative o reconhecimento de fala do seu sistema e então use o microfone. É o sistema operacional fazendo o trabalho.

No desktop, "voz para texto no Evernote" significa uma de duas ferramentas do sistema operacional. No Mac, é o Ditado do macOS, que transcreve em rajadas curtas — ele para depois de um trecho de silêncio e você precisa acioná-lo de novo, então ditar textos longos vira uma sequência de começa-e-para. No Windows, é a Digitação por Voz (Win+H) ou o Acesso por Voz, grátis e já embutido, digitando direto no campo do Evernote em foco.

No celular, é mais simples do que as pessoas imaginam. O "reconhecimento de fala do Evernote" que você vê num iPhone ou Android é o microfone de ditado do seu teclado — o microfone do teclado do iOS ou o do Gboard. O Evernote é o campo de texto; o teclado faz a transcrição.

E aí tem a parte que é de fato do próprio Evernote: gravação de áudio mais o AI Transcribe. Essa merece uma seção só dela, porque é o pedaço que as pessoas mais confundem com ditado ao vivo.

O que o Evernote de fato oferece: grave e depois transcreva

O Evernote tem, sim, um recurso de áudio de verdade. No editor de uma nota, você pode tocar em Inserir (+) > Gravação de áudio, usar o menu "..." da barra lateral ou digitar o comando de barra /audio. Dá para digitar e gravar ao mesmo tempo; pausar, retomar e parar salva o clipe na nota como um anexo.

Depois que o clipe é salvo, aparece um botão Transcrever, e o AI Transcribe do Evernote coloca uma transcrição escrita dentro da nota. Ele também converte em texto arquivos de áudio, vídeo e imagem que você enviar. O limite é de 100 MB ou 60 minutos por gravação.

Leia essa sequência de novo, porque é nisso que está o ponto. Você grava um anexo e depois transcreve. Isso é gravar-e-depois-transcrever. Não é a mesma coisa que ver as palavras aparecerem no cursor enquanto você fala. Os dois são úteis. Resolvem problemas diferentes. Uma entrevista gravada pede o AI Transcribe. Uma nota que você está compondo agora mesmo pede ditado ao vivo.

A lacuna, então, é o ditado ao vivo no cursor no desktop — aquilo que o sistema operacional faz de um jeito começa-e-para e que o Evernote não faz de jeito nenhum. Essa é a lacuna que uma tecla de atalho válida em todo o sistema preenche.

Dite em qualquer nota do Evernote com uma tecla de atalho

Cancel
A sobreposição de gravação: uma pequena cápsula que aparece enquanto você fala, para você saber que o Whisper está ouvindo.

É aqui que o Whisper entra. O Whisper é um app de desktop para Windows e macOS que coloca o ditado atrás de uma única tecla de atalho global. Segure a tecla, fale, solte, e o texto cai no seu cursor, no campo em que você tiver clicado.

A tecla de atalho padrão é Ctrl+Space no Windows e Command+Option no macOS — segure como um aperte-para-falar e solte para parar. Como funciona no nível do sistema operacional, ele cola no app do Evernote para desktop do mesmo jeito que cola no Slack, no Gmail ou no seu editor: uma tecla de atalho, todos os apps, sem configuração por app. O Whisper é um app de desktop nativo, não uma extensão de navegador, então ele dita no app do Evernote para desktop, não só no Evernote aberto numa aba.

Uma ressalva honesta. O Whisper cola no único campo em foco, um campo de cada vez — o título da nota ou o corpo da nota, onde quer que o cursor esteja. Ele não preenche o layout inteiro de uma nota de uma só vez. Você clica onde as palavras vão, e então fala. É só isso.

O teste da lancheira foi o que me convenceu da minha própria ferramenta, o que é uma frase estranha de digitar. Uma terça à noite, fazendo lancheiras para duas crianças, e a escola mandou uma autorização que precisava de resposta até as oito. Peguei o notebook com uma mão só, apertei a tecla de atalho entre as fatias de pepino e ditei a nota direto — inclusive a parte em que parei para perguntar como se escrevia o nome da professora, e a parte em que o menorzinho perguntou por que às vezes a lua não estava lá. A nota foi escrita. As lancheiras ficaram prontas. Essa mesma coisa costumava levar quinze minutos digitando com uma mão só.

Você não precisa acreditar em mim quanto ao fluxo. O embed abaixo é o app de desktop de verdade. Escolha um idioma, observe as configurações, veja exatamente o que você teria depois de instalar — sem cadastro, sem captura de tela de algo que pode ou não corresponder ao produto que é entregue.

Whisper
O app de desktop Whisper de verdade — escolha um idioma, observe as configurações, veja exatamente o que você teria depois de instalar.

Ele suporta mais de 90 idiomas tanto no modo local quanto no modo nuvem, com a linha de modelos multilíngues chegando a mais de 99, incluindo detecção automática (as variantes de modelo só em inglês fazem exatamente um idioma — o inglês — e nada mais). Para a maioria das pessoas ditando notas no Evernote, a quantidade de idiomas não é o fator decisivo. O ditado do sistema operacional do Evernote e o AI Transcribe também dão conta de bastante idioma. A diferença que importa é ser ao vivo, válido em todo o sistema e no próprio dispositivo.

Limpe o ditado automaticamente

Thinking...

A fala crua tem enchimento. "Hã", recomeços, aquele momento em que você falou "vírgula" em voz alta sem querer. O Whisper pode rodar uma etapa opcional de limpeza por IA em cima da transcrição crua, de modo que o que cai na sua nota leia como texto escrito, e não como uma transcrição de você pensando.

Na configuração local gratuita, essa limpeza roda na sua própria máquina. No Pro, ela roda pela sua própria chave de API na nuvem, que também adiciona respostas da web. De um jeito ou de outro, é opcional — desligue e você recebe a transcrição literal. Eu deixo ligado para e-mail e desligado para citações que preciso ter palavra por palavra.

Offline e privado: suas notas ficam no seu notebook

Notebook mostrando um ícone de cadeado de segurança sobre uma mesa, ilustrando a transcrição privada no próprio dispositivo

Aqui vai a única opinião na qual vou cravar uma bandeira: ditado só na nuvem é um desastre de privacidade esperando para ser transcrito. Sua planilha de salário, o e-mail para a escola do seu filho, a nota de cliente que você está rascunhando — nada disso deveria passar pelos logs de um fornecedor só porque você quis digitar com a voz.

O modo local do Whisper roda totalmente offline. Nenhuma internet é necessária durante a transcrição; o áudio nunca sai da máquina. A única coisa que precisa de conexão é o download único do modelo, algo entre 140 MB e 3 GB dependendo de qual modelo você escolher. Depois disso, cada palavra que você dita numa nota do Evernote é processada na sua própria CPU, com zero atividade de rede.

Esse é o contraste estrutural com o AI Transcribe do Evernote e as ferramentas de transcrição na nuvem deste tema — elas mandam seu áudio para um servidor para devolvê-lo como texto. Para um podcast que você vai publicar de qualquer jeito, tudo bem. Para as suas notas de reunião, eu manteria local. Se você quer o argumento mais amplo a favor do ditado rápido no próprio dispositivo, eu o fiz em como digitar mais rápido com a voz.

O pipeline local é gratuito para usuários autenticados, sem precisar de cartão no cadastro. Os recursos de Nuvem ficam atrás do Whisper Pro — você pode comparar as opções na página de preços em vez de pegar um número comigo aqui.

Quando deixar o Whisper de lado e usar o AI Transcribe do Evernote

Caderno aberto com caneta ao lado de um notebook e uma caneca num ambiente aconchegante, pesando as ferramentas de notas embutidas

Eu deixaria o Whisper de lado para uma tarefa comum. Se o que você de fato tem é uma gravação — uma reunião que você gravou, um memorando de voz, uma aula que você capturou no celular — e quer transformá-la em texto, use o próprio AI Transcribe do Evernote. Você grava o clipe na nota (ou envia um arquivo), toca em Transcrever, e o Evernote coloca o texto ali. Ele dá conta de áudio de até 100 MB ou 60 minutos por gravação. Essa é a ferramenta certa para gravar-e-depois-transcrever, e ela mora dentro do app que você já está usando.

A divisão é clara. Áudio gravado que você quer transformar em texto, depois do fato, dentro do Evernote → AI Transcribe. Palavras ao vivo aparecendo enquanto você compõe uma nota, offline, grátis, com uma tecla de atalho em todos os apps → Whisper. Se a sua necessidade é genuinamente a primeira, não instale uma segunda ferramenta. O Evernote já te cobre.

O Evernote não está escondendo um motor de ditado de você. No desktop, o seu sistema operacional faz a parte ao vivo em rajadas começa-e-para, no celular o seu teclado faz isso, e o AI Transcribe cuida das gravações que você já fez. O pedaço que nada nativo preenche direito é o ditado ao vivo, offline, com uma tecla de atalho, na nota que você está escrevendo agora mesmo. Essa é a lacuna. Eu construí uma ferramenta para ela, dito autorizações da escola com ela entre as fatias de pepino, e ela funciona em todos os outros apps também. Veja como o Whisper funciona, ou baixe-o e dite a sua próxima nota em vez de digitá-la. Para apps vizinhos, a mesma abordagem cobre voz para texto no OneNote, ditado no Obsidian e digitação por voz no Mac.

Dite a sua próxima nota do Evernote

Clique na nota, segure a tecla, fale, solte. A transcrição cai onde o seu cursor está — no Evernote e em todos os outros apps também.

Modo local gratuito para qualquer conta autenticada. Sem precisar de cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, provavelmente ditando as respostas.