Por Denys Medvediev

Guia

Voz para texto no Logseq

O Logseq não tem ditado nativo no desktop. A solução é uma ferramenta que funciona em todo o sistema: aperte um atalho, fale e a transcrição cola no cursor em qualquer bloco do Logseq. O ditado do seu sistema operacional também serve, para capturas curtas.

Última atualização: junho de 2026

Caderno aberto e caneta ao lado de um notebook sobre uma mesa escura, sugerindo anotações e ditado

Voz para texto no Logseq funciona por meio de uma ferramenta que roda em todo o sistema, não pelo próprio Logseq. O aplicativo de desktop do Logseq não tem ditado nativo. A solução é uma ferramenta como o Whisper: aperte um atalho, fale e a transcrição cola no cursor em qualquer bloco do Logseq. O ditado do seu sistema operacional também serve, para notas curtas.

Mantenho meu diário no Logseq porque confio mais numa pasta de markdown simples do que em qualquer nuvem. A única coisa que eu sempre quis era falar dentro de um bloco em vez de digitá-lo. Fui atrás da configuração. Não existe configuração. O Logseq não tem botão de microfone e, depois de fuçar bastante, tenho certeza de que não há nenhum escondido de mim.

As pessoas pesquisam por "voz para texto no Logseq", não acham nada no aplicativo e supõem que deixaram passar algum botão. Não deixaram. O botão nunca foi criado. A boa notícia é que a solução leva uns dois minutos, roda totalmente offline se você quiser e funciona em todos os outros aplicativos que você abre, de bônus.

Aqui está o que a maioria das páginas que rodeiam essa palavra-chave não diz com clareza. Um bloco do Logseq é só uma caixa de texto, igual ao Gmail ou a uma barra de busca. O ditado que cola no cursor não liga para qual aplicativo o cursor está.

Então a pergunta de verdade não é "como ativo a digitação por voz no Logseq". Não tem botão. A pergunta é "qual ferramenta de ditado eu rodo por cima do Logseq", e a resposta depende de você querer algo gratuito e nativo, só para Mac, ou um atalho offline que se comporta igual em todo lugar. Vou passar por tudo, configurar uma em dois minutos e dizer quando pular o caminho dedicado.

O Logseq tem ditado nativo?

Mãos escrevendo num caderno de papel ao lado de um teclado, contrastando a digitação com o ditado

Não. O aplicativo de desktop do Logseq não tem nenhum recurso nativo de fala para texto, ditado ou digitação por voz para escrever dentro de um bloco com a voz. Não há botão de microfone num bloco, nem comando de voz, nem preferência escondida. Se você está vasculhando as Configurações atrás disso, pode parar. Não está lá.

O que existe é um conjunto de plugins da comunidade com "whisper" no nome, e é aí que as pessoas se confundem. Esses plugins transcrevem um arquivo de áudio ou um link do YouTube em texto depois do fato. São úteis, mas não são ditado ao vivo. Você não consegue colocar o cursor no diário de hoje, falar e ver as palavras aparecerem. Eles processam uma gravação; não digitam para você enquanto você pensa. Misturar as duas coisas custa uma tarde, e prefiro que você economize essa tarde.

O cenário do celular é uma história à parte, e vale uma frase para você não correr atrás dele no dispositivo errado: o aplicativo móvel mais novo do Logseq incluiu certa transcrição por voz, mas isso é um recurso de telefone, e no telefone você usaria mesmo é o microfone do teclado. No grafo de desktop onde a maioria das pessoas de fato vive, você precisa de uma ferramenta que fique por cima do Logseq. Há três categorias honestas, e o resto deste guia cobre todas elas.

Aperte um atalho, fale e o texto cai no bloco

Esse é o mecanismo todo, e ele é entediante no melhor sentido. Você aperta um atalho, fala, solta e a transcrição cola no cursor, em qualquer campo de texto que esteja em foco. O Whisper segura um pequeno trecho depois que você solta a tecla, para que sua última palavra não seja cortada. Como ele cola no cursor do sistema operacional, um bloco do Logseq é só "mais uma caixa de texto". Aplicativo de desktop ou versão no navegador, o comportamento é o mesmo.

Essa é a parte que as landing pages complicam demais. Não tem plugin para instalar no Logseq, nem token de API para colar, nem job de sincronização para ficar babando. Seu cursor está num bloco, você fala, as palavras aparecem no bloco. Uma pequena cápsula surge enquanto você fala, para você saber que ele está ouvindo:

Cancel
A sobreposição de gravação: uma pequena cápsula que aparece enquanto você fala, para você saber que o Whisper está ouvindo.

O atalho é a única coisa que vale acertar logo de cara. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk só de modificadores que você segura enquanto fala. Ambos podem ser alterados nas Configurações se conflitarem com algo que você já usa. (Minha filha mais nova uma vez me disse que um atalho "não funcionava" no aplicativo de desenho dela. Era um conflito, não um bug, e foi assim que aprendi que a pessoa comum não faz ideia do que é um conflito de atalho. Por isso, agora todo atalho é personalizável.) Se você já configurou ditado no Windows ou no Mac, essa é a mesma memória muscular apontada para outro aplicativo.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou de um PC com Windows 10 ou mais novo, um microfone funcionando e o Logseq aberto no aplicativo de desktop ou no navegador. Todo o pipeline local é gratuito para qualquer conta logada, sem pedir forma de pagamento no cadastro. Aqui está a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local abre na hora.

Você vai saber que deu certo quando o ícone do aplicativo aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição.

O aplicativo não escolhe por você. Você tem três opções: Nuvem (OpenAI, com sua própria chave), Parakeet local ou Whisper local. Para notas privadas de diário, comece pelo local — mais sobre isso duas seções abaixo.

Você vai saber que deu certo quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O Windows usa Ctrl+Space por padrão; o Mac usa Command+Option segurado como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitada; sem ela, a colagem no cursor não consegue alcançar outros aplicativos.

Você vai saber que deu certo quando uma gravação de teste colar em qualquer campo de texto.

Passo 4 — Coloque o cursor num bloco do Logseq e fale.

Abra seu grafo, clique dentro de um bloco, segure o atalho, diga uma frase e solte. A transcrição aparece onde o cursor está, dentro do bloco.

Você vai saber que deu certo quando sua frase falada estiver dentro do bloco do Logseq como texto.

Whisper
O aplicativo de desktop real do Whisper na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte lenta é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Quando estiver rodando, capturar um pensamento no seu grafo deixa de ser uma tarefa de digitação e passa a ser uma tarefa de fala.

voz para texto no Windows · no Mac

Um plugin do Logseq vs. um atalho de sistema

A maioria das páginas que rankeiam para essa palavra-chave aponta para um plugin do Logseq ou para o Blurt, uma ferramenta dedicada da barra de menus do Mac que fala direto no seu outline. São respostas válidas, cada uma com uma pegadinha estrutural. Os plugins no estilo whisper transcrevem arquivos de áudio, não a fala ao vivo no bloco que você está editando. E o Blurt, pela própria descrição, é só para macOS — se você está no Windows, ele não é opção nenhuma.

Um atalho de sistema contorna os dois limites. Ele cola no cursor do sistema operacional independentemente de qual janela o detém, então a mesma tecla que preenche um bloco do Logseq também preenche sua caixa de redação do Gmail, uma mensagem no Slack e uma mensagem de commit. Uma ferramenta, todos os campos de texto, no Windows e no Mac. Você não reaprende nada quando troca de aplicativo, e não precisa de uma solução diferente dependendo do seu notebook.

Se você está num Mac e só captura dentro do Logseq, o Blurt é uma escolha enxuta, focada e que vale conferir. No momento em que você está no Windows, ou quer o mesmo fluxo em todos os programas que abre, o caminho de sistema vence. Eu pegaria o atalho único porque troco de aplicativo umas quarenta vezes por hora e não quero quarenta botões de ditado diferentes para lembrar.

Local ou nuvem: qual modo para um grafo privado

Para o Logseq, experimente primeiro o modo local. O motivo todo pelo qual muitos de nós escolhemos o Logseq é que ele é texto puro local-first — um resumo de reunião, uma ideia pela metade, uma entrada de diário que você nunca quereria no servidor de alguém. Seria uma escolha estranha manter suas notas no seu próprio disco e então rotear sua voz por uma nuvem para chegar lá. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos anos, o local dá conta do ditado do dia a dia sem reclamar, e a nuvem vira a saída de emergência em vez do padrão.

Veja como os três caminhos diferem, porque o aplicativo faz você escolher e prefiro que você escolha bem:

  • Parakeet localO motor TDT da NVIDIA, com cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápida que o Whisper na CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Não traduz para o inglês. Se você escreve seu diário em inglês ou em outro idioma europeu, essa é a escolha rápida e totalmente offline.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês. As versões somente em inglês são somente em inglês, não 99. Escolha esta para chinês, japonês, coreano ou qualquer trabalho de tradução, que o Parakeet não faz. O modelo padrão de inglês tem cerca de 480 MB.
  • Nuvem (OpenAI, BYOK)melhor precisão e acesso à web, usando sua própria chave da OpenAI cobrada direto pela OpenAI. A transcrição roda por padrão no gpt-4o-mini-transcribe. Precisa de internet, então é o único caminho que sai da sua máquina. A camada de Nuvem faz parte do Whisper Pro.

A verdade entediante é que, para o tipo de texto que a maioria das pessoas coloca no Logseq, o local basta. Os dois motores locais rodam inteiramente na sua máquina sem nada enviado a um servidor, que é o objetivo todo de um grafo local-first. A nuvem ganha o seu espaço quando você quer precisão de primeira linha numa gravação difícil ou precisa que o modelo busque um fato na web no meio da frase. Para o hábito de um diário diário, comece pelo local e só recorra à nuvem quando o local deixar você na mão.

Pontuação, blocos e markdown do Logseq por voz

O ditado cru sai como um amontoado sem pausa. Você diz "ok então revisar o doc de arquitetura marcar como projeto alfa e me lembrar quinta", e essa é a parede sem pontuação que qualquer motor de fala te entrega. Limpar isso é onde os caminhos divergem.

A Digitação por Voz do Windows adiciona pontuação enquanto você fala, e o Ditado do macOS lida com a pontuação básica quando você diz "vírgula" ou "ponto final". Para uma limpeza mais pesada — tirar os "ãs", consertar os amontoados, transformar um parágrafo falado em algo que você de fato guardaria no seu grafo — o Whisper pode rodar uma passada de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de cair. Num modelo local isso roda pelo Ollama; no modo nuvem é o gpt-5-mini por padrão.

Thinking...
Cru

ok então revisar o doc de arquitetura marcar como projeto alfa e me lembrar quinta ã antes do standup

Limpo

Ok, então revisar o doc de arquitetura, marcar como Projeto Alfa e me lembrar quinta antes do standup.

Para a estrutura própria do Logseq — blocos aninhados, os links #tag e [[página]], marcadores de TODO — a resposta honesta é que a voz te dá o texto e a sintaxe própria do Logseq te dá a estrutura. Dite a frase, depois digite o Tab para recuar, o # para uma tag ou o [[ para um link de página do jeito que você sempre faz. Nenhuma ferramenta de ditado conjura a sintaxe de outline do Logseq sob comando; quem promete "diga marcar como projeto alfa e veja virar link" está te vendendo um demo, não uma terça-feira. Coloque as palavras rápido pela voz e molde os blocos com as teclas que você já conhece.

Esse mesmo fluxo de falar-e-limpar compensa bem além do seu grafo — você também pode ditar uma prosa limpa em qualquer aplicativo com o atalho único, então um bloco longo vira algumas frases faladas em vez de um parágrafo que você digita.

Quando dispensar uma ferramenta de ditado para o Logseq

Duas setas desenhadas a giz na calçada apontando para direções diferentes, ilustrando uma escolha de ferramenta

Às vezes a ferramenta certa é a gratuita que já está na sua máquina, e fingir o contrário seria desonesto. Se você só joga capturas curtas no Logseq — uma linha rápida de diário, um lembrete de duas palavras — seu sistema operacional cobre isso de graça.

No Windows, aperte tecla Windows + H e a barra nativa de Digitação por Voz abre onde quer que o cursor esteja, inclusive num bloco do Logseq. Ela pontua sozinha e dá conta de rajadas curtas. A pegadinha: ela passa pelos servidores da Microsoft e precisa de conexão com a internet, então não é uma opção offline, o que importa mais que o normal quando o objetivo todo do seu grafo é continuar local. No Mac, o Ditado deixa você falar para inserir texto em qualquer lugar onde você possa digitar, configurado nas Configurações do Sistema em Teclado, e no Apple Silicon o texto geral pode ser processado no dispositivo. E se você é um usuário de Mac que vive inteiramente dentro do Logseq, o Blurt é uma escolha focada e nativa, feita exatamente para isso.

Recorra a uma ferramenta dedicada de sistema quando os recursos nativos começarem a doer: notas longas, trabalho multilíngue, privacidade offline no Windows ou querer um atalho único que se comporta igual no Logseq, no seu e-mail e no seu editor. Abaixo desse patamar, use o que é gratuito. Não vou mandar você instalar um aplicativo para um lembrete de uma linha.

A mesma escolha aparece se você também mantém notas em outro lugar — a lógica em ditar no Obsidian é idêntica, porque ambos são aplicativos de markdown local-first onde o cursor, não um plugin, é a integração de verdade.

Leitura complementar

O Logseq nunca lançou um botão de microfone e, depois de escrever isto, estou bastante certo de que nunca vai. Não precisa, porque o cursor é a integração. Fale dentro do bloco, receba o texto, molde-o com a sintaxe que você já conhece. Ditei a maior parte deste guia numa caixa de texto que não era o Logseq, com uma ferramenta que não liga para qual caixa é, e depois colei tudo no meu próprio grafo. É esse o truque todo.

Experimente no seu próximo bloco do Logseq

Segure o atalho, fale, solte. A transcrição cai em qualquer bloco em que o seu cursor esteja — e em todos os outros aplicativos também.

Modo local gratuito para qualquer conta logada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, provavelmente ditando as respostas.