Von Denys Medvediev

Anleitung

Sprache zu Text in Logseq

Logseq hat am Desktop keine eingebaute Diktierfunktion. Die Lösung ist ein systemweites Tool: Hotkey drücken, sprechen, und der Text landet an deiner Cursorposition in jedem Logseq-Block. Auch das Diktat deines Betriebssystems funktioniert, für kurze Notizen.

Zuletzt aktualisiert: Juni 2026

Aufgeschlagenes Notizbuch und Stift neben einem Laptop auf einem dunklen Schreibtisch, ein Bild für Notizen und Diktat

Sprache zu Text in Logseq funktioniert über ein systemweites Tool, nicht über Logseq selbst. Die Logseq-Desktop-App hat keine eingebaute Diktierfunktion. Die Lösung ist ein Tool wie Whisper: Hotkey drücken, sprechen, und der Text landet an der Cursorposition in jedem Logseq-Block. Auch das Diktat deines Betriebssystems funktioniert, für kurze Notizen.

Ich führe mein Tagesjournal in Logseq, weil ich einem Ordner voller schlichtem Markdown mehr vertraue als irgendeiner Cloud. Das Einzige, was ich mir immer gewünscht habe: in einen Block zu sprechen, statt ihn zu tippen. Ich habe nach der Einstellung gesucht. Es gibt keine Einstellung. Logseq hat keinen Mikrofon-Button, und nach einigem Graben bin ich sicher, dass mir auch keiner versteckt vorenthalten wird.

Leute suchen nach "Sprache zu Text in Logseq", finden in der App nichts und nehmen an, sie hätten einen Schalter übersehen. Haben sie nicht. Der Schalter wurde nie gebaut. Die gute Nachricht: Die Lösung dauert etwa zwei Minuten, läuft auf Wunsch komplett offline und funktioniert als Bonus in jeder anderen App, die du öffnest.

Hier ist der Punkt, den die meisten Seiten, die um dieses Keyword herumtanzen, nicht klar aussprechen. Ein Logseq-Block ist einfach ein Textfeld, genau wie Gmail oder eine Suchleiste. Ein Diktat, das an deiner Cursorposition einfügt, kümmert sich nicht darum, in welcher App der Cursor gerade steht.

Die eigentliche Frage ist also nicht "Wie schalte ich die Spracheingabe in Logseq ein." Es gibt keinen Schalter. Die Frage ist "Welches Diktier-Tool lasse ich über Logseq laufen", und die Antwort hängt davon ab, ob du gratis-und-eingebaut willst, nur für Mac, oder einen Offline-Hotkey, der sich überall gleich verhält. Ich gehe alles durch, richte eines in zwei Minuten ein und sage dir, wann du den eigenständigen Weg überspringen kannst.

Hat Logseq eine eingebaute Diktierfunktion?

Hände, die in ein Papier-Notizbuch neben einer Tastatur schreiben, ein Kontrast zwischen Tippen und Diktieren

Nein. Die Logseq-Desktop-App hat keine eingebaute Sprache-zu-Text-, Diktier- oder Spracheingabefunktion, um per Stimme in einen Block zu schreiben. Es gibt keinen Mikrofon-Button an einem Block, keinen Sprachbefehl, keine versteckte Einstellung. Wenn du die Einstellungen danach durchforstet hast, kannst du aufhören. Sie ist nicht da.

Was es gibt, ist eine Reihe von Community-Plugins mit "whisper" im Namen, und hier verlaufen sich die Leute. Diese Plugins transkribieren eine Audiodatei oder einen YouTube-Link nachträglich in Text. Sie sind nützlich, aber sie sind kein Live-Diktat. Du kannst den Cursor nicht ins heutige Journal setzen, sprechen und zusehen, wie Wörter erscheinen. Sie verarbeiten eine Aufnahme; sie tippen nicht für dich, während du denkst. Die beiden zu verwechseln kostet einen Nachmittag, und den würde ich dir gern ersparen.

Die mobile Situation ist ein eigenes Thema und einen Satz wert, damit du sie nicht auf dem falschen Gerät jagst: Die neuere Logseq-Mobile-App hat etwas Sprachtranskription bekommen, aber das ist eine Handy-Funktion, und am Handy würdest du ohnehin einfach das Mikrofon der Tastatur nutzen. Auf dem Desktop-Graph, in dem die meisten tatsächlich leben, brauchst du ein Tool, das über Logseq sitzt. Es gibt drei ehrliche Kategorien, und der Rest dieser Anleitung deckt sie ab.

Hotkey drücken, sprechen, Text landet im Block

Das ist die ganze Mechanik, und sie ist langweilig im besten Sinne. Du drückst einen Hotkey, sprichst, lässt los, und der Text wird an deiner Cursorposition eingefügt, in welchem Textfeld auch immer der Fokus liegt. Whisper hält nach dem Loslassen kurz nach, damit dein letztes Wort nicht abgeschnitten wird. Weil es an der Cursorposition des Betriebssystems einfügt, ist ein Logseq-Block einfach "irgendein Textfeld". Desktop-App oder Browser-Version, gleiches Verhalten.

Das ist der Teil, den die Landingpages überkomplizieren. Es gibt kein Plugin, das du in Logseq installierst, kein API-Token zum Einfügen, keinen Sync-Job zum Hüten. Dein Cursor steht in einem Block, du sprichst, die Wörter erscheinen im Block. Während du sprichst, taucht eine kleine Kapsel auf, damit du weißt, dass es zuhört:

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die erscheint, während du sprichst, damit du weißt, dass Whisper zuhört.

Der Hotkey ist die eine Sache, die man von Anfang an richtig machen sollte. Unter Windows ist es Ctrl+Space; auf dem Mac ist es Command+Option, ein reines Push-to-Talk über Modifiertasten, das du beim Sprechen gedrückt hältst. Beide sind in den Einstellungen änderbar, falls sie mit etwas kollidieren, das du schon nutzt. (Meine jüngere Tochter sagte mir einmal, ein Hotkey "funktioniere nicht" in ihrer Zeichen-App. Es war ein Konflikt, kein Fehler, und so lernte ich, dass der Durchschnittsmensch keine Ahnung hat, was ein Hotkey-Konflikt überhaupt ist. Deshalb ist heute jeder Hotkey anpassbar.) Wenn du je Diktat unter Windows oder auf dem Mac eingerichtet hast, ist das dieselbe Routine, nur auf eine andere App gerichtet.

In zwei Minuten einrichten (Windows oder Mac)

Du brauchst einen Mac mit Apple Silicon oder einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und Logseq geöffnet, entweder in der Desktop-App oder im Browser. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Anmeldung nach einer Zahlungsmethode gefragt wird. Hier ist der Ablauf.

Schritt 1 — Whisper installieren und anmelden.

Lade es von der Download-Seite herunter, installiere es und erstelle ein kostenloses Konto. Keine Kreditkarte. Die gesamte lokale Transkriptions-Pipeline öffnet sich sofort.

Du erkennst, dass es geklappt hat, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 — Einen Transkriptionsweg wählen.

Die App entscheidet nicht für dich. Du bekommst drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für private Journal-Notizen fang lokal an — mehr dazu zwei Abschnitte weiter unten.

Du erkennst, dass es geklappt hat, wenn ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 — Deinen Hotkey bestätigen.

Windows nutzt standardmäßig Ctrl+Space, der Mac Command+Option als gehaltenes Push-to-Talk. Erteile auf dem Mac die Bedienungshilfen-Berechtigung, wenn du danach gefragt wirst; ohne sie kann das Einfügen an der Cursorposition andere Apps nicht erreichen.

Du erkennst, dass es geklappt hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 — Setz deinen Cursor in einen Logseq-Block und sprich.

Öffne deinen Graph, klick in einen Block, halte den Hotkey, sag einen Satz, lass los. Der Text erscheint dort, wo der Cursor steht, im Block.

Du erkennst, dass es geklappt hat, wenn dein gesprochener Satz als Text im Logseq-Block steht.

Whisper
Die echte Whisper-Desktop-App im Einstellungsbildschirm, mit geöffneten Bereichen Transkription und KI.

Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, ist das Festhalten eines Gedankens in deinem Graph keine Tipp-Aufgabe mehr, sondern eine Sprech-Aufgabe.

Sprache zu Text unter Windows · auf dem Mac

Ein Logseq-Plugin vs. ein systemweiter Hotkey

Die meisten Seiten, die für dieses Keyword ranken, verweisen dich auf ein Logseq-Plugin oder auf Blurt, ein eigenständiges Mac-Menüleisten-Tool, das direkt in deine Gliederung spricht. Das sind brauchbare Antworten, jede mit einem strukturellen Haken. Die Whisper-artigen Plugins transkribieren Audiodateien, nicht Live-Sprache in den Block, den du gerade bearbeitest. Und Blurt ist nach eigener Beschreibung nur für macOS — wenn du unter Windows bist, ist es überhaupt keine Option.

Ein systemweiter Hotkey umgeht beide Grenzen. Er fügt an der Cursorposition des Betriebssystems ein, egal welches Fenster dazu gehört, sodass dieselbe Taste, die einen Logseq-Block füllt, auch dein Gmail-Verfassen-Fenster, eine Slack-Nachricht und eine Commit-Nachricht füllt. Ein Tool, jedes Textfeld, unter Windows und Mac. Du musst nichts neu lernen, wenn du die App wechselst, und du brauchst keine andere Lösung je nach Laptop.

Wenn du am Mac bist und immer nur innerhalb von Logseq aufnimmst, ist Blurt eine schlanke, fokussierte Wahl und einen Blick wert. In dem Moment, in dem du unter Windows bist oder denselben Ablauf in jedem Programm willst, das du öffnest, gewinnt der systemweite Weg. Ich greife zum einen Hotkey, weil ich ungefähr vierzigmal pro Stunde die App wechsle und mir nicht vierzig verschiedene Diktier-Buttons merken will.

Lokal oder Cloud: welcher Modus für einen privaten Graph

Für Logseq probier zuerst den lokalen Modus. Der ganze Grund, warum viele von uns Logseq gewählt haben, ist, dass es local-first und schlichter Text ist — eine Meeting-Zusammenfassung, eine halbgare Idee, ein Journaleintrag, den du nie auf jemandes Server haben wolltest. Es wäre eine seltsame Wahl, deine Notizen auf der eigenen Festplatte zu halten und dann deine Stimme durch eine Cloud zu schicken, um dort hinzukommen. Wenn dein Mac Apple Silicon hat oder dein PC aus den letzten Jahren stammt, bewältigt lokal das alltägliche Diktat klaglos, und die Cloud wird zum Notausgang statt zur Standardeinstellung.

So unterscheiden sich die drei Wege, denn die App lässt dich wählen, und ich möchte, dass du gut wählst:

  • Local ParakeetNVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option — 5- bis 10-mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, 25 insgesamt. Keine Übersetzung ins Englische. Wenn du auf Englisch oder einer anderen europäischen Sprache journalst, ist das die schnelle, komplett offline laufende Wahl.
  • Local Whisperlangsamer als Parakeet auf derselben Maschine, aber die mehrsprachigen Modelle decken 99 Sprachen ab und können ins Englische übersetzen. Die rein englischen Modelle sind rein englisch, nicht 99. Wähl dies für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsarbeit, die Parakeet nicht kann. Das englische Standardmodell ist rund 480 MB groß.
  • Cloud (OpenAI, BYOK)beste Genauigkeit und Webzugriff, mit deinem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet, also ist es der eine Weg, der deine Maschine verlässt. Die Cloud-Funktion ist Teil von Whisper Pro.

Die langweilige Wahrheit ist, dass für die Art von Text, die die meisten in Logseq schreiben, lokal völlig ausreicht. Beide lokalen Engines laufen komplett auf deiner Maschine, ohne dass etwas an einen Server geht, was der ganze Sinn eines local-first Graphs ist. Die Cloud verdient ihren Platz, wenn du Spitzengenauigkeit bei einer schwierigen Aufnahme willst oder das Modell mitten im Satz eine Information aus dem Web ziehen soll. Für die tägliche Journal-Gewohnheit fang lokal an und greif nur zur Cloud, wenn lokal dich im Stich lässt.

Satzzeichen, Blöcke und Logseq-Markdown per Stimme

Rohes Diktat kommt als ein einziger Bandwurmsatz heraus. Du sagst "okay also überprüf das Architektur-Dokument tagge es Projekt Alpha und erinnere mich am Donnerstag", und das ist die unpunktierte Wand, die dir jede Sprach-Engine reicht. Beim Aufräumen trennen sich die Wege.

Windows-Spracheingabe fügt Satzzeichen beim Sprechen hinzu, und das macOS-Diktat beherrscht einfache Satzzeichen, wenn du "Komma" oder "Punkt" sagst. Für gründlicheres Aufräumen — die "ähs" entfernen, die Bandwurmsätze richten, einen gesprochenen Absatz in etwas verwandeln, das du tatsächlich in deinem Graph behalten würdest — kann Whisper einen KI-Durchgang machen. Sag die Aktivierungsphrase "Hey whisper", und der Text wird verbessert, bevor er landet. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.

Thinking...
Roh

okay also überprüf das architektur-dokument tagge es projekt alpha und erinnere mich am donnerstag äh vor dem standup

Bereinigt

Okay, also überprüf das Architektur-Dokument, tagge es Projekt Alpha und erinnere mich am Donnerstag vor dem Standup.

Für die Struktur von Logseq selbst — verschachtelte Blöcke, die #tag- und [[page]]-Links, TODO-Marker — lautet die ehrliche Antwort: Die Stimme liefert dir den Text, und Logseqs eigene Syntax liefert dir die Struktur. Diktier den Satz, dann tippe das Tab zum Einrücken, das # für einen Tag oder das [[ für einen Seitenlink so, wie du es immer tust. Kein Diktier-Tool zaubert Logseqs Gliederungssyntax auf Befehl hervor; wer dir verspricht "sag tagge Projekt Alpha und sieh zu, wie es verlinkt", verkauft dir eine Demo, keinen Dienstag. Bring die Wörter per Stimme schnell aufs Papier, form die Blöcke mit den Tasten, die du schon kennst.

Derselbe Sprich-dann-bereinige-Ablauf zahlt sich weit über deinen Graph hinaus aus — du kannst auch sauberen Text in jede App diktieren mit dem einen Hotkey, sodass ein langer Block zu ein paar gesprochenen Sätzen wird statt zu einem Absatz, den du abtippst.

Wann du für Logseq auf ein Diktier-Tool verzichten solltest

Zwei mit Kreide auf den Boden gemalte Pfeile, die in verschiedene Richtungen zeigen und eine Werkzeugwahl veranschaulichen

Manchmal ist das richtige Tool das kostenlose, das schon auf deiner Maschine ist, und etwas anderes zu behaupten wäre unehrlich. Wenn du nur kurze Notizen in Logseq wirfst — eine schnelle Journalzeile, eine Zwei-Wort-Erinnerung — deckt dein Betriebssystem das umsonst ab.

Unter Windows drückst du Windows-Taste + H, und die eingebaute Spracheingabe-Leiste öffnet sich dort, wo dein Cursor steht, ein Logseq-Block eingeschlossen. Sie setzt selbst Satzzeichen und ist für kurze Schübe in Ordnung. Der Haken: Sie läuft über Microsofts Server und braucht eine Internetverbindung, also ist sie keine Offline-Option, was hier mehr zählt als sonst, wenn der ganze Sinn deines Graphs ist, lokal zu bleiben. Auf dem Mac kannst du mit dem Diktat überall sprechen, wo du tippen kannst, eingerichtet in den Systemeinstellungen unter Tastatur, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden. Und wenn du ein Mac-Nutzer bist, der komplett innerhalb von Logseq lebt, ist Blurt eine fokussierte, native Wahl, die genau dafür gebaut ist.

Greif zu einem eigenständigen, systemweiten Tool, wenn die eingebauten anfangen wehzutun: lange Notizen, mehrsprachige Arbeit, Offline-Privatsphäre unter Windows oder der Wunsch nach einem Hotkey, der sich in Logseq, deiner E-Mail und deinem Editor gleich verhält. Unterhalb dieser Schwelle nimm, was kostenlos ist. Ich werde dir nicht sagen, du sollst für eine einzeilige Erinnerung eine App installieren.

Derselbe Kompromiss taucht auf, wenn du auch anderswo Notizen führst — die Logik beim Diktieren in Obsidian ist identisch, weil beide local-first Markdown-Apps sind, in denen der Cursor und nicht ein Plugin die eigentliche Integration ist.

Weiterführende Links

Logseq hat nie einen Mikrofon-Button ausgeliefert, und nachdem ich das geschrieben habe, bin ich ziemlich sicher, dass es das nie tun wird. Es muss auch nicht, denn der Cursor ist die Integration. Sprich in den Block, bekomm Text, form ihn mit der Syntax, die du schon kennst. Ich habe den Großteil dieser Anleitung in ein Textfeld diktiert, das nicht Logseq war, mit einem Tool, das sich nicht darum schert, welches Feld es ist, und dann das Ganze in meinen eigenen Graph eingefügt. Das ist der ganze Trick.

Probier es in deinem nächsten Logseq-Block

Hotkey halten, sprechen, loslassen. Der Text landet in dem Block, in dem dein Cursor steht — und in jeder anderen App auch.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte für den Start nötig.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest, höchstwahrscheinlich, indem ich die Antworten diktiere.