Anleitung
Sprache in Text in Joplin
Die Joplin-Desktop-App hat keine eingebaute Diktierfunktion – die Spracheingabe gibt es nur unter Android. Die Lösung ist ein systemweites Tool: Taste drücken, sprechen, und der Text landet an deiner Cursorposition in jeder Joplin-Notiz. Für kurze Notizen funktioniert auch die Diktierfunktion deines Betriebssystems.
Zuletzt aktualisiert: Juni 2026

Sprache zu Text in Joplin auf dem Desktop funktioniert über ein systemweites Tool, nicht über Joplin selbst. Joplins eingebaute Spracheingabe gibt es nur unter Android; die Desktop-App hat keine. Die Lösung ist ein Tool wie Whisper: Taste drücken, sprechen, und der Text landet an der Cursorposition in jeder Joplin-Notiz. Für kurze Notizen funktioniert auch die Diktierfunktion des Betriebssystems.
Ich speichere meine Notizen in Joplin, weil ich einem Ordner aus reinem Markdown, der mit einem Speicher meiner Wahl synchronisiert, mehr vertraue als irgendeiner fremden Cloud. Das Einzige, wonach ich immer wieder gegriffen habe, war eine Möglichkeit, eine Notiz zu sprechen, statt sie zu tippen. Also habe ich auf meinem Laptop nach der Einstellung gesucht. Es gibt keine. Die Joplin-Desktop-App hat keinen Mikrofonknopf, und nach einigem Graben bin ich sicher, dass sie auch keinen versteckt.
Und hier kommen die meisten ins Stolpern. Joplin hat tatsächlich eine eingebaute Spracheingabe – nur eben unter Android. Die eigene Entwicklerdokumentation sagt das ganz klar. Die Leute hören „Joplin hat Spracheingabe“, suchen auf ihrem Desktop danach, finden nichts und nehmen an, sie hätten einen Schalter übersehen. Haben sie nicht. Der Schalter sitzt auf dem Handy. Die gute Nachricht: Die Desktop-Lösung dauert rund zwei Minuten, läuft auf Wunsch komplett offline und funktioniert als Bonus in jeder anderen App, die du öffnest.
Hier ist, was die meisten Seiten, die um dieses Stichwort herumtanzen, nicht klar sagen. Eine Joplin-Notiz ist einfach ein Markdown-Textfeld, genau wie Gmail oder eine Suchleiste. Diktat, das an deiner Cursorposition einfügt, ist es egal, in welcher App der Cursor gerade steht.
Die eigentliche Frage lautet also nicht „Wie aktiviere ich die Spracheingabe in Joplin auf meinem Laptop?“ Auf dem Desktop gibt es keinen Schalter. Die Frage lautet „Welches Diktier-Tool lasse ich über Joplin laufen?“, und die Antwort hängt davon ab, ob du etwas Kostenloses und Eingebautes willst, etwas auf Betriebssystemebene oder eine Offline-Taste, die sich überall gleich verhält. Ich gehe alles durch, richte eins in zwei Minuten ein und sage dir, wann du auf den eigens dafür gedachten Weg verzichten kannst.
Hat Joplin eine eingebaute Diktierfunktion?

Auf dem Desktop nicht. Die Joplin-Desktop-App für Windows, Mac und Linux hat keine eingebaute Sprache-zu-Text-, Diktier- oder Spracheingabefunktion, um per Stimme in eine Notiz zu schreiben. Es gibt keinen Mikrofonknopf, keinen Sprachbefehl, keine versteckte Einstellung. Wenn du die Einstellungen danach durchforstet hast, kannst du aufhören. Sie ist nicht da.
Was es gibt – und genau hier verirren sich alle – ist die Spracheingabe in Joplins Android-App. Joplins eigene Entwicklerdokumentation sagt es direkt: Die Android-App unterstützt eine eingebaute, offline arbeitende Spracheingabe, standardmäßig über Whisper. Das Team hat echte Arbeit hineingesteckt und automatische Zeichensetzung sowie ein eigenes Glossar ergänzt. Es ist eine wirklich gute Funktion. Sie lebt eben nur auf dem Handy. „Joplin hat Spracheingabe“ mit „Joplin hat Spracheingabe auf meinem Laptop“ zu verwechseln kostet einen Nachmittag, und diesen Nachmittag sparst du dir lieber.
Das Mobil-Bild ist also klar: Unter Android hast du es eingebaut, auf dem iPhone würdest du auf das Mikrofon der Tastatur zurückgreifen, und in beiden Fällen ist es eine Handy-Funktion. In der Desktop-Notiz, in der die meisten Menschen tatsächlich arbeiten, brauchst du ein Tool, das über Joplin sitzt. Es gibt ein paar ehrliche Wege, und der Rest dieser Anleitung deckt sie ab.
Taste drücken, sprechen, der Text landet in der Notiz
Das ist der ganze Mechanismus, und er ist auf die beste Art langweilig. Du drückst eine Taste, du sprichst, du lässt los, und der Text wird an deiner Cursorposition eingefügt, in welches Textfeld auch immer gerade den Fokus hat. Whisper hängt nach dem Loslassen der Taste noch einen kurzen Moment dran, damit dein letztes Wort nicht abgeschnitten wird. Weil es an der Cursorposition des Betriebssystems einfügt, ist eine Joplin-Notiz einfach „irgendein Textfeld“. Markdown-Editor, Rich-Text-Editor, die Suchleiste – gleiches Verhalten.
Das ist der Teil, den die Landingpages unnötig verkomplizieren. Es gibt kein Plugin, das du in Joplin installieren müsstest, kein API-Token zum Einfügen, keinen Sync-Job zum Babysitten. Dein Cursor steht in einer Notiz, du sprichst, die Wörter erscheinen in der Notiz. Während du sprichst, taucht eine kleine Kapsel auf, damit du weißt, dass es zuhört:
Die Taste ist das Einzige, das sich von Anfang an richtig einzustellen lohnt. Unter Windows ist es Ctrl+Space; auf dem Mac ist es Command+Option, ein reines Modifikator-Push-to-talk, das du beim Sprechen gedrückt hältst. Beides lässt sich in den Einstellungen ändern, falls es mit etwas kollidiert, das du bereits nutzt. (Meine jüngere Tochter erzählte mir einmal, eine Taste „funktioniere nicht“ in ihrer Zeichen-App. Es war ein Konflikt, kein Fehler – so habe ich gelernt, dass der Durchschnittsmensch keine Ahnung hat, was ein Tastenkonflikt überhaupt ist. Deshalb ist jetzt jede Taste anpassbar.) Wenn du jemals das Diktieren auf dem Mac eingerichtet hast, ist das dieselbe Routine, nur auf eine andere App gerichtet.
In zwei Minuten einrichten (Windows oder Mac)
Du brauchst einen Mac mit Apple Silicon oder einen Windows-PC mit Version 10 oder neuer, ein funktionierendes Mikrofon und ein geöffnetes Joplin auf deinem Desktop. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ganz ohne Zahlungsmethode bei der Anmeldung. So geht's.
Schritt 1 – Whisper installieren und anmelden.
Lade es von der Download-Seite herunter, installiere es und erstelle ein kostenloses Konto. Keine Karte. Die gesamte lokale Transkriptions-Pipeline steht sofort bereit.
Du erkennst, dass es geklappt hat, wenn das Symbol der App in der Taskleiste erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.
Schritt 2 – Einen Transkriptionsweg wählen.
Die App entscheidet nicht für dich. Du bekommst drei: Cloud (OpenAI, mit eigenem Schlüssel), Local Parakeet oder Local Whisper. Für private Notizen, die du in reinem Markdown behältst, fang lokal an – mehr dazu zwei Abschnitte weiter unten.
Du erkennst, dass es geklappt hat, wenn ein Modell den Download abschließt und als bereit angezeigt wird.
Schritt 3 – Deine Taste bestätigen.
Windows nutzt standardmäßig Ctrl+Space, der Mac Command+Option als Push-to-talk. Erteile auf dem Mac die Bedienungshilfen-Berechtigung, wenn du gefragt wirst; ohne sie kann das Einfügen an der Cursorposition andere Apps nicht erreichen.
Du erkennst, dass es geklappt hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 – Den Cursor in eine Joplin-Notiz setzen und sprechen.
Öffne Joplin, klicke in den Text einer Notiz, halte die Taste gedrückt, sag einen Satz, lass los. Der Text erscheint dort, wo der Cursor steht, in der Notiz.
Du erkennst, dass es geklappt hat, wenn dein gesprochener Satz als Text in der Joplin-Notiz steht.
Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles Übrige sind die vier Schritte oben. Sobald es läuft, ist das Festhalten eines Gedankens in einer Notiz keine Tipp-Aufgabe mehr, sondern eine Sprech-Aufgabe.
Desktop vs. Mobil: wo Joplins Spracheingabe tatsächlich zu Hause ist
Das festzuhalten lohnt sich, denn es ist die Quelle fast jeder „Warum finde ich das nicht?“-Frage. Joplins eingebaute Spracheingabe ist eine Android-Funktion. Die Dokumentation ist eindeutig: Die Android-App diktiert offline über Whisper, mit Zeichensetzung und einem Glossar. In der Desktop-App existiert diese Funktion nicht. Gleiches Produkt, gleiche Notizen, zwei sehr unterschiedliche Möglichkeiten – je nachdem, welches Gerät du geöffnet hast.
Wenn du also hauptsächlich auf deinem Handy festhältst, brauchst du vielleicht nichts Zusätzliches – die Android-Spracheingabe ist direkt im Notiz-Editor. Die Lücke ist der Laptop, wo das meiste längere Schreiben passiert und wo Joplin dir nichts gibt. Eine systemweite Taste schließt diese Lücke. Sie fügt an der Cursorposition des Betriebssystems ein, egal welches Fenster ihn besitzt – dieselbe Taste, die eine Joplin-Notiz füllt, füllt also auch dein Gmail-Verfassen-Feld, eine Slack-Nachricht und eine Commit-Nachricht. Ein Tool, jedes Textfeld, sowohl unter Windows als auch auf dem Mac.
Es hat auch etwas Aufgeräumtes, denselben Ablauf über alle Geräte hinweg beizubehalten. Auf dem Handy nutzt du Joplins eigene Spracheingabe; auf dem Desktop nutzt du die Taste. Beide bringen Wörter in dieselbe Markdown-Notiz. Du lernst nichts neu, wenn du das Gerät wechselst, und dem Desktop-Tool ist es egal, dass es ausgerechnet Joplin ist – was bedeutet, dass es auch jedes andere Programm abdeckt, in das du schreibst. Ich würde zur einen Taste greifen, weil ich ungefähr vierzig Mal pro Stunde die App wechsle und mir nicht vierzig verschiedene Diktierknöpfe merken will.
Lokal oder Cloud: welcher Modus für einen privaten Tresor
Für Joplin probier zuerst den lokalen Modus. Der ganze Grund, warum viele von uns Joplin gewählt haben, ist, dass es local-first reines Markdown ist, das du mit einem Speicher deiner Wahl synchronisierst – eine Besprechungszusammenfassung, eine halbgare Idee, ein Tagebucheintrag, den du nie auf jemandes Server haben wolltest. Es wäre eine seltsame Wahl, deine Notizen in einem Ordner zu behalten, der dir gehört, und deine Stimme dann über eine Cloud dorthin zu leiten. Wenn dein Mac Apple Silicon hat oder dein PC aus den letzten Jahren stammt, bewältigt das Lokale den Alltag klaglos, und die Cloud wird zum Notausgang statt zur Standardlösung.
So unterscheiden sich die drei Wege, denn die App lässt dich wählen, und ich möchte, dass du gut wählst:
- Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option – 5- bis 10-mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Keine Übersetzung ins Englische. Wenn du Notizen auf Englisch oder in einer anderen europäischen Sprache schreibst, ist das die schnelle, komplett offline arbeitende Wahl.
- Local Whisper — langsamer als Parakeet auf derselben Maschine, aber die mehrsprachigen Builds decken 99 Sprachen ab und können ins Englische übersetzen. Die nur-englischen Builds sind nur englisch, nicht 99. Wähle das für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsarbeit, die Parakeet nicht kann. Das Standard-Englisch-Modell ist rund 480 MB groß.
- Cloud (OpenAI, BYOK) — beste Genauigkeit und Webzugriff, über deinen eigenen OpenAI-Schlüssel, direkt von OpenAI abgerechnet. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet, ist also der eine Weg, der deine Maschine verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.
Die langweilige Wahrheit ist, dass für die Art von Text, die die meisten Menschen in Joplin schreiben, das Lokale völlig reicht. Beide lokalen Engines laufen vollständig auf deiner Maschine, ohne dass etwas an einen Server gesendet wird – ganz im Geiste einer Notiz-App, die du gerade deshalb gewählt hast, weil die Daten dir gehören. Es passt auch zu Joplins eigener Android-Spracheingabe, die das Team aus demselben Grund komplett offline gehalten hat. Die Cloud verdient ihren Platz, wenn du erstklassige Genauigkeit bei einer schwierigen Aufnahme willst oder das Modell mitten im Satz eine Information aus dem Web ziehen soll. Für eine tägliche Notiz-Routine fang lokal an und greif nur zur Cloud, wenn dir das Lokale nicht reicht.
Zeichensetzung, Markdown und Aufräumen per Stimme
Rohes Diktat kommt als ein einziger Schachtelsatz heraus. Du sagst „okay also schreib die architektur-review-notiz markier sie mit projekt alpha und erinnere mich donnerstag“, und das ist die unpunktierte Wand, die dir jede Sprach-Engine reicht. Das Aufräumen ist der Punkt, an dem sich die Wege trennen.
Die Windows-Spracheingabe fügt Zeichensetzung beim Sprechen hinzu, und das macOS-Diktat setzt einfache Satzzeichen, wenn du „Komma“ oder „Punkt“ sagst. Für gründlicheres Aufräumen – die „Ähs“ rausstreichen, die Schachtelsätze richten, einen gesprochenen Absatz in etwas verwandeln, das du tatsächlich in einer Notiz behalten würdest – kann Whisper einen KI-Durchlauf machen. Sag den Aktivierungssatz „Hey whisper“, und der Text wird verbessert, bevor er landet. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.
okay also schreib die architektur-review-notiz markier sie mit projekt alpha und erinnere mich donnerstag äh vor dem standup
Okay, also schreib die Architektur-Review-Notiz, markier sie mit Projekt Alpha und erinnere mich am Donnerstag vor dem Standup.
Für Joplins eigenes Markdown – Überschriften, Aufzählungslisten, Kontrollkästchen, die [[note]]-internen Links – ist die ehrliche Antwort, dass die Stimme dir den Text liefert und Joplins Markdown-Kürzel dir die Struktur. Diktiere den Satz, tippe dann das # für eine Überschrift, das - für einen Aufzählungspunkt oder - [ ] für ein Kontrollkästchen, so wie du es immer tust. Kein Diktier-Tool zaubert Markdown-Syntax auf Befehl herbei; wer dir verspricht „sag Überschrift Projekt Alpha und sieh zu, wie es formatiert wird“, verkauft dir eine Demo, keinen Dienstagvormittag. Bring die Wörter per Stimme schnell aufs Papier, forme das Markdown mit den Tasten, die du längst kennst.
Derselbe Sprich-dann-bereinige-Ablauf zahlt sich weit über deine Notizen hinaus aus – du kannst auch sauberen Text in jede App diktieren, mit der einen Taste, sodass aus einer langen Notiz ein paar gesprochene Sätze werden statt eines Absatzes, den du tippst.
Wann du bei Joplin auf ein Diktier-Tool verzichten kannst

Manchmal ist das richtige Werkzeug das kostenlose, das schon auf deiner Maschine ist, und etwas anderes zu behaupten wäre unehrlich. Wenn du nur kurze Notizen in Joplin ablegst – eine schnelle Zeile, eine Erinnerung aus zwei Wörtern – und auf deinem Handy bist, deckt Joplins eigene Android-Spracheingabe das schon kostenlos ab. Auf dem Desktop macht dein Betriebssystem dasselbe.
Unter Windows drückst du Windows-Taste + H, und die eingebaute Spracheingabeleiste öffnet sich dort, wo dein Cursor steht – auch in einer Joplin-Notiz. Sie setzt selbst Satzzeichen und ist für kurze Schübe in Ordnung. Der Haken: Sie läuft über Microsofts Server und braucht eine Internetverbindung, ist also keine Offline-Option – was hier mehr zählt als sonst, wenn der ganze Sinn deiner Notizen darin besteht, lokal zu bleiben. Auf dem Mac lässt dich das Diktat überall dort sprechen, wo du tippen kannst; eingerichtet wird es in den Systemeinstellungen unter Tastatur, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden.
Greif zu einem dedizierten, systemweiten Tool, wenn die eingebauten Lösungen anfangen wehzutun: lange Notizen, mehrsprachige Arbeit, Offline-Datenschutz unter Windows oder der Wunsch nach einer Taste, die sich in Joplin, deiner E-Mail und deinem Editor gleich verhält. Unterhalb dieser Schwelle nimm, was kostenlos ist – das Betriebssystem auf dem Desktop, Joplins eigene Spracheingabe unter Android. Ich werde dir nicht sagen, du sollst für eine einzeilige Erinnerung eine App installieren.
Derselbe Kompromiss zeigt sich, wenn du auch anderswo Notizen führst – die Logik beim Diktieren in Obsidian ist dieselbe, denn beide sind local-first Markdown-Apps, bei denen der Cursor, nicht ein Plugin, die eigentliche Integration ist.
Weiterführende Links
Joplin hat einen Mikrofonknopf ausgeliefert – unter Android, nicht auf meinem Laptop, und nachdem ich dies geschrieben habe, bezweifle ich, dass der Desktop-Knopf bald kommt. Er muss es auch nicht, denn auf dem Desktop ist der Cursor die Integration. Sprich in die Notiz, bekomm Text, forme ihn mit den Markdown-Kürzeln, die du längst kennst. Ich habe den Großteil dieser Anleitung in ein Textfeld diktiert, das nicht Joplin war, mit einem Tool, dem es egal ist, welches Feld es ist, und das Ganze dann in meine eigene Notiz eingefügt. Das ist der ganze Trick.
Probier es in deiner nächsten Joplin-Notiz
Taste halten, sprechen, loslassen. Der Text landet in der Notiz, in der dein Cursor steht – und in jeder anderen App ebenso.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte für den Start nötig.



