Ratgeber
Diktiersoftware für Blogger
Die meisten Blogartikel entstehen langsam — weil Tippen langsam ist. Diktiersoftware löst das Problem beim Entwurf, nicht beim Editor: Hotkey drücken, sprechen, und sauberer Text landet am Cursor in WordPress, Ghost, Substack, Medium oder Notion. Kein Plugin nötig, funktioniert offline.
Zuletzt aktualisiert: Juni 2026

Diktiersoftware für Blogger verwandelt einen gesprochenen Erstentwurf in getippten Text — direkt im Editor. Ein systemweites Tool wie Whisper funktioniert per Hotkey: sprechen, loslassen, die Wörter erscheinen am Cursor in WordPress, Ghost, Substack, Medium oder Notion. Kein CMS-Plugin nötig, läuft offline, und der lokale Modus ist kostenlos.
Ein Blogartikel ist eigentlich zwei Aufgaben mit einer Deadline. Da ist das Denken — was man eigentlich sagen will — und da ist das Tippen, der langsame Teil, wo Ideen Schlange stehen. Ich schreibe selbst viel nebenbei, und die Lücke zwischen „Ich weiß, was in diesem Absatz steht“ und „Der Absatz ist auf dem Bildschirm“ war immer das Tippen. Also fing ich an, den Erstentwurf zu sprechen.
Wer nach „Diktiersoftware für Blogger“ sucht, landet auf Listen mit Apps, die alle in einem einzigen Editor leben wollen — hier ein WordPress-Plugin, dort eine Chrome-Erweiterung. Die ehrliche Antwort ist einfacher und ein wenig langweilig. Man will keine Diktierung im CMS. Man will sie über die gesamte Maschine, damit derselbe Hotkey einen Gutenberg-Block, einen Substack-Beitrag und die Antwort auf eine Lesernachricht füllt. Ein Tool, jeder Editor.
Hier ist, was die Listicles übersehen. Der Editor — Gutenberg, der Ghost-Composer, das Substack-Feld, Medium, eine Notion-Seite — ist ein Textfeld. Diktierung, die am Cursor einfügt, interessiert sich nicht dafür, welches. Das CMS ist nicht die Integration. Der Cursor ist es.
Die eigentliche Frage ist also nicht „Welche Blogging-Plattform hat die beste Spracheingabe.“ Keine hat eine wirklich gute eingebaute Diktierung, und das muss sie auch nicht. Die Frage lautet: „Welches Diktiertool betreibe ich über allen Plattformen?“ — und die Antwort hängt davon ab, ob man es kostenlos, offline und einheitlich in jedem Editor will. Ich erkläre das Warum, zeige die Einrichtung in zwei Minuten, gehe den Bereinigungsdurchlauf durch, der gesprochenes Chaos in einen Entwurf verwandelt — und erkläre, wann man die Diktierung besser weglässt.
Warum Blogger zur Diktierung greifen

Der Engpass ist der Entwurf, nicht das Bearbeiten. Die meisten Blogger, die ich kenne, können einen Beitrag in zwei Minuten gliedern und brauchen dann eine Stunde, um die Gliederung in Sätze zu verwandeln. Sprechen ist schneller als Tippen — für mich etwa drei- bis viermal schneller, und die Forschung stützt diese grobe Einschätzung, auch wenn der genaue Wert von den eigenen Händen und dem Thema abhängt. Diktierung soll nicht das Schreiben ersetzen. Sie soll die unfertige erste Version aus dem Kopf aufs Papier bringen, bevor man den Faden verliert.
Es gibt einen zweiten Grund, der mit zunehmender Blogging-Erfahrung immer wichtiger wird: die Hände. Blogger tippen viel. Ein wöchentlicher Newsletter, ein paar Beiträge, Kommentare, E-Mails — das summiert sich zu einem ruhigen, täglichen Volumen an Tastenanschlägen. Diktierung lässt die Hände ausruhen und die Produktion aufrechterhalten — das ist eine Produktivitätsentscheidung, keine medizinische. Ich sage nicht, dass sie irgendetwas heilt; ich sage, dass ein gesprochener Entwurf eine Stunde weniger Tippen bedeutet, und in einer intensiven Schreibwoche ist das der Unterschied zwischen Veröffentlichen und Verschieben.
Und die Ideen kommen selten zur rechten Zeit. Die gute Formulierung für die Einleitung kommt beim Kaffeekochen, nicht am Schreibtisch. Mit einem Hotkey sinken die Kosten, sie festzuhalten, auf nahezu null — zehn Sekunden sprechen, und der Satz ist im Entwurf. Die ehrliche Einordnung: Spracheingabe liefert die Wörter schnell. Das Formen — die Überschriften, die Zitate, die Reihenfolge der Absätze — bleibt trotzdem die eigene Aufgabe. Diktierung entfernt nur den Teil, bei dem man den Satz an eine langsame Tastatur verlieren würde.
Hotkey drücken, sprechen, Text landet im Editor
Das ist die ganze Mechanik, und sie ist auf die beste Art langweilig. Hotkey drücken, sprechen, loslassen — das Transkript erscheint am Cursor, in welchem Textfeld auch immer den Fokus hat. Whisper hält nach dem Loslassen noch einen kurzen Moment nach, damit das letzte Wort nicht abgeschnitten wird. Weil die Eingabe am Betriebssystem-Cursor stattfindet, sind ein Gutenberg-Block, ein Ghost-Absatz, der Substack-Composer und eine Medium-Story alles „irgendein Textfeld“. Gleicher Hotkey, gleiches Verhalten, egal in welchem Tab.
Das ist der Teil, den Landing Pages zu kompliziert machen. Kein Plugin für WordPress, keine Erweiterung für den Browser, kein API-Token in Ghost einfügen. Der Cursor ist im Editor, man spricht, die Wörter erscheinen im Editor. Eine kleine Kapsel zeigt sich während des Sprechens, damit man weiß, dass aufgenommen wird:
Der Hotkey ist das Einzige, das man von Anfang an richtig einrichten sollte. Unter Windows ist es Ctrl+Space, auf dem Mac ist es Command+Option — ein reiner Modifier-Tastendruck zum Halten während des Sprechens, loslassen zum Stoppen. Beides lässt sich in den Einstellungen ändern, falls es mit einem bestehenden Shortcut kollidiert. (Meine jüngere Tochter sagte mir einmal, ein Hotkey „funktioniere nicht“ in ihrer Zeichenapp. Es war ein Konflikt, kein Bug — so lernte ich, dass die meisten Menschen keine Ahnung haben, was ein Hotkey-Konflikt überhaupt ist. Deshalb ist jetzt jeder Hotkey anpassbar.) Wer Diktat unter Windows oder auf dem Mac bereits eingerichtet hat, kennt diesen Muskelgedächtnis-Griff bereits — jetzt zeigt er ins CMS.
Einrichtung in zwei Minuten (Windows oder Mac)
Man braucht einen Mac mit Apple Silicon oder einen Windows-PC (Windows 10 oder neuer), ein funktionierendes Mikrofon und den Blog-Editor in einem Browser-Tab oder als Desktop-App geöffnet. Die gesamte lokale Pipeline ist für alle angemeldeten Konten kostenlos — bei der Anmeldung wird keine Zahlungsmethode verlangt. So läuft es ab.
Schritt 1 — Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte. Die gesamte lokale Transkriptionspipeline steht sofort zur Verfügung.
Es hat funktioniert, wenn das Tray-Icon der App erscheint und der Einrichtungsassistent die Auswahl eines Modells anbietet.
Schritt 2 — Transkriptionspfad wählen.
Die App trifft keine Auswahl. Es gibt drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für das Verfassen von Beiträgen auf dem eigenen Gerät zuerst lokal ausprobieren — mehr dazu zwei Abschnitte weiter.
Es hat funktioniert, wenn ein Modell den Download abgeschlossen hat und als bereit angezeigt wird.
Schritt 3 — Hotkey bestätigen.
Windows verwendet standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk-Taste. Auf dem Mac beim entsprechenden Hinweis die Bedienungshilfen-Berechtigung erteilen; ohne sie kann die Einfügung am Cursor nicht den Browser oder Editor erreichen.
Es hat funktioniert, wenn eine Testaufnahme in einem beliebigen Textfeld eingefügt wird.
Schritt 4 — Cursor in den Editor setzen und sprechen.
Den Beitrag in WordPress, Ghost, Substack, Medium oder Notion öffnen, in den Text klicken, den Hotkey halten, einen Satz sprechen, loslassen. Das Transkript erscheint dort, wo der Cursor steht.
Es hat funktioniert, wenn der gesprochene Satz als Text im Editor steht.
Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, ist das Verfassen des Entwurfs keine Tippaufgabe mehr, sondern eine Sprechaufgabe — und der Editor merkt den Unterschied nicht.
In WordPress, Ghost, Substack, Medium oder Notion diktieren
So läuft es je nach Editor ab, weil Blogger danach fragen. In WordPress Gutenberg in einen Absatzblock klicken und diktieren; die Wörter füllen den Block, und Enter für den nächsten Block drücken wie immer. Der Ghost-Composer ist gleich — Cursor im Text, sprechen, Text erscheint. Substacks Beitragseditor und Mediums Story-Editor sind schlichte Rich-Text-Felder, also landet das Diktat direkt dort. Notion behandelt jeden Block als Textfeld, also füllt ein Hotkey den Block, in dem der Cursor steht. Keiner dieser Editoren brauchte ein Plugin, eine Erweiterung oder eine CMS-Einstellung. Man installiert ein Tool, und jeder Editor profitiert davon.
Der Grund, warum das überall funktioniert, ist auch der Grund, warum es zu einfach klingt: Das Tool fügt am Betriebssystem-Cursor ein, nicht in die API einer bestimmten App. Derselbe Hotkey, der einen Gutenberg-Block füllt, füllt auch die E-Mail-Antwort an einen Leser, die Slack-Nachricht an einen Redakteur und die Commit-Nachricht im Repository hinter der eigenen Website. Ein Tool, jedes Textfeld, auf Windows und Mac. Beim Wechsel vom Entwurf zum Beantworten von Kommentaren muss man nichts neu lernen.
Was Diktierung nicht macht, ist das Formatieren — das sage ich lieber klar, als dass man es im ungünstigsten Moment herausfindet. Sie liefert die Wörter. Die H2s, Fettschrift, Pullzitate, die Block-Reihenfolge — das ist noch immer man selbst, mit den Tasten und Schaltflächen, die man ohnehin kennt. Wer einem „Sag Überschrift zwei und schau zu, wie es formatiert wird“ verkauft, verkauft eine Demo, keinen Arbeitsalltag. Den Fließtext per Sprache erfassen, dann den Beitrag wie jeden anderen Entwurf formen. Wer vor allem in einem Editor schreibt, findet in den plattformspezifischen Anleitungen für den Ghost-Editor und den Substack-Editor mehr zu den jeweiligen App-Besonderheiten.
Lokal oder Cloud: welcher Modus für den Entwurf
Für das Bloggen zuerst den lokalen Modus ausprobieren. Die eigenen Entwürfe sind die eigenen Entwürfe — der unveröffentlichte Beitrag, der Newsletter, bei dem man noch unsicher ist, die pointierte Meinung, die man vielleicht wieder streicht. Es wäre eine seltsame Gewohnheit, jeden rohen Satz über einen Cloud-Server zu schicken, nur um ihn in den Editor zu bekommen, wenn der eigene Laptop bereits ein Mikrofon und eine CPU hat. Wenn der Mac Apple Silicon hat oder der PC aus den letzten Jahren stammt, bewältigt der lokale Modus den Alltag problemlos — die Cloud wird zum Ausweg, nicht zum Standard.
So unterscheiden sich die drei Pfade, weil die App einen dazu zwingt zu wählen und man besser informiert wählen sollte:
- Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB, die schnellste lokale Option — 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Kein Übersetzen ins Englische. Wer seinen Blog auf Englisch oder einer anderen europäischen Sprache schreibt, findet hier die schnelle, vollständig offline nutzbare Wahl.
- Local Whisper — Auf demselben Gerät langsamer als Parakeet, aber die mehrsprachigen Builds decken 99 Sprachen ab und können ins Englische übersetzen. Die englischsprachigen Builds sind nur für Englisch, nicht für alle 99. Diesen Pfad wählen, wenn man auf Chinesisch, Japanisch, Koreanisch bloggt oder eine Übersetzung braucht — etwas, das Parakeet nicht kann. Das Standard-Englischmodell ist rund 480 MB.
- Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugriff, mit dem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt Internet, daher der einzige Pfad, der das eigene Gerät verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.
Die nüchterne Wahrheit: Für die Art Prosa, die die meisten Blogger schreiben, reicht der lokale Modus völlig aus. Beide lokalen Engines laufen vollständig auf dem eigenen Gerät, ohne dass Daten an einen Server gesendet werden — das ist die richtige Voreinstellung für unveröffentlichte Texte. Die Cloud lohnt sich, wenn man erstklassige Genauigkeit bei einer schwierigen Aufnahme braucht oder das Modell mitten im Satz eine Information aus dem Web abrufen soll. Für eine wöchentliche Schreibgewohnheit: lokal beginnen und erst zur Cloud greifen, wenn lokal nicht mehr ausreicht.
Aus dem gesprochenen Entwurf saubere Prosa machen
Rohes Diktat kommt als Satzaneinanderreihung heraus. Man sagt „okay also die Einleitung soll erklären warum die meisten Blogartikel langsam entstehen und dann in die Hotkey-Sache reingehen“, und das ist der unpunktuierte Block, den jede Spracherkennungs-Engine liefert, Füllwörter inklusive. Die Bereinigung ist der Punkt, an dem sich die Wege trennen.
Windows Voice Typing fügt Satzzeichen beim Sprechen hinzu, und macOS Dictation verarbeitet grundlegende Satzzeichen, wenn man „Komma“ oder „Punkt“ sagt. Für gründlichere Bereinigung — das „Ähm“ entfernen, Laufsätze korrigieren, einen gesprochenen Absatz in etwas verwandeln, das man tatsächlich in einen Beitrag einfügen würde — kann Whisper einen KI-Durchlauf ausführen. Die Aktivierungsphrase „Hey whisper“ sagen, und der Text wird verbessert, bevor er landet. Auf einem lokalen Modell läuft das über Ollama; im Cloud-Modus standardmäßig über gpt-5-mini.
okay also die einleitung soll erklären warum die meisten blogartikel langsam entstehen und dann ähm in die hotkey-sache reingehen und wie das in jedem editor funktioniert weißt du
Die Einleitung soll erklären, warum die meisten Blogartikel langsam entstehen — und dann den Hotkey erläutern und wie er in jedem Editor funktioniert.
Das ist der Teil, der Diktierung für echte Veröffentlichungen nutzbar macht, nicht nur für Notizen. Ein bereinigter gesprochener Absatz ist kein fertiger Beitrag — er ist ein fertiger Erstentwurf, und genau das hat früher am längsten gedauert. Man liest ihn noch einmal durch, streicht den abschweifenden Satz, strafft die Verben und macht den Bearbeitungsdurchlauf, den jeder Beitrag braucht. Spracheingabe liefert schnell einen sauberen Entwurf; das redaktionelle Urteil bleibt beim Autor, genauso wie bei allem, was man getippt hätte. Die ehrliche Version des Versprechens: Es verkürzt die langsame Hälfte der Arbeit — nicht, dass es den Beitrag für einen schreibt.
Derselbe Sprechen-dann-Bereinigen-Ablauf zahlt sich aus dem Moment aus, in dem man aufhört zu entwerfen und alles andere rund um einen Blog beginnt — man kann auch mit der Stimme schneller tippen in E-Mails, Social-Media-Beiträgen und Bildunterschriften, alles mit dem einen Hotkey, den man bereits eingerichtet hat.
Wann man die Diktierung weglässt und ein anderes Tool nimmt

Manchmal ist Diktierung nicht das richtige Tool für die Aufgabe — und so zu tun als ob, kostet einen halben Tag. Der eindeutigste Fall: Man schreibt keinen Entwurf, man transkribiert. Wenn man eine Podcast-Episode, ein Interview oder eine lange Sprachnotiz aufgenommen hat und den Text dieser Aufnahme möchte, ist das eine andere Aufgabe. Diktierung tippt, was man live sagt; sie verarbeitet keine bestehende Audiodatei. Dafür braucht man einen Transkriptionsdienst, der eine Datei entgegennimmt und ein Transkript ausgibt — das ist die richtige Werkzeugform, und das hier ist nicht dieses Tool.
Der andere Fall ist die schnelle Erfassung abseits des Schreibtischs. Wenn eine Formulierung für den morgigen Beitrag im Bus auftaucht, hat das eigene Telefon bereits ein Mikrofon am Keyboard — antippen, sprechen, fertig. Whisper ist ein Desktop-Tool für Windows und macOS; auf dem Telefon ist das Keyboard-Mikrofon der praktische Weg. Für wirklich kurze Dinge am Schreibtisch sind die eingebauten Optionen kostenlos: Unter Windows öffnet Windows-Taste + H Voice Typing, wo auch immer der Cursor ist — allerdings werden Daten über Microsofts Server geleitet und eine Internetverbindung ist nötig, also nicht offline. Auf dem Mac ermöglicht Dictation die Spracheingabe in jedem Textfeld über Systemeinstellungen unter Tastatur, und auf Apple Silicon kann allgemeiner Text geräteintern verarbeitet werden.
Zu einem dedizierten, systemweiten Tool greifen, wenn die eingebauten Optionen nicht mehr reichen: lange Entwürfe, mehrsprachige Beiträge, Offline-Datenschutz unter Windows oder ein Hotkey, der im CMS, in der E-Mail und im Editor gleich funktioniert. Unterhalb dieser Schwelle das Kostenlose nutzen oder das passende Tool für die jeweilige Aufgabe. Es macht keinen Sinn, eine Diktiersoftware zu starten, um im Bus einen Satz zu erfassen — und sie transkribiert keinen Podcast, dafür ist sie nicht gemacht.
Wenn das meiste Schreiben wirklich in einem Editor passiert, geht die plattformspezifische Anleitung für Sprache zu Text im Substack-Editor tiefer auf die Details ein, die diese Übersicht auslässt.
Keine Blogging-Plattform hat großartige Diktierung ausgeliefert, und nach diesem Artikel bin ich ziemlich sicher, dass keine von ihnen das tun muss. Der Cursor ist die Integration. In den Editor sprechen, einen sauberen Entwurf bekommen, ihn mit den Tasten und Schaltflächen formen, die man ohnehin kennt. Ich habe einen Großteil dieses Ratgebers in ein Textfeld diktiert, das nicht mein CMS war, mit einem Tool, das es nicht interessiert, welches Feld es ist — und dann alles in den Beitrag eingefügt, den man gerade liest. Das Tippen, das ich stattdessen gemacht hätte, ist die Stunde, die ich zurückbekommen habe.
Den nächsten Beitrag einfach sprechen
Hotkey halten, sprechen, loslassen. Der saubere Entwurf landet in welchem Editor auch immer der Cursor steht — WordPress, Ghost, Substack, Medium, Notion und jede andere App.
Lokaler Modus kostenlos für alle angemeldeten Konten. Keine Kreditkarte zum Start nötig.



