Von Denys Medvediev

Ratgeber

Diktiersoftware für Autorinnen und Autoren

Einen ersten Entwurf einzusprechen geht schneller als ihn zu tippen. Die Lösung ist ein systemweites Tool: Hotkey drücken, sprechen, und die Wörter landen direkt am Cursor – in Scrivener, Word, Google Docs oder jedem anderen Editor. Dann bereinigt ein KI-Durchlauf den Entwurf.

Zuletzt aktualisiert: Juni 2026

Aufgeschlagenes Notizbuch, Stift und Kaffee auf einem Holzschreibtisch neben einem Laptop – eine Einladung zum langen Schreiben

Diktiersoftware für Autoren verwandelt einen gesprochenen Erstentwurf in Text, direkt in jedem Editor. Ein systemweites Tool wie Whisper fügt nach einem einzigen Hotkey am Cursor ein – in Scrivener, Word oder Google Docs –, läuft kostenlos und offline auf Windows oder Mac, und ein optionaler KI-Durchlauf macht aus dem Redefluss lesbaren Prosa-Text.

Tippen ist der langsamste Teil des Schreibens. Die Wörter sind bereits im Kopf, zu Sätzen geformt – und dann funneln sie durch zehn Finger mit vielleicht vierzig Wörtern pro Minute. Ich spreche etwa dreimal so schnell. Du auch. Der Flaschenhals waren nie die Ideen. Es war die Tastatur.

Wer nach „Diktiersoftware“ sucht, landet oft bei einer Erinnerung an Dragon NaturallySpeaking, einer Lizenz für 699 Dollar und einer 45-minütigen Trainingseinheit. Diese Welt ist vorbei. Was Romanautorinnen oder Blogger 2026 brauchen, ist ein Hotkey, der gesprochenen Text in den Editor ihrer Wahl einfügt, plus einen KI-Durchlauf zum Aufräumen. Keine Lizenz. Kein App-spezifisches Plugin. Es läuft auf dem Laptop, den du schon hast.

Hier ist der Teil, den die meisten Seiten überspringen, die Diktiersoftware an Autoren verkaufen wollen: Dein Editor braucht keine eigene Diktierfunktion. Ein Scrivener-Dokument, eine Word-Seite, ein Google Docs-Fenster – das sind alles nur Textfelder mit einem Cursor. Ein Tool, das am Cursor einfügt, interessiert nicht, welches davon gerade offen ist.

Die eigentliche Frage lautet also nicht: „Welche Schreib-App hat die beste Spracheingabe?“ Keine davon ist für lange Diktate gebaut, und du willst dich ohnehin nicht an eine binden. Die Frage ist: „Welches Diktiertool läuft über allen?“ Die ehrliche Antwort: ein einziger Offline-Hotkey, der in jedem Programm gleich verhält. Ich erkläre den Workflow, richte ihn in zwei Minuten ein und sage dir, wann du Diktieren besser ganz lässt.

Warum Autorinnen und Autoren zum Diktieren greifen

Schreiberhände, die neben einem Notizbuch und einer Tastatur ruhen – eine Pause zwischen zwei Sätzen

Der Erstentwurf ist genau die Aufgabe, für die Diktieren gemacht ist. Ein Erstentwurf soll schnell und roh sein – die Struktur festhalten, später feilen. Tippen kämpft dagegen an, weil Tippen von Natur aus sorgfältig ist: Die Wörter erscheinen, und man fängt an, daran herumzubasteln. Beim Sprechen geht das nicht. Du sagst den Satz, er landet, du machst weiter. Für eine Romanautorin, die durch ein Kapitel drückt, oder einen Blogger, der einen 1.500-Wörter-Post fertig haben möchte, bevor die Kinder aufwachen, ist genau diese Vorwärtsbewegung der springende Punkt.

Der Geschwindigkeitsunterschied ist real und nicht zu übersehen. Nachhaltiges Tippen liegt für die meisten Menschen bei etwa vierzig Wörtern pro Minute. Sprechen kommt eher auf hundertfünfundvierzig. Ein fertiges, poliertes Kapitel entsteht dabei nicht – das tut es bei niemandem – aber den rohen Entwurf hat man in einem Drittel der Zeit. Und einen Entwurf zu überarbeiten ist schneller als auf eine leere Seite zu starren. Der teuerste Teil des Schreibens ist der Anfang. Diktieren macht Anfangen billig.

Es gibt noch einen stilleren Grund, und ich sage ihn ehrlich: Diktieren schont die Hände. Wer beruflich schreibt, spürt die Tastatur irgendwann. Ein langes Kapitel einzusprechen, während man sich vom Schreibtisch zurücklehnt, entlastet die Handgelenke. Das ist eine produktivitätsbezogene Randnotiz, kein medizinischer Rat – aber es ist ein echter Grund, warum viele Autorinnen damit angefangen haben. Und es ist dieselbe Logik hinter dem Wechsel zur Spracheingabe, um die Tastaturbelastung zu reduzieren. Weniger Tastenanschläge für dieselbe Wortanzahl ist einfach ein guter Tausch.

Hotkey drücken, sprechen, der Entwurf landet im Editor

Die Mechanik ist simpel – und genau deshalb funktioniert sie überall. Du drückst einen Hotkey, sprichst deinen Absatz, lässt los, und das Transkript wird am Cursor eingefügt – in welchem Textfeld auch immer den Fokus hat. Whisper hält nach dem Loslassen der Taste kurz mit, damit das letzte Wort eines Satzes nicht abgeschnitten wird. Weil das Einfügen am Cursor passiert, sind dein Scrivener-Editor, eine Word-Seite und ein Google Docs-Fenster alle nur „irgendein Textfeld“. Gleicher Hotkey, gleiches Verhalten, jedes Mal.

Genau das haben ältere Diktierwerkzeuge nie richtig hinbekommen. Es gibt kein Plugin, das man in Scrivener einbauen muss, keinen separaten Diktiermodus, den man in Word einrichten muss, keine Erweiterung, die man in Docs autorisieren muss. Dein Cursor ist im Kapitel, du sprichst, die Wörter erscheinen im Kapitel. Eine kleine Kapsel erscheint während du sprichst, damit du weißt, dass es zuhört:

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die erscheint, während du sprichst, damit du weißt, dass Whisper zuhört.

Der Hotkey ist die eine Sache, die man von Anfang an richtig einstellen sollte. Unter Windows ist es Ctrl+Space, unter Mac Command+Option – ein Modifier-only-Push-to-Talk, den man während des Sprechens gedrückt hält. Beides lässt sich in den Einstellungen ändern, falls es mit anderen Shortcuts kollidiert, etwa mit denen einer Schreib-App. (Die erste Version hatte den Hotkey fest verdrahtet – das hielt genau so lange, bis ein Nutzer um zwei Uhr nachts bemerkte, dass es seine Musiksoftware störte. Inzwischen ist alles anpassbar.) Wer bereits Spracheingabe unter Windows oder auf dem Mac eingerichtet hat, nutzt dasselbe Muskelgedächtnis – jetzt nur auf das eigene Manuskript gerichtet.

Einrichten in zwei Minuten (Windows oder Mac)

Du brauchst einen Mac mit Apple Silicon oder einen Windows-10-oder-neueren PC, ein funktionierendes Mikrofon und deinen bevorzugten Editor. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos – ohne Zahlungsmittel bei der Anmeldung. So läuft die Einrichtung.

Schritt 1 – Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte nötig. Die gesamte lokale Transkriptions-Pipeline ist sofort verfügbar.

Es hat geklappt, wenn das Tray-Icon der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 – Transkriptionspfad wählen.

Die App trifft keine Wahl für dich. Du bekommst drei Optionen: Cloud (OpenAI, eigener Schlüssel), Lokales Parakeet oder Lokales Whisper. Für Manuskripte, die auf keinem fremden Server landen sollen, empfiehlt sich der lokale Start – dazu mehr zwei Abschnitte weiter unten.

Es hat geklappt, wenn ein Modell den Download abschließt und als bereit angezeigt wird.

Schritt 3 – Hotkey bestätigen.

Windows nutzt standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac die Eingabehilfe-Berechtigung erteilen, wenn sie abgefragt wird – ohne sie kann das Einfügen am Cursor keine anderen Apps erreichen.

Es hat geklappt, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 – Cursor in den Entwurf setzen und sprechen.

Scrivener, Word oder ein Browser-Dokument öffnen, in die Seite klicken, Hotkey halten, einen Satz sprechen, loslassen. Das Transkript erscheint dort, wo der Cursor ist.

Es hat geklappt, wenn der gesprochene Satz als Text im Manuskript steht.

Whisper
Die echte Whisper-Desktop-App im Einstellungsbildschirm, mit geöffneten Transkriptions- und KI-Panels.

Der langsame Teil ist der Modell-Download, nicht die Einrichtung selbst. Alles andere sind die vier Schritte oben. Sobald alles läuft, hört das Schreiben eines Absatzes auf, eine Tippaufgabe zu sein, und wird zur Sprechaufgabe – das ist der einzige Unterschied, den man eigentlich wollte.

Spracheingabe unter Windows · auf dem Mac

Ein Entwurfs-Workflow, der auch ein echtes Kapitel überlebt

Ein ganzes Kapitel zu diktieren ist nicht dasselbe wie eine E-Mail zu diktieren. Wer das ignoriert, gibt in der ersten Woche auf. Der Trick ist, die zwei Jobs zu trennen, die Autorinnen normalerweise gleichzeitig erledigen. Entwurf ist eine Aufgabe: Wörter heraus, in Ordnung, schnell, ohne sie zu beurteilen. Überarbeitung ist eine andere Aufgabe: Zeichensetzung, Absatzbrüche, der Satz, den man zweimal gesagt hat. Diktieren glänzt beim Ersten und ist unbeholfen beim Zweiten. Also trennen: Den Entwurf von oben bis unten einsprechen, dann mit der Tastatur, die man nie ganz in Rente schickt, in Form bringen.

Einige Gewohnheiten helfen dabei. In vollständigen Sätzen sprechen statt in Fragmenten – das Transkript wird präziser, wenn es einen abgeschlossenen Gedanken bekommt. „Neuer Absatz“ laut sagen als Markierung, die man beim Überarbeiten findet – auch wenn das Tool nicht darauf reagiert –, weil ein langer Block gesprochener Text kalt schwer wieder einzusteigen ist. Ein Glossar mit eigenen Eigennamen bereit halten: Charakternamen, erfundene Orte und Fachbegriffe sind die Stellen, an denen jede Sprach-Engine rät. Lokales Whisper lässt sich auf benutzerdefiniertes Vokabular ausrichten, damit „Aelwyn“ nicht zu „Ellen“ wird. Das ist nichts Exotisches. Es bedeutet nur, einen Entwurf als Entwurf zu behandeln.

Die ehrliche Erwartung: Ein diktierter 2.000-Wörter-Abschnitt kommt als lesbarer, langer Redefluss heraus – etwas zu plauderhaft, aber mit dem Gerüst an Ort und Stelle. Das ist ein Gewinn. Fünfzehn Minuten Sprechen statt einer Stunde Tippen, und jetzt gibt es etwas zu überarbeiten statt eines blinkenden Cursors. Ich entwerfe lange Texte so und überarbeite präzise von Hand mit der Tastatur – Stimme für die Masse, Tastatur für den Feinschliff. Die zwei sind keine Rivalen.

Lokal oder Cloud: Welcher Modus für ein Manuskript?

Für eigene Texte zuerst den lokalen Modus ausprobieren. Ein Manuskript ist eine private Angelegenheit, bis man sich entscheidet, dass es das nicht mehr ist. Es gibt keinen Grund, ein unveröffentlichtes Kapitel über irgendeinen fremden Server zu schicken, nur um Stimme in Text zu verwandeln. Wenn der Mac Apple Silicon hat oder der PC aus den letzten Jahren stammt, erledigt die lokale Verarbeitung das alltägliche Schreiben problemlos – die Cloud wird zur Notfalloption statt zur Voreinstellung.

So unterscheiden sich die drei Pfade – weil die App einen zur Wahl zwingt und man gut wählen sollte:

  • Lokales ParakeetNVIDIAs TDT-Engine, etwa 600 MB, und die schnellste lokale Option – 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, 25 insgesamt. Kein Übersetzen nach Englisch, kein benutzerdefiniertes Vokabular. Wer auf Englisch entwirft und Geschwindigkeit will, greift hier zu – schnell, vollständig offline.
  • Lokales WhisperLangsamer als Parakeet auf demselben Gerät, aber die mehrsprachigen Builds decken 99 Sprachen ab und können nach Englisch übersetzen – zudem wird benutzerdefiniertes Vokabular unterstützt, der Hebel, der Charakternamen intakt hält. Die Englisch-only-Builds sind nur Englisch, nicht 99 Sprachen. Empfohlen für Charakter-Glossare, mehrsprachige Arbeit oder Übersetzungen. Das Standard-Englischmodell ist etwa 480 MB groß.
  • Cloud (OpenAI, BYOK)Beste Genauigkeit und Webzugriff, mit dem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Die Transkription läuft standardmäßig auf gpt-4o-mini-transcribe. Benötigt Internet – das ist der einzige Pfad, der das eigene Gerät verlässt. Die Cloud-Funktionen sind Teil von Whisper Pro.

Die nüchterne Wahrheit: Für einen Arbeitsentwurf reicht Lokal vollkommen aus. Beide lokalen Engines laufen vollständig auf dem eigenen Gerät, nichts wird an einen Server gesendet – das ist wichtig, wenn die Datei ein noch unveröffentlichtes Buch ist. Cloud macht Sinn, wenn man top-genaue Ergebnisse bei einem schwierigen Mitschnitt braucht oder das Modell mitten im Satz eine Tatsache aus dem Netz ziehen soll. Für die tägliche Kapitelarbeit: lokal anfangen und nur zur Cloud greifen, wenn lokal nicht reicht.

Aus einem gesprochenen Entwurf klare Prosa machen

Rohes Diktat kommt als langer Redefluss heraus – und das ist normal. Man sagt „okay also die Detektivin kommt rein sie sagt noch nichts ähm sie schaut nur auf die Leiche und dann geht das Licht aus“ – und genau das gibt jede Sprach-Engine zurück, ohne Satzzeichen. Der Entwurf ist komplett; die Kommas sind es nicht. Beim Bereinigen trennen sich die Modi.

Windows-Spracheingabe fügt beim Sprechen Satzzeichen ein, und macOS-Diktat verarbeitet grundlegende Zeichensetzung, wenn man „Komma“ oder „Punkt“ sagt. Für tiefergehende Bereinigung – die „Ähs“ herausfiltern, Runon-Sätze fixieren, einen gesprochenen Monolog in Sätze aufteilen, die man wirklich behalten würde – kann Whisper einen KI-Durchlauf starten. Den Aktivierungssatz „Hey whisper“ sagen, und der Text wird verbessert, bevor er landet. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist standardmäßig gpt-5-mini aktiv.

Thinking...
Roh

okay also die detektivin kommt rein sie sagt noch nichts ähm sie schaut nur auf die leiche und dann geht das licht aus

Bereinigt

Die Detektivin kommt herein. Sie sagt noch nichts – sie schaut nur auf die Leiche. Dann geht das Licht aus.

Ein Hinweis, den Autorinnen klar hören sollten: Der KI-Durchlauf ist für Mechanik gedacht, nicht für die eigene Stimme. Er korrigiert Zeichensetzung und Füllwörter; er soll keine Sätze umschreiben und dabei blasser machen als das Original. Damit den Entwurf lesbar machen – und das echte Überarbeiten dann selbst erledigen. Denn der Rhythmus eines Satzes ist der Teil, der keinem Modell gehört. Die ehrliche Aufgabenteilung: Stimme bringt die Wörter heraus, der KI-Durchlauf macht sie lesbar, und man selbst macht sie zu seinen eigenen.

Derselbe Sprechen-dann-Bereinigen-Ablauf funktioniert weit über ein Manuskript hinaus – man kann auch ein Sprachtagebuch führen, indem man in jede beliebige App diktiert, sodass die Notizen eines Tages aus ein paar gesprochenen Sätzen bestehen statt aus einer Seite, die man um Mitternacht tippt.

Wann man Diktieren lässt und zu etwas anderem greift

Zwei auf eine Straße gemalte Pfeile, die in verschiedene Richtungen zeigen – als Symbol für eine Entscheidung

Diktieren ist das richtige Werkzeug, um eigene Wörter zu entwerfen. Es ist das falsche Werkzeug für zwei Aufgaben, die Autorinnen häufig damit verwechseln – und das offen zu sagen erspart einen frustrierenden Nachmittag.

Wenn die Aufgabe darin besteht, ein aufgezeichnetes Interview, einen Podcast oder eine Meeting-Datei in ein Transkript zu verwandeln, ist das Transkription – keine Diktierfunktion, sondern eine andere Kategorie. Dafür braucht man einen Transkriptionsdienst, der eine Audiodatei einliest und ein zeitgestempeltes, sprechermarkiertes Dokument zurückgibt. Ein Push-to-Talk-Hotkey ist für Live-Sprache am eigenen Cursor gebaut, nicht für die Verarbeitung einer früher aufgenommenen Datei. Und wer nur einen Satz auf dem Telefon festhalten will – eine Dialogzeile, die in der Supermarktschlange auftaucht – das erledigt das eingebaute Mikrofon der Tastatur ohnehin, und Whisper ist sowieso nur als Desktop-App für Windows und macOS verfügbar. Keine Desktop-App installieren, um eine einzige Zeile festzuhalten.

Außerdem gibt es bereits auf dem eigenen Gerät eine kostenlose Option für kurze Eingaben. Unter Windows öffnet Windows-Taste + H die eingebaute Spracheingabe-Leiste am Cursor; sie setzt eigenständig Satzzeichen und reicht für einen Satz oder zwei – leitet aber durch Microsofts Server und braucht Internet, ist also keine Offline-Option. Auf dem Mac erlaubt die Diktier-Funktion das Sprechen in jedes Textfeld, einzurichten in den Systemeinstellungen unter Tastatur; auf Apple Silicon kann allgemeiner Text auf dem Gerät selbst verarbeitet werden. Zu einem dedizierten, systemweiten Tool greifen, wenn diese Optionen nicht mehr ausreichen: lange Entwürfe, Offline-Datenschutz bei einem Manuskript, benutzerdefiniertes Vokabular für Charakternamen oder ein einziger Hotkey, der in Scrivener, der E-Mail und dem Blog-Editor gleich verhält. Darunter: das Kostenlose nehmen. Es braucht keine App, nur um eine verirrte Dialogzeile festzuhalten.

Und wer sich überhaupt erst mit Spracheingabe beschäftigt, weil die langen Tage an der Tastatur belasten, findet die Abwägung in zum Diktieren wechseln, um die Hände zu entlasten – gleiche Produktivitätslogik, weniger Tastenanschläge für dieselbe Seitenanzahl.

Ich bin bei einem Verwandten aufgewachsen, der Dragon NaturallySpeaking auf einem Windows-98-Rechner mit 64 Megabyte RAM hatte. Das Training dauerte fünfundvierzig Minuten – man las eine Wortliste vor, um es zu kalibrieren –, und dann funktionierte das Diktieren mit vielleicht siebzig Prozent Genauigkeit und vier Sekunden Verzögerung pro Satz. Einen Absatz eines Weihnachtsbriefs einzusprechen dauerte fünfzehn Minuten, und das Headset landete irgendwann in der Ecke. Fünfundzwanzig Jahre später landet ein Kapitelentwurf in etwa anderthalb Sekunden am Cursor, offline, kostenlos. Das Headset hat übrigens überlebt. Den größten Teil dieses Ratgebers habe ich in ein Textfeld eingesprochen und dann mit der Tastatur überarbeitet – genau der Workflow, den ich hier empfehle. Ausprobieren beim nächsten Text.

Das nächste Kapitel einsprechen

Hotkey halten, einen Absatz laut formulieren, loslassen. Der Text landet im Editor – und in jeder anderen App, in der man schreibt.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte zum Starten erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – meistens indem ich die Antworten diktiere.

Weiterführende Quellen