Von Denys Medvediev

Leitfaden

Wie man ein Buch per Diktat schreibt

Ein Buch per Diktat schreibst du genauso, wie du es einem Freund erzählen würdest: erst ein Gerüst, dann jede Szene per systemweitem Hotkey in Word, Scrivener oder Docs sprechen. Nicht beim Sprechen editieren. Danach aufräumen.

Zuletzt aktualisiert: Juni 2026

Ein Schreibtisch mit Manuskript, Kaffee und aufgeklapptem Laptop im weichen Licht

Wer ein Buch per Diktat schreibt, erstellt zuerst ein Gerüst, spricht dann jedes Kapitel per systemweitem Diktat-Hotkey in Word, Scrivener oder Google Docs. Die Regel lautet: die ganze Szene durchsprechen, ohne zu editieren – danach kommt der Korrekturlauf. Sprechen läuft bei etwa 145 Wörtern pro Minute, Tippen bei rund 40.

Als ich das erste Mal diktiert statt getippt habe, ertappte ich mich dabei, jeden Satz zu korrigieren, sobald er auf dem Bildschirm erschien. Sprechen, stoppen, das Komma reparieren, weitersprechen. Nach zwanzig Minuten hatte ich vier saubere Absätze und einen schmerzenden Kiefer. Genau das ist der falsche Weg – und genau so fangen fast alle an.

Ein Buch zu diktieren hat weniger mit der Software zu tun als mit einer Gewohnheit, die man sich abtrainieren muss. Der innere Lektor will die Wörter sofort korrigieren, sobald sie erscheinen. Der ganze Geschwindigkeitsvorteil des Diktierens entsteht dadurch, dass man diesen Lektor auf Warteposition schickt. Die Wörter erst in Sprachtempo herausbekommen – auch wenn sie holprig sind – und dann in einem separaten Durchgang aufräumen. Sprechen ist etwa dreieinhalb Mal schneller als Tippen, aber nur wenn man es laufen lässt.

Hier ist der Teil, den die meisten "Diktier-deinen-Roman"-Seiten übergehen. Das Werkzeug spielt kaum eine Rolle. Ein Kapitel in Scrivener ist ein Textfeld – genauso wie ein Google Doc oder eine leere Word-Datei. Ein Diktat, das an der Cursorposition einfügt, kümmert sich nicht darum, in welche App du gerade starrst.

Die eigentliche Frage lautet also nicht: "Welche App schreibt ein Buch per Sprache?" Nichts schreibt das Buch für dich. Die Frage lautet: "Wie bekomme ich gesprochene Wörter in vollem Tempo ins Manuskript und räume sie danach auf?" Die Antwort hat drei ehrliche Teile: das eingebaute Diktat, das dein Computer schon hat, ein systemweiter Hotkey, der überall funktioniert, und ein Workflow, der den inneren Lektor ruhig hält, bis die Wörter stehen. Ich erkläre alle drei, richte einen in zwei Minuten ein und sage dir, wann das eingebaute Tool völlig ausreicht.

Warum Autoren diktieren statt tippen

Die Zahlen sind der einfache Teil. Die meisten Menschen tippen etwa 40 Wörter pro Minute und sprechen etwa 145. Das ist rund dreieinhalb Mal schneller – bei einem 90.000-Wörter-Manuskript ist das der Unterschied zwischen einem Entwurf, der Monate dauert, und einem, der Wochen dauert. Aber rohe Geschwindigkeit ist nicht wirklich der Grund, warum Autoren es tun.

Der eigentliche Grund ist, dass Erzählen schon so im Kopf funktioniert. Man denkt eine Szene nicht in formatierten Absätzen; man denkt sie so, wie man sie jemandem erzählen würde. Diktieren erlaubt es, den Rohentwurf so zu erzählen, wie man das Kapitel am Küchentisch einem Freund beschreiben würde – und ihn später zu formen. Die Tastatur legt eine Schicht zwischen Gedanken und Seite. Die Stimme hebt diese Schicht für den unordentlichen ersten Durchgang auf, und genau an diesem Durchgang scheitern die meisten Bücher.

Es gibt auch einen körperlichen Grund, den niemand erwähnt, bis die Handgelenke irgendwo um Kapitel zwölf zu murren beginnen. Einen ganzen Roman zu entwerfen bedeutet sehr viele Tastenanschläge. Das Grundgerüst per Stimme zu sprechen und die Tastatur für Feinarbeiten aufzusparen, verteilt die Last über den Tag. Das ist ein Komfort- und Produktivitätsargument, keine medizinische Aussage – aber wenn stundenlangem Tippen das Einzige ist, was dich bremst, einen Teil der Zeit zu diktieren, um die Hände zu schonen ist eine vernünftige Möglichkeit.

Der schnellste Weg: Dein Computer kann schon diktieren

Ein Laptop auf einem Schreibtisch mit Mikrofon – ein Hinweis auf eingebautes Sprachdiktat

Bevor du irgendetwas installierst: Dein Betriebssystem kann das bereits, kostenlos, und für eine kurze Sitzung reicht das völlig. Unter Windows setzt du den Cursor ins Manuskript und drückst Windows-Taste + H. Die Spracheingabeleiste öffnet sich, du sprichst, und die Wörter landen dort, wo der Cursor steht – in Word, Scrivener, einem browserbasierten Google Doc, in allem. Es fügt beim Sprechen automatisch Satzzeichen ein.

Auf dem Mac aktivierst du Diktat in den Systemeinstellungen unter Tastatur und startest es mit dem dort festgelegten Kürzel. Es funktioniert überall, wo du tippen kannst – und auf Apple Silicon kann es allgemeinen Text geräteintern verarbeiten, sobald die Sprachmodelle heruntergeladen sind. Sag "Komma", "Punkt" oder "neuer Absatz" und es setzt die Satzzeichen beim Sprechen.

Der Haken für ein ganzes Buch ist zweifach. Windows Spracheingabe läuft über Microsofts Server und braucht eine Internetverbindung – es ist also keine Offline-Option, was relevant ist, wenn du ein Manuskript entwirfst, das du lieber nirgendwo hinschickst. Und beide eingebauten Varianten sind auf kurze Einsätze ausgelegt: eine Textnachricht, eine E-Mail, einen Absatz. Sie unterbrechen sich häufig, hören ungewöhnliche Figurennamen falsch und bieten keine Möglichkeit, ihnen das eigene Vokabular beizubringen. Über einen 80.000-Wörter-Entwurf summieren sich diese kleinen Reibungspunkte. Das ist die Grenze, ab der ein spezielles Werkzeug seinen Platz verdient.

Whisper in zwei Minuten einrichten (Windows oder Mac)

Ein systemweites Diktat-Tool behebt beide eingebauten Schwächen auf einmal: Es funktioniert offline und verhält sich in jeder Schreib-App gleich. Du brauchst einen Mac mit Apple Silicon oder einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und dein Manuskript geöffnet in Word, Scrivener, Google Docs oder was auch immer du zum Schreiben nutzt. Die gesamte lokale Pipeline ist für jeden angemeldeten Account kostenlos – kein Zahlungsmittel bei der Registrierung erforderlich. Hier ist die Abfolge.

Schritt 1 – Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte. Die gesamte lokale Transkriptions-Pipeline steht sofort zur Verfügung.

Du weißt, dass es geklappt hat, wenn das Tray-Icon der App erscheint und der Setup-Assistent dir anbietet, ein Modell auszuwählen.

Schritt 2 – Einen Transkriptionspfad wählen.

Die App wählt nicht für dich. Du bekommst drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für ein privates Manuskript fange lokal an – mehr dazu zwei Abschnitte weiter unten.

Du weißt, dass es geklappt hat, wenn ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 – Den Hotkey bestätigen.

Windows hat als Standard Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac die Bedienungshilfenberechtigung erteilen, wenn sie abgefragt wird; ohne sie kann das Einfügen an der Cursorposition andere Apps nicht erreichen. Beide Tasten lassen sich in den Einstellungen ändern, falls sie mit etwas kollidieren, das du bereits nutzt.

Du weißt, dass es geklappt hat, wenn eine Testaufnahme in jedes Textfeld eingefügt wird.

Schritt 4 – Cursor ins Manuskript setzen und sprechen.

Das Kapitel öffnen, dort klicken, wo der nächste Absatz hin soll, den Hotkey halten, ein paar Sätze sprechen, loslassen. Das Transkript erscheint dort, wo der Cursor steht – direkt im Dokument.

Du weißt, dass es geklappt hat, wenn deine gesprochenen Sätze als Text im Manuskript stehen.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm mit geöffneten Panels für Transkription und KI.

Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, hört das Entwerfen eines Kapitels auf, eine Tipp-Aufgabe zu sein, und wird zu einer Sprech-Aufgabe – und das ist der ganze Punkt.

Wenn du schon Diktat unter Windows oder auf dem Mac eingerichtet hast, ist das dasselbe Muskelgedächtnis – jetzt auf dein Manuskript gerichtet.

Erst Gliederung, dann Szene für Szene diktieren

Diktieren belohnt einen Autor, der weiß, wohin die Szene geht, bevor er den Mund aufmacht. Der Workflow, der wirklich funktioniert, ist langweilig und wiederholbar: erst gliedern, dann das Buch in Stücken durchsprechen, danach aufräumen. Ohne Gliederung endet man damit, sich im Entwurf in Sackgassen zu erzählen.

Beginne jede Sitzung mit ein paar Stichpunkten zur Szene – wer darin vorkommt, was sich verändert, wo sie endet. Diese müssen nicht diktiert werden; tippe sie, sie sind das Gerüst. Dann den Cursor an die nächste leere Zeile setzen, den Hotkey halten und die Szene so erzählen, wie man sie laut erzählen würde. Während du sprichst, erscheint eine kleine Kapsel, damit du weißt, dass zugehört wird – und Whisper hält kurz inne, nachdem du losgelassen hast, damit dein letztes Wort nicht abgeschnitten wird.

Cancel
Die Aufnahme-Einblendung: eine kleine Kapsel, die während des Sprechens erscheint, damit du weißt, dass Whisper zuhört.

Die eine Regel, die mehr zählt als alle anderen: Nicht editieren, während du sprichst. In dem Moment, in dem du anhältst, um ein Komma zu korrigieren oder einen Satz umzuformulieren, bist du aus der Szene herausgefallen und zurück im Lektor-Modus – und die beiden passen nicht zusammen. Den ganzen Block durchsprechen – eine Szene, einen Abschnitt, einen Beat – und erst dann auf den Bildschirm schauen. In Einheiten von zehn oder fünfzehn Minuten diktieren, Figuren und Orte immer gleich nennen, damit das Transkript konsistent bleibt, und die langen Sätze ohne Satzzeichen in Ruhe lassen. Der Korrekturlauf existiert genau dafür, damit der Entwurfslauf schnell und unordentlich sein darf. Die Wörter in Sprachtempo herausbekommen; danach formen, genauso wie man mit der Stimme schneller tippen würde – wo auch immer man schreibt.

Lokal oder Cloud: Welcher Modus für ein Manuskript?

Für einen Buchentwurf zuerst den lokalen Modus ausprobieren. Ein Manuskript ist das eine Dokument, das die meisten Autoren wirklich schützen wollen – halb fertig, unveröffentlicht, manchmal bereits unter Vertrag. Es ist eine merkwürdige Entscheidung, es auf der eigenen Festplatte zu behalten und dann die Stimme durch eine Cloud zu leiten, um die Wörter dorthin zu bringen. Wenn der Mac Apple Silicon hat oder der PC aus den letzten paar Jahren stammt, bewältigt der lokale Modus eine komplette Entwurfssitzung problemlos – und die Cloud wird zum Notausgang statt zur Standardoption.

So unterscheiden sich die drei Pfade – denn die App verlangt eine Wahl, und ich möchte, dass du sie gut triffst:

  • Local ParakeetNVIDIAs TDT-Engine, rund 600 MB und die schnellste lokale Option – 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Kein Übersetzen ins Englische, kein benutzerdefiniertes Vokabular. Wer auf Englisch oder einer anderen europäischen Sprache entwirft und gewöhnliche Figurennamen hat, für den ist das die schnelle, vollständig offline nutzbare Wahl.
  • Local WhisperLangsamer als Parakeet auf derselben Maschine, aber die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen – und es unterstützt benutzerdefiniertes Vokabular, was praktisch ist, wenn das Buch voller erfundener Namen, Orte und Begriffe steckt, die man ihm beibringen kann. Die rein englischen Versionen sind nur Englisch, nicht 99. Das Standard-Englisch-Modell ist etwa 480 MB.
  • Cloud (OpenAI, BYOK)Beste Genauigkeit und Web-Zugang, mit dem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet – das ist der einzige Pfad, der das Gerät verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.

Die nüchterne Wahrheit: Für die Art von Prosa, die einen ersten Entwurf füllt, reicht lokal völlig aus. Beide lokalen Engines laufen vollständig auf dem eigenen Gerät – nichts wird an einen Server gesendet, was bei einem Manuskript genau das Richtige ist. Wenn das Buch viel erfundenes Vokabular enthält – Fantasy-Namen, fiktive Orte, einen ausgedachten Fachbegriff, den man vierzig Mal verwendet – ist das benutzerdefinierte Vokabular von Local Whisper das entscheidende Feature, weil es verhindert, dass das Transkript denselben Namen auf fünf verschiedene Weisen rät. Cloud verdient seinen Platz, wenn man bei einer schwierigen Aufnahmesitzung Top-Genauigkeit möchte. Für das tägliche Entwerfen: zuerst lokal beginnen und zur Cloud greifen, nur wenn lokal nicht mehr ausreicht.

Den Korrekturlauf nach dem Schreiben durchführen

Rohes Diktat kommt als ein einziger Redefluss heraus. Man sagt "sie durchquerte den Raum sie sah ihn nicht an sie öffnete einfach das Fenster äh und wartete", und das ist die zeichenlose Textwand, die jede Sprach-Engine liefert. Das ist in Ordnung – das ist der Deal für Sprachtempo. Der Korrekturlauf ist ein separater Durchgang, und dort wird der Entwurf wieder zu Prosa.

Windows Spracheingabe setzt beim Sprechen Satzzeichen, und macOS Diktat erledigt die Grundlagen, wenn man "Komma" oder "Punkt" sagt. Für eine gründlichere Bereinigung – die "Ähs" entfernen, den Redefluss aufbrechen, einen gesprochenen Absatz in etwas verwandeln, das tatsächlich im Manuskript bleiben kann – kann Whisper einen KI-Durchgang starten. Man sagt die Aktivierungsphrase "Hey whisper" und der Text wird verbessert, bevor er landet. Lokal läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.

Thinking...
Roh

sie durchquerte den Raum sie sah ihn nicht an sie öffnete einfach das Fenster äh und wartete darauf dass der Lärm von der Straße die Stille füllte

Bereinigt

Sie durchquerte den Raum. Sie sah ihn nicht an; sie öffnete einfach das Fenster und wartete darauf, dass der Lärm von der Straße die Stille füllte.

Eine ehrliche Einschränkung, weil Autoren gerne das Gegenteil versprochen bekommen. Der KI-Durchgang bereinigt Satzzeichen und Füllwörter. Er schreibt keine Prosa um, behebt keine Kontinuitätsprobleme und entscheidet nicht, ob eine Szene funktioniert. Er bemerkt nicht, dass sich die Augenfarbe des Helden zwischen Kapiteln verändert hat – und das sollte er auch nicht, denn das ist dein Job, und er ist es, der das Buch zu deinem macht. Den Korrekturlauf als Schreibkraft betrachten, die das Transkript aufräumt, nicht als Co-Autor. Die Spracharbeit bringt dir einen schnellen Rohentwurf; das eigentliche Schreiben – die Entscheidungen, die Struktur, der Satz, der sitzt – bleibt bei dir.

Dieses Rhythmus-Muster aus Sprechen und Aufräumen geht über Belletristik hinaus – die Gewohnheit des Langformentwurfs ist identisch, egal ob man einen Roman oder ein Kapitel einer Abschlussarbeit schreibt, denn der Workflow ist derselbe: gliedern, den Abschnitt ohne Unterbrechung durchsprechen, dann in einem eigenen Durchgang aufräumen.

Wann das Eingebaute völlig ausreicht

Zwei Pfeile auf einem Wegweiser, die in verschiedene Richtungen zeigen – ein Bild für die Werkzeugwahl

Manchmal ist das kostenlose Tool auf dem eigenen Rechner die richtige Wahl – alles andere wäre unehrlich. Wer nur in kurzen Schüben diktiert – eine Dialogzeile, die einem gerade einfällt, eine Notiz an sich selbst in der Gliederung, einen Absatz zwischen Meetings – für den reicht das Betriebssystem ohne Zusatzkosten völlig aus. Windows-Taste + H unter Windows, das Diktat-Kürzel auf dem Mac. Keine App installieren, um einen einzigen Satz festzuhalten.

Es gibt auch eine Aufgabe, die wie Buchdiktat aussieht, es aber nicht ist – und es lohnt sich, sie zu benennen, damit man nicht das falsche Werkzeug greift. Eine aufgenommene Audiodatei zu transkribieren – ein Interview, das man aufgezeichnet hat, ein Sprachmemo von einem Spaziergang, eine Aufnahme einer Autorenveranstaltung – ist eine andere Aufgabe als das Live-Diktieren. Diktat tippt die Wörter, die man gerade ins Mikrofon spricht; es ist nicht dafür gebaut, im Nachhinein eine Aufnahme mit mehreren Sprechern zu verarbeiten. Dafür einen Dienst nutzen, der für die Transkription von Audiodateien gemacht ist. Live-Diktat und Audiodatei-Transkription sind zwei verschiedene Aufgaben – ein Tool, das bei der einen glänzt, ist bei der anderen meist mittelmäßig.

Zu einem dedizierten, systemweiten Tool greifen, wenn die eingebauten Varianten zu bremsen beginnen: ganze Kapitel statt kurzer Schübe, Offline-Datenschutz für ein unveröffentlichtes Manuskript, erfundenes Vokabular, das konsistent geschrieben werden soll, oder einfach einen Hotkey wollen, der in Scrivener, Word und der E-Mail gleich funktioniert. Unterhalb dieser Schwelle das Kostenlose nutzen. Ich werde niemanden dazu bringen, Software zu installieren, um eine Einkaufsliste zu diktieren.

Wenn das Projekt eher akademisch als belletristisch ist, gilt dieselbe Kapitel-für-Kapitel-Logik beim Diktieren einer Dissertationsarbeit – dort wird erfundenes Vokabular zum Fachjargon, und das Datenschutzargument wird noch schärfer.

Keine App schreibt das Buch. Sie wird es nie tun – und an den Tagen, an denen die Szene nicht kommen will, ist das ein kleiner Trost: keine Software, der man die Schuld geben kann, nur die Arbeit. Was Diktieren ändert, ist das Tempo des unordentlichen ersten Durchgangs: gliedern, durchsprechen, danach aufräumen. Den Großteil dieses Leitfadens habe ich diktiert, indem ich auf meinen Bildschirm gesprochen habe – und erst auf die Wörter geschaut habe, als sie alle da standen. Die ersten drei Absätze, die ich beim Sprechen perfektionieren wollte, sind immer noch die drei schlechtesten, die ich geschrieben habe.

Das nächste Kapitel auf die Seite sprechen

Die Szene gliedern, Hotkey halten, durcherzählen, loslassen. Der Entwurf landet in welchem Manuskript auch immer der Cursor gerade ist – und in jeder anderen App ebenfalls.

Kostenloser lokaler Modus für jeden angemeldeten Account. Keine Karte zum Starten erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Quellen