Von Denys Medvediev

Leitfaden

Deine Dissertation diktieren

Eine Dissertation ist zu lang, um an der leeren Seite zu verzweifeln. Sprich den ersten Entwurf stattdessen ein: Hotkey drücken, ein Kapitel sprechen, und die Wörter landen in Word, Scrivener oder LaTeX. Dann überarbeiten. Der lokale Modus ist kostenlos und funktioniert offline.

Zuletzt aktualisiert: Juni 2026

Ruhiger Lesesaal einer Universitätsbibliothek mit langen Arbeitstischen und Regalen voller gebundener Dissertationen

Um deine Dissertation zu diktieren, installierst du ein systemweites Diktierprogramm, drückst einen Hotkey und sprichst den Entwurf in den Editor deiner Wahl — Word, Scrivener, Google Docs oder eine LaTeX-Datei. Das Transkript wird am Cursor eingefügt. Ein lokales Modell läuft komplett offline und ist für jedes angemeldete Konto kostenlos — danach überarbeitest du per Tastatur.

Die schwerste Seite einer Dissertation ist die, auf der noch nichts steht. Du hast die Literatur gelesen, das Argument sitzt fertig im Kopf, und der Cursor blinkt, während du überlegst, wie du einen Satz anfängst, den du im Kopf schon neunmal umgeschrieben hast. Ich kenne Freunde, die beim PhD-Abschluss ganze Abende an diesem Cursor verloren haben. Das Denken war erledigt. Das Tippen war die Hürde.

Sprechen ist ein Weg über diese Hürde. Einen groben Absatz zu sagen dauert halb so lang wie ihn zu tippen, und ein grober Absatz auf der Seite ist etwas, das du überarbeiten kannst. Eine leere Seite nicht. Den ersten Entwurf eines Kapitels zu diktieren geht nicht darum, schneller zu tippen — es geht darum, die schlechte Version herauszulassen, damit die gute Version etwas hat, wogegen sie sich behaupten kann.

Das ist der Teil, den die meisten Seiten über Dissertationsdiktierung überspringen. Dein Textverarbeitungsprogramm ist nur ein Textfeld. Scriveners Editor auch, ein Google Doc ebenfalls, und der Inhalt einer `.tex`-Datei im Code-Editor genauso. Ein Diktierprogramm, das am Cursor einfügt, kümmert sich nicht darum, in welchem Programm du gerade bist. Es gibt kein Plugin für den Literaturmanager, keinen speziellen "Dissertationsmodus".

Die eigentliche Frage lautet also nicht: "Welche App unterstützt Diktat?" Sondern: "Welches Diktierprogramm läuft über dem, in dem ich bereits schreibe?" Bei einer jahrelangen, oft unfinanzierten Arbeit zählen zwei Dinge mehr als bei einer schnellen E-Mail: es sollte offline und kostenlos auf einem lokalen Modell laufen, und es sollte die Fachbegriffe und Namen in deinem Gebiet kennenlernen. Ich gehe den Workflow Kapitel für Kapitel durch, richte ihn in zwei Minuten ein und nenne dir den einen Job, für den du ein anderes Werkzeug brauchst.

Warum Doktoranden den ersten Entwurf sprechen

Schreibtisch mit aufgeschlagenen Fachbüchern, ausgedruckten Papieren und einem Laptop beim nächtlichen Schreiben einer Dissertation

Der Auftrag lautet nicht "schneller Wörter schreiben." Der Auftrag lautet "aufhören, auf den Cursor zu starren." Ein Dissertationskapitel hat acht- bis zwölftausend Wörter, und die erste Version jedes Abschnitts wird holprig sein — egal wie du sie produzierst. Die einzige Frage ist, ob du nachmittags durch Sprechen einen holprigen Entwurf hinbekommst oder eine Woche lang beim Tippen keinen sauberen. Sprechen gewinnt, weil es immun gegen Perfektionismus ist. Mitten im Sprechen kann man einen Satz nicht so leicht überarbeiten wie mitten beim Tippen — also kommen die Wörter raus und bleiben draußen, und du korrigierst sie später.

Es gibt einen zweiten Grund, und der ist ganz körperlicher Natur. Eine Dissertation ist das Längste, was die meisten Menschen je schreiben werden, oft über Monate mit langen Sitzungen — und die Hände haben dabei eine eigene Meinung. Einen Teil des Entwurfs zu diktieren bedeutet, dass ein Teil des Schreibens mit den Händen weg von der Tastatur passiert. Das ist keine medizinische Behauptung, denn das ist es nicht — es ist ein Punkt zu Produktivität und Komfort, wie jede Stunde kurz aufzustehen. Wer speziell wegen Handgelenksbeschwerden nachdenkt, findet dazu mehr im Artikel über Diktieren als Methode, die Hände zu schonen — dort wird die Produktivitätsseite ehrlich beleuchtet. Für die Dissertation selbst ist der Punkt simpler: Du kannst auch an den Tagen weiter schreiben, an denen deine Hände lieber Pause hätten.

Und die nüchterne Wahrheit ist, dass das meiste einer Dissertation gar keine elegante Endprosa ist. Es ist das Gerüst — das "In diesem Kapitel argumentiere ich", die Zusammenfassungen fremder Befunde, die Übergangsparagrafen zwischen Abschnitten. Genau dieses Gerüst entsteht per Sprache völlig ordentlich und liest sich nicht schlechter, als wenn du es getippt hättest. Die Tastatur sparst du dir für die Sätze, die wirklich präzise sein müssen.

Hotkey drücken, sprechen, Text landet im Editor

Die Mechanik ist langweilig — und das meine ich als höchstes Lob. Du drückst einen Hotkey, sprichst, lässt los, und das Transkript wird am Cursor eingefügt — in der Überschrift in Word, im Dokument in Scrivener, im Absatz in einem Google Doc, im Kommentarblock deiner LaTeX-Datei. Whisper hält nach dem Loslassen einen kurzen Moment, damit das letzte Wort eines langen Satzes nicht abgeschnitten wird. Da es am Cursor des Betriebssystems einfügt, ist dein Editor einfach "das Textfeld, das gerade vorne ist".

Das ist der Teil, den Tutorials unnötig kompliziert darstellen. Es gibt keine Integration, die man in Word installiert, kein Add-on für Scrivener, kein Token für den Literaturmanager. Der Cursor steht im Dokument, du redest, die Wörter erscheinen. Während du sprichst, taucht eine kleine Kapsel auf, damit du weißt, dass das Programm zuhört:

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die beim Sprechen erscheint — damit du weißt, dass Whisper zuhört.

Der Hotkey ist die eine Sache, die es sich lohnt, vor einer langen Sitzung richtig einzustellen. Unter Windows ist es Ctrl+Space; auf dem Mac ist es Command+Option, eine Modifikator-Kombination, die man hält, während man spricht, und loslässt, um aufzuhören. Beide sind in den Einstellungen änderbar, falls es Konflikte gibt — und in einem Schreib-Setup voller LaTeX-Shortcuts und Literaturmanager-Hotkeys gibt es fast immer welche. Wer bereits Diktat unter Windows oder auf dem Mac eingerichtet hat, kennt den Muskel bereits — er zeigt nur auf die Dissertation.

In zwei Minuten einrichten (Windows oder Mac)

Du brauchst einen Mac mit Apple Silicon oder einen Windows-PC ab Windows 10, ein funktionierendes Mikrofon und deinen Editor geöffnet — Word, Scrivener, einen Browser-Tab mit Google Docs oder deinen LaTeX-Editor. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Anmeldung eine Zahlungsmethode verlangt wird — das zählt, wenn die Arbeit noch Jahre dauert und die Finanzierungssituation ist, wie sie ist. So sieht die Abfolge aus.

Schritt 1 — Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte nötig. Die gesamte lokale Transkriptions-Pipeline steht sofort bereit.

Es hat funktioniert, wenn das Tray-Icon der App erscheint und der Setup-Assistent anbietet, ein Modell auszuwählen.

Schritt 2 — Transkriptionspfad wählen.

Die App wählt nicht für dich. Du bekommst drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für einen langen Offline-Entwurf mit fachspezifischen Begriffen ist Local Whisper die richtige Wahl — warum, erkläre ich zwei Abschnitte weiter.

Es hat funktioniert, wenn ein Modell den Download abgeschlossen hat und als bereit angezeigt wird.

Schritt 3 — Hotkey bestätigen.

Windows nutzt standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac: Bedienungshilfen-Berechtigung erteilen, wenn danach gefragt wird — ohne sie kann das Einfügen am Cursor deinen Editor nicht erreichen.

Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 — Cursor in den Entwurf setzen und sprechen.

Kapitel öffnen, an die Stelle klicken, an der der nächste Absatz beginnen soll, Hotkey halten, ein paar Sätze sagen, loslassen. Das Transkript erscheint am Cursor, im Dokument.

Es hat funktioniert, wenn der gesprochene Absatz als Text im Kapitel steht.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Panels für Transkription und KI.

Das Langsamste ist der einmalige Modell-Download, nicht die Einrichtung. Alles danach sind die vier Schritte oben. Sobald es läuft, hört das Öffnen eines Kapitels auf, "Energie fürs Tippen finden" zu bedeuten, und wird zu "Energie fürs Reden finden" — was an einem müden Donnerstag eine deutlich niedrigere Hürde ist.

Sprache-zu-Text unter Windows · auf dem Mac

Ein Kapitel per Sprache entwerfen und dem Programm Fachvokabular beibringen

Der Workflow, der bei langen Texten funktioniert: in Blöcken sprechen, in Durchgängen überarbeiten. Versuche nicht, ein sauberes Kapitel von oben nach unten zu diktieren — das ist die Tipper-Mentalität mit Mikrofon. Stattdessen: Gliederung öffnen, Cursor unter eine Überschrift setzen und die grobe Version des Abschnitts laut sagen, so wie man es einem Kollegen beim Kaffee erklären würde. Ein Abschnitt, ein paar hundert Wörter, Taste loslassen, zur nächsten Überschrift. Du füllst das Skelett, du meißelst keine Statue. Das Meißeln ist Überarbeiten, und das kommt später mit der Tastatur.

Was akademisches Diktieren gelingen oder scheitern lässt, ist Vokabular. Eine Dissertation steckt voller Wörter, die kein allgemeines Transkriptionsprogramm erwartet — die Methoden, die man zitiert, die Chemikalien, Konstrukte oder Theoreme des eigenen Fachgebiets, und am schlimmsten die Nachnamen. "Foucault", "Nyquist", "Bourdieu", der polnische oder koreanische Name eines Mitautors, genau so geschrieben, wie das Zitat ihn braucht. Ein allgemeines Modell rät — und rät falsch, genauso wie Autokorrektur einen unbekannten Namen verhunzt. Hier verdient sich Local Whisper seinen Platz: Es unterstützt benutzerdefiniertes Vokabular — du gibst ihm eine Liste von Hotwords, die Autorennamen und Fachbegriffe, die immer wiederkehren, und es tendiert dazu, sie korrekt zu transkribieren. Parakeet, das schnellere lokale Modell, unterstützt keine Hotwords — für einen jargonlastigen Entwurf ist Whisper daher die lokale Wahl. Cloud-Modus ist ebenfalls stark in der Genauigkeit, aber der Hebel für benutzerdefiniertes Vokabular ist eine Funktion von Local Whisper.

Diese Liste einmal zu Beginn der Dissertation einzurichten zahlt sich über zwei Jahre aus. Zwanzig oder dreißig Begriffe und Namen, die in deiner Arbeit immer wieder auftauchen, hinzufügen — und der Wortschwall, den man zurückbekommt, braucht kein Suchen-und-Ersetzen für "Burdäu" mehr bei jedem Absatz. Du wirst trotzdem Fehler korrigieren — kein Programm schreibt beim ersten Durchgang jeden Namen richtig — aber du korrigierst gelegentliche Ausreißer statt jeden Fachbegriff neu einzutippen.

Lokal oder Cloud für jahrelange, vertrauliche Arbeit

Für eine Dissertation würde ich mit dem lokalen Modus beginnen — und nicht nur aus Prinzip. Unveröffentlichte Forschung, ein unfertiges Argument, Interviewmaterial, das vertraulich bleiben muss — all das hat keinen Grund, zu irgendeinem Server zu reisen, nur damit man es per Sprache eintippen kann. Ein lokales Modell läuft vollständig auf dem eigenen Rechner, ohne dass etwas versendet wird — das ist dieselbe Überlegung, die hinter der Entscheidung für eine private, offline Sprache-zu-Text-Lösung steht. Es fallen auch keine Minutenkosten an, und es braucht kein Internet — was zählt, wenn das Schreiben im Bibliothekskeller mit schlechtem WLAN über ein paar unfinanzierte Jahre stattfindet. So unterscheiden sich die drei Pfade, denn die App lässt dich wählen.

Die App wählt nicht für dich — also wähle mit deinem konkreten Entwurf im Hinterkopf:

  • Local ParakeetNVIDIAs TDT-Modell, rund 600 MB, und die schnellste lokale Option — 5 bis 10 Mal schneller als Whisper auf der CPU. Englisch plus 24 weitere europäische Sprachen, insgesamt 25. Kein Übersetzen ins Englische und kein benutzerdefiniertes Vokabular — für eine jargonlastige Dissertation also die falsche Wahl. Gut für schnelles Schreiben auf Englisch, bei dem die Begriffe gewöhnlich sind.
  • Local WhisperLangsamer als Parakeet auf demselben Rechner, aber es deckt 99 Sprachen ab, kann ins Englische übersetzen und unterstützt entscheidend benutzerdefiniertes Vokabular und Hotwords für Fachbegriffe und zitierte Autorennamen. Für eine Dissertation voller Nachnamen und Jargon ist das das lokale Modell der Wahl. Das Standard-Englischmodell ist rund 480 MB; größere Modelle tauschen Geschwindigkeit gegen Genauigkeit.
  • Cloud (OpenAI, BYOK)Beste Rohgenauigkeit und Live-Web-Zugang, mit dem eigenen OpenAI-Schlüssel, der direkt über OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet — das ist der einzige Pfad, der das eigene Gerät verlässt. Für unkritische Abschnitte in Ordnung, für vertrauliches Material weniger ideal. Der Cloud-Modus ist Teil von Whisper Pro.

Die ehrliche Antwort: Für den Großteil einer Dissertation reicht Local Whisper mit einer guten Vokabelliste völlig aus — es kostet nichts und bleibt auf dem Laptop. Cloud lohnt sich, wenn man erstklassige Genauigkeit bei einer schwierigen Aufnahme will oder mitten im Satz eine Tatsache aus dem Web braucht. Für zwei Jahre vertraulichen Schreibens ist Lokal der Standard und Cloud die gelegentliche Notlösung.

Aus einem gesprochenen Kapitel einreichungsreife Prosa machen

Rohes Diktat kommt als zusammenhängender Strom heraus. Man sagt "also dieses Kapitel untersucht wie Foucaults Begriff der Disziplin auf moderne Arbeitsplatzüberwachung übertragen werden kann unter Rückgriff auf die empirischen Befunde aus Kapitel drei" — und genau das, ohne Interpunktion, liefert jedes Sprachprogramm zurück. Das ist in Ordnung — es ist ein Erster Entwurf, und der soll erst mal roh sein. Das Aufräumen ist der Schritt, bei dem er lesbar wird.

Windows-Spracheingabe setzt beim Sprechen Satzzeichen, und macOS Diktierung übernimmt grundlegende Interpunktion, wenn man "Komma" oder "Punkt" sagt. Für gründlicheres Aufräumen — "Ähs" entfernen, Satzgebilde auflösen, einen atemlosen Satz in drei trennen — kann Whisper einen KI-Durchgang machen, bevor der Text landet. Man sagt die Aktivierungsphrase "Hey whisper", und der Text wird beim Einfügen verbessert. Bei einem lokalen Modell läuft das über Ollama, vollständig offline; im Cloud-Modus ist es standardmäßig gpt-5-mini. So bleibt die Schreibzeit für das Argument frei — nicht für Kommafragen.

Thinking...
Roh

so this chapter examines how foucaults notion of discipline maps onto modern workplace surveillance drawing on the empirical work in chapter three um and the interview data

Bereinigt

This chapter examines how Foucault's notion of discipline maps onto modern workplace surveillance, drawing on the empirical work in Chapter Three and the interview data.

Was ein KI-Durchgang nicht tut — und nicht tun sollte — ist das akademische Lektorat. Er prüft nicht, ob ein Zitat die Aussage trägt, korrigiert kein falsch erinnertes Datum und merkt nicht, dass Absatz vier Absatz eins widerspricht. Das ist deine Aufgabe — und sie ist die eigentliche Aufgabe. Diktat gibt sich da keinen falschen Anschein. Die ehrliche Abfolge: roh sprechen, Aufräum-Durchgang starten, damit die Mechanik stimmt, dann jede Zeile selbst lesen — mit Tastatur und dem letzten Kommentar-Set deiner Betreuung offen. Das Programm gibt dir eine lesbare Fassung eine Stunde früher. Ein verteidigbares Argument gibt es dir nicht — das liegt weiterhin bei dir, wie es sein soll.

Dieser Rhythmus aus Sprechen und Aufräumen trägt auch nach der Dissertation — man kann mit der Stimme schneller schreiben in E-Mails, Förderanträgen und den späteren Bewerbungsschreiben auf dem Akademikermarkt — alles mit demselben Hotkey.

Wann Diktieren das falsche Werkzeug ist

Zwei Pfeile auf einem Holzwegweiser, die in verschiedene Richtungen zeigen — als Sinnbild für eine Werkzeugentscheidung

Diktieren schreibt die Wörter auf, die du selbst sagst. Es ist kein Transkriptionsdienst für das, was andere sagen — und wer beides verwechselt, verliert einen frustrierenden Nachmittag. Der häufigste Irrtum in der Forschungsarbeit: ein aufgezeichnetes Interview, eine Fokusgruppe oder eine Feldaufnahme in Text umwandeln. Das ist ein anderer Job. Dort schreibst du nicht — du transkribierst eine Mehrsprecheraufnahme, oft mit Überlappungen, Akzenten und dem Bedarf an Sprecherkennzeichnung und Zeitstempeln. Dafür nimmt man einen eigens für Audiodateien konzipierten Transkriptionsdienst. Ein Live-Diktat-Hotkey hat die falsche Form — er hört jetzt auf dein Mikrofon, nicht auf eine zweistündige MP3 vom letzten Dienstag.

Für wirklich kurze Sachen ist das richtige Werkzeug das, das bereits kostenlos auf dem Rechner ist. Für eine einzeilige Notiz im Literaturmanager oder einen schnellen Kommentar in einem freigegebenen Dokument reicht das Betriebssystem. Unter Windows: Windows-Taste + H drücken, dann öffnet sich die eingebaute Spracheingabe-Leiste dort, wo der Cursor steht. Der Haken: Sie läuft über Microsofts Server und braucht Internet — also keine Offline-Option, was bei vertraulicher Forschung mehr zählt als sonst. Auf dem Mac erlaubt Diktierung das Sprechen überall, wo man tippen kann; in den Systemeinstellungen unter "Tastatur" einzurichten, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden.

Ein dediziertes, systemweites Programm lohnt sich, wenn die eingebauten Optionen nicht mehr reichen: lange Kapitel, Fachvokabular, das ein benutzerdefiniertes Wörterbuch braucht, Offline-Datenschutz für unveröffentlichte Arbeit oder ein Hotkey, der in Word, Scrivener und dem LaTeX-Editor gleich funktioniert. Unterhalb dieser Schwelle nutzt man, was kostenlos ist — und für Interview-Audio nimmt man etwas, das dafür gebaut ist. Ich werde nicht empfehlen, ein Dissertationskapitel mit demselben Programm zu diktieren, das man für die Aufnahmetranskription nutzt — das sind zwei verschiedene Jobs, und so zu tun, als wären es einer, führt zu Enttäuschungen bei beiden.

Kein Editor hat je einen "Schreib meine Dissertation"-Knopf geliefert, und nach ein paar Jahren in den Schützengräben hört man auf, darauf zu warten. Der Cursor ist die Integration: in das Dokument sprechen, einen rohen Entwurf bekommen, dann die saubere Version mit Tastatur und viel Kaffee erarbeiten. Den schlechten Entwurf aus dem Kopf auf die Seite bringen, wo man mit ihm kämpfen kann. Das Kämpfen ist die eigentliche Arbeit — Diktieren bringt einen ein paar Stunden früher in den Ring, und an den Tagen, an denen die Seite leer ist, ist das alles.

Das nächste Kapitel in die Existenz sprechen

Entwurf öffnen, Cursor unter die Überschrift setzen, Hotkey halten und die grobe Version laut sagen. Danach überarbeiten. Eine leere Seite ist schwerer als eine schlechte.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte zum Start erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest — höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Quellen