Von Denys Medvediev

Leitfaden

Diktiersoftware für die Wissenschaft

Forschende, Professorinnen und Doktoranden entwerfen Fachartikel und Förderanträge schneller per Sprache. Hotkey drücken, sprechen, fertig — das Transkript erscheint direkt am Cursor in Word, einem Overleaf-Tab, Google Docs oder Scrivener. Alles läuft offline, sodass unveröffentlichte Arbeiten das Gerät nie verlassen.

Zuletzt aktualisiert: Juni 2026

Stiller Lesesaal einer Bibliothek mit gestapelten Büchern und einem Laptop auf einem Holztisch — Atmosphäre wissenschaftlicher Arbeit

Diktiersoftware für Wissenschaftlerinnen und Wissenschaftler wandelt gesprochene Sätze über einen systemweiten Hotkey in getippten Text um — direkt in jeder Schreib-App, ob Word, LaTeX-Editor, Google Docs oder Scrivener. Ein Werkzeug wie Whisper läuft vollständig offline, sodass unveröffentlichte Forschungsergebnisse auf dem Gerät bleiben. Fachbegriffe und Autorennamen lassen sich beibringen, damit sie zuverlässig korrekt transkribiert werden.

Ein Literaturüberblick ist ein seltsames Dokument zum Eintippen. Man weiß bereits, was man sagen will — die vierzig Artikel sind gelesen, das Argument sitzt im Kopf — und dann verbringt man eine Stunde damit, dieses Argument Tastenanschlag für Tastenanschlag in Worte zu gießen. Das Denken ist getan. Das Tippen ist nur noch Steuer. Genau diese Lücke zwischen dem Wissen um den Satz und seiner körperlichen Erzeugung ist der Ort, an dem Diktieren seinen Platz im wissenschaftlichen Arbeitsfluss verdient.

Wer nach „Diktiersoftware für Wissenschaftler“ sucht, erwartet etwas, das für die Hochschule gebaut wurde — Zitatverwaltung, Literaturmanager, das volle Programm. Das ist es nicht, und jedes Tool, das das verspricht, übertreibt. Was man tatsächlich bekommt, ist schlichter und nützlicher: eine Möglichkeit, einen Absatz in den Editor zu sprechen, den man bereits nutzt, ohne dass die Audiodaten unveröffentlichter Ergebnisse jemals einen Server berühren. Zwei Minuten Einrichtung — und es funktioniert genauso in Word wie in einer LaTeX-Datei.

Das überspringen die meisten Seiten zu diesem Thema gerne. Ein Manuskriptentwurf ist schlicht ein Textfeld. Die Methodensektion auch, das Anschreiben an eine Redaktion, das Abstract, das man ständig umschreibt. Diktieren, das am Cursor einfügt, kümmert sich nicht darum, ob dieser Cursor in Microsoft Word steckt, in einem Overleaf-Editor, einem Google Doc oder einer Scrivener-Karte. Es tippt dorthin, wo man zeigt.

Die eigentliche Frage lautet also nicht: „Gibt es spezielle Diktiersoftware für die Wissenschaft?“ Größtenteils nicht — und man braucht sie nicht. Die Frage ist: Welches Diktierwerkzeug setzt man auf den eigenen Editor drauf, bleibt es offline für Arbeiten, die man nicht riskieren kann zu leaken, und kann es die Namen und Begriffe buchstabieren, von denen das eigene Fachgebiet voll ist? Das gehe ich alles durch, zeige die Einrichtung und erkläre, wann man besser zu einem ganz anderen Werkzeug greift.

Warum Forschende zum Diktieren greifen

Schreibtisch mit aufgeschlagenen Fachartikeln, einem Notizbuch und einem Laptop mitten in einer Schreibsession

Der eigentliche Grund ist schlichtes Volumen. Wissenschaftliches Schreiben ist von Natur aus Langform — ein Artikel kommt auf achttausend Wörter, ein Dissertationskapitel auf deutlich mehr, ein Förderantrag bringt seine eigene Wortzahl und eine Frist mit, die sich nicht verschiebt. Das alles einzutippen ist langsam, und die Langsamkeit potenziert sich, wenn man den Inhalt bereits kennt. Gesprochenes läuft bei den meisten Menschen drei- bis viermal schneller als Tippen — deshalb schlägt ein diktierter Erstentwurf, den man danach bearbeitet, einen sauber getippten Entwurf, den man ohnehin korrigiert.

Der zweite Grund sind die Hände. Lange Schreibsessions sind der Anfang von Überlastungsschäden, und viele Forschende, von denen ich gehört habe, haben das Diktieren nicht als Geschwindigkeitshack entdeckt, sondern als Weg, auch an Tagen weiterzuschreiben, an denen die Handgelenke protestierten. Um es klar zu sagen: Das ist eine Produktivitäts- und Zugänglichkeitshilfe, kein Medizinprodukt und kein ärztlicher Rat — sie erspart Tastenanschläge, nicht mehr. Aber genau das ist es, was man braucht, wenn die Disputation in sechs Wochen ansteht und die Hände der Engpass sind.

Der dritte Grund ist das Festhalten von Ideen. Der gute Einfall für den Diskussionsteil kommt auf dem Weg zur Kaffeemaschine, nicht am Schreibtisch. Ein Hotkey, den man drücken und in den man sprechen kann, bedeutet, dass die Idee zu einem Absatz im Entwurf wird, bevor sie verdunstet. Entwerfen statt Tippen — das ist der Umbruch. Man hört auf, Text Zeichen für Zeichen zu produzieren, und fängt an, ihn Satz für Satz zu produzieren — was näher daran ist, wie das Argument wirklich im Kopf lebt.

Hotkey drücken, sprechen, Text landet im Entwurf

Das ist die ganze Mechanik, und sie ist wohltuend unspektakulär. Man drückt einen Hotkey, spricht, lässt los — und das Transkript wird am Cursor in das aktive Textfeld eingefügt. Whisper hält nach dem Loslassen der Taste noch einen kurzen Moment inne, damit das letzte Wort nicht abgeschnitten wird. Weil die Eingabe am Systemcursor erfolgt, ist der Editor einfach „irgendein Textfeld“ — ein Word-Dokument, ein Overleaf-Quellfenster, ein Absatz in Google Docs, eine Scrivener-Karte, das Kommentarfeld im Einreichungsportal einer Zeitschrift.

Genau das ist der Teil, den die Marketingseiten unnötig kompliziert machen. Es gibt kein Plugin, das man in Word einbauen muss, kein LaTeX-Paket, das man hinzufügen muss, kein Add-on, das man in Google Docs autorisieren muss. Der Cursor liegt im Manuskript, man spricht, die Wörter erscheinen im Manuskript. Während man spricht, erscheint eine kleine Kapsel, damit man weiß, dass zugehört wird:

Cancel
Die Aufnahme-Einblendung: eine kleine Kapsel, die beim Sprechen erscheint, damit man weiß, dass Whisper zuhört.

Der Hotkey ist das Einzige, das man von Anfang an richtig einstellen sollte. Unter Windows ist es Ctrl+Space; auf dem Mac ist es Command+Option, ein reiner-Modifier-Push-to-Talk, den man während des Sprechens gedrückt hält. Beide lassen sich in den Einstellungen ändern, falls sie mit einem Kürzel des eigenen Editors kollidieren — und akademische Tools stecken voller solcher Kollisionen, weshalb das hier wichtiger ist als sonst. Wer bereits Diktat unter Windows oder auf dem Mac eingerichtet hat, nutzt dieselben Handgriffe — jetzt ausgerichtet auf den eigenen Entwurf.

Einrichtung in zwei Minuten (Windows oder Mac)

Man braucht einen Mac mit Apple Silicon oder einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und den geöffneten Editor — Word, einen Browser-Tab mit Overleaf oder Google Docs, Scrivener, was auch immer man zum Schreiben nutzt. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Registrierung eine Zahlungsmethode verlangt wird. So geht es.

Schritt 1 — Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte. Die gesamte lokale Transkriptions-Pipeline steht sofort zur Verfügung.

Es hat funktioniert, wenn das Tray-Icon der App erscheint und der Einrichtungsassistent die Auswahl eines Modells anbietet.

Schritt 2 — Transkriptionspfad wählen.

Die App wählt nicht für einen. Es gibt drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für unveröffentlichte Arbeiten empfiehlt sich der lokale Einstieg — zwei Abschnitte weiter unten folgt die Erklärung, welche Option wann passt.

Es hat funktioniert, wenn ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 — Hotkey bestätigen.

Windows verwendet standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac muss die Bedienungshilfen-Berechtigung erteilt werden, wenn sie abgefragt wird; ohne sie kann das Einfügen am Cursor keine anderen Apps erreichen.

Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 — Cursor in den Entwurf setzen und sprechen.

Manuskript öffnen, an die Stelle klicken, an der der nächste Satz stehen soll, Hotkey halten, Satz sprechen, loslassen. Das Transkript erscheint am Cursor im Dokument.

Es hat funktioniert, wenn der gesprochene Satz als Text im Entwurf erscheint.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm mit geöffneten Bereichen für Transkription und KI.

Das Langsame ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, ist das Verfassen eines Absatzes keine Tipp-Aufgabe mehr, sondern eine Sprech-Aufgabe — und der Editor hat nie gemerkt, dass sich etwas geändert hat.

Sprache-zu-Text unter Windows · auf dem Mac

Fachbegriffe, Autorennamen und Offline-Betrieb

Zwei Probleme sind spezifisch für das wissenschaftliche Schreiben, und beide haben eine echte Lösung. Das erste ist der Wortschatz. Das eigene Fachgebiet steckt voller Begriffe, die ein allgemeines Sprachmodell noch nie gesehen hat — ein Genname, eine chemische Verbindung, eine Methode, die nach den drei Personen benannt ist, die sie erfunden haben, der Nachname des Autors, den man vierzigmal zitiert. Standardmäßig entstellt jede Diktiersoftware einige davon, weil sie ähnlich klingende Alltagswörter errät. Local Whisper begegnet dem mit Hotwords und benutzerdefiniertem Vokabular: Man gibt die eigenen Fachbegriffe und Autorennamen ein, und das Modell bevorzugt deren korrekte Wiedergabe statt des nächstliegenden Alltagsworts. Parakeet, die schnellere lokale Engine, unterstützt keine Hotwords — wer also ein jargondichtes Manuskript schreibt, hat damit einen klaren Grund, Whisper gegenüber Parakeet zu bevorzugen.

Das zweite Problem ist der Datenschutz — und bei unveröffentlichter Forschung ist das keine Paranoia, sondern die Pflicht. Ergebnisse vor der Veröffentlichung, ein Förderantrag vor der Einreichung, ein unter Embargo stehender Artikel, alles mit einem NDA oder einem noch ausstehenden Patent. Cloud-Diktat schickt die Audiodaten zur Transkription an einen Server eines Anbieters. Lokales Diktat tut das nicht. Sowohl Whisper als auch Parakeet laufen vollständig auf dem eigenen Gerät, ohne dass etwas das Gerät verlässt — das bedeutet, dass die Audiodaten der eigenen unveröffentlichten Erkenntnisse nie zur Log-Datei von jemand anderem werden. Wenn diese Unterscheidung in der eigenen Arbeit wichtig ist — und in vielen Forschungsbereichen ist sie nicht verhandelbar — ist der Fall für den Offline-Betrieb ausführlich dargelegt in privatem, offlinenem Sprache-zu-Text.

Unter uns: Das ist der Punkt, bei dem ich keine Kompromisse eingehen würde, wenn ich der- oder diejenige wäre, der bzw. die das Papier schreibt. Ein Entwurf ist die sensibelste Version der eigenen Arbeit — es ist die mit den noch vorhandenen Fehlern, die, die ein Konkurrent lieben würde, die, bei der man noch keine Priorität beansprucht hat. Diese über einen Server zu routen, über den man keine Kontrolle hat, um sich einen Modell-Download zu ersparen, ist ein schlechter Tausch. Der eigene Laptop hat bereits ein Mikrofon und eine CPU. Für einen Absatz Text braucht er keinen Server in der Kette.

Lokal oder Cloud: Welcher Modus für wissenschaftliche Arbeit?

Für die meisten wissenschaftlichen Entwürfe empfiehlt sich der Start mit der lokalen Option. Der einzige Grund, warum der Datenschutz überhaupt zur Sprache kommt, ist, dass die Arbeit unveröffentlicht ist — und der lokale Modus ist der einzige, der die Audiodaten auf dem eigenen Gerät behält. Ist der Mac mit Apple Silicon ausgestattet oder der PC aus den letzten Jahren, bewältigt der lokale Modus den Alltag problemlos, und die Cloud wird zum Ausweg statt zur Voreinstellung. So unterscheiden sich die drei Pfade, zwischen denen die App wählen lässt.

Besser gut wählen als schnell wählen — hier die klare Version der einzelnen Optionen:

  • Local ParakeetNVIDIAs TDT-Engine, rund 600 MB und die schnellste lokale Option — 5 bis 10 Mal schneller als Whisper auf der CPU. Unterstützt Englisch plus 24 weitere europäische Sprachen, insgesamt 25. Kein Übersetzen ins Englische und keine Hotwords, lässt sich also nicht auf den Fachjargon des eigenen Felds abstimmen. Die richtige Wahl für schnelles, vollständig offlinefähiges Schreiben in schlichter Prosa mit gewöhnlichem Vokabular.
  • Local WhisperLangsamer als Parakeet auf demselben Gerät, unterstützt aber Hotwords und benutzerdefiniertes Vokabular — genau das, was man für Autorennamen und Fachbegriffe braucht. Die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen. Die rein englischsprachigen Versionen können nur Englisch, keine 99. Das Standard-Englisch-Modell ist rund 480 MB groß. Bei einem jargonlastigen Manuskript ist dies die lokale Wahl.
  • Cloud (OpenAI, BYOK)Beste Genauigkeit und Webzugriff, mit dem eigenen OpenAI-Schlüssel, der direkt über OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt eine Internetverbindung, verlässt also das eigene Gerät — für nicht vertrauliche Texte in Ordnung, für unter Embargo stehende Ergebnisse die falsche Wahl. Die Cloud-Oberfläche ist Teil von Whisper Pro.

Die nüchterne Wahrheit ist: Für die Prosa, aus der die meisten Artikel bestehen, reicht Local Whisper vollkommen aus — und die Hotword-Unterstützung macht es zur richtigen lokalen Engine speziell für die Forschung. Die Cloud verdient ihren Platz, wenn man erstklassige Genauigkeit bei einer schwierigen Aufnahme braucht oder einen Fakt mitten im Satz aus dem Web ziehen muss und die Arbeit nicht vertraulich ist. Bei einem Entwurf, den man nicht riskieren kann weiterzugeben, trifft sich die Entscheidung von selbst.

Vom gesprochenen Entwurf zu sauberem Text

Rohes Diktat kommt als Bandwurmsatz heraus. Man sagt „also die Ergebnisse deuten auf eine Korrelation zwischen den beiden Variablen hin, wobei wir anmerken sollten, dass die Stichprobengröße klein war“ — und genau das ist die zeichenlose Wand, die jede Sprach-Engine ausgibt. Beim Bereinigen trennen sich die Modi.

Windows-Spracheingabe fügt beim Sprechen Satzzeichen ein, und macOS Diktat behandelt einfache Satzzeichen, wenn man „Komma“ oder „Punkt“ sagt. Für eine gründlichere Bereinigung — Fehlstarts entfernen, Bandwurmsätze aufbrechen, einen gesprochenen Absatz in etwas verwandeln, das ins Manuskript passt — kann Whisper einen KI-Durchlauf ausführen. Man sagt die Aktivierungsphrase „Hey whisper“ und der Text wird verbessert, bevor er landet. Auf einem lokalen Modell läuft das über Ollama, sodass die Bereinigung ebenfalls offline bleibt; im Cloud-Modus ist es standardmäßig gpt-5-mini.

Thinking...
Roh

also die ergebnisse deuten auf eine korrelation zwischen den beiden variablen hin wobei wir anmerken sollten ähm dass die stichprobengröße hier ziemlich klein war

Bereinigt

Die Ergebnisse deuten auf eine Korrelation zwischen den beiden Variablen hin, wobei die Stichprobengröße jedoch recht klein war.

Eine faire Warnung, weil Übertreibungen niemandem nützen: Der KI-Durchlauf glättet Grammatik und Füllwörter — er überprüft keine Aussagen auf Richtigkeit, korrigiert keine Statistiken und kann einen präzisen Fachbegriff stillschweigend in ein ähnlich klingendes Alltagswort „verbessern“. Das Ergebnis lesen — das würde man ohnehin, es ist das eigene Papier. Den Bereinigungsschritt als schnelleren Erstentwurf behandeln, nie als endgültigen. Die ehrliche Antwort: Die Stimme bringt die Wörter schnell aufs Blatt, und das eigene Urteil macht noch immer die Wissenschaft.

Derselbe Speak-then-Clean-Ablauf zahlt sich weit über das Manuskript hinaus aus — man kann auch sauberen Text in Google Docs diktieren, auf dieselbe Weise, sodass ein gemeinsam verfasstes Dokument oder eine Antwort an Gutachtende zu ein paar gesprochenen Sätzen wird statt zu einem eingetippten Absatz.

Wann man auf Diktat verzichtet und ein Transkriptionstool nutzt

Handgeführtes Audiogerät und ein Mikrofon auf einem Tisch — Anspielung auf Interview- und Feldaufnahmen

Diktat und Transkription werden ständig verwechselt, und bei wissenschaftlicher Arbeit macht dieser Unterschied alles aus. Diktat heißt: Man spricht absichtlich, in Echtzeit, und produziert den eigenen Text. Transkription heißt: Eine vorhandene Aufnahme — ein Interview, eine Fokusgruppe, eine Vorlesung, stundenlange Feldarbeit — wird nachträglich in Text umgewandelt. Das sind verschiedene Aufgaben, und ein Diktat-Hotkey ist das falsche Werkzeug für die zweite.

Wenn die Aufgabe qualitative Forschungsaudiodaten betrifft — Interviews, aufgezeichnete Sitzungen, ein Korpus von Feldaufnahmen, die in ein Transkript mit Sprecherkennzeichnung und Zeitstempeln umgewandelt werden sollen — sollte man zu einem dedizierten Transkriptionsdienst oder einem für Batch-Audiodateien entwickelten Tool greifen. Das ist eine Aufgabe rund um die Verarbeitung von Aufnahmen, oft mit mehreren Sprecherinnen und Sprechern, und man braucht Software, die genau dafür gebaut ist. Diktiersoftware, einschließlich dieser, ist für den Teil gedacht, bei dem man selbst spricht und die Wörter während des Sprechens im eigenen Entwurf landen sollen.

Und für wirklich kleine Aufgaben tun es die kostenlosen Bordmittel. Unter Windows öffnet die Windows-Taste + H die Spracheingabeleiste, wo immer der Cursor steht; sie setzt Satzzeichen eigenständig, leitet aber über Microsoft-Server weiter und ist daher nicht offline. Auf dem Mac findet sich Diktat in den Systemeinstellungen unter Tastatur, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden. Für eine einzeilige Notiz oder eine schnelle E-Mail an Co-Autorinnen reicht das. Zu einem dedizierten, offlinefähigen, systemweiten Tool greift man, wenn die Arbeit länger wird, der Wortschatz technisch wird oder die Ergebnisse das Gerät nicht verlassen dürfen.

Wenn der Entwurf mehr im Browser als in einer Desktop-App lebt, gilt dieselbe Logik für Spracheingabe in Google Docs — auch dort ist der Cursor, nicht ein Add-on, die eigentliche Integration.

Es gibt keine Diktiersoftware, die speziell für die Wissenschaft gebaut wurde — und nach diesem Artikel bin ich überzeugt, dass es sie nicht braucht. Das Manuskript ist schlicht ein Textfeld, der Cursor ist die Integration, und die einzigen wissenschaftsspezifischen Teile — unveröffentlichte Arbeiten offline halten und dem Tool den Fachjargon beibringen — sind Einstellungen, keine eigenen Produkte. Den Großteil davon habe ich in einen schlichten Texteditor diktiert, der noch nie von einer Quellenangabe gehört hat, mit einem Tool, das jedes Wort auf dem eigenen Laptop behalten hat, und danach bearbeitet wie den Erstentwurf, der es war. Das ist der ganze Trick.

Den nächsten Artikel per Stimme entwerfen

Hotkey halten, sprechen, loslassen. Das Transkript landet dort, wo der Cursor ist — Word, LaTeX, Google Docs, Scrivener — und das offline, sodass unveröffentlichte Arbeiten auf dem eigenen Gerät bleiben.

Lokaler Modus kostenlos für jedes angemeldete Konto. Kein Zahlungsmittel für den Start erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest — die Antworten diktiere ich höchstwahrscheinlich.

Weiterführende Quellen