Leitfaden
Diktiersoftware für Journalisten
Redakteure schreiben schneller, wenn sie sprechen statt tippen. Hotkey drücken, sprechen, und die Wörter landen am Cursor — im CMS, in einem Dokument, in einer Notizdatei. Das hier geht ums Verfassen eigener Texte und Feldnotizen, nicht ums Transkribieren von Interviews.
Zuletzt aktualisiert: Juni 2026

Diktiersoftware für Journalisten wandelt gesprochene Worte in Text um — direkt am Cursor, in jeder App. Ein Hotkey startet den Vorgang; Entwurf, Einstieg oder Feldnotiz landen genau dort, wo der Cursor steht. Sie ist zum Verfassen eigener Texte per Sprache gedacht und läuft offline für vertrauliche Notizen. Interviews transkribiert sie nicht — das ist ein eigenes Werkzeug.
Ein Reportertag besteht zu einem guten Teil daraus, Dinge zweimal zu tippen. Auf den Gerichtsstufen kritzelt man ein Zitat ins Notizbuch, am Schreibtisch tippt man es ab. Den Einstieg formt man gedanklich auf dem Rückweg, und bis der Laptop aufgeklappt ist, hat man die Hälfte wieder vergessen. Die Tastatur ist der Flaschenhals — und sie interessiert sich nicht dafür, dass Deadline ist.
Wer nach "Diktiersoftware für Journalisten" sucht, erhofft sich meist ein einziges Werkzeug, das alles kann: Texte verfassen, Notizen machen und die Gemeinderatssitzung aufzeichnen. Das gibt es nicht, und das sage ich lieber gleich im zweiten Satz, als Ihnen den Nachmittag zu stehlen. Diktat ist für die Wörter, die Sie selbst formulieren. Eine Quelle aufzunehmen und das Audio in ein wortgetreues Transkript zu verwandeln, ist ein völlig anderes Handwerk. Dieser Leitfaden befasst sich mit dem ersten Teil — und sagt Ihnen klar, wann Sie zum zweiten greifen sollten.
Hier ist der Unterschied, den die meisten Seiten zu diesem Thema absichtlich verwischen. Diktat bedeutet: Sie sprechen, und der Computer tippt, was Sie sagen — direkt in das Feld, in dem der Cursor steht. Transkription bedeutet: jemand anderen aufzeichnen — eine Quelle, eine Runde, ein Telefongespräch — und danach einen genauen Textbeleg bekommen. Gleiche Grundidee, völlig anderes Werkzeug, völlig andere Konsequenzen.
Die eigentliche Frage lautet also nicht "Welche Diktat-App ist die beste für Journalisten?", sondern "Was passt zu welchem Teil der Arbeit?" Ein hotkey-gesteuertes Diktierwerkzeug wie Whisper eignet sich hervorragend zum Formulieren eigener Texte, zum schnellen Festhalten von Feldnotizen und zum Einfangen einer Idee, bevor sie sich verflüchtigt. Für das Interview selbst — mehrere Sprecher, Zitate, die Sie drucken und verantworten müssen — brauchen Sie einen dedizierten Transkriptionsdienst. Ich gehe den Diktat-Teil Schritt für Schritt durch, richte ihn in zwei Minuten ein und ziehe die Grenze so klar, dass Sie das falsche Werkzeug nicht mit einem Zitat beauftragen.
Warum Redakteure auf Diktat setzen

Der ehrlichste Grund ist Tempo, bevor der Gedanke kalt wird. Ein Reporter hat den Einstieg auf dem Weg vom Pressegespräch zum Auto halb im Kopf, den Blickwinkel auf dem Weg zum Parkplatz klar, den ersten Satz in der Dusche auf den Punkt gebracht — und setzt sich dann an die Tastatur und schaut zu, wie ein Drittel davon durch die Finger rinnt. Sprechen schafft grob 145 Wörter pro Minute. Tippen etwa 40. In diesem Abstand sterben gute erste Entwürfe.
Dann sind da noch die Hände. Wer für seinen Lebensunterhalt schreibt, schreibt viel — und die Handgelenke quittieren das. Diktat ist keine medizinische Therapie, und das behaupte ich auch nicht. Aber es nimmt die Tastatur für eine Weile aus dem Spiel, was an einem langen Einreichungstag eine echte Erleichterung ist. Die Hände rasten, der Text entsteht trotzdem, und das Schlussredaktionsteam merkt keinen Unterschied. Das ist der ganze Pitch — keine Therapie, nur weniger Tastendrücke zwischen Kopf und Seite.
Und es sind die kleinen Festhaltemomente, die sich summieren. Das eine Zitat, das man sich merken will, bevor man die genaue Formulierung vergisst. Die Erinnerung, die zweite Quelle zurückzurufen. Die drei Zeilen darüber, wie es sich im Raum angefühlt hat — die man einhandig beim Gehen nie getippt hätte, aber problemlos laut sagt. Nichts davon ist ein Artikel. Alles davon ist das Bindegewebe des Reportierens, und alles davon geht gesprochen schneller als getippt.
Hotkey drücken, sprechen, Text im Entwurf
Die Mechanik ist langweilig — genau das will man unter Deadline. Man drückt einen Hotkey, spricht, lässt los, und das Transkript landet am Cursor, in welcher App auch immer gerade aktiv ist. Whisper hält nach dem Loslassen noch einen kurzen Moment mit, damit das letzte Wort nicht abgeschnitten wird. Weil der Text am Betriebssystem-Cursor eingefügt wird, sind CMS-Entwurfsfeld, Word-Dokument, Google Docs im Browser, eine schlichte Notizdatei oder eine Slack-Nachricht an den Redakteur alle dasselbe: ein Textfeld. Gleicher Hotkey, gleiches Verhalten, überall.
Das ist genau der Teil, den Landing Pages unnötig verkomplizieren. Kein Plugin muss in das Redaktionssystem eingebunden werden, keine Integration muss auf die IT-Abteilung warten, kein Exportschritt ist nötig. Der Cursor steht im Entwurf, man spricht, die Wörter erscheinen im Entwurf. Während man spricht, zeigt sich eine kleine Kapsel — so weiß man, dass aufgezeichnet wird:
Der Hotkey ist das Einzige, das man von Anfang an richtig einstellen sollte. Unter Windows ist es Ctrl+Space, auf dem Mac Command+Option — ein reiner Modifikatortasten-Push-to-Talk, den man während des Sprechens gedrückt hält. Beide lassen sich in den Einstellungen ändern, falls sie mit einem Kürzel des Bearbeitungsprogramms kollidieren. Ein früher Nutzer schrieb um 2:14 Uhr — der Hotkey kollidierte mit seiner Audiosoftware, die Nachricht endete mit dem Wort "unbrauchbar." Acht Minuten später hatte ich ein Panel für benutzerdefinierte Hotkeys implementiert und bin wieder schlafen gegangen. Seitdem lässt sich jeder Hotkey frei belegen. Wer bereits Diktat unter Windows oder auf dem Mac eingerichtet hat, kennt den Ablauf — nur dass er jetzt auf die Redaktionswerkzeuge zeigt.
Einrichtung in zwei Minuten (Windows oder Mac)
Benötigt wird ein Mac mit Apple Silicon oder ein Windows-PC ab Version 10, ein funktionierendes Mikrofon und das Programm, in dem man Entwürfe erstellt — geöffnet in der Desktop-App oder im Browser. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos; bei der Registrierung wird keine Zahlungsmethode abgefragt. So geht's.
Schritt 1 — Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte nötig. Die gesamte lokale Transkriptionspipeline steht sofort zur Verfügung.
Erfolgreich, wenn das Tray-Icon der App erscheint und der Setup-Assistent zur Modellauswahl auffordert.
Schritt 2 — Transkriptionsmethode wählen.
Die App trifft keine Vorauswahl. Es gibt drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für vertrauliche Notizen und Quellenmaterial empfiehlt sich der lokale Einstieg — mehr dazu zwei Abschnitte weiter.
Erfolgreich, wenn ein Modell den Download abschließt und als bereit angezeigt wird.
Schritt 3 — Hotkey bestätigen.
Windows verwendet standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac muss die Barrierefreiheitsberechtigung erteilt werden, wenn danach gefragt wird; ohne sie kann der Cursor in anderen Apps nicht erreicht werden.
Erfolgreich, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 — Cursor in den Entwurf setzen und sprechen.
CMS, Dokument oder Notizdatei öffnen, in den Text klicken, Hotkey gedrückt halten, einen Satz sprechen, loslassen. Das Transkript erscheint dort, wo der Cursor steht.
Erfolgreich, wenn der gesprochene Satz als Text im Entwurf steht.
Der einzige langsame Teil ist der Modell-Download, nicht die Einrichtung selbst. Alles andere sind die vier Schritte oben. Ist das erledigt, ist das Übertragen eines Gedankens vom Kopf in den Entwurf keine Tippaufgabe mehr, sondern eine Sprechaufgabe.
Eigene Texte diktieren und Feldnotizen per Sprache festhalten
In der Praxis ergeben sich zwei Modi, die sich unterschiedlich anfühlen. Der erste ist das Formulieren am Schreibtisch: Cursor im CMS oder im Dokument, Einstieg, Kernaussage und bereits recherchierte Passagen einsprechen. Einen polierten Endtext diktiert man nicht — das tut niemand — aber man hat einen schnellen, rohen Erstentwurf auf dem Bildschirm in einem Bruchteil der Zeit, und vorhandenen Text zu bearbeiten ist besser als auf ein leeres Feld zu starren. Die Anpassungsvokabular- und Hotwort-Funktionen in Local Whisper helfen hier zusätzlich, wenn das eigene Ressort voller Namen und Fachbegriffe ist, mit denen ein generisches Modell kämpft.
Der zweite Modus ist das Festhalten im Feld — und hier zahlt sich der Hotkey wirklich aus. Man verlässt eine Anhörung und sagt die drei Dinge, die man nicht vergessen darf, direkt in eine Notizdatei. Man hält eine Telefonnummer fest, eine Rückfrage, die genaue Formulierung einer zitierfähigen Aussage, die man in Kurzschrift notiert hat. Das ist kein druckreifes Material — es ist Rohmaterial, das man sonst später aus einer unleserlichen Kritzelei abtippen würde. Einmal sagen, klar, solange es frisch ist.
Eine wirklich nützliche Zusatzfunktion im Cloud-Modus — und ich bleibe ehrlich, was den Umfang angeht: Mit dem Aktivierungssatz "Hey whisper" lässt sich mitten im Entwurf eine schnelle Web-Abfrage starten — ein Datum, eine Schreibweise, ein Titel — und die Antwort kommt in wenigen Sekunden zurück. Das ist eine praktische Schnellrecherche-Hilfe, keine Recherchemaschine, und ein Journalist überprüft alles Relevante sowieso gegen eine echte Quelle. Nützlich für "War es der Haushalt 2019 oder 2020?" ohne den Entwurf zu verlassen. Kein Ersatz für echtes Recherchieren.
Lokal oder Cloud: Welcher Modus für vertrauliche Notizen
Für Journalisten empfiehlt sich der Einstieg mit dem lokalen Modus — und der Grund ist Quellenschutz, nicht Geschwindigkeit. Eine Notiz über eine vertrauliche Quelle, ein unveröffentlichter Entwurf zu einem sensiblen Thema, eine Arbeitsdatei, die man niemals einem Dienstleister aushändigen würde — der lokale Modus läuft vollständig auf dem eigenen Gerät, ohne dass etwas an einen Server gesendet wird. Das ist der richtige Standard, wenn das Material eine Quelle gefährden könnte. Cloud wird zum Ausweg für seltene schwierige Aufnahmen, nicht zum Alltagswerkzeug. Wer einen Mac mit Apple Silicon oder einen PC der letzten Jahre hat, bewältigt den täglichen Diktatabläufe lokal ohne Einschränkungen.
So unterscheiden sich die drei Optionen — denn die App lässt einen wählen, und ich möchte, dass man gut wählt:
- Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option — 5 bis 10 Mal schneller als Whisper auf der CPU. Unterstützt Englisch plus 24 weitere europäische Sprachen, insgesamt 25. Keine Übersetzung ins Englische. Wer auf Englisch oder einer anderen europäischen Sprache formuliert, ist hier richtig: schnell, vollständig offline.
- Local Whisper — Auf demselben Gerät langsamer als Parakeet, dafür decken die mehrsprachigen Builds 99 Sprachen ab und können ins Englische übersetzen. Die englischsprachigen Builds sind rein englisch, nicht 99 Sprachen. Empfehlenswert für Chinesisch, Japanisch, Koreanisch, Übersetzungsarbeit oder wenn man benutzerdefiniertes Vokabular und Hotwörter für ein namenlastiges Ressort benötigt. Das Standard-Englischmodell ist rund 480 MB groß.
- Cloud (OpenAI, BYOK) — Beste Genauigkeit und schnelle Web-Abfragen, mit dem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt Internet — das ist der einzige Weg, der das eigene Gerät verlässt. Für quellensensibled Material daher nicht geeignet. Die Cloud-Oberfläche ist Teil von Whisper Pro.
Die nüchterne Wahrheit: Für die Art von Texterstellung und Notizenführung, die die meiste Reportage-Arbeit ausmacht, reicht Lokal völlig aus. Beide lokalen Engines laufen vollständig auf dem eigenen Gerät — das ist der entscheidende Punkt, wenn eine Datei Quellen nennen könnte. Cloud lohnt sich, wenn man bei einem schwierigen Audioabschnitt höchste Genauigkeit braucht oder die schnelle Abfrage mitten im Entwurf nutzen will. Für den täglichen Einreichungsrhythmus: lokal starten und Cloud nur dann hinzuziehen, wenn Lokal nicht reicht.
Aus dem gesprochenen Entwurf sauberen Text machen
Rohes Diktat kommt als zusammenhanglosen Satzfluss heraus. Man sagt: "okay der rat hat vier zu drei für die umwidmung gestimmt äh henderson dagegen zitat das schafft einen schlechten Präzedenzfall zitat ende nachfassen beim stadtplanungsamt morgen" — und das ist die zeichenlose Textwand, die jedes Spracherkennungssystem liefert. Das Bereinigen ist der Punkt, an dem sich die Modi unterscheiden.
Windows-Spracheingabe ergänzt beim Sprechen Satzzeichen, macOS Dictation versteht Grundbefehle wie "Komma" oder "Punkt". Für gründlichere Bereinigung — Füllwörter entfernen, Satzfolgen korrigieren, einen gesprochenen Absatz in etwas verwandeln, das man tatsächlich in einen Entwurf übernehmen würde — kann Whisper einen KI-Durchlauf ausführen. "Hey whisper" sagen, und der Text wird vor der Ausgabe aufbereitet. Im lokalen Modus läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.
okay der rat hat vier zu drei für die umwidmung gestimmt äh henderson dagegen zitat das schafft einen schlechten präzedenzfall zitat ende nachfassen beim stadtplanungsamt morgen
Rat stimmt 4:3 für die Umwidmung. Henderson dagegen: „Das schafft einen schlechten Präzedenzfall.“ Morgen beim Stadtplanungsamt nachfassen.
Ein wichtiger Vorbehalt — denn hier geht es um Journalismus, und Genauigkeit ist das Handwerk. Ein KI-Bereinigungsdurchlauf ist für eigene Entwürfe und Notizen gedacht — er ordnet die eigenen Worte. Man sollte sich nicht darauf verlassen, um ein wörtliches Zitat zu erzeugen, das man druckt und verantwortet. Wenn ein Zitat für die Seite exakt stimmen muss, prüft man es gegen die Originalaufnahme oder die eigenen Notizen — jedes Mal. Diktat bringt den Entwurf schnell auf den Bildschirm; es beglaubigt kein Zitat. Wer behauptet, eine Spracherkennung liefere druckreife, wortgenaue Zitate, verkauft eine Demo, keinen Alltag.
Derselbe Sprech-dann-bereinigen-Ablauf zahlt sich weit über den Journalismus hinaus aus — man kann auch saubere Prosa in jede Schreib-App diktieren mit demselben Hotkey, sodass eine lange Passage zu einigen gesprochenen Sätzen wird statt zu einem abgetippten Absatz.
Wann man auf Diktat verzichtet und stattdessen ein Transkriptionswerkzeug nutzt

Das ist die tragende Aussage des gesamten Leitfadens, daher direkt gesagt: Sobald eine andere Person aufgezeichnet wird — ein Interview, eine Quelle am Telefon, eine Diskussionsrunde, eine Pressekonferenz mit mehreren Stimmen — ist Diktat das falsche Werkzeug. Diktat ist dafür gebaut, die eigenen Worte in den Cursor zu tippen: ein Sprecher, live. Es trennt keine Sprecher, es ist nicht darauf ausgelegt, ein wortgenaues Protokoll fremder Audioinhalte zu liefern, und ein Zitat, das man druckt, ist nicht der Ort, um das herauszufinden.
Für diese Aufgabe braucht man einen dedizierten Transkriptionsdienst — die Kategorie, die auf Mehrsprecher-Audio, Sprecherkennzeichnung, Zeitstempel und einen Textbeleg ausgelegt ist, gegen den man ein Zitat prüfen kann. Das ist wirklich ein anderes Produkt, und ein gutes ist es wert, dafür zu zahlen, wenn die Genauigkeit fremder Worte das Ergebnis ist. Für beglaubigte oder rechtssichere Transkripte gibt es nochmals spezialisierte Dienste — und das deckt ein Diktat-Hotkey definitiv nicht ab.
Manchmal ist das richtige Werkzeug bereits kostenlos auf dem Gerät vorhanden. Für eine kurze Zwei-Zeilen-Notiz oder eine schnelle Erinnerung reicht das Betriebssystem. Unter Windows öffnet Windows-Taste + H die integrierte Spracheingabe-Leiste am Cursor; sie setzt selbstständig Satzzeichen und eignet sich für kurze Texte — sie läuft jedoch über Microsofts Server und benötigt Internet, ist also keine Offline-Option, was zählt, wenn die Notiz eine Quelle nennt. Auf dem Mac erlaubt Diktieren die Spracheingabe überall, wo man tippen kann; einzurichten unter Systemeinstellungen → Tastatur; auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden. Ein dediziertes systemweites Werkzeug lohnt sich, wenn die Bordmittel an ihre Grenzen stoßen: lange Entwürfe, mehrsprachige Arbeit, Offline-Datenschutz oder ein Hotkey, der im CMS, im Dokument und in der Notizdatei identisch funktioniert.
Wer hauptsächlich kurze Notizen statt ausführliche Entwürfe festhält, findet in Sprache-zu-Text-Notizen den passendsten Ansatz — mit stärkerem Fokus auf schnelles Festhalten als auf langes Formulieren.
Diktat schreibt die Geschichte nicht für einen, und es transkribiert das Interview nicht — das waren nie seine Aufgaben. Was es leistet: die Tastatur aus dem Weg räumen, während man eigene Texte formuliert und eigene Notizen festhält — schnell, offline wenn das Material sensibel ist. Den größten Teil dieses Leitfadens habe ich in eine schlichte Notizdatei diktiert, mit einem Hotkey, dem es egal ist, welches Fenster aktiv ist; danach bereinigt und in den Entwurf übernommen. Das Interview dazu habe ich zu einem Transkriptionsdienst geschickt. Richtiges Werkzeug, richtige Aufgabe. Das ist der ganze Trick.
Beim nächsten Entwurf ausprobieren
Hotkey halten, sprechen, loslassen. Der erste Entwurf landet in der App, in der der Cursor steht — CMS, Dokument oder Notizdatei. Das Interview geht weiterhin an ein Transkriptionswerkzeug.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte zum Starten erforderlich.



