Leitfaden
Diktiersoftware fur Arzte
Hier geht es um Diktiersoftware fur den eigenen Schreibbedarf von Arzten - E-Mails, Uberweisungsbriefe, personliche Notizen, Verwaltungsaufgaben, Forschungsentworfe - per Sprache in jeder Desktop-App. Kein klinisches Dokumentationstool, kein EHR- oder Medizintransskriptionssystem, keine Compliance-Garantien.
Zuletzt aktualisiert: Juni 2026

Diktiersoftware fur Arzte bedeutet hier: ein Allzweckwerkzeug, das ein Arzt fur seinen eigenen Schreibbedarf nutzt - E-Mails, Uberweisungsbriefe, personliche Notizen, Verwaltungsaufgaben, Forschungsentworfe - per Sprache in jeder Desktop-App. Ein Tastenkurzel ubertragt das Gesprochene an die Cursor-Position. Es lauft offline im lokalen Modus und ist kein klinisches Dokumentations- oder Compliance-Tool.
Ich beginne damit, was dieses Tool nicht ist - denn das Keyword "Diktiersoftware fur Arzte" fuhrt in zwei vollig verschiedene Welten, und wer sie verwechselt, verschwendet seine Zeit. Die eine Welt ist die klinische Dokumentation: Patientennotizen per Sprache in eine elektronische Patientenakte diktieren, mit allem, was das an Genauigkeit, Integration und Compliance-Technik erfordert. Das ist eine eigene Produktkategorie, und Whisper gehort nicht dazu. Ich sage das spater noch einmal und verweise dann auf das richtige Tool.
Die andere Welt ist alles, was ein Arzt sonst noch schreibt - und das hat nichts mit der Patientenakte zu tun. Der Uberweisungsbrief. Die Antwort an eine Kollegin. Die Nachricht an die Praxisleitung wegen des Dienstplans. Der erste holprige Entwurf eines Artikels. Die E-Mail an den Konferenzorganisator. Das ist schlicht Tippen - genau wie bei allen anderen auch. Und genau darum geht es in diesem Leitfaden: all das lasst sich stattdessen sprechen, in jeder App, mit einem einzigen Tastenkurzel.
Ich mochte eine Grenze ziehen - klar und ohne Grauzone. Whisper ist ein Produktivitats-Diktiertool. Es wandelt das Gesprochene an der Cursor-Position in Text um, in jeder App mit Fokus. Es ist kein klinisches Tool und kein Werkzeug fur Patientenakten, es ist nicht fur geschutzte Gesundheitsdaten geeignet, und es gibt keine HIPAA-, EHR- oder sonstigen Compliance-Garantien. Nicht fur Patientennotizen verwenden. Fur den eigenen, nicht-klinischen Schreibbedarf.
Innerhalb dieser Grenze gibt es viel Spielraum. Zwei ehrliche Eigenschaften machen das Tool fur den eigenen Schreibbedarf von Arzten besonders passend. Der lokale Modus lauft vollstandig auf dem eigenen Gerat - der Text einer E-Mail oder eines Entwurfs verlasst den Laptop nicht. Das ist eine technische Aussage uber den Verarbeitungsort, kein Compliance-Zertifikat. Und lokales Whisper unterstutzt ein benutzerdefiniertes Vokabular, sodass die Fachbegriffe des Alltags nicht mehr als Nonsens landen. Ich erklare die Einrichtung, zeige, wofur das Tool im Alltag taugt, und sage klar, wann man besser zu einem speziell entwickelten Medizinprodukt greifen sollte.
Was es ist - und was es nicht ist

Was es ist: ein Allzweck-Diktiertool, das gesprochene Worte in jede Desktop-App tippt - damit Arzte eigene E-Mails, Uberweisungsbriefe, personliche Notizen, Verwaltungsnachrichten und Forschungstexte durch Sprechen statt Tippen verfassen konnen. Es verhalt sich in E-Mail-Client, Textverarbeitungsprogramm und Browser gleich, weil es einfach an der Cursor-Position einfugt und dabei keine Rolle spielt, in welcher App der Cursor gerade ist.
Was es nicht ist - klar gesagt, damit kein Zweifel bleibt: kein klinisches Dokumentationstool, kein EHR- oder EMR-Add-on, keine medizinische Transkription und nicht fur Patientenakten, Diagnosen oder Behandlungen geeignet. Es gibt keine HIPAA-, DSGVO- oder sonstigen Compliance-Versprechen. Die ehrlichen Grunde, warum ein Arzt trotzdem dazu greift, sind banal und wahr: Lange Briefe und Entworfe zu tippen kostet Kraft, und die eigene Korrespondenz zu diktieren geht schlicht schneller. Das ist der ganze Zweck - kein gesundheitlicher Anspruch steckt dahinter.
Ich halte die Grenze sichtbar, weil beide Welten oft nebeneinander verkauft werden - und der Unterschied erheblich ist. Ein klinisches Produkt ist auf die Patientenakte ausgerichtet, mit der notigen Integration und Compliance-Arbeit. Ein Produktivitatstool wie dieses ist auf den Cursor und die eigenen Worte ausgerichtet. Gleiche Tatigkeit - Diktieren - vollig andere Verantwortung. Wer eine Patientennotiz fur eine Akte verfasst, ist hier falsch - der Abschnitt "Wann man ein klinisches Tool braucht" ist der richtige Anlaufpunkt.
Tastenkurzel drucken, sprechen, Text landet am Cursor
Die Bedienung ist simpel. Tastenkurzel drucken, sprechen, loslassen - das Transkript wird an die Cursor-Position in jedem fokussierten Textfeld eingefugt. Whisper halt nach dem Loslassen noch kurz nach, damit das letzte Wort nicht abgeschnitten wird. Weil es an der Cursor-Position des Betriebssystems einfugt, ist die App darunter schlicht "irgendein Textfeld" - das E-Mail-Fenster, ein Word-Dokument, eine Uberweisungsbriefvorlage, der Rumpf eines Forschungsentwurfs. Wahrend des Sprechens erscheint eine kleine Kapsel als Signal, dass Whisper zuhort.
Es muss nichts in ein bestimmtes Programm eingebunden werden. Kein Plugin pro App, kein Token einfugen, kein Sync-Job. Der Cursor ist in der E-Mail, man spricht, die Worte erscheinen in der E-Mail. Derselbe Tastendruck fullt den nachsten Satz eines Artikelentwurfs, eine Nachricht an die Praxisleitung oder eine Erinnerung zwischen zwei Aufgaben. Ein Tool, jedes Textfeld, in das man ohnehin tippen wurde.
Das Tastenkurzel ist das Einzige, das man bewusst einstellen sollte. Unter Windows ist es Ctrl+Space, auf dem Mac Command+Option - ein reiner Modifier-Tastendruck als Push-to-Talk, den man halt und beim Loslassen stoppt. Beides lasst sich in den Einstellungen andern, falls es mit einer anderen App kollidiert. (Konflikte bei Tastenkurzeln sind der haufigste Grund fur "Das funktioniert nicht"-Meldungen - fast nie ein Fehler, sondern zwei Apps, die denselben Tastendruck beanspruchen. Deshalb ist jedes Kurzel hier anpassbar.) Wer schon Sprache-zu-Text unter Windows oder auf dem Mac eingerichtet hat, kennt den Mechanismus bereits - nur jetzt auf den eigenen Text ausgerichtet.
Einrichtung in zwei Minuten (Windows oder Mac)
Benotigt wird ein Mac mit Apple Silicon oder ein PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und die App, in der man schreiben wird - E-Mail-Client, Textverarbeitungsprogramm, Browser - geoffnet. Die gesamte lokale Pipeline ist fur jedes angemeldete Konto kostenlos, ohne Zahlungsmittel bei der Registrierung. So lauft die Einrichtung ab.
Schritt 1 - Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte. Die gesamte lokale Transkriptionspipeline steht sofort bereit.
Erfolgreich, wenn das Tray-Icon der App erscheint und der Einrichtungsassistent die Modellauswahl anbietet.
Schritt 2 - Transkriptionsmethode wahlen.
Die App trifft keine Vorauswahl. Es gibt drei Optionen: Cloud (OpenAI, eigener API-Key), lokales Parakeet oder lokales Whisper. Fur Korrespondenz und Entworfe, die auf dem Gerat bleiben sollen, empfiehlt sich der lokale Start - mehr dazu in zwei Abschnitten.
Erfolgreich, wenn ein Modell fertig heruntergeladen wurde und als bereit angezeigt wird.
Schritt 3 - Tastenkurzel bestatigen.
Windows nutzt standardmabig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac die Bedienungshilfen-Berechtigung erteilen, wenn danach gefragt wird - ohne sie kann der Text nicht in andere Apps eingefugt werden.
Erfolgreich, wenn eine Testaufnahme in ein beliebiges Textfeld eingefugt wird.
Schritt 4 - Cursor in eine E-Mail oder ein Dokument setzen und sprechen.
E-Mail-Client oder Textverarbeitungsprogramm offnen, an die Tippstelle klicken, Tastenkurzel halten, einen Satz sprechen, loslassen. Das Transkript erscheint an der Cursor-Position.
Erfolgreich, wenn der gesprochene Satz als Text in der E-Mail oder im Dokument erscheint.
Das Langsamste ist der Modell-Download, nicht die Einrichtung selbst. Alles andere sind die vier Schritte oben. Sobald es lauft, ist ein langer Uberweisungsbrief oder eine langst uberfalloge Antwort keine Tippaufgabe mehr, sondern eine Sprechaufgabe - und das ist am Ende eines langen Arbeitstags eine andere Art von Erschopfung.
Der alltagliche, nicht-klinische Schreibbedarf
Man denke an alles, was im Laufe eines Arbeitstags geschrieben wird und nichts mit einer Patientenakte zu tun hat. Der Uberweisungsbrief an eine Kollegin, der ohnehin freier Prosatext ist. Der E-Mail-Ruckstand - die Konferenzantwort, die Nachricht an die Praxisleitung, die Antwort auf eine Anfrage aus der Verwaltung. Die Erinnerung an eine Nachsorge oder eine Lekture, die man noch erledigen wollte. Der erste raue Entwurf eines Artikels, ein Poster-Abstract, der Text fur eine Lehrfolie. Nichts davon ist klinische Dokumentation - und alles davon geht gesprochen schneller als getippt.
Bei einem langen Brief zeigt Diktieren seinen eigentlichen Wert. Wer dauerhaft tippt, kommt auf etwa vierzig Worter pro Minute; Sprechen lauft bei rund hundertfunfundvierzig. Ein fertiges Schreiben entsteht dabei nicht in Echtzeit - das schafft niemand - aber der Rohtext steht in etwa einem Drittel der Zeit, und dann wird er uberarbeitet. Es geht nicht darum, das Redigieren zu uberspringen. Es geht darum, den langsamen ersten Durchgang vom Tipp-Tempo auf Sprech-Tempo zu heben, sodass das Tippen danach Korrektur ist, keine Komposition.
Die ehrliche Einschatzung, die diesem ganzen Leitfaden zugrunde liegt: Die meisten Produktivitatstools sind verkleidete Tippprobleme. Ein schnellerer E-Mail-Client, eine bessere Vorlage, ein aufgeraumterer Posteingang - alles ist Gerust um den Akt des Tippens herum. Die eigentliche Losung fur "Ich beantworte abends noch Korrespondenz" ist keine bessere App. Es ist: nicht tippen. Die Antwort sprechen, die zwei falsch erkannten Worter korrigieren, absenden, nach Hause gehen. Das ist der strukturelle Gewinn - und er hat nichts mit irgendeinem Patienten zu tun.
Lokal oder Cloud: den eigenen Text auf dem Gerat behalten
Fur den eigenen Schreibbedarf eines Arztes ist die entscheidende Eigenschaft, wo das Audio verarbeitet wird. Der lokale Modus lauft vollstandig auf dem eigenen Gerat - die Worter einer E-Mail oder eines Entwurfs werden auf dem Laptop transkribiert und nirgendwo hin gesendet. Das ist eine Aussage uber die Technik, keine Compliance-Garantie, und ich werde es nicht dazu aufwerten. Aber es ist eine echte und nutzliche Eigenschaft, wenn das Diktierte die eigene Korrespondenz ist und man mochte, dass sie beim Absender bleibt. Der Cloud-Modus sendet das Audio zur Transkription an OpenAI - das ist der entgegengesetzte Ansatz. Hier der Unterschied zwischen den drei Optionen, denn die App lasst einen wahlen.
Die Wahl hangt davon ab, was man schreibt und was einem wichtig ist:
- Lokales Parakeet — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option - 5 bis 10 Mal schneller als Whisper auf der CPU. Unterstutzt Englisch und 24 weitere europaische Sprachen, insgesamt 25. Keine Ubersetzung ins Englische, kein benutzerdefiniertes Vokabular. Wer auf Englisch schreibt und schnelles, vollstandig offline verfugbares Diktieren fur alltagliche Briefe und E-Mails mochte, ist hier richtig.
- Lokales Whisper — Langsamer als Parakeet auf demselben Gerat, aber die mehrsprachigen Versionen unterstutzen 99 Sprachen und konnen ins Englische ubersetzen - und das Entscheidende hier: es akzeptiert ein benutzerdefiniertes Vokabular. Damit horen Fachbegriffe auf, als Nonsens zu landen. Wahl fur alle, deren Entworfe viele Fachausdrucke enthalten oder die in einer anderen Sprache als Englisch schreiben. Das Standard-Englischmodell ist rund 480 MB. Lauft vollstandig auf dem eigenen Gerat.
- Cloud (OpenAI, BYOK) — Beste Rohgenauigkeit und Web-Zugang, mit dem eigenen OpenAI-Key, der direkt von OpenAI abgerechnet wird. Die Transkription lauft standardmabig uber gpt-4o-mini-transcribe. Erfordert Internet und sendet Audio vom Gerat - das ist die einzige Option, die den Laptop verlasst. Die Cloud-Funktion ist Teil von Whisper Pro. Fur Korrespondenz, die lieber lokal bleibt, wurde ich diese Option uberspringen.
Die nuchterne Wahrheit: Fur den Grobteil des eigenen arztlichen Schreibens - Briefe, E-Mails, Notizen, Prosatexte - reicht Lokal vollig aus. Beide lokalen Engines laufen vollstandig auf dem eigenen Gerat, ohne dass etwas an einen Server gesendet wird. Cloud lohnt sich, wenn man bei einer schwierigen Aufnahme Top-Genauigkeit braucht oder mitten im Satz eine Tatsache aus dem Web benotigt. Wer eigene Texte lieber auf der eigenen Festplatte behalt, sollte mit Lokal beginnen und Cloud als Ausnahme einplanen. Das andert nichts an der Grenze: Es ist in keiner der Optionen fur Patientenakten geeignet.
Fachbegriffe, Fliebtexte und das Aufraumen eines gesprochenen Entwurfs
Rohdiktat kommt als Flietext ohne Satzzeichen. Man sagt "vielen dank fur die uberweisung ich habe die unterlagen gesichtet und wurde vorschlagen wir vereinbaren einen termin in sechs wochen und informieren die praxisleitung" - und genau das ist der zeichenlose Block, den jede Sprachengine liefert. Zwei Dinge verwandeln das in einen Brief, den man abschicken wurde: die Begriffe stimmen, und die Mechanik wird bereinigt.
Bei Fachbegriffen versagt allgemeines Diktieren oft, weil ein Sprachmodell bei unbekannten Wortern rat. Lokales Whisper akzeptiert ein benutzerdefiniertes Vokabular - eine eigene Liste mit Fachausdrucken, Medikamentennamen, Abkurzungen und Eigennamen - und bevorzugt diese beim Erkennen, sodass taglich verwendete Begriffe nicht mehr falsch landen. Parakeet und Cloud-Transkription unterstutzen diese Liste nicht. Wer viele Fachausdrucke diktiert, ist mit lokalem Whisper besser aufgestellt. Fur die Mechanik - "Ahs" entfernen, Flietext strukturieren, Monolog in Satze aufteilen - kann Whisper einen KI-Bereinigungspass ausfuhren. Die Aktivierungsphrase "Hey whisper" sprechen, und der Text wird vor der Ausgabe aufbereitet. Lokal lauft das uber Ollama; im Cloud-Modus ist standardmabig gpt-5-mini zustandig.
vielen dank fur die uberweisung ich habe die unterlagen gesichtet und wurde vorschlagen wir vereinbaren einen termin in sechs wochen und informieren die praxisleitung
Vielen Dank fur die Uberweisung. Ich habe die Unterlagen gesichtet und wurde vorschlagen, einen Termin in sechs Wochen zu vereinbaren und die Praxisleitung zu informieren.
Kurz zum Zweck des Bereinigungspasses und seinen Grenzen. Es ist ein Mechanikpass - Zeichensetzung, Fullworter, Satzgrenzen. Keine inhaltliche Bewertung, und schon gar keine klinische Prufung. Den Bereinigungspass als Feinschliff am eigenen Text behandeln und das Ergebnis vor dem Absenden lesen - so wie man alles Getippte noch einmal uberflogen hatte. Das Modell glattet den Flietext; die Verantwortung fur jedes abgeschickte Wort bleibt beim Autor.
Dieser Sprech-dann-aufraumen-Ablauf zahlt sich bei allen Texten aus - man kann auf dieselbe Weise auch eigene schnelle Notizen per Sprache festhalten und zwischen Aufgaben eine Zeile in eine beliebige Notiz-App sprechen statt zu tippen.
Wann man ein klinisches Tool braucht

Das ist der wichtigste Abschnitt, deshalb direkt: Wer klinische Dokumentation diktiert - eine Patientennotiz, irgendetwas, das in eine elektronische Patientenakte geht, geschutzte Gesundheitsdaten oder medizinische Transkription mit Compliance-Anforderungen - der hat das falsche Tool in der Hand. Whisper ist dafur nicht geeignet. Fur genau diesen Zweck gibt es die Dragon Medical-Klasse von Software: auf die Patientenakte ausgerichtet, in EHR-Systeme integriert und mit der Compliance-Technik ausgeliefert, die klinische Arbeit erfordert. Das alles bietet Whisper nicht und beansprucht es auch nicht.
Nicht aus Bescheidenheit. Sondern weil ein Produktivitats-Diktiertool und ein klinisches Dokumentationsprodukt zwei verschiedene Fragen beantworten. Das eine fugt eigene Worte in die eigene E-Mail ein. Das andere tragt Verantwortung fur Genauigkeit, Integration und Compliance in einem geregelten Datensatz uber einen Patienten. Diese Grenze werde ich nicht verwischen, um jemanden auf dieser Seite zu halten. Wer im Arbeitsalltag Patientenakten bearbeitet, braucht ein dafur entwickeltes Medizinprodukt - das ist die ehrliche Antwort, und die wurde ich auch einem Kollegen geben.
Fur sehr kurze, nicht-klinische Snippets konnte das richtige Tool bereits kostenlos auf dem Gerat sein. Unter Windows offnet Windowstaste + H die integrierte Spracheingabeleiste uberall dort, wo der Cursor ist - sie setzt automatisch Satzzeichen, leitet das Audio aber uber Microsoft-Server und benotigt Internet, ist also keine Offline-Option. Auf dem Mac ermoglicht die Diktierfunktion Spracheingabe in jedes Textfeld, und auf Apple Silicon kann allgemeiner Text auf dem Gerat verarbeitet werden. Unterhalb der Schwelle "ein langer Brief oder ein echter Entwurf" reicht das Kostenlose. Bei langeren Texten, dichten Fachausdrucken oder dem Wunsch nach einem einheitlichen Tastenkurzel uberall empfiehlt sich ein dediziertes Tool - und sobald eine Patientenakte ins Spiel kommt, ist ein klinisches Produkt Pflicht.
Wer lokale Verarbeitung schatzt, weil eigene Texte nicht auf fremden Servern landen sollen, findet im Artikel zur privaten, gerateseitigen Sprache-zu-Text-Verarbeitung eine ausfuhrliche Erklarung, was "lokal" wirklich bedeutet - und wo seine Grenzen liegen.
Der gesamte Leitfaden ist eine Grenze und viel Raum dahinter. Die Grenze: kein klinisches Tool, nicht fur Patientenakten, keine Compliance-Garantie. Der Raum: jede E-Mail, jeder Brief, jede Notiz und jeder Entwurf, den ein Arzt schreibt und der nichts mit einer Akte zu tun hat - gesprochen statt getippt, in jeder App, offline wenn gewunscht. Den Grobteil dieses Textes habe ich per Sprache in ein Textfeld diktiert, das keine Patientenakte war, mit einem Tool, das nicht weib, was eine Patientenakte ist. Das ist der Punkt.
Beim nachsten Brief oder der nachsten E-Mail ausprobieren
Tastenkurzel halten, sprechen, loslassen. Das Transkript landet dort, wo der Cursor ist - in der E-Mail, im Entwurf oder in jeder anderen App, in der man schreibt. Nicht in einer Patientenakte.
Lokaler Modus kostenlos fur jedes angemeldete Konto. Kein Zahlungsmittel zum Starten erforderlich.



