Leitfaden
Diktier-Software für Berater
Der Tag eines Beraters endet mit einem Stapel ungeschriebener Memos. Diktier-Software wandelt den Post-Meeting-Gedankendump per Sprache in Text um: Hotkey drücken, Zusammenfassung diktieren – und schon landet der Text am Cursor in Word, im Angebotsdeck oder im CRM – in jeder App.
Zuletzt aktualisiert: Juni 2026

Diktier-Software für Berater wandelt gesprochene Zusammenfassungen per Hotkey in Memos, Angebote und Besprechungsnotizen um. Ein systemweites Tool wie Whisper fügt die Transkription am Cursor in jeder App ein, läuft im lokalen Modus vollständig offline – sodass Kundenmaterial auf dem Gerät bleibt – und kann den Entwurf mit einem KI-Durchlauf bereinigen.
Jeder Berater, den ich bei der Arbeit beobachte, hat denselben Engpass – und der liegt nicht im Meeting. Das Meeting läuft gut. Das Problem sind die vierzig Minuten danach, wenn der Raum noch frisch im Kopf ist und man das Ganze in ein Memo verwandeln muss, das irgendjemand auch tatsächlich liest. Bis man das Dokument geöffnet, die Überschrift formatiert und den roten Faden wiedergefunden hat, ist die Hälfte der Gedanken schon verflossen.
Diktat schließt diese Lücke. Man verlässt den Raum, spricht die Zusammenfassung durch, solange sie noch präsent ist – und die Wörter stehen auf der Seite, bevor sie verblassen. Wer nach "Diktier-Software für Berater" sucht, erwartet ein Nischenprodukt für die Branche. Das gibt es nicht, und man braucht es auch nicht. Was man braucht, ist ein systemweites Tool, das überall tippt, wo der Cursor steht – und wenn man mit sensiblen Inhalten arbeitet, eines, das das tut, ohne ein einziges Wort das Gerät verlassen zu lassen.
Hier ist das, was die meisten Seiten nicht offen sagen: Es gibt keine "Berater-Edition" für Diktat, weil ein Memo nur ein Textfeld ist – genauso wie eine E-Mail oder eine Angebotsfolie. Ein Diktat-Tool, das am Cursor einfügt, interessiert sich nicht dafür, ob dieses Textfeld in Word, Google Docs, Salesforce oder einem Slack-DM an den Projektleiter liegt.
Die eigentliche Frage lautet also nicht: "Welche Diktier-App wurde für Berater gebaut?" Sondern: "Welches Tool entwirft schnell, bereinigt zuverlässig und hält Kundenmaterial auf dem Gerät, wenn es sein muss?" Dieser letzte Punkt zählt in diesem Beruf mehr als anderswo. Ich erkläre den Workflow, richte alles in etwa zwei Minuten ein, gehe die Frage lokal vs. Cloud durch – und nenne den einen Fall, in dem Diktat das falsche Werkzeug ist und man besser zu etwas anderem greift.
Warum Berater zum Diktat greifen

Der ehrliche Kern ist: Geschwindigkeit gegen ein nachlassendes Gedächtnis. Ein Berater produziert unter Zeitdruck viel Text: das Kundenmemo nach dem Workshop, die Zusammenfassungs-Mail, bevor die Details verschwimmen, der erste Entwurf eines Angebotsabschnitts, die Scope-Notizen, die man bis Tagesende versprochen hat. Das alles zu tippen ist der langsame Teil – und am langsamsten genau dann, wenn man am müdesten ist, nach einem Tag voller Meetings.
Sprechen ist schneller als Tippen, und das ist keine Kleinigkeit. Kontinuierliches Diktat läuft bei etwa 145 Wörtern pro Minute, Tippen bei etwa 40. Für eine 400-Wörter-Zusammenfassung ist das der Unterschied zwischen drei und zwölf Minuten. Der größere Gewinn liegt aber im Kopf. Man denkt in ganzen Sätzen, wenn man ein Problem durchspricht, das man gerade mit einem Kunden besprochen hat. Man denkt in halb getippten Fragmenten, wenn man über die Tastatur gebeugt sitzt. Diktat erlaubt es, in derselben Form zu entwerfen, in der man einen Kollegen am Kaffeeautomaten briefen würde – und das ist meistens der Moment, in dem das Memo am klarsten ist.
Es gibt noch einen stillen Grund. Ein langes Memo bedeutet viele Tastenanschläge, und ein Tag mit lückenlosem Tippen belastet die Hände. Diktat schont sie. Ich will das nicht als Gesundheitsversprechen verpacken – es ist ein Produktivitätswerkzeug, das die Tastatur aus dem Prozess nimmt, mehr nicht – aber wer drei Angebote vor dem Mittagessen getippt hat, kennt das Gefühl. Den ersten Entwurf zu sprechen und ihn von Hand zu bearbeiten ist schonender, als das Ganze zweimal zu tippen.
Hotkey drücken, sprechen, das Memo schreibt sich selbst
Die Mechanik ist simpel – und das ist der Punkt. Hotkey drücken, sprechen, loslassen – und die Transkription erscheint am Cursor im aktiven Fenster. Whisper hält nach dem Loslassen kurz nach, damit das letzte Wort nicht abgeschnitten wird. Weil die Einfügung am Betriebssystem-Cursor erfolgt, sind alle Tools einfach "Textfelder" – Word, Google Docs, ein Angebot in PowerPoint, das Notizfeld in Salesforce oder HubSpot, eine Mail an den Partner, eine Slack-Nachricht ans Projektteam. Gleicher Key, gleiches Verhalten, überall.
Das ist der Teil, den aufwendig gestaltete Landingpages unnötig verkomplizieren. Kein Plugin, das in jede App eingebunden werden muss. Keine Integration, die gepflegt werden will. Kein Kopier-Einfüge-Shuffle aus einem separaten Transkriptionsfenster. Der Cursor sitzt im Memo, man spricht, die Wörter erscheinen im Memo. Während man spricht, erscheint eine kleine Kapsel, damit man weiß, dass zugehört wird:
Der Hotkey ist das Einzige, das man von Anfang an richtig einrichten sollte. Auf Windows ist es Ctrl+Space; auf dem Mac ist es Command+Option, ein reiner Modifier-Tastendruck, den man hält, während man spricht, und loslässt, um zu stoppen. Beide lassen sich in den Einstellungen ändern, falls sie mit etwas kollidieren, das bereits genutzt wird – und auf dem Rechner eines Beraters gibt es meistens genug Kollisionspotenzial. Wer schon Diktat unter Windows oder auf dem Mac eingerichtet hat, wird denselben Muskelgedächtnis-Reflex für die Kundenarbeit nutzen.
In zwei Minuten einrichten (Windows oder Mac)
Man braucht einen Mac mit Apple Silicon oder einen Windows-10-PC oder neuer, ein funktionierendes Mikrofon und das Programm, in dem man arbeitet – Word, Docs, das CRM – geöffnet vor sich. Die gesamte lokale Pipeline ist für jeden angemeldeten Account kostenlos, ohne dass beim Registrieren eine Zahlungsmethode verlangt wird. Hier die Schritte.
Schritt 1 – Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und einen kostenlosen Account anlegen. Keine Kreditkarte. Die gesamte lokale Transkriptions-Pipeline steht sofort bereit.
Es hat geklappt, wenn das Tray-Icon der App erscheint und der Einrichtungsassistent ein Modell zur Auswahl anbietet.
Schritt 2 – Transkriptionspfad wählen.
Die App wählt nicht selbst. Es gibt drei Optionen: Cloud (OpenAI, eigener Key), Local Parakeet oder Local Whisper. Für Kundenmaterial: mit lokal beginnen – mehr dazu zwei Abschnitte weiter unten.
Es hat geklappt, wenn ein Modell den Download abgeschlossen hat und als bereit angezeigt wird.
Schritt 3 – Hotkey bestätigen.
Windows-Standard ist Ctrl+Space, Mac-Standard ist Command+Option als Push-to-Talk. Auf dem Mac die Bedienungshilfen-Berechtigung erteilen, wenn danach gefragt wird; ohne sie kann der Cursor-Einfüge-Mechanismus nicht auf andere Apps zugreifen.
Es hat geklappt, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 – Cursor ins Memo setzen und sprechen.
Dokument öffnen, an die gewünschte Stelle klicken, Hotkey halten, Zusammenfassung sprechen, loslassen. Die Transkription erscheint am Cursor.
Es hat geklappt, wenn die gesprochene Zusammenfassung als Text im Dokument steht.
Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald alles läuft, hört die Frage "Wie bekomme ich das aus meinem Kopf auf die Seite" auf, eine Tipp-Pflicht zu sein, und wird zu einem zweiminütigen Gespräch.
Memos, Angebote und Zusammenfassungen per Stimme entwerfen
Der Workflow, der sich am meisten auszahlt, ist der Post-Meeting-Gedankendump. Man beendet eine Kundensitzung, sucht eine ruhige Ecke und spricht die gesamte Zusammenfassung durch, solange sie noch frisch ist – die Entscheidungen, die offenen Fragen, wer was zu erledigen hat, das, was der Kunde nebenbei gesagt hat und das man nicht verlieren will. Beim Sprechen nicht nach Struktur greifen. Erst den Inhalt als ehrlichen Strom rauslassen, dann formen. Ein unordentlicher Sprachentwurf, den man bearbeiten kann, schlägt ein ordentliches Memo, das man nie angefangen hat, weil der Abend zu Ende ging.
Bei Angeboten funktioniert es genauso – abschnittsweise. Den Lösungsansatz diktieren, als würde man ihn dem Interessenten über den Tisch erklären, dann die Annahmen, dann den groben Umfang. Man schreibt lockerer und menschlicher als beim Tippen – und das ist meistens genau das, was ein Angebot braucht. Die meisten klingen, als wären sie von einem Komitee zusammengestellt worden, weil genau das passiert ist. Die Überschriften, die Aufzählungsformatierung, die Liefertabelle: das kommt danach mit der Tastatur. Diktat liefert die Wörter schnell; die Formatierungsfunktionen des Dokuments liefern die Struktur. Kein Tool zaubert aus einem gesprochenen Satz ein sauberes Angebotslayout – wer das demonstriert, verkauft eine Demo, keinen Dienstagmittag.
Ein praktischer Hinweis für diesen Beruf: Jedes Engagement hat seinen eigenen Jargon – die Produktnamen des Kunden, die internen Abkürzungen, die Methodik, die man verkauft. Local Whisper erlaubt es, benutzerdefinierte Vokabeln und Hotwords hinzuzufügen, damit "EBITDA" nicht mehr zu "ebit da" verformt oder der Produktname des Kunden als phonetische Vermutung ausgespuckt wird. Parakeet und der Cloud-Pfad nehmen keine eigene Wortliste, daher ist das ein Punkt für Whisper, wenn die Memos dicht mit Eigennamen sind. So oder so: Ein kurzes Überfliegen findet die Namen – die Stimme bringt einen 95 % des Weges, die Augen erledigen die restlichen 5 %.
Lokal oder Cloud: Welcher Modus für Kundenmaterial
Für Beratungsarbeit: erst den lokalen Modus ausprobieren – und nicht als bloße Formsache. Vieles, was man diktiert, ist standardmäßig vertraulich: die Zahlen eines Kunden, eine interne Restrukturierung, ein noch nicht öffentlicher Deal. Der lokale Modus führt die gesamte Transkription auf dem eigenen Gerät durch, sodass Audio und Text den Laptop nie verlassen. Das ist eine echte, überprüfbare Eigenschaft: Nichts wird an einen Server gesendet, weil kein Server im Spiel ist. Ich verspreche weder ein Compliance-Zertifikat noch eine rechtliche Garantie – das liegt zwischen Ihnen, Ihrer Kanzlei und dem Vertrag mit dem Kunden – aber "Das Audio bleibt auf diesem Gerät" ist eine Tatsache, hinter der man stehen kann, und für sensibles Material ist das der richtige Standard. Die Überlegung ist dieselbe, die ich in private, gerätelokale Sprache-zu-Text darlege.
So unterscheiden sich die drei Optionen – denn die App lässt einen wählen, und es lohnt sich, gut zu wählen:
- Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option – 5- bis 10-mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, 25 insgesamt. Kein Übersetzen ins Englische, keine benutzerdefinierte Vokabelliste. Wenn die meisten Memos auf Englisch sind und Geschwindigkeit zählt, ist das die schnelle, vollständig offline nutzbare Wahl.
- Local Whisper — Langsamer als Parakeet auf demselben Gerät, aber die mehrsprachigen Versionen unterstützen 99 Sprachen, können ins Englische übersetzen, und es ist die einzige lokale Engine, die benutzerdefinierte Vokabeln und Hotwords akzeptiert. Die richtige Wahl für jargonlastige Memos, mehrsprachige Kunden oder Übersetzungsaufgaben. Das Standard-Englisch-Modell ist rund 480 MB; die englischsprachigen Versionen sind nur für Englisch, nicht für alle 99.
- Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugang, mit dem eigenen OpenAI-Key, der direkt von OpenAI abgerechnet wird. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Erfordert Internet – das ist der einzige Pfad, der das Gerät verlässt. Für unkritische Arbeit in Ordnung, für vertrauliches Kundenaudio die falsche Wahl. Die Cloud-Funktion ist Teil von Whisper Pro.
Reines Cloud-Diktat ist ein Datenschutz-Desaster, das darauf wartet, transkribiert zu werden – und Berater sind genau die Personen, die das angehen sollte. Ich habe einmal beobachtet, wie ein internes Team in einem Quartal eine fünfstellige Cloud-Rechnung aufgehäuft hat, weil jede Standup-Aufnahme durch eine API geleitet wurde – und das war nur der Betrag, der auf einem Dashboard auftauchte. Was niemand in Zahlen ausgedrückt hat: Ein Viertel der vertraulichen Meetings eines Unternehmens saß die ganze Zeit in einem Drittanbieter-Log. Der Restrukturierungsplan des Kunden gehört nicht in die Logs eines Vendors, nur weil man mit der Stimme tippen wollte. Mit lokal beginnen; Cloud als Notausgang für öffentliche, unkritische Sachen nutzen, bei denen man höchste Genauigkeit oder einen Fakt aus dem Web mitten im Satz braucht.
Aus dem gesprochenen Gedankendump ein sauberes Memo machen
Rohes Diktat kommt als Textstrom ohne Satzzeichen heraus. Man sagt "okay also der Kunde will den Pilot bis Q3 eingegrenzt das Budget ist knapp sie machen sich Sorgen wegen des Migrationsrisikos also das in der Zusammenfassung festhalten" – und das ist die unstrukturierte Wand, die jede Sprachengine zurückgibt. Die Bereinigung ist der Schritt, bei dem ein Memo wirklich seinen Wert zeigt.
Die Windows-Spracheingabe fügt beim Sprechen Satzzeichen ein, und macOS Diktat verarbeitet grundlegende Satzzeichen, wenn man "Komma" oder "Punkt" sagt. Für das Schwerere – Füllwörter entfernen, Endlosätze aufbrechen, aus einem gesprochenen Monolog etwas machen, das man tatsächlich an einen Kunden schicken würde – kann Whisper einen KI-Durchlauf ausführen. Man sagt den Aktivierungsphrase "Hey whisper" und der Text wird verbessert, bevor er erscheint. Im lokalen Modus läuft das über Ollama auf dem eigenen Gerät; im Cloud-Modus ist gpt-5-mini der Standard. Das Vorher-Nachher ist der eigentliche Pitch:
okay also der Kunde will den Pilot bis Q3 eingegrenzt das Budget ist knapp sie machen sich Sorgen wegen des Migrationsrisikos also das in der Zusammenfassung festhalten und mich daran erinnern das Deck donnerstag zu schicken
Der Kunde möchte den Piloten bis Q3 eingrenzen. Das Budget ist knapp, und es gibt Bedenken wegen des Migrationsrisikos – das bitte in der Zusammenfassung vermerken. Erinnerung: Deck Donnerstag verschicken.
Ein Hinweis, der in diesem Beruf mehr zählt als anderswo: Der KI-Durchlauf bereinigt Grammatik und Struktur, prüft aber keine Fakten. Er glättet "2 Millionen Dollar" problemlos zu einem selbstsicheren Satz, egal ob das die Zahl war, die der Kunde genannt hat, oder nicht. Jedes bereinigte Memo vor dem Versand lesen. Die Bereinigung spart das Tippen und das Interpunktions-Ringen; das Urteilsvermögen spart sie nicht – und das Urteilsvermögen eines Beraters ist genau das, wofür der Kunde zahlt.
Dieselbe Sprechen-dann-Bereinigen-Gewohnheit zahlt sich überall aus, wo der Cursor steht – sie ist der Kern von Sprache-zu-Text-Notizen, sodass eine Seite Besprechungsnotizen zu ein paar gesprochenen Minuten wird, statt zu einer Tipp-Session, die man immer wieder aufschiebt.
Wann man auf Diktat verzichten und ein Transkriptions-Tool nutzen sollte

Diktat ist zum Entwerfen in der eigenen Stimme. Nicht zum Aufnehmen und Transkribieren anderer Personen. Das ist die Grenze, die Berater am häufigsten überschreiten – also ziehe ich sie klar: Wer ein vollständiges Kundengespräch oder einen mehrstimmigen Workshop erfassen und eine Transkription mit Zuordnung möchte, braucht ein anderes Werkzeug für einen anderen Job. Wir nehmen nicht an Gesprächen teil. Wir nehmen den Raum nicht auf. Whisper tippt, was man sagt, während man eine Taste hält – es ist kein Meeting-Rekorder, und so zu tun, als wäre es das, würde den Nachmittag verschwenden.
Für diesen Job ein Transkriptions-Service verwenden, der dafür gebaut wurde – mit Sprecherbeschriftungen, Kalenderintegration und Meeting-Zusammenfassungen. Einwilligung des Kunden einholen, bevor jemand aufgenommen wird, denn das ist in diesem Beruf ein eigenes Minenfeld. Diktat und Transkription werden im Kopf oft zusammengeworfen, sind aber entgegengesetzte Richtungen: Das eine erfasst, was man absichtlich sagt; das andere erfasst nachträglich ein Gespräch. Das richtige Tool wählen, und man spart sich einen frustrierenden Abend im Kampf gegen ein Werkzeug, das für genau diesen Zweck nie gebaut wurde.
Für wirklich kurze Sachen sind die kostenlosen Bordmittel in Ordnung. Auf Windows öffnet Win+H die Spracheingabe, wo immer der Cursor steht – praktisch für eine zwei Zeilen lange Notiz, aber die Daten laufen über Microsofts Server und benötigen Internet, also die falsche Wahl für alles Vertrauliche. Auf dem Mac spricht Diktat in jedes Feld und läuft auf Apple Silicon direkt auf dem Gerät. Zu einem dedizierten, systemweiten Tool greifen, wenn die Bordmittel zu bremsen beginnen: lange Memos, jargonlastige Angebote, Offline-Datenschutz unter Windows oder ein einziger Hotkey, der in Word, im CRM und in der E-Mail gleich funktioniert. Dieselbe Geschwindigkeits-und-Datenschutz-Logik kommt auch dann zum Tragen, wenn man einfach schneller mit der Stimme tippen will – in jeder App. Unterhalb dieser Schwelle das nutzen, was kostenlos ist.
Es gibt keine Berater-Edition für Diktat, und es braucht sie nie zu geben – denn der Cursor ist die Integration. Die Zusammenfassung sprechen, solange das Meeting noch frisch im Kopf ist, den KI-Durchlauf Füllwörter entfernen lassen, dann wie ein Profi gegenlesen, bevor es zum Kunden geht. Den größten Teil dieses Leitfadens habe ich diktiert – in ein Textfeld, das nichts über Beratung wusste, mit einem Tool, dem es egal war, wofür das Feld bestimmt war. Das Memo auf dem Schreibtisch ist das auch egal. Es will nur die Wörter.
Das nächste Memo per Sprache entwerfen
Meeting verlassen, Hotkey halten, Zusammenfassung sprechen. Die Transkription landet im Dokument – und kann vollständig auf dem eigenen Gerät bleiben.
Lokaler Modus kostenlos für jeden angemeldeten Account. Keine Kreditkarte erforderlich.



