Tutorial
Sprache-zu-Text in Salesforce: jedes Feld diktieren
Salesforce hat im Desktop-Lightning kein natives Diktieren, das überall funktioniert. Ein systemweiter Hotkey wie Whisper schließt diese Lücke: Taste halten, sprechen, und die Wörter landen in genau dem Salesforce-Feld, in dem der Cursor steht.
Zuletzt aktualisiert: Juni 2026

Sprache-zu-Text in Salesforce bedeutet, direkt in ein Datensatzfeld zu diktieren, statt es abzutippen. Salesforce hat im Desktop-Lightning kein natives Diktieren, das überall funktioniert; die eingebaute Sprachfunktion ist Anruftranskription, kein Tippen in Felder. Ein Desktop-Tool wie Whisper schließt diese Lücke: Hotkey halten, sprechen, und die Wörter landen in genau dem Salesforce-Feld, in dem der Cursor steht.
Ich habe einmal zugesehen, wie ein Vertriebler dieselbe Gesprächsnotiz dreimal tippte, weil das CRM-Tab den Fokus verlor und den Entwurf verschluckte. Er sprach deutlich schneller, als er tippte — die meisten Menschen diktieren rund 145 Wörter pro Minute gegenüber etwa 40 beim Tippen. Der ehrliche Teil, den auf den Anbieter-Blogs niemand laut ausspricht: Salesforce hat durchaus Sprachfunktionen, nur eben nicht die, die man braucht, wenn man eine Fallnotiz in ein Feld sprechen will. Deshalb sind das hier zwei Artikel in einem. Was Salesforce tatsächlich mitbringt — und wie man trotzdem in jedes Feld diktiert.
Aktivitätsprotokolle, Fallnotizen, Opportunity-Beschreibungen, Chatter-Beiträge — jedes davon ist ein Textfeld, und jedes Textfeld ist eine kleine Steuer für jemanden, der lieber verkaufen würde. Die Lösung ist keine schnellere Tastatur. Sie ist, die Tastatur gar nicht zu öffnen. Whisper ist eine Desktop-App für Windows und macOS, die Transkription genau dort einfügt, wo der Cursor sitzt — auch in jedem Salesforce-Feld in jedem Browser. Hier erfährst du, wie es funktioniert, was Salesforce dir schon bietet und wann du stattdessen besser zu einem Salesforce-nativen Tool greifst.
Hotkey drücken, reden, dem Feld beim Füllen zusehen
Die ganze Interaktion ist eine einzige Bewegung. Klicke in das Salesforce-Feld, das du füllen willst — einen Fallkommentar, eine Opportunity-Beschreibung, einen Chatter-Beitrag. Halte den Hotkey. Sprich wie ein normaler Mensch. Lass los. Einen Moment später erscheint der Text am Cursor.
Der Standard-Hotkey ist Ctrl+Space unter Windows und Command+Option unter macOS. Er ist global, und genau das ist der entscheidende Punkt — er ist nicht an ein Browser-Tab gebunden und kein Salesforce-Add-on, sondern funktioniert in jeder App, in der du tippen kannst. Dieselbe Taste diktiert in eine Fallnotiz, dann in die Slack-Nachricht, die deinem Manager mitteilt, dass es erledigt ist, dann in die E-Mail an den Kunden. Ein Muskelgedächtnis, jedes Feld. Die Browser-Erweiterungen, die bei dieser Suche auftauchen, leben in einem Chrome- oder Edge-Tab; Whisper sitzt auf Betriebssystemebene und kümmert sich nicht darum, in welchem Browser du Salesforce geöffnet hast.
Hat Salesforce eingebautes Sprache-zu-Text? Größtenteils nein

Hier ist die ehrliche Antwort, denn die Suchergebnisse sind sich darüber nicht einig. Salesforce hat im Desktop-Lightning kein natives Diktieren, das überall funktioniert. Es gibt keinen „In dieses Feld diktieren“-Button auf einem Fall oder einem Lead. Das heißt nicht, dass es gar keine Sprachfunktion gibt — Salesforce hat mehrere, nur eben nicht die, die sich die meisten vorstellen, wenn sie nach diesem Begriff suchen.
Am nächsten kam Salesforce der nativen Sprachnotiz-Erfassung mit dem Einstein Voice Assistant. Er startete 2020 und wurde 2021 wieder eingestellt. Er ist weg. Wenn du nach einer „Einstein Voice Assistant Alternative“ suchst, liegt es daran — das Produkt gab es wirklich, und dann war es vorbei.
Was es heute gibt, ist eine andere Kategorie. Die dauerhafte native Sprachfunktion von Salesforce ist Einstein Conversation Insights, das Verkaufsgespräche und Meetings transkribiert und daraus Erkenntnisse herausarbeitet — wer zu lange geredet hat, wo der Deal ins Wanken geriet. Das ist Gesprächsintelligenz, kein Felddiktat; es schreibt dir keinen Satz in einen Fallkommentar. Service Cloud Voice transkribiert Live-Telefonate für Agenten im Contact-Center — wieder Anrufe, kein Tippen. Und Agentforce, der konversationelle KI-Agent von Salesforce, hat Sprache-zu-Text, aber als Mobilfunktion zum Reden mit dem Agenten — nicht als System, das deine Worte in das fokussierte Desktop-Feld tippt.
Salesforce deckt aufgezeichnete Anrufe also nativ ab, und dafür solltest du diese Tools auch nutzen. Eine 90-Wörter-Notiz ins Aktivitätsprotokoll eines Leads zu sprechen, ist die Lücke. Sie sitzt im Desktop-Lightning, und genau dort verdient sich ein systemweiter Diktier-Hotkey seinen Platz.
Das Mikro auf der Handytastatur gegen Desktop-Diktat
Auf dem Smartphone hast du bereits einen Workaround, und der ist in Ordnung. In der Salesforce-Mobile-App tippst du das Mikrofon auf der Handytastatur an — iOS- oder Android-Diktat — und sprichst in ein Feld. Das Tastatur-Mikro ist eine Gerätefunktion, keine von Salesforce. Deshalb fühlt sich Mobil gelöst an und Desktop nicht. Windows bringt mit Win+H Sprachausgabe mit, macOS bringt Dictation mit, und beide tippen in ein Browser-Feld, auch in Salesforce — die kostenlose Basis auf Betriebssystemebene, die die meisten vergessen. Sie laufen nur auf einer Plattform, die Nachbearbeitung ist dünn, und das Ein- und Ausschalten ist umständlicher als ein gehaltener Hotkey. Whisper ist die Desktop-Version dieses Handytastatur-Mikros — nur funktioniert es auf Windows und Mac gleich, in jedem Browser und in jeder anderen App, die du anfasst.
So diktierst du mit Whisper in jedes Salesforce-Feld
Die Einrichtung ist kurz.
- Installiere Whisper auf deinem Windows-PC oder Mac und melde dich an. Die lokale Pipeline ist kostenlos, für den Start ist keine Karte nötig.
- Lade einmalig ein Modell herunter — eine Datei auf der Festplatte, je nach Wahl etwa 140 MB bis 3 GB groß. Das ist der einzige Schritt, der das Internet braucht.
- Öffne Salesforce und klicke in das Feld, das du füllen willst — einen Fallkommentar, eine Opportunity-Beschreibung, einen Chatter-Beitrag, den E-Mail-Editor.
- Halte den Hotkey — Ctrl+Space unter Windows, Command+Option auf dem Mac — und sprich.
- Lass los. Das Transkript wird am Cursor eingefügt. Bei Bedarf nachbessern, speichern.
Keine AppExchange-Installation, keine Admin-Freigabe, kein Add-on pro Platz. Whisper meldet sich nicht bei Salesforce an und rührt die Einstellungen deiner Org nicht an — aus Sicht von Salesforce ist einfach Text in einem Feld erschienen, genau so, als hättest du ihn getippt. Deshalb funktioniert es über Fälle, Leads, Opportunities, Aufgaben, Chatter und den E-Mail-Editor hinweg, ohne Einrichtung pro Objekt.
Lokal oder Cloud: welcher Modus für CRM-Notizen

Das ist bei CRM-Daten wichtiger als bei fast allem anderen, was du diktieren würdest.
Im lokalen Modus läuft Whisper komplett offline. Das Audio verlässt die Maschine nie; das Internet braucht es nur für diesen einmaligen Modell-Download. Wenn der Text aus Kundennamen, Dealgrößen, Vertragskonditionen und der gelegentlichen offenen Notiz über einen Stakeholder besteht, ist das kein Nice-to-have.
Hier ist die Meinung, zu der ich stehe: Reines Cloud-Diktat ist ein Datenschutz-Desaster, das nur darauf wartet, transkribiert zu werden. Ich habe einmal zugesehen, wie ein Team jede Äußerung aus einem Diktat-Prototyp an eine Cloud-API schickte. Die Rechnung zum Quartalsende war fünfstellig, größtenteils, weil dieselben Standup-Aufnahmen viermal neu transkribiert wurden, da die Retry-Logik zu eifrig war (die Retry-Logik habe ich geschrieben — ich habe einen Master-Abschluss). Das Urteil des CFO war unmissverständlich: Vielleicht nicht einen Anbieter dafür bezahlen, Kopien von Meetings aufzubewahren, zu denen es schon Notizen gibt. CRM-Daten haben dieselbe Form. Deine Pipeline muss nicht in den Logs eines Anbieters liegen, nur weil jemand reden statt tippen wollte.
Es gibt auch einen Cloud-Modus — für den Fall, dass du obendrauf die beste Genauigkeit oder KI-Aufbereitung willst — eine Whisper-Pro-Funktion, die deinen eigenen OpenAI-Schlüssel nutzt. Es ist die Notausgang-Option, nicht der Standard. Die gesamte lokale Pipeline ist für angemeldete Nutzer kostenlos, die Karte wird nur beim Pro-Upgrade verlangt, nie bei der Registrierung. Die Zahlen stehen auf der Whisper-Preisseite. Für den CRM-Alltag: Starte lokal, halte die Daten auf deinem Schreibtisch und zahle nichts.
Räum das Diktat auf, bevor es im Feld landet
Rohes Diktat hat die Ähs und endlosen Schachtelsätze echter Sprache. Whisper kann optional einen KI-Aufräumschritt fahren, der ein Transkript ordnet, bevor es landet — er korrigiert die Zeichensetzung, lässt Füllwörter weg und macht aus einem zerredeten Gedanken eine saubere Fallnotiz. Im kostenlosen lokalen Modus läuft dieser Schritt über Ollama auf deiner Maschine; in Pro nutzt er deinen OpenAI-Schlüssel. Aus „Ja also, ich hab ihn zurückgerufen, er will das überarbeitete Angebot bis Freitag“ wird eine Zeile, die du ohne Scham an der Opportunity hinterlassen würdest. Es ist derselbe Trick, mit dem du überall mit deiner Stimme schneller tippst, nicht nur im CRM.
Whisper beherrscht in beiden Modi über 90 Sprachen und erreicht 99 in seinen mehrsprachigen Varianten — die rein englischen Varianten sind ausschließlich Englisch. Wenn sich deine Accounts über Regionen erstrecken, tut das Diktat es auch.
Die ehrliche Grenze — und wann du Whisper auslässt

Zuerst der Vorbehalt, denn die AppExchange-Apps machen ein Versprechen, das Whisper nicht macht. Whisper fügt in das eine Feld ein, in dem dein Cursor steht, immer eins nach dem anderen. Die Fallnotiz, die Lead-Beschreibung, das Opportunity-Feld, der Chatter-Beitrag — wohin du geklickt hast. Es versteht das Salesforce-Datenmodell nicht. Es wird nicht „protokolliere einen Anruf, setze den nächsten Schritt auf eine Demo und aktualisiere das Abschlussdatum“ hören und diese drei Fakten auf drei Datensatzfelder verteilen. Es ist mit Absicht das Einfachere: Cursor setzen, reden, der Text landet dort. Dasselbe Ein-Feld-nach-dem-anderen-Modell ist auch die Art, wie Whisper in einer ClickUp-Aufgabenbeschreibung und in HubSpot funktioniert.
Hier also die Fälle, in denen ich dir lieber zu etwas anderem rate.
- Du brauchst Anruftranskription, kein Notizdiktat. Nutze Einstein Conversation Insights. Es ist nativ, transkribiert die Anrufe und liefert Coaching-Erkenntnisse, die Whisper nicht kann. Whisper zeichnet keine Anrufe auf; es diktiert Text.
- Du brauchst automatische Feldzuordnung. Wenn ein gesprochener Absatz mehrere Datensatzfelder füllen soll, greif zu einer AppExchange-App wie Voice Assist, Outloud oder Rollio. Sie kennen das CRM auf eine Weise, wie Whisper es nicht tut, und kommen als verwaltete Pakete mit Admin-Steuerung.
- Du arbeitest nur mobil. Das Mikro deiner Handytastatur diktiert bereits kostenlos in die Felder von Salesforce Mobile. Whisper ist ein Desktop-Tool; es verdient seinen Platz auf dem Laptop, nicht auf dem Smartphone.
Greif zu Whisper, wenn du im Desktop-Lightning in jedes Feld diktieren willst, offline, damit die CRM-Daten auf deiner Maschine bleiben, kostenlos, ohne Karte und ohne AppExchange-Installation, und mit einem Hotkey für jede App — nicht nur für ein Browser-Tab. Richtest du es auf einem PC ein? Der Leitfaden zu Sprache-zu-Text unter Windows deckt den Hotkey und die OS-Besonderheiten ab.
Die erste Version von Whisper wurde auf einem Flug zusammengeschustert, weil das Tippen von Meeting-Notizen Abende auffraß, die ohnehin schon kurz waren. Salesforce-Vertriebler haben dasselbe Problem, nur im CRM-Gewand. Du brauchst nicht zu warten, bis Salesforce einen Diktier-Button wachsen lässt, und musst nicht auf den nächsten Einstein hoffen. Klicke ins Feld, halte die Taste, sag die Sache. Lade Whisper herunter und hör auf, die Gesprächsnotiz neu zu tippen.
Diktiere deine nächste Salesforce-Notiz
Klicke ins Feld, halte die Taste, sprich, lass los. Das Transkript landet dort, wo dein Cursor steht — in Salesforce und in jeder anderen App.
Kostenloser lokaler Modus für jedes angemeldete Konto. Für den Start ist keine Karte nötig.



