Von Denys Medvediev

Tutorial

Sprache zu Text in Zendesk: Anrufe vs. deine Antworten

Zendesk Talk transkribiert den Anruf des Kunden. Es tippt nicht deine Antwort. Für das Diktieren der Antwort, Notiz oder des Makros, das du tatsächlich schreibst, übernimmt ein systemweites Hotkey-Tool wie Whisper den Job — offline, im Agent Workspace und in jeder Nebenanwendung, in der du lebst.

Zuletzt aktualisiert: Juni 2026

Nahaufnahme des Schreibtischs eines Support-Mitarbeiters mit einem Headset, das auf ausgedruckten Diagrammen und Ticket-Dokumenten liegt

Sprache zu Text in Zendesk teilt sich in zwei verschiedene Dinge. Zendesk Talk transkribiert den aufgezeichneten Kundenanruf oder die Mailbox-Nachricht und hängt das Transkript ans Ticket-Protokoll an — es tippt nicht deine Antwort. Für das Diktieren der Antwort, Notiz oder des Makros, das du tatsächlich schreibst, hat Zendesk keine native Funktion; ein systemweites Tool wie Whisper erledigt das per Hotkey.

Die meisten Mitarbeiter, die danach suchen, wollen eines: aufhören, dieselbe Antwort heute zum vierzigsten Mal zu tippen, und sie einfach laut aussprechen. Die Lücke zwischen Sprechen und Tippen ist real — die meisten Menschen sprechen rund 150 Wörter pro Minute und tippen unter Warteschlangendruck vielleicht ein Drittel davon, was das ganze Argument für Diktieren ist. Die Suche ergibt also Sinn. Die Verwirrung liegt darin, was Zendesks Sprachfunktionen tatsächlich tun, denn sie klingen nach Diktat und sind es nicht. Ich habe gut zwanzig Minuten in Zendesks Dokumentation verbracht und mir eingeredet, ich hätte den Schalter fürs Agenten-Diktat übersehen. Hatte ich nicht. Es gibt keinen. Lass mich die Trennlinie sauber ziehen und dir dann den Teil zeigen, der funktioniert.

Hier die Kurzfassung. Zendesks Sprach-Tooling lebt auf dem Telefonkanal. Es hört dem Kunden zu. Das, was du dir vorstellst — du sprichst, und deine Worte landen im Antwortfeld — ist eine andere Kategorie und lebt auf Betriebssystemebene, nicht innerhalb von Zendesk. Sobald du diese Trennung erkennst, hört das Ganze auf, verwirrend zu sein.

Drück einen Hotkey, sprich, und deine Antwort tippt sich selbst

Die Mechanik ist eine Taste. Du hältst einen globalen Hotkey, du sprichst, du lässt los, und der Text landet dort, wo dein Cursor gerade sitzt — die öffentliche Antwort, eine interne Notiz, ein Makro-Inhalt, ein Guide-Artikel. Unter Windows ist die Voreinstellung Ctrl+Space; unter macOS ist es Command+Option, gehalten als Push-to-talk. Kein Menü, kein Upload, kein "Aufnahme klicken". Dieselbe Taste funktioniert im Zendesk Agent Workspace und in jeder anderen App, zu der du zwischen Tickets springst — Slack, Teams, Gmail, Notion.

Dieser letzte Punkt zählt mehr, als es klingt. Whisper ist eine native Desktop-App für Windows und macOS, keine Browser-Erweiterung. Wenn du also aus dem Zendesk-Tab herausspringst, um in Slack die Entwicklung wegen eines Bugs anzupingen, funktioniert derselbe Hotkey weiterhin. Eine Browser-Erweiterung endet am Rand des Tabs. Dieselbe Reichweite auf Betriebssystemebene ist der Grund, warum der Trick auch in deinem CRM funktioniert — Mitarbeiter nutzen ihn genauso für Sprache zu Text in Salesforce und Diktieren in HubSpot.

Zendesk Talk transkribiert den Anruf. Es tippt nicht deine Antwort.

Headset, das auf Kundenservice-Diagrammen und Dokumenten auf dem Schreibtisch eines Mitarbeiters liegt

Das ist die Linie, über die jeder stolpert, also hier ganz klar. Laut Zendesks eigenen FAQ zur Anruftranskription nimmt Talk ein aufgezeichnetes Telefongespräch zwischen einem Kunden und einem Mitarbeiter und fügt nach Ende des Anrufs das Transkript und eine Zusammenfassung als interne Notizen zum Konversationsprotokoll des Tickets hinzu. Nur aufgezeichnete Anrufe werden transkribiert. Zendesk transkribiert außerdem Mailbox-Audio, das Zendesk mit rund einem Cent pro Minute berechnet.

All das ist der Sprachkanal. Er transkribiert den Anruf, in dem der Kunde steckt. Er ist wirklich nützlich — wenn du eine schriftliche Aufzeichnung eines gesprochenen Anrufs am Ticket willst, ist genau das Zendesks Aufgabe, und du solltest sie nutzen.

Was er nicht ist, ist ein Agenten-Diktat. Keine dieser Funktionen lässt dich deine getippte Antwort in den Editor sprechen. Die nüchterne Wahrheit ist, dass Zendesk dafür keine native Funktion hat. Ein Zendesk-Mitarbeiter hat das im firmeneigenen Community-Forum bestätigt: Echtzeit-Sprachtranskription war nur in der Roadmap und rutschte von Anfang 2024 in ein späteres Quartal, und selbst dieser Punkt betraf den Anrufkanal, nicht das Agenten-Diktat. Ein separater Anfrage-Thread, der nach Speech-to-Text-Tippen fragte, blieb unbeantwortet. Der Workaround, den ein Mitarbeiter im Thread vorschlug, war, Chromes Live-Untertitel einzuschalten, was dir zeigt, wie weit das von einer echten Funktion entfernt ist. Wenn die offizielle Antwort auf "Kann ich meine Antworten diktieren" lautet "Hast du das Bedienungshilfen-Menü des Browsers probiert", dann ist die ehrliche Antwort nein.

Was Zendesk bei Sprache tatsächlich hat — und was nicht

Drei Dinge versprechen drei verschiedene Ergebnisse, und nur zwei davon existieren. Hier die ehrliche Übersicht:

  • Aufgezeichnete Anrufe — Zendesk transkribiert sie und legt das Transkript im Ticket-Protokoll ab.
  • Mailbox-Audio — Zendesk transkribiert es ebenfalls und speist damit Triage und Zusammenfassungen.
  • Deine getippte Antwort, per Sprache diktiert — das macht Zendesk überhaupt nicht.

Wenn du also hierhergekommen bist in der Hoffnung, dich durch die Warteschlange zu reden, bringen dich Zendesks Sprachfunktionen nicht ans Ziel. Sie sind rund um das Audio des Kunden gebaut, nicht um deine Tastatur. Whisper sitzt genau in dieser Lücke — es ist ein Diktat-Tool auf Betriebssystemebene, also funktioniert es im Editor des Agent Workspace genauso wie Tippen, denn für den Browser ist es einfach Text, der am Cursor ankommt.

So diktierst du in eine Zendesk-Ticketantwort, -Notiz oder ein -Makro

Cancel
Das Live-Aufnahme-Overlay: eine kleine Anzeige, die erscheint, während du sprichst, damit du weißt, dass Whisper zuhört — nichts, das deinen Bildschirm kapert.

Die Einrichtung ist kurz. Hier das Ganze, von Anfang bis Ende.

  1. Installiere Whisper für Windows oder macOS und melde dich an. Die gesamte lokale Pipeline ist für angemeldete Nutzer kostenlos, ohne Karte bei der Anmeldung.
  2. Wähle ein Modell und lass es herunterladen. Der einmalige Download liegt je nach gewähltem Modell bei etwa 140 MB bis 3 GB. Danach braucht die Transkription kein Internet.
  3. Öffne ein Ticket im Agent Workspace und klicke in das gewünschte Feld — die öffentliche Antwort, eine interne Notiz oder den Inhalt eines Makros, das du gerade bearbeitest.
  4. Halte den Hotkey und sprich. Ctrl+Space unter Windows, Command+Option unter macOS. (Wenn du das auf einem PC einrichtest, behandelt die Windows-Anleitung für Sprache zu Text den Hotkey ausführlicher.) Sag die Antwort so, wie du sie dem Kunden ins Gesicht sagen würdest.
  5. Lass die Taste los. Der Text landet am Cursor im fokussierten Feld. Lies ihn, korrigiere, was nötig ist, sende.

Das Aufnahme-Overlay oben zeigt, was du siehst, während du sprichst — eine kleine Live-Anzeige, nichts, das deinen Bildschirm kapert. Wenn die Antwort das erste Mal einfach im Editor erscheint, fühlt es sich ein bisschen illegal an. Dieses Gefühl verfliegt etwa ab Ticket fünf. Dass der Handkrampf verschwindet, ist der Teil, der bleibt.

Die ganze App, live

Whisper
Die echte Whisper-Desktop-App, eingebettet und anklickbar — stöbere durch die Einstellungen, die Modellliste und die Hotkey-Konfiguration. Was du siehst, ist das, was installiert wird.

Das ist die echte Desktop-App, oben eingebettet — kein Screenshot, das tatsächliche Ding. Stöbere darin herum. Die Einstellungen, die Modellliste, die Hotkey-Konfiguration sind alle da. Was du siehst, ist das, was installiert wird.

Räum das Diktat automatisch auf

Thinking...

Gesprochene Sprache hat verstreute "ähm"s und wirft Sätze durcheinander. Whisper kann optional einen KI-Aufräumdurchlauf über das rohe Transkript laufen lassen — Zeichensetzung, Groß- und Kleinschreibung und ein leichtes Glätten des Tons — bevor es einfügt. Im kostenlosen lokalen Modus läuft dieses Aufräumen auf deinem Rechner über Ollama; mit Whisper Pro läuft es über deinen eigenen OpenAI-Schlüssel. Für eine öffentliche Antwort, die eine QA-Leitung lesen wird, ist dieser Durchlauf der Unterschied zwischen "gesprochenen Notizen" und "einer Antwort, die die Prüfung besteht".

Es beherrscht in beiden Modi über 90 Sprachen, was zählt, wenn deine Ticket-Warteschlange vor dem Mittagessen zwischen Englisch, Spanisch und Deutsch wechselt — ungefähr so viele Sprachen, wie mein Siebenjähriger benutzt, um die Schlafenszeit auszuhandeln. Die mehrsprachige Modellreihe erreicht konkret über 99 Sprachen; die rein englischen Varianten decken allein Englisch ab.

Warum lokal und offline zählt, wenn du mit Kundendaten umgehst

Ein Gerät, in Kette und Vorhängeschloss gewickelt, das private, abgeschottete Daten symbolisiert, die den Rechner nie verlassen

Hier die eine Meinung, die ich mir in diesem Artikel erlaube: Ein Diktat, das nur in der Cloud läuft, ohne Offline-Option, ist eine Datenschutzkatastrophe, wenn du ein Support-Mitarbeiter bist. Du liest die E-Mail eines Kunden vor, seine Bestellung, manchmal seine Privatadresse oder einen Kartenstreit. Mit einem reinen Cloud-Tool macht all das einen Umweg über die Server eines Dritten — aus keinem anderen Grund, als dass du sprechen statt tippen wolltest. Ein Tool, das das Ganze auf deinem eigenen Rechner laufen lassen kann, verlangt diesen Tausch nicht von dir.

Whispers lokaler Modus läuft vollständig offline. Das Audio verlässt nie deinen Rechner; das Einzige, das je das Netzwerk berührt, ist der einmalige Modell-Download. Die personenbezogenen Kundendaten, die du in eine Antwort sprichst, bleiben auf dem Gerät. Die Browser-Erweiterungen und Cloud-Diktat-Tools, die diese Suche dominieren, können das nicht behaupten — sie schicken dein Audio zur Transkription hinaus. Wenn deine Support-Organisation regulierte Daten verarbeitet, ist "das Audio hat nie den Laptop verlassen" ein Satz, den dein Sicherheitsteam hören will.

Was es nicht tut (die ehrlichen Grenzen)

Kein Tool verdient ein reines Gesundheitszeugnis, also hier, wo Whisper aufhört.

Es fügt in jeweils ein fokussiertes Feld ein. Es füllt kein ganzes Ticket-Formular mit mehreren Feldern aus, und es entscheidet nicht, in welches Feld deine Worte gehören — sie landen dort, wo der Cursor ist. Das heißt, du musst vor dem Sprechen auf den Unterschied zwischen der öffentlichen Antwort und der internen Notiz achten. Diktier ins falsche, und du kannst eine interne Notiz direkt an den Kunden durchsickern lassen. Der Cursor tut genau das, worauf du ihn richtest, was je nachdem, wohin du gezeigt hast, entweder ein Feature oder ein Geständnis ist. Erst klicken, dann sprechen.

Es fügt Text ein, keine Formatierung. Es betätigt nicht den Fettschrift-Button des Editors und baut auch keine Aufzählungsliste per Sprache — es tippt Wörter in CKEditor, genau wie deine Tastatur es täte. Und wie jedes Diktat-Tool ist es am schwächsten bei Zeichenketten, die keine Wörter sind: Konto-IDs, Bestellnummern, SKU-Codes, Fehlercodes. Ich habe zugesehen, wie es aus "Ticket ZD Strich vier vier null zwei" etwas mit einer Vier zu viel gemacht hat, was genau die Art von Detail ist, die ein Kunde bemerkt. Es transkribiert, was du sagst, aber überprüf jeden Code mit dem Auge, bevor du auf Senden drückst.

Wann du Whisper überspringst und etwas anderes nimmst

Minimalistischer Büroschreibtisch mit Tastatur und Monitor, der eine Entscheidung über das richtige Support-Tool einrahmt

Mir ist lieber, du nutzt das richtige Tool als unseres. Wenn du eine schriftliche Aufzeichnung eines gesprochenen Anrufs am Ticket brauchst, ist das die Anruftranskription von Zendesk Talk — das ist Zendesks Aufgabe, nicht Whispers, und sie ist bereits in deinen Telefonkanal eingebaut. Greif nicht zu einer Diktat-App, um ein Anrufprotokoll-Problem zu lösen.

Wenn du nur gelegentlich eine Antwort diktieren willst und nichts installieren möchtest, liefert dein Betriebssystem bereits eine kostenlose Option mit. Windows hat Spracheingabe über Win+H; macOS hat eine eingebaute Diktierfunktion. Beide funktionieren systemweit, auch im Zendesk-Editor. Sie sind plattformgebunden, stützen sich standardmäßig auf die Cloud und geben dir weniger Kontrolle — aber für einen Mitarbeiter an einem Rechner, der zweimal am Tag diktiert, ist kostenlos und bereits installiert ein fairer Tausch.

Greif zu Whisper, wenn du die Warteschlange jeden Tag per Sprache leeren willst, es offline willst, damit Kundendaten bleiben, wo sie sind, einen einzigen Hotkey über Zendesk und die Nebenanwendungen hinweg willst, in denen du lebst, und es kostenlos ohne Karte willst. Whisper ist bei der Anmeldung kostenlos für die lokale Pipeline; die Pro-Cloud-Oberfläche fügt eine 7-tägige Testphase hinzu. Die aktuellen Zahlen stehen auf der Preisseite.

Zendesk hört dem Anruf des Kunden zu. Es wurde nie gebaut, um deine Hälfte des Gesprächs zu tippen. Diese zweite Aufgabe — du sprichst, deine Worte landen im Antwortfeld — ist die, die einen 200-Ticket-Tag in etwas verwandelt, das deine Handgelenke dir verzeihen. Klick das Feld an, halt die Taste, sprich. Lade Whisper herunter und leere ein Ticket per Sprache. Wenn deine Hände dir bis zum Mittagessen nicht danken, geh zurück zum Tippen.

Leere dein nächstes Ticket per Sprache

Klick das Feld an, halt die Taste, sprich, lass los. Die Antwort landet am Cursor — im Zendesk Agent Workspace und in jeder Nebenanwendung, in der du lebst.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte nötig, um zu starten.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest — höchstwahrscheinlich, indem ich die Antworten diktiere.