Av Denys Medvediev

Guide

Tal till text i Zendesk: samtal kontra dina svar

Zendesk Talk transkriberar kundens samtal. Det skriver inte ditt svar. För att diktera svaret, anteckningen eller makrot som du faktiskt skriver tar ett systemövergripande snabbtangentsverktyg som Whisper hand om det — offline, i Agent Workspace och i varje sidoapp du lever i.

Senast uppdaterad: juni 2026

Närbild av en supportagents skrivbord med ett headset som vilar på utskrivna diagram och ärendedokument

Tal till text i Zendesk delas upp i två olika saker. Zendesk Talk transkriberar det inspelade kundsamtalet eller röstmeddelandet och bifogar transkriptionen till ärendeloggen — det skriver inte ditt svar. För att diktera svaret, anteckningen eller makrot som du faktiskt skriver har Zendesk ingen inbyggd funktion; ett systemövergripande verktyg som Whisper sköter det med en snabbtangent.

De flesta agenter som söker på det här vill en sak: att sluta skriva samma svar för fyrtionde gången idag och bara säga det högt. Glappet mellan att tala och att skriva är verkligt — de flesta talar omkring 150 ord i minuten och skriver kanske en tredjedel av det under köpress, vilket är hela poängen med diktering. Så sökningen är logisk. Förvirringen ligger i vad Zendesks röstfunktioner faktiskt gör, för de låter som diktering men är det inte. Jag tillbringade en god tjugo minuter i Zendesks dokumentation och övertygade mig själv om att jag missat reglaget för agentdiktering. Det hade jag inte. Det finns inget. Låt mig dra gränsen tydligt och sedan visa dig den del som funkar.

Här är kortversionen. Zendesks röstverktyg bor på telefonkanalen. Det lyssnar på kunden. Det du föreställer dig — du, som talar, och dina ord som hamnar i svarsrutan — är en annan kategori, och den bor på operativsystemnivå, inte inuti Zendesk. När du väl ser den uppdelningen slutar det hela vara förvirrande.

Tryck på en snabbtangent, prata, och ditt svar skriver sig självt

Mekaniken är en tangent. Du håller in en global snabbtangent, du pratar, du släpper, och texten hamnar där markören sitter — det offentliga svaret, en intern anteckning, en makrokropp, en Guide-artikel. På Windows är standardvalet Ctrl+Space; på macOS är det Command+Option som hålls in för push-to-talk. Ingen meny, ingen uppladdning, inget "klicka för att spela in." Samma tangent fungerar i Zendesk Agent Workspace och i varje annan app du hoppar till mellan ärenden — Slack, Teams, Gmail, Notion.

Den sista biten spelar större roll än den låter. Whisper är en inbyggd skrivbordsapp för Windows och macOS, inte ett webbläsartillägg. Så när du alt-tabbar ut ur Zendesk-fliken för att pinga utvecklingen i Slack om en bugg, fungerar samma snabbtangent fortfarande. Ett webbläsartillägg stannar vid flikens kant. Samma räckvidd på OS-nivå är anledningen till att tricket funkar i ditt CRM också — agenter använder det på samma sätt för tal till text i Salesforce och diktering i HubSpot.

Zendesk Talk transkriberar samtalet. Det skriver inte ditt svar.

Headset som vilar på kundtjänstdiagram och dokument på en agents skrivbord

Det här är gränsen som alla snubblar på, så här är den rakt på sak. Enligt Zendesks egna FAQ om samtalstranskription tar Talk ett inspelat telefonsamtal mellan en kund och en agent, och efter att samtalet avslutats lägger det till transkriptionen och en sammanfattning i ärendets konversationslogg som interna anteckningar. Endast inspelade samtal transkriberas. Zendesk transkriberar även ljud från röstmeddelanden, vilket Zendesk prissätter till omkring en cent per minut.

Allt det här är röstkanalen. Det transkriberar samtalet kunden befinner sig i. Det är genuint användbart — om du vill ha en skriftlig dokumentation av ett talat samtal bifogad till ärendet är det precis Zendesks jobb, och du bör använda det.

Det det inte är är agentdiktering. Ingen av de funktionerna låter dig tala in ditt skrivna svar i redigeraren. Den tråkiga sanningen är att Zendesk inte har någon inbyggd funktion för det. En Zendesk-anställd bekräftade det i företagets eget forum: realtidstranskription av tal fanns bara på färdplanen och sköts upp från början av 2024 till ett senare kvartal, och även den punkten handlade om samtalskanalen, inte om agentdiktering. En separat tråd som efterfrågade tal-till-text-skrivning förblev obesvarad. Lösningen som en medarbetare föreslog i tråden var att slå på Chromes liveundertexter, vilket säger en del om hur långt detta är från en riktig funktion. När det officiella svaret på "kan jag diktera mina svar" är "har du provat webbläsarens tillgänglighetsmeny," är det ärliga svaret nej.

Vad Zendesk faktiskt har för röst, och vad det inte har

Tre saker lovar tre olika resultat, och bara två av dem finns. Här är den ärliga kartan:

  • Inspelade samtal — Zendesk transkriberar dem och arkiverar transkriptionen i ärendeloggen.
  • Ljud från röstmeddelanden — Zendesk transkriberar det också, vilket matar triage och sammanfattningar.
  • Ditt skrivna svar, dikterat med rösten — det här gör Zendesk inte alls.

Så om du kom hit i hopp om att prata dig igenom kön kommer Zendesks röstfunktioner inte ta dig dit. De är byggda kring kundens ljud, inte ditt tangentbord. Whisper sitter i det glappet — det är ett dikteringsverktyg på operativsystemnivå, så det fungerar inuti Agent Workspace-redigeraren på samma sätt som att skriva, för för webbläsaren är det bara text som anländer vid markören.

Så här dikterar du in i ett Zendesk-svar, en anteckning eller ett makro

Cancel
Live-inspelningsöverlägget: en liten indikator som dyker upp medan du pratar, så att du vet att Whisper lyssnar — inget som kapar din skärm.

Inställningen är kort. Här är hela grejen, från början till slut.

  1. Installera Whisper för Windows eller macOS och logga in. Hela den lokala pipelinen är gratis för inloggade användare, utan kort vid registreringen.
  2. Välj en modell och låt den laddas ner. Engångsnedladdningen ligger på ungefär 140 MB till 3 GB beroende på vilken modell du väljer. Efter det behöver transkriptionen ingen internetuppkoppling.
  3. Öppna ett ärende i Agent Workspace och klicka i fältet du vill ha — det offentliga svaret, en intern anteckning eller kroppen på ett makro du redigerar.
  4. Håll in snabbtangenten och prata. Ctrl+Space på Windows, Command+Option på macOS. (Om du sätter upp det här på en PC går genomgången av tal-till-text i Windows igenom snabbtangenten mer i detalj.) Säg svaret på samma sätt som du skulle säga det till kunden ansikte mot ansikte.
  5. Släpp tangenten. Texten hamnar vid markören i det fokuserade fältet. Läs den, fixa det som behöver fixas, skicka.

Inspelningsöverlägget ovan visar vad du kommer se medan du pratar — en liten live-indikator, inget som kapar din skärm. Första gången svaret bara dyker upp i redigeraren känns det nästan lite olagligt. Den känslan bleknar runt ärende fem. Att handvärken bleknar är den del som inte gör det.

Hela appen, live

Whisper
Den riktiga Whisper-skrivbordsappen, inbäddad och klickbar — peta runt i inställningarna, modelllistan och snabbtangentskonfigurationen. Det du ser är det som installeras.

Det där är den riktiga skrivbordsappen inbäddad ovan — inte en skärmdump, utan själva grejen. Peta runt i den. Inställningarna, modelllistan och snabbtangentskonfigurationen finns alla där. Det du ser är det som installeras.

Städa upp dikteringen automatiskt

Thinking...

Talat språk har strö-"öh"n och knyter ihop meningar. Whisper kan köra en valfri AI-städning över den råa transkriptionen — skiljetecken, versaler och en lätt tonputsning — innan den klistras in. I det fria lokala läget körs den städningen på din egen maskin via Ollama; med Whisper Pro körs den genom din egen OpenAI-nyckel. För ett offentligt svar som en QA-ansvarig ska läsa är det passet skillnaden mellan "talade anteckningar" och "ett svar som klarar granskningen."

Det hanterar över 90 språk i båda lägena, vilket spelar roll om din ärendekö växlar mellan engelska, spanska och tyska före lunch — ungefär lika många språk som min sjuåring använder för att förhandla om läggdags. Den flerspråkiga modellinjen når specifikt 99-plus språk; de enbart engelska varianterna täcker bara engelska.

Varför lokalt och offline spelar roll när du hanterar kunddata

En enhet inlindad i en kedja och ett hänglås, som symboliserar privat, inlåst data som aldrig lämnar maskinen

Här är den enda åsikt jag tänker spendera i den här artikeln: diktering som bara körs i molnet, utan offline-alternativ, är en integritetskatastrof när du är en supportagent. Du läser upp en kunds mejl, deras beställning, ibland deras hemadress eller en korttvist. Med ett verktyg som bara finns i molnet gör allt det en omväg via en tredje parts servrar — av ingen annan anledning än att du ville prata i stället för att skriva. Ett verktyg som kan köra hela grejen på din egen maskin ber dig inte göra den kompromissen.

Whispers lokala läge körs helt offline. Ljudet lämnar aldrig din maskin; den enda gången det rör nätverket är vid engångsnedladdningen av modellen. Den kund-PII du talar in i ett svar stannar på enheten. Webbläsartilläggen och molnbaserade dikteringsverktygen som dominerar den här sökningen kan inte säga det — de skickar ut ditt ljud för att transkriberas. Om din supportorganisation hanterar reglerad data är "ljudet lämnade aldrig datorn" en mening som ditt säkerhetsteam vill höra.

Vad det inte gör (de ärliga begränsningarna)

Inget verktyg förtjänar en ren bill of health, så här är var Whisper stannar.

Det klistrar in i ett fokuserat fält i taget. Det fyller inte i ett helt ärendeformulär med flera fält, och det bestämmer inte vilket fält dina ord hör hemma i — de hamnar där markören är. Det innebär att du måste hålla koll på skillnaden mellan det offentliga svaret och den interna anteckningen innan du pratar. Diktera in i fel fält och du kan läcka en intern anteckning rakt till kunden. Markören gör exakt det du pekar den mot, vilket antingen är en funktion eller en bekännelse beroende på var du pekade. Klicka först, prata sedan.

Det infogar text, inte formatering. Det styr inte redigerarens fetstilsknapp och bygger inte en punktlista med rösten — det skriver ord i CKEditor, precis som ditt tangentbord skulle göra. Och som varje dikteringsverktyg är det svagast på strängar som inte är ord: konto-ID:n, ordernummer, SKU-koder, felkoder. Jag har sett det förvandla "ärende ZD streck fyra fyra noll två" till något med en fyra för mycket, vilket är precis den sortens detalj en kund lägger märke till. Det transkriberar vad du säger, men ögna igenom varje kod innan du trycker på skicka.

När du ska hoppa över Whisper och använda något annat

Minimalistiskt kontorsskrivbord med ett tangentbord och en skärm, som inramar ett beslut om vilket supportverktyg man ska greppa efter

Jag vill hellre att du använder rätt verktyg än vårt. Om du behöver en skriftlig dokumentation av ett talat samtal bifogad till ärendet är det Zendesk Talk samtalstranskription — det är Zendesks jobb, inte Whispers, och det är redan inbyggt i din telefonkanal. Greppa inte efter en dikteringsapp för att lösa ett problem med samtalsloggning.

Om du bara vill diktera ett och annat svar och inte vill installera någonting, levereras ditt operativsystem redan med ett gratisalternativ. Windows har Röstinmatning på Win+H; macOS har inbyggd Diktering. Båda fungerar systemövergripande, även i Zendesk-redigeraren. De är enplattform, lutar sig mot molnet som standard och ger dig mindre kontroll — men för en agent på en maskin som dikterar två gånger om dagen är gratis och redan installerat en rimlig kompromiss.

Greppa efter Whisper när du vill rensa kön med rösten varje dag, vill ha det offline så att kunddata stannar där den är, vill ha en snabbtangent över Zendesk och sidoapparna du lever i, och vill ha det gratis utan kort. Whisper är gratis för den lokala pipelinen vid registreringen; Pro Cloud-ytan lägger till en 7-dagars provperiod. De aktuella siffrorna finns på prissidan.

Zendesk lyssnar på kundens samtal. Det byggdes aldrig för att skriva din halva av konversationen. Det andra jobbet — du som talar, dina ord som hamnar i svarsrutan — är det som förvandlar en dag med 200 ärenden till något dina handleder förlåter dig för. Klicka i fältet, håll in tangenten, prata. Ladda ner Whisper och rensa ett ärende med rösten. Om dina händer inte tackar dig till lunch, gå tillbaka till att skriva.

Rensa ditt nästa ärende med rösten

Klicka i fältet, håll in tangenten, prata, släpp. Svaret hamnar vid markören — i Zendesk Agent Workspace och i varje sidoapp du lever i.

Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att börja.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår supportmejl, troligen genom att diktera svaren.