Poradnik
Zamiana głosu na tekst w Zendesku: rozmowy kontra Twoje odpowiedzi
Zendesk Talk transkrybuje rozmowę z klientem. Nie wpisuje za to Twojej odpowiedzi. Do dyktowania odpowiedzi, notatki czy makra, które faktycznie piszesz, służy działające w całym systemie narzędzie z klawiszem skrótu, takie jak Whisper — offline, w Agent Workspace i w każdej aplikacji obok, w której spędzasz dzień.
Ostatnia aktualizacja: czerwiec 2026

Zamiana głosu na tekst w Zendesku dzieli się na dwie różne rzeczy. Zendesk Talk transkrybuje nagraną rozmowę z klientem albo pocztę głosową i dołącza transkrypcję do dziennika zgłoszenia — nie wpisuje Twojej odpowiedzi. Do dyktowania odpowiedzi, notatki czy makra, które naprawdę piszesz, Zendesk nie ma natywnej funkcji; robi to za to narzędzie działające w całym systemie, takie jak Whisper, za pomocą klawisza skrótu.
Większość agentów, którzy tego szukają, chce jednego: przestać po raz czterdziesty dzisiaj wpisywać tę samą odpowiedź i po prostu wypowiedzieć ją na głos. Różnica między mówieniem a pisaniem jest realna — większość ludzi mówi około 150 słów na minutę, a pisze może jedną trzecią tego pod presją kolejki, i to jest cały argument za dyktowaniem. Więc to wyszukiwanie ma sens. Mylące jest to, co tak naprawdę robią funkcje głosowe Zendeska, bo brzmią jak dyktowanie, a nim nie są. Spędziłem dobre dwadzieścia minut w dokumentacji Zendeska, przekonując sam siebie, że przegapiłem przełącznik dyktowania dla agenta. Nie przegapiłem. Po prostu go nie ma. Wytyczmy więc tę granicę porządnie, a potem pokażę Ci tę część, która działa.
W skrócie wygląda to tak. Narzędzia głosowe Zendeska żyją na kanale telefonicznym. Słuchają klienta. To, co sobie wyobrażasz — Ty mówisz, a Twoje słowa lądują w polu odpowiedzi — to inna kategoria i działa na poziomie systemu operacyjnego, a nie wewnątrz Zendeska. Gdy raz zobaczysz ten podział, cała rzecz przestaje być myląca.
Naciśnij skrót, mów, a odpowiedź wpisze się sama
Cała mechanika to jeden klawisz. Przytrzymujesz globalny skrót, mówisz, puszczasz, a tekst ląduje tam, gdzie stoi kursor — w publicznej odpowiedzi, notatce wewnętrznej, treści makra czy artykule w Guide. W systemie Windows domyślnie jest to Ctrl+Space; na macOS to Command+Option przytrzymane jak przycisk „mów”. Żadnego menu, żadnego wgrywania, żadnego „kliknij nagrywaj”. Ten sam klawisz działa w Zendesk Agent Workspace i w każdej innej aplikacji, do której przeskakujesz między zgłoszeniami — Slack, Teams, Gmail, Notion.
Ta ostatnia rzecz znaczy więcej, niż brzmi. Whisper to natywna aplikacja desktopowa dla Windows i macOS, a nie rozszerzenie przeglądarki. Więc kiedy wyskakujesz z karty Zendeska przez alt-tab, żeby napisać do inżynierów na Slacku o jakimś błędzie, ten sam skrót nadal działa. Rozszerzenie przeglądarki zatrzymuje się na krawędzi karty. Ten sam zasięg na poziomie systemu sprawia, że sztuczka działa też w Twoim CRM-ie — agenci używają jej tak samo do zamiany głosu na tekst w Salesforce oraz dyktowania w HubSpot.
Zendesk Talk transkrybuje rozmowę. Nie wpisuje Twojej odpowiedzi.

To granica, na której wszyscy się potykają, więc tu jest postawiona wprost. Zgodnie z własnym FAQ Zendeska o transkrypcji rozmów Talk bierze nagraną rozmowę telefoniczną między klientem a agentem i po jej zakończeniu dodaje transkrypcję oraz podsumowanie do dziennika konwersacji w zgłoszeniu jako notatki wewnętrzne. Transkrybowane są tylko nagrane rozmowy. Zendesk transkrybuje też nagrania poczty głosowej, które wycenia na około centa za minutę.
To wszystko jest kanałem głosowym. Transkrybuje rozmowę, na której jest klient. Jest to naprawdę przydatne — jeśli chcesz mieć pisemny zapis wypowiedzianej rozmowy dołączony do zgłoszenia, to dokładnie zadanie Zendeska i powinieneś z niego korzystać.
Czym to nie jest, to dyktowanie po stronie agenta. Żadna z tych funkcji nie pozwala Ci wypowiedzieć do edytora odpowiedzi, którą zwykle wpisujesz. Nudna prawda jest taka, że Zendesk nie ma do tego natywnej funkcji. Pracownik Zendeska potwierdził to na firmowym forum społeczności: transkrypcja głosu w czasie rzeczywistym była tylko na mapie drogowej i przesunęła się z początku 2024 roku na późniejszy kwartał, a nawet ten element dotyczył kanału telefonicznego, nie dyktowania przez agenta. Osobny wątek z prośbą o pisanie metodą zamiany mowy na tekst pozostał bez odpowiedzi. Obejście zasugerowane w wątku przez pracownika to włączenie napisów na żywo w Chrome, co pokazuje, jak daleko stąd do prawdziwej funkcji. Kiedy oficjalna odpowiedź na pytanie „czy mogę dyktować swoje odpowiedzi” brzmi „a próbowałeś menu ułatwień dostępu w przeglądarce”, uczciwa odpowiedź brzmi: nie.
Co Zendesk naprawdę ma dla głosu, a czego nie ma
Trzy rzeczy obiecują trzy różne efekty, a istnieją tylko dwie z nich. Oto uczciwa mapa:
- Nagrane rozmowy — Zendesk je transkrybuje i zapisuje transkrypcję w dzienniku zgłoszenia.
- Nagrania poczty głosowej — Zendesk też je transkrybuje, zasilając selekcję zgłoszeń i podsumowania.
- Twoja wpisywana odpowiedź, podyktowana głosem — tego Zendesk nie robi w ogóle.
Więc jeśli przyszedłeś tu z nadzieją, że przegadasz całą kolejkę, funkcje głosowe Zendeska Cię tam nie zaprowadzą. Są zbudowane wokół dźwięku klienta, a nie Twojej klawiatury. Whisper siedzi w tej luce — to narzędzie do dyktowania na poziomie systemu operacyjnego, więc działa w edytorze Agent Workspace dokładnie tak jak pisanie, bo dla przeglądarki to po prostu tekst pojawiający się przy kursorze.
Jak dyktować do odpowiedzi, notatki lub makra w zgłoszeniu Zendeska
Konfiguracja jest krótka. Oto całość, od początku do końca.
- Zainstaluj Whisper na Windows lub macOS i zaloguj się. Cały lokalny proces jest darmowy dla zalogowanych użytkowników, bez karty przy rejestracji.
- Wybierz model i pozwól mu się pobrać. Jednorazowe pobranie waży od około 140 MB do 3 GB, zależnie od wybranego modelu. Potem transkrypcja nie potrzebuje internetu.
- Otwórz zgłoszenie w Agent Workspace i kliknij w pole, którego chcesz użyć — publiczną odpowiedź, notatkę wewnętrzną albo treść makra, które edytujesz.
- Przytrzymaj skrót i mów. Ctrl+Space na Windows, Command+Option na macOS. (Jeśli konfigurujesz to na pececie, przewodnik po zamianie głosu na tekst w Windows opisuje ten skrót dokładniej.) Powiedz odpowiedź tak, jakbyś mówił ją klientowi prosto w twarz.
- Puść klawisz. Tekst ląduje przy kursorze w aktywnym polu. Przeczytaj, popraw, co trzeba, wyślij.
Nakładka nagrywania powyżej pokazuje, co zobaczysz, gdy mówisz — mały wskaźnik na żywo, nic, co przejmuje ekran. Za pierwszym razem, gdy odpowiedź po prostu pojawia się w edytorze, czujesz się odrobinę jak na granicy prawa. To uczucie znika gdzieś przy piątym zgłoszeniu. Znikanie skurczu w dłoni to ta część, która zostaje.
Cała aplikacja, na żywo
To prawdziwa aplikacja desktopowa osadzona powyżej — nie zrzut ekranu, lecz sama rzecz. Pogrzeb w niej. Ustawienia, lista modeli, konfiguracja skrótu — wszystko tam jest. To, co widzisz, to to, co się instaluje.
Wyczyść dyktowanie automatycznie
Język mówiony ma rozsiane „yyy” i zlewa zdania w jedno. Whisper może uruchomić opcjonalny przebieg czyszczący AI na surowej transkrypcji — interpunkcja, wielkość liter i lekkie wygładzenie tonu — zanim wklei tekst. W darmowym trybie lokalnym to czyszczenie działa na Twoim komputerze przez Ollama; w Whisper Pro działa przez Twój własny klucz OpenAI. Przy publicznej odpowiedzi, którą przeczyta lider kontroli jakości, ten przebieg to różnica między „notatkami z mowy” a „odpowiedzią, która przechodzi weryfikację”.
Obsługuje ponad 90 języków w obu trybach, co ma znaczenie, jeśli Twoja kolejka zgłoszeń przeskakuje między angielskim, hiszpańskim i niemieckim jeszcze przed obiadem — mniej więcej tyle języków, ilu używa mój siedmiolatek, żeby wynegocjować odłożenie pójścia spać. Linia modeli wielojęzycznych sięga konkretnie 99 i więcej języków; warianty wyłącznie angielskie obejmują sam angielski.
Dlaczego lokalność i tryb offline mają znaczenie, gdy pracujesz na danych klientów

Oto jedyna opinia, na którą sobie pozwolę w tym artykule: dyktowanie, które działa wyłącznie w chmurze, bez opcji offline, to katastrofa dla prywatności, gdy jesteś agentem wsparcia. Czytasz na głos e-mail klienta, jego zamówienie, czasem domowy adres albo reklamację karty. Przy narzędziu działającym tylko w chmurze to wszystko robi objazd przez serwery osoby trzeciej — bez żadnego powodu poza tym, że chciałeś mówić zamiast pisać. Narzędzie, które potrafi przetworzyć całość na Twoim komputerze, nie każe Ci iść na ten kompromis.
Tryb lokalny Whisper działa w pełni offline. Dźwięk nigdy nie opuszcza Twojego komputera; sieci dotyka tylko raz, przy jednorazowym pobraniu modelu. Dane osobowe klienta, które wypowiadasz do odpowiedzi, zostają na urządzeniu. Narzędzia do dyktowania w postaci rozszerzeń przeglądarki i z chmury, które dominują w tym wyszukiwaniu, nie mogą tego powiedzieć — wysyłają Twój dźwięk na zewnątrz, żeby go przetranskrybować. Jeśli Twój dział wsparcia pracuje na danych regulowanych, „dźwięk nigdy nie opuścił laptopa” to zdanie, które Twój zespół ds. bezpieczeństwa będzie chciał usłyszeć.
Czego nie zrobi (uczciwe granice)
Żadne narzędzie nie zasługuje na czyste świadectwo zdrowia, więc oto miejsce, w którym Whisper się zatrzymuje.
Wkleja do jednego aktywnego pola naraz. Nie wypełnia całego wielopolowego formularza zgłoszenia ani nie decyduje, do którego pola należą Twoje słowa — lądują tam, gdzie stoi kursor. To znaczy, że zanim zaczniesz mówić, musisz pilnować różnicy między publiczną odpowiedzią a notatką wewnętrzną. Podyktuj do złego pola, a możesz wypuścić notatkę wewnętrzną prosto do klienta. Kursor robi dokładnie to, na co go skierujesz, co jest albo funkcją, albo spowiedzią, zależnie od tego, gdzie go skierowałeś. Najpierw kliknij, potem mów.
Wstawia tekst, a nie formatowanie. Nie naciśnie za Ciebie przycisku pogrubienia w edytorze ani nie zbuduje głosem listy punktowanej — wpisuje słowa do CKEditor, tak samo jak Twoja klawiatura. I jak każde narzędzie do dyktowania, najsłabiej radzi sobie z ciągami, które nie są słowami: identyfikatory kont, numery zamówień, kody SKU, kody błędów. Widziałem, jak zamieniło „zgłoszenie ZD myślnik cztery cztery zero dwa” na coś z jedną czwórką za dużo, czyli dokładnie ten rodzaj szczegółu, który klient zauważa. Transkrybuje to, co mówisz, ale prześwietl wzrokiem każdy kod, zanim wciśniesz wyślij.
Kiedy odpuścić Whisper i sięgnąć po coś innego

Wolę, żebyś użył właściwego narzędzia niż naszego. Jeśli potrzebujesz pisemnego zapisu wypowiedzianej rozmowy dołączonego do zgłoszenia, to transkrypcja rozmów w Zendesk Talk — to zadanie Zendeska, a nie Whisper, i jest już wbudowane w Twój kanał telefoniczny. Nie sięgaj po aplikację do dyktowania, żeby rozwiązać problem rejestrowania rozmów.
Jeśli chcesz tylko od czasu do czasu podyktować odpowiedź i nie masz ochoty nic instalować, Twój system operacyjny już ma darmową opcję. Windows ma wpisywanie głosowe pod Win+H; macOS ma wbudowane Dyktowanie. Oba działają w całym systemie, także w edytorze Zendeska. Są jednoplatformowe, domyślnie polegają na chmurze i dają mniej kontroli — ale dla agenta na jednym komputerze, który dyktuje dwa razy dziennie, darmowe i już zainstalowane to uczciwy układ.
Sięgnij po Whisper, gdy chcesz codziennie czyścić kolejkę głosem, chcesz go offline, żeby dane klientów zostawały na miejscu, chcesz jednego skrótu w Zendesku i aplikacjach obok, w których spędzasz dzień, i chcesz go za darmo bez karty. Whisper jest darmowy dla lokalnego procesu przy rejestracji; warstwa Pro Cloud dodaje 7-dniowy okres próbny. Aktualne liczby znajdziesz na stronie z cennikiem.
Zendesk słucha rozmowy z klientem. Nigdy nie był zbudowany po to, żeby wpisywać Twoją połowę rozmowy. To drugie zadanie — Ty mówisz, a Twoje słowa lądują w polu odpowiedzi — to ono zamienia dzień z dwustoma zgłoszeniami w coś, co wybaczą Ci nadgarstki. Kliknij pole, przytrzymaj klawisz, mów. Pobierz Whisper i wyczyść jedno zgłoszenie głosem. Jeśli Twoje dłonie nie podziękują Ci przed obiadem, wróć do pisania.
Wyczyść kolejne zgłoszenie głosem
Kliknij pole, przytrzymaj klawisz, mów, puść. Odpowiedź ląduje przy kursorze — w Zendesk Agent Workspace i w każdej aplikacji obok, w której spędzasz dzień.
Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty, żeby zacząć.



