Tutorial
Voz para texto no Zendesk: as chamadas vs as suas respostas
O Zendesk Talk transcreve a ligação do cliente. Ele não digita a sua resposta. Para ditar a resposta, a nota ou a macro que você realmente escreve, uma ferramenta de atalho global como o Whisper dá conta do recado — offline, dentro do Agent Workspace e em todos os apps paralelos que você usa o dia inteiro.
Última atualização: junho de 2026

Voz para texto no Zendesk se divide em duas coisas diferentes. O Zendesk Talk transcreve a chamada gravada do cliente ou o correio de voz e anexa a transcrição ao histórico do ticket — ele não digita a sua resposta. Para ditar a resposta, a nota ou a macro que você de fato escreve, o Zendesk não tem nenhum recurso nativo; uma ferramenta global como o Whisper resolve isso com um atalho.
A maioria dos agentes que procura por isso quer uma coisa só: parar de digitar a mesma resposta pela quadragésima vez no dia e simplesmente falar em voz alta. A diferença entre falar e digitar é real — a maioria das pessoas fala cerca de 150 palavras por minuto e digita talvez um terço disso sob a pressão da fila, e é exatamente nisso que se baseia o ditado. Então a busca faz todo o sentido. A confusão está no que os recursos de voz do Zendesk realmente fazem, porque eles parecem ditado e não são. Passei uns bons vinte minutos na documentação do Zendesk me convencendo de que tinha deixado passar a opção de ditado para agentes. Não tinha. Ela não existe. Deixa eu traçar essa linha com clareza e então mostrar a parte que funciona.
Aqui vai a versão curta. As ferramentas de voz do Zendesk vivem no canal de telefone. Elas escutam o cliente. A coisa que você está imaginando — você, falando, e as suas palavras caindo na caixa de resposta — é de outra categoria, e ela mora no nível do sistema operacional, não dentro do Zendesk. Quando você enxerga essa divisão, tudo deixa de ser confuso.
Aperte um atalho, fale, e a sua resposta se digita sozinha
O mecanismo é uma tecla só. Você segura um atalho global, fala, solta, e o texto cai onde o seu cursor estiver — na resposta pública, numa nota interna, no corpo de uma macro, num artigo do Guide. No Windows o padrão é Ctrl+Space; no macOS é Command+Option mantido pressionado como push-to-talk. Sem menu, sem upload, sem "clicar em gravar". A mesma tecla funciona no Zendesk Agent Workspace e em todos os outros apps para os quais você pula entre um ticket e outro — Slack, Teams, Gmail, Notion.
Essa última parte importa mais do que parece. O Whisper é um app nativo de desktop para Windows e macOS, não uma extensão de navegador. Então, quando você sai da aba do Zendesk com alt-tab para avisar a engenharia no Slack sobre um bug, o mesmo atalho continua funcionando. Uma extensão de navegador para na borda da aba. Esse mesmo alcance no nível do sistema operacional é o que faz o truque funcionar também no seu CRM — os agentes usam da mesma forma para voz para texto no Salesforce e ditado no HubSpot.
O Zendesk Talk transcreve a chamada. Ele não digita a sua resposta.

É nessa linha que todo mundo tropeça, então aqui está ela de forma direta. Conforme o próprio FAQ de transcrição de chamadas do Zendesk, o Talk pega uma ligação telefônica gravada entre um cliente e um agente e, depois que a chamada termina, adiciona a transcrição e um resumo ao histórico de conversa do ticket como notas internas. Apenas chamadas gravadas são transcritas. O Zendesk também transcreve áudios de correio de voz, que o Zendesk cobra por volta de um centavo por minuto.
Tudo isso é o canal de voz. Ele transcreve a chamada em que o cliente está. É genuinamente útil — se você quer um registro escrito de uma chamada falada anexado ao ticket, é exatamente para isso que o Zendesk serve, e você deveria usá-lo.
O que ele não é é ditado para agentes. Nenhum desses recursos deixa você falar a sua resposta digitada dentro do editor. A verdade sem graça é que o Zendesk não tem nenhum recurso nativo para isso. Um funcionário do Zendesk confirmou isso no próprio fórum da comunidade da empresa: a transcrição de voz em tempo real estava apenas no roadmap e escorregou do começo de 2024 para um trimestre posterior, e mesmo esse item era sobre o canal de chamadas, não sobre ditado para agentes. Uma thread separada que pedia digitação por fala-para-texto ficou sem resposta. A solução alternativa que um membro da equipe sugeriu na thread era ativar as legendas ao vivo do Chrome, o que mostra o quão longe isso está de ser um recurso de verdade. Quando a resposta oficial para "posso ditar as minhas respostas" é "você já tentou o menu de acessibilidade do navegador", a resposta honesta é não.
O que o Zendesk realmente tem para voz, e o que ele não tem
Três coisas prometem três resultados diferentes, e apenas duas delas existem. Aqui está o mapa honesto:
- Chamadas gravadas — o Zendesk as transcreve e arquiva a transcrição no histórico do ticket.
- Áudio de correio de voz — o Zendesk também o transcreve, alimentando a triagem e os resumos.
- A sua resposta digitada, ditada por voz — o Zendesk simplesmente não faz isso.
Então, se você veio até aqui esperando atravessar a fila falando, os recursos de voz do Zendesk não vão te levar lá. Eles são construídos em torno do áudio do cliente, não do seu teclado. O Whisper se encaixa nessa lacuna — é uma ferramenta de ditado no nível do sistema operacional, então ele funciona dentro do editor do Agent Workspace do mesmo jeito que a digitação, porque para o navegador é só texto chegando no cursor.
Como ditar dentro de uma resposta, nota ou macro de ticket no Zendesk
A configuração é curta. Aqui está tudo, do início ao fim.
- Instale o Whisper para Windows ou macOS e faça login. Todo o pipeline local é gratuito para usuários autenticados, sem cartão no cadastro.
- Escolha um modelo e deixe ele baixar. O download único vai de cerca de 140 MB a 3 GB, dependendo do modelo que você escolher. Depois disso, a transcrição não precisa de internet.
- Abra um ticket no Agent Workspace e clique no campo que você quer — a resposta pública, uma nota interna ou o corpo de uma macro que você está editando.
- Segure o atalho e fale. Ctrl+Space no Windows, Command+Option no macOS. (Se você estiver configurando isso num PC, o passo a passo de voz para texto no Windows explica o atalho com mais detalhes.) Diga a resposta do jeito que você diria na frente do cliente.
- Solte a tecla. O texto cai no cursor, no campo em foco. Leia, ajuste o que precisar, envie.
O overlay de gravação acima mostra o que você vai ver enquanto fala — um pequeno indicador ao vivo, nada que sequestre a sua tela. Na primeira vez em que a resposta simplesmente aparece no editor, parece quase ilegal. Essa sensação some por volta do quinto ticket. A cãibra na mão sumindo é a parte que não some.
O app inteiro, ao vivo
É o app de desktop de verdade embutido acima — não uma captura de tela, a coisa de verdade. Explore-o. As configurações, a lista de modelos, a configuração do atalho estão todas ali. O que você vê é o que se instala.
Limpe o ditado automaticamente
A linguagem falada tem "é"s soltos e emenda as frases umas nas outras. O Whisper pode rodar uma passada opcional de limpeza por IA sobre a transcrição crua — pontuação, capitalização e um leve ajuste de tom — antes de colar. No modo local gratuito, essa limpeza roda na sua máquina via Ollama; com o Whisper Pro, ela roda pela sua própria chave OpenAI. Para uma resposta pública que um líder de QA vai ler, essa passada é a diferença entre "anotações faladas" e "uma resposta que passa na revisão".
Ele dá conta de mais de 90 idiomas nos dois modos, o que importa se a sua fila de tickets alterna entre inglês, espanhol e alemão antes do almoço — mais ou menos o mesmo número de idiomas que meu filho de sete anos usa para negociar a hora de dormir. A linha de modelos multilíngue chega a 99 e tantos idiomas; as variantes só em inglês cobrem apenas o inglês.
Por que local e offline importa quando você lida com dados de clientes

Aqui vai a única opinião que vou gastar neste artigo: ditado que só roda na nuvem, sem opção offline, é um desastre de privacidade quando você é agente de suporte. Você lê em voz alta o e-mail de um cliente, o pedido dele, às vezes o endereço residencial ou uma contestação de cartão. Com uma ferramenta só de nuvem, tudo isso faz um desvio pelos servidores de terceiros — sem outro motivo além de você ter querido falar em vez de digitar. Uma ferramenta que consegue rodar tudo na sua própria máquina não te pede para fazer essa troca.
O modo local do Whisper roda inteiramente offline. O áudio nunca sai da sua máquina; a única vez em que ele toca a rede é no download único do modelo. As PII de cliente que você fala dentro de uma resposta ficam no dispositivo. As ferramentas de ditado em nuvem e por extensão de navegador que dominam essa busca não podem dizer o mesmo — elas mandam o seu áudio para fora para ser transcrito. Se a sua operação de suporte lida com dados regulamentados, "o áudio nunca saiu do notebook" é uma frase que o seu time de segurança vai querer ouvir.
O que ele não vai fazer (os limites honestos)
Nenhuma ferramenta merece um atestado de saúde impecável, então aqui é onde o Whisper para.
Ele cola num campo em foco por vez. Ele não preenche um formulário de ticket inteiro com vários campos, e não decide em qual campo as suas palavras pertencem — elas vão para onde o cursor estiver. Isso significa que você precisa prestar atenção à diferença entre a resposta pública e a nota interna antes de falar. Dite no campo errado e você pode vazar uma nota interna direto para o cliente. O cursor faz exatamente o que você aponta, o que é tanto um recurso quanto uma confissão, dependendo de onde você apontou. Clique primeiro, depois fale.
Ele insere texto, não formatação. Ele não vai acionar o botão de negrito do editor nem montar uma lista com marcadores por voz — ele digita palavras no CKEditor, igualzinho ao seu teclado faria. E, como toda ferramenta de ditado, ele é mais fraco em sequências que não são palavras: IDs de conta, números de pedido, códigos de SKU, códigos de erro. Já vi ele transformar "ticket ZD traço quatro quatro zero dois" em algo com um quatro a mais, que é exatamente o tipo de detalhe que um cliente percebe. Ele transcreve o que você diz, mas confira qualquer código com o olho antes de apertar enviar.
Quando deixar o Whisper de lado e usar outra coisa

Prefiro que você use a ferramenta certa em vez da nossa. Se você precisa de um registro escrito de uma chamada falada anexado ao ticket, isso é a transcrição de chamadas do Zendesk Talk — esse é o trabalho do Zendesk, não do Whisper, e já vem embutido no seu canal de telefone. Não recorra a um app de ditado para resolver um problema de registro de chamadas.
Se você só quer ditar uma resposta de vez em quando e não quer instalar nada, o seu sistema operacional já vem com uma opção gratuita. O Windows tem a Digitação por Voz no Win+H; o macOS tem o Dictation embutido. Os dois funcionam em todo o sistema, inclusive no editor do Zendesk. Eles são de plataforma única, dependem da nuvem por padrão e te dão menos controle — mas, para um agente numa única máquina que dita duas vezes por dia, gratuito e já instalado é uma troca justa.
Recorra ao Whisper quando você quiser zerar a fila por voz todos os dias, quiser que ele seja offline para que os dados do cliente fiquem no lugar, quiser um único atalho entre o Zendesk e os apps paralelos que você usa o dia inteiro, e quiser tudo isso de graça e sem cartão. O Whisper é gratuito para o pipeline local no cadastro; a camada Pro Cloud acrescenta um teste de 7 dias. Os números atuais ficam na página de preços.
O Zendesk escuta a chamada do cliente. Ele nunca foi feito para digitar a sua metade da conversa. Esse segundo trabalho — você falando, as suas palavras caindo na caixa de resposta — é o que transforma um dia de 200 tickets em algo que os seus pulsos perdoam. Clique no campo, segure a tecla, fale. Baixe o Whisper e zere um ticket por voz. Se as suas mãos não agradecerem até a hora do almoço, volte a digitar.
Zere o seu próximo ticket por voz
Clique no campo, segure a tecla, fale, solte. A resposta cai no cursor — no Zendesk Agent Workspace e em todos os apps paralelos que você usa o dia inteiro.
Modo local gratuito para qualquer conta autenticada. Sem cartão para começar.



