Tutorial
Voz a texto en Zendesk: las llamadas frente a tus respuestas
Zendesk Talk transcribe la llamada del cliente. No escribe tu respuesta. Para dictar la respuesta, la nota o la macro que de verdad redactas, una herramienta de atajo de teclado para todo el sistema como Whisper se encarga de ello: sin conexión, dentro del Agent Workspace y en cada aplicación lateral en la que vives.
Última actualización: junio de 2026

La voz a texto en Zendesk se divide en dos cosas distintas. Zendesk Talk transcribe la llamada grabada del cliente o el buzón de voz y adjunta la transcripción al registro del ticket; no escribe tu respuesta. Para dictar la respuesta, la nota o la macro que de verdad redactas, Zendesk no tiene ninguna función nativa; una herramienta para todo el sistema como Whisper se encarga de eso con un atajo de teclado.
La mayoría de los agentes que buscan esto quieren una sola cosa: dejar de escribir la misma respuesta por cuadragésima vez en el día y simplemente decirla en voz alta. La brecha entre hablar y teclear es real: la mayoría de la gente habla unas 150 palabras por minuto y, bajo la presión de la cola, teclea quizás un tercio de eso, y ahí está todo el argumento a favor del dictado. Así que la búsqueda tiene sentido. La confusión está en lo que las funciones de voz de Zendesk hacen en realidad, porque suenan a dictado y no lo son. Pasé veinte buenos minutos en la documentación de Zendesk convenciéndome de que se me había escapado el interruptor de dictado para agentes. No se me había escapado. No existe. Déjame trazar la línea con claridad y luego mostrarte la parte que sí funciona.
Aquí va la versión corta. Las herramientas de voz de Zendesk viven en el canal telefónico. Escuchan al cliente. Eso que te estás imaginando —tú, hablando, y tus palabras cayendo en el cuadro de respuesta— es otra categoría, y vive a nivel del sistema operativo, no dentro de Zendesk. En cuanto ves esa división, todo deja de ser confuso.
Pulsa un atajo, habla y tu respuesta se escribe sola
El mecanismo es una sola tecla. Mantienes pulsado un atajo de teclado global, hablas, sueltas, y el texto cae justo donde está tu cursor: la respuesta pública, una nota interna, el cuerpo de una macro, un artículo de Guide. En Windows, el atajo por defecto es Ctrl+Space; en macOS es Command+Option, mantenido como pulsar para hablar. Sin menús, sin subir nada, sin "hacer clic en grabar". La misma tecla funciona en el Zendesk Agent Workspace y en cualquier otra aplicación a la que saltes entre tickets: Slack, Teams, Gmail, Notion.
Esa última parte importa más de lo que parece. Whisper es una aplicación de escritorio nativa para Windows y macOS, no una extensión de navegador. Así que cuando sales de la pestaña de Zendesk con Alt+Tab para avisar a ingeniería en Slack sobre un error, el mismo atajo sigue funcionando. Una extensión de navegador se detiene en el borde de la pestaña. Ese mismo alcance a nivel del sistema operativo es por lo que el truco también funciona en tu CRM: los agentes lo usan de la misma manera para voz a texto en Salesforce y dictado en HubSpot.
Zendesk Talk transcribe la llamada. No escribe tu respuesta.

Esta es la línea con la que todo el mundo tropieza, así que aquí va sin rodeos. Según la propia sección de preguntas frecuentes de Zendesk sobre transcripción de llamadas, Talk toma una llamada telefónica grabada entre un cliente y un agente y, cuando la llamada termina, añade la transcripción y un resumen al registro de conversación del ticket como notas internas. Solo se transcriben las llamadas grabadas. Zendesk también transcribe el audio del buzón de voz, que Zendesk cobra a alrededor de un centavo por minuto.
Todo eso es el canal de voz. Transcribe la llamada en la que está el cliente. Es realmente útil: si quieres un registro escrito de una llamada hablada adjunto al ticket, ese es exactamente el trabajo de Zendesk, y deberías usarlo.
Lo que no es, es dictado para el agente. Ninguna de esas funciones te deja decir en voz alta la respuesta que escribes en el editor. La verdad aburrida es que Zendesk no tiene ninguna función nativa para eso. Un empleado de Zendesk lo confirmó en el propio foro comunitario de la empresa: la transcripción de voz en tiempo real solo estaba en la hoja de ruta y se retrasó de principios de 2024 a un trimestre posterior, y ese punto era sobre el canal de llamadas, no sobre el dictado del agente. Un hilo de solicitud aparte que pedía escritura por voz a texto quedó sin respuesta. La solución alternativa que un empleado sugirió dentro del hilo fue activar los subtítulos en directo de Chrome, lo que te dice lo lejos que está esto de ser una función real. Cuando la respuesta oficial a "¿puedo dictar mis respuestas?" es "¿has probado el menú de accesibilidad del navegador?", la respuesta honesta es no.
Lo que Zendesk realmente tiene para la voz, y lo que no
Tres cosas prometen tres resultados distintos, y solo dos de ellas existen. Aquí está el mapa honesto:
- Llamadas grabadas: Zendesk las transcribe y archiva la transcripción en el registro del ticket.
- Audio del buzón de voz: Zendesk también lo transcribe, alimentando la clasificación y los resúmenes.
- Tu respuesta escrita, dictada por voz: Zendesk no hace esto en absoluto.
Así que si llegaste aquí con la esperanza de hablar para abrirte paso por la cola, las funciones de voz de Zendesk no te llevarán ahí. Están construidas en torno al audio del cliente, no a tu teclado. Whisper se sitúa en ese hueco: es una herramienta de dictado a nivel del sistema operativo, así que funciona dentro del editor del Agent Workspace igual que lo hace teclear, porque para el navegador no es más que texto que llega al cursor.
Cómo dictar en una respuesta de ticket, una nota o una macro de Zendesk
La configuración es breve. Aquí está todo, de principio a fin.
- Instala Whisper para Windows o macOS e inicia sesión. Todo el procesamiento local es gratuito para los usuarios con sesión iniciada, sin tarjeta al registrarse.
- Elige un modelo y deja que se descargue. La descarga única va de unos 140 MB a 3 GB según el modelo que elijas. Después de eso, la transcripción no necesita internet.
- Abre un ticket en el Agent Workspace y haz clic en el campo que quieras: la respuesta pública, una nota interna o el cuerpo de una macro que estés editando.
- Mantén pulsado el atajo y habla. Ctrl+Space en Windows, Command+Option en macOS. (Si lo estás configurando en un PC, el tutorial de voz a texto en Windows explica el atajo con más detalle.) Di la respuesta tal como se la dirías al cliente a la cara.
- Suelta la tecla. El texto cae en el cursor, dentro del campo enfocado. Léelo, corrige lo que haga falta, envía.
La superposición de grabación de arriba muestra lo que verás mientras hablas: un pequeño indicador en vivo, nada que secuestre tu pantalla. La primera vez que la respuesta aparece sin más en el editor, se siente un poco ilegal. Esa sensación se desvanece alrededor del quinto ticket. Que se desvanezca el calambre de la mano es la parte que no lo hace.
La aplicación completa, en vivo
Esa es la aplicación de escritorio real incrustada arriba, no una captura de pantalla, sino la cosa de verdad. Trastea con ella. Los ajustes, la lista de modelos y la configuración del atajo están todos ahí. Lo que ves es lo que se instala.
Limpia el dictado automáticamente
El lenguaje hablado tiene "eh" sueltos y encadena frases. Whisper puede ejecutar una pasada opcional de limpieza con IA sobre la transcripción en bruto —puntuación, mayúsculas y un ligero ajuste de tono— antes de pegarla. En el modo local gratuito, esa limpieza se ejecuta en tu máquina a través de Ollama; con Whisper Pro se ejecuta a través de tu propia clave de OpenAI. Para una respuesta pública que va a leer un responsable de control de calidad, esa pasada marca la diferencia entre "notas habladas" y "una respuesta que pasa la revisión".
Gestiona más de 90 idiomas en ambos modos, lo que importa si tu cola de tickets cambia entre inglés, español y alemán antes del almuerzo, más o menos la misma cantidad de idiomas que usa mi hija de siete años para negociar la hora de dormir. La línea de modelos multilingües llega en concreto a más de 99 idiomas; las variantes solo en inglés cubren únicamente el inglés.
Por qué importa que sea local y sin conexión cuando manejas datos de clientes

Aquí va la única opinión que gastaré en este artículo: un dictado que solo funciona en la nube, sin opción sin conexión, es un desastre de privacidad cuando eres agente de soporte. Lees en voz alta el correo de un cliente, su pedido, a veces su domicilio o una disputa de tarjeta. Con una herramienta solo en la nube, todo eso da un rodeo por los servidores de un tercero, sin más razón que querer hablar en lugar de teclear. Una herramienta que puede ejecutar todo el proceso en tu propia máquina no te pide hacer ese cambalache.
El modo local de Whisper funciona enteramente sin conexión. El audio nunca sale de tu máquina; la única vez que toca la red es la descarga única del modelo. La información personal del cliente que dictas en una respuesta se queda en el dispositivo. Las herramientas de dictado de extensión de navegador y en la nube que dominan esta búsqueda no pueden decir lo mismo: envían tu audio fuera para transcribirlo. Si tu organización de soporte maneja datos regulados, "el audio nunca salió del portátil" es una frase que tu equipo de seguridad querrá oír.
Lo que no hará (los límites honestos)
Ninguna herramienta merece un certificado de salud impecable, así que aquí está donde Whisper se detiene.
Pega en un único campo enfocado a la vez. No rellena un formulario de ticket entero con varios campos, y no decide a qué campo pertenecen tus palabras: van a donde esté el cursor. Eso significa que tienes que tener presente la diferencia entre la respuesta pública y la nota interna antes de hablar. Dicta en la equivocada y puedes filtrar una nota interna directamente al cliente. El cursor hace exactamente aquello a lo que lo apuntas, lo cual es o bien una función o bien una confesión, según hacia dónde lo apuntaste. Primero haz clic, luego habla.
Inserta texto, no formato. No accionará el botón de negrita del editor ni creará una lista con viñetas por voz: escribe palabras en CKEditor, igual que lo haría tu teclado. Y como cualquier herramienta de dictado, es más débil con las cadenas que no son palabras: identificadores de cuenta, números de pedido, códigos SKU, códigos de error. Lo he visto convertir "ticket ZD guion cuatro cuatro cero dos" en algo con un cuatro de más, que es justo el tipo de detalle que un cliente nota. Transcribe lo que dices, pero revisa con la vista cualquier código antes de darle a enviar.
Cuándo prescindir de Whisper y usar otra cosa

Prefiero que uses la herramienta correcta antes que la nuestra. Si necesitas un registro escrito de una llamada hablada adjunto al ticket, eso es la transcripción de llamadas de Zendesk Talk: ese es el trabajo de Zendesk, no de Whisper, y ya viene integrado en tu canal telefónico. No recurras a una aplicación de dictado para resolver un problema de registro de llamadas.
Si solo quieres dictar alguna que otra respuesta y no quieres instalar nada, tu sistema operativo ya trae una opción gratuita. Windows tiene el dictado por voz con Win+H; macOS tiene Dictado integrado. Ambos funcionan en todo el sistema, incluido el editor de Zendesk. Son de una sola plataforma, se apoyan en la nube por defecto y te dan menos control, pero para un agente con una sola máquina que dicta dos veces al día, gratis y ya instalado es un trato justo.
Recurre a Whisper cuando quieras vaciar la cola por voz todos los días, lo quieras sin conexión para que los datos del cliente se queden donde están, quieras un único atajo entre Zendesk y las aplicaciones laterales en las que vives, y lo quieras gratis sin tarjeta. Whisper es gratuito para el procesamiento local al registrarse; la superficie Pro en la nube añade una prueba de 7 días. Las cifras actuales están en la página de precios.
Zendesk escucha la llamada del cliente. Nunca se construyó para escribir tu mitad de la conversación. Ese segundo trabajo —tú hablando, tus palabras cayendo en el cuadro de respuesta— es el que convierte un día de 200 tickets en algo que tus muñecas perdonan. Haz clic en el campo, mantén la tecla, habla. Descarga Whisper y vacía un ticket por voz. Si tus manos no te lo agradecen para la hora del almuerzo, vuelve a teclear.
Vacía tu próximo ticket por voz
Haz clic en el campo, mantén la tecla, habla, suelta. La respuesta cae en el cursor, en el Zendesk Agent Workspace y en cada aplicación lateral en la que vives.
Modo local gratuito para cualquier cuenta con sesión iniciada. No se requiere tarjeta para empezar.



