Por Denys Medvediev

Tutorial

Voz a texto en GitHub: cómo funciona de verdad

GitHub no tiene dictado propio: sus campos de issues, PR, comentarios y markdown son simples areas de texto web. Una app de atajo global mantiene pulsada una tecla, transcribe lo que dices y lo pega en el campo que tengas seleccionado.

Última actualización: junio de 2026

Portátil abierto mostrando código fuente sobre un escritorio de madera en un espacio de trabajo moderno y acogedor

Voz a texto en GitHub significa dictar prosa en los campos de texto de GitHub con una app de atajo global, porque GitHub no tiene dictado propio. Sus campos de issue, pull request, comentarios y markdown son simples areas de texto web. Una herramienta como Whisper mantiene pulsado un atajo, transcribe lo que dices y lo pega donde esté el cursor: en el issue, la PR o la nota de revisión que tengas seleccionada.

El año pasado me pasé una semana convencido de que GitHub había añadido a escondidas un botón de voz en algún rincón del editor de issues. No lo había hecho. El cuerpo del issue es un area de texto. La descripción de la PR es un area de texto. El comentario de revisión, el cuadro de Discussions, el editor del README: todos son areas de texto, las mismas que usa un formulario de contacto. No hay ningún icono de micrófono escondido en un menú. La verdad, por aburrida que sea, es que todo lo que escribes alrededor de tu código en GitHub es simple entrada de texto, y cualquier herramienta de dictado decente puede rellenarlo.

Eso es una buena noticia, porque significa que no dependes de que GitHub construya una función. Tú pones tu propia capa de voz. En Windows o Mac, Whisper funciona a nivel del sistema operativo, así que el mismo atajo sirve en el editor de issues, en la descripción de una PR, en un hilo de revisión de código, en tu IDE y en Slack: en cualquier sitio donde parpadee un cursor. Haces clic en el campo, mantienes la tecla, hablas y sueltas. Una advertencia importante de entrada, y la voy a repetir: esto es para la prosa, no para el código.

GitHub no tiene dictado por voz. Tu atajo hace el trabajo.

Desarrollador trabajando en código en una configuración de doble monitor en una oficina moderna

Déjame responder a la pregunta que la gente escribe de verdad en Google. No, GitHub no tiene voz a texto integrada. No hay dictado nativo en el editor de issues, en el formulario de la PR, en el panel de revisión, en Discussions ni en la wiki. Son areas de texto web estándar. Para dictar en ellas, la voz tiene que venir de otro lado: tu sistema operativo, tu navegador o una app de terceros.

GitHub nunca bloquea el dictado. Simplemente no ofrece ninguno propio. Así que tienes más o menos tres opciones. Tu sistema operativo trae dictado integrado: Voz a texto de Windows con Win+H, o el Dictado de macOS. Una extensión de navegador como Voice In puede escribir en una pestaña de Chrome o Edge. O una app de escritorio global como Whisper dicta en cualquier campo de cualquier app, sea navegador o no.

La diferencia entre las tres es el alcance. El dictado del sistema operativo es gratis y funciona en una plataforma a la vez, con calidad variable. Una extensión de navegador solo vive dentro de la pestaña: no puede seguirte a tu IDE ni a la CLI de GitHub, y se ejecuta en la nube. Una app de escritorio como Whisper no está atada a una pestaña; como funciona a nivel del sistema operativo, dicta en GitHub tanto en Chrome como en Firefox, Safari o Edge, y también en un mensaje de commit en GitHub Desktop.

Lo que puedes dictar de verdad (y la única cosa que no)

Aquí está la línea que no voy a dejar que cruces por accidente. Whisper dicta lo que escribes alrededor de tu código. No va a escribir el código en sí.

Eso cubre, sinceramente, la mayor parte del día de escritura de un desarrollador. Reportes de issues. Descripciones de pull requests. Notas de revisión de código. Respuestas en Discussions. README y documentación en markdown. La prosa que explica el cambio, no el cambio. Cuando dictas un párrafo describiendo por qué una migración es arriesgada, Whisper lo maneja sin problema. Cuando intentas dictar la migración, te espera una tarde complicada.

La razón es sencilla. El código hablado no sobrevive al viaje. Los nombres de funciones, el JSON, snake_case frente a camelCase, una bandera de kubectl, una ruta de API: todo eso sale como inglés aproximado y hay que corregirlo a mano. Un modelo de voz oye "user guion bajo I D" y escribe "user ID", y ya estás corrigiendo. Así que dicta la frase que dice "esta PR arregla la comprobación de null en el middleware de auth" y luego escribe el identificador real. De todos modos, la mayoría de los cuerpos de issues y PR son 80% explicación y 20% fragmento de código. Dicta el 80, escribe el 20.

Pulsa un atajo, habla y obtén texto en el campo seleccionado

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

El mecanismo es el mismo que usarías en cualquier otra app, que es justo el objetivo. Haz clic en el campo de GitHub que quieres rellenar. Mantén el atajo. Habla. Suelta. La transcripción aparece donde está el cursor.

El atajo por defecto es Ctrl+Space en Windows y Command+Option en macOS. Ambos son pulsar-para-hablar: mantén mientras hablas, suelta para parar. Puedes cambiarlos en los ajustes si chocan con algo, y si alguna vez has peleado con un conflicto de atajos, ya sabes por qué ese ajuste se ganó su lugar (más sobre esto abajo).

Un detalle honesto sobre el alcance. Whisper pega en el único campo que tengas seleccionado, de uno en uno. No rellena un formulario entero de un issue de GitHub de una sola tirada. Así que el flujo para un issue nuevo es: clic en el título, lo dictas, clic en el cuerpo, dictas eso. Dos campos, dos pulsaciones. Se parece menos a la magia y más a un mecanógrafo rápido que nunca toca el teclado. Ese es el modelo mental correcto.

La app entera, en vivo

Whisper
La app de escritorio real de Whisper, funcionando aquí mismo: haz clic por los ajustes, el selector de atajos y la elección de modelos.

Esta es la app de verdad, funcionando aquí mismo, no una captura de pantalla. Curiosea. Los ajustes, el selector de atajos y la elección de modelos son lo real.

Un par de cosas que conviene saber mientras haces clic. No hay una pestaña específica de GitHub ni un "modo GitHub", porque no hace falta. Para Whisper, la descripción de una PR de GitHub es un campo de texto como cualquier otro. La misma configuración que dicta en el editor de issues dicta en tu correo y en tu IDE. Lo configuras una vez. El alcance es la función.

Dónde merece la pena: issues, descripciones de PR, revisiones, discusiones

Donde merece la pena es en la escritura aburrida y repetitiva, esa que pospones porque teclearla es un fastidio.

Issues. Un buen reporte de error es sobre todo narración: qué hiciste, qué esperabas, qué pasó en su lugar. Ese es el terreno propio del dictado. Cuenta los pasos para reproducirlo como se lo explicarías a un compañero en tu escritorio, y luego pega la traza de la pila a mano.

Descripciones de pull requests. El cuerpo de la PR que todos se saltan porque el diff "habla por sí solo" (no lo hace). Dicta el porqué (el contexto que el revisor necesita) y deja que el diff hable del qué.

Revisiones de código. Los comentarios de revisión son donde el tono importa y donde la gente explica de menos. Decir una nota de revisión en voz tiende a salir más humana y más completa que teclearla entre reuniones. Escribirás "esto funciona, pero se va a romper cuando la lista esté vacía" en vez de un simple "¿caso límite?".

Discusiones y documentación. Prosa de formato largo, que es justo en lo que la voz es buena y justo lo que nadie quiere teclear. Una introducción de README, una respuesta en Discussions, una guía de migración: dicta el borrador y limpia el markdown después. La misma lógica aplica al dictar en tickets de Jira y otros gestores; GitHub es un campo más del montón.

Limpia el dictado automáticamente

Thinking...
El estado de mejora: una pasada opcional de IA limpia las muletillas, la puntuación y las mayúsculas antes de que el texto aterrice.

El dictado en crudo tiene muletillas. "Eh", "o sea", la frase que empezaste dos veces. Whisper tiene una pasada opcional de limpieza con IA que arregla las muletillas, la puntuación y las mayúsculas para que el issue o la PR se lean como si los hubieras escrito con cuidado.

Hay dos variantes. En el plan local gratuito, la limpieza se ejecuta en tu máquina mediante Ollama. En Pro, traes tu propia clave de OpenAI y la limpieza se ejecuta en la nube, con respuestas web disponibles también. En cualquier caso es opcional: desactívala y obtienes la transcripción en crudo. Yo la dejo activada para las descripciones de PR y desactivada para los comentarios rápidos, porque un comentario rápido no necesita edición y una descripción de PR sí.

Una cosa que la limpieza no hará es rescatar el código hablado. Pule el inglés. No sabe que querías decir getUserById cuando dijiste "get user by I D". Sigue dictando la prosa; sigue tecleando los identificadores.

Sin conexión y privado: en modo local nada sale de tu máquina

Candado azul asegurando una puerta de madera con la luz del sol filtrándose, simbolizando el procesamiento local privado

Si dictas issues y PR sobre código que no es público, importa adónde va el audio. En el modo local de Whisper, la transcripción ocurre por completo en tu máquina. Nada de lo que dices se envía a un servicio en la nube. No hace falta internet durante la transcripción en absoluto: la única vez que te conectas es para la descarga única del modelo, que va de unos 140 MB a 3 GB según el modelo que elijas.

Este es el único punto en el que te voy a dar una opinión de verdad. El dictado solo-en-la-nube es un desastre de privacidad esperando a ser transcrito. Una vez vi a un equipo interno acumular una factura de nube de cinco cifras en un solo trimestre porque un prototipo casero de dictado enviaba cada frase a una API, y lo peor no era la factura, era que las notas habladas de todos sobre un producto sin lanzar ahora vivían en los registros de un proveedor. La hoja de cálculo con el salario de tu jefe, el problema de seguridad que estás reportando en privado, la arquitectura propietaria que describes en una PR: nada de eso debería salir de tu portátil solo porque querías escribir un párrafo con la voz. Tu máquina ya tiene un micrófono y una CPU. Para un párrafo, no necesita un servidor de por medio. Si tu herramienta solo funciona en la nube, esa es la parte que yo arreglaría primero.

Para lo que no sirve (escribir código)

Primer plano de un teclado de portátil iluminado con luz azul, evocando programación manual

Puede que hayas llegado aquí buscando una forma de escribir código por voz, o que recuerdes "Hey, GitHub!" y te preguntes adónde fue. Dos respuestas honestas.

"Hey, GitHub!" y GitHub Copilot Voice eran una vista previa técnica de GitHub Next. GitHub descontinuó la vista previa en 2024. Nunca llegó a ser un producto; lo aprendido se incorporó a la extensión VS Code Speech. Así que si una entrada de blog te dice hoy que actives "Hey GitHub", está desactualizada por un par de años.

El carril de la voz-para-código sigue existiendo, solo que vive en tu editor y tu terminal, no en github.com. La extensión VS Code Speech (a veces llamada "Hey Code") te permite hablarle al editor y a Copilot Chat para código y comandos. Y GitHub Copilot CLI añadió hace poco entrada de voz local que dirige al agente de Copilot en la terminal. Ambas sirven para guiar código y un agente de IA. Ninguna dicta prosa en un issue de GitHub en tu navegador. Ese es un carril distinto, y es el que domina Whisper: lo que se escribe alrededor del código.

Cuándo saltarte Whisper en tu flujo de GitHub

Prefiero que uses la herramienta correcta antes que la que yo fabrico. Así que aquí va cuándo saltarte Whisper.

Si lo que de verdad quieres es dirigir a Copilot o a tu editor por voz —"arregla esta función", "corre las pruebas", "explica este bloque"— eso es el carril de código/agente, no prosa. Usa la extensión VS Code Speech o la entrada de voz de GitHub Copilot CLI en su lugar. Esas le hablan a la máquina; Whisper escribe las palabras que lee una persona.

Si solo dictas de vez en cuando un comentario de una línea, tu sistema operativo ya hace eso gratis. Pulsa Win+H en Windows o activa el Dictado en macOS y puedes soltar una frase rápida en un campo de GitHub sin instalar nada. Whisper empieza a ganarse su sitio cuando escribes párrafos de verdad en muchas apps, quieres que funcione sin conexión, o quieres un único atajo en todas partes en vez de una función del sistema operativo que solo cubre algunos campos. Por debajo de ese listón, la opción integrada está bien, y no voy a fingir lo contrario.

Local gratis, con Pro para la nube

La canalización local —transcripción, la limpieza con IA en el dispositivo, el atajo, todo lo que necesitas para dictar en GitHub— es gratis para usuarios con sesión iniciada, y no se requiere tarjeta al registrarse. La instalas, inicias sesión y empiezas a dictar.

Whisper Pro añade la capa de nube: transcripción en la nube de OpenAI, limpieza con IA en la nube con tu propia clave y respuestas web, con una prueba corta para ese plan. Para dictar issues y PR, el plan local gratuito cubre todo el trabajo. Los números de Pro están en la página de precios; no te los voy a soltar a media frase.

Una última cosa sobre ese atajo

Una palabra sobre por qué el atajo es personalizable, ya que ata todo el asunto. La primera versión de Whisper disparaba su parada-de-grabación seis veces por pulsación en ciertas máquinas Windows: eventos fantasma de soltado del framework de entrada, de esos que funcionan en una instalación limpia y se rompen en una real. Hicieron falta un debounce de 300ms y más tiempo del que voy a admitir para hacerlo fiable. Aprendí más sobre el manejo de entrada de Windows del que jamás quise. La lección se quedó: el atajo tiene que doblegarse a tu máquina, no al revés. Haz clic en el campo, mantén la tecla, habla. El código lo sigues tecleando tú, y creo que esa es la versión honesta del trato.

Dicta tu próximo issue de GitHub

Haz clic en el campo, mantén la tecla, habla, suelta. La transcripción aterriza donde está tu cursor: en el editor de issues, en la descripción de la PR y en todas las demás apps también.

Modo local gratis para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable es que dictando las respuestas.