Por Denys Medvediev

Guía

Dicta tu tesis

Una tesis es demasiado larga para escribirla frente a la página en blanco. Habla el primer borrador: pulsa una tecla, dicta un capítulo y las palabras aparecen en Word, Scrivener o LaTeX. Después edita. El modo local es gratuito y funciona sin conexión.

Última actualización: junio de 2026

Sala de lectura de una biblioteca universitaria tranquila con largas mesas de estudio y estantes con tesis encuadernadas

Para dictar tu tesis, instala una herramienta de dictado a nivel de sistema, pulsa una tecla de acceso rápido y habla el borrador en el editor donde escribes — Word, Scrivener, Google Docs o un archivo LaTeX. La transcripción aparece en la posición del cursor. El motor local funciona completamente sin conexión y es gratuito para cualquier cuenta registrada; después editas con el teclado.

La página más difícil de una tesis es la que todavía no tiene nada escrito. Ya has leído los artículos, tienes el argumento en la cabeza y el cursor parpadea mientras decides cómo empezar una frase que has reescrito mentalmente nueve veces. He visto a amigos que terminaban el doctorado perder tardes enteras por ese cursor. El pensamiento ya estaba hecho. Escribirlo era el muro.

Hablar es una forma de saltarse ese muro. Puedes decir una versión aproximada de un párrafo en el tiempo que tardas en escribir la mitad, y una versión aproximada en la página es algo que puedes mejorar. Una página en blanco, no. Dictar el primer borrador de un capítulo no es escribir más rápido — es sacar la versión mala para que la buena tenga algo con lo que pelear.

Aquí está la parte que la mayoría de las páginas sobre dictado para tesis omiten. Tu procesador de textos no es más que un campo de texto. También lo es el editor de Scrivener, un Google Doc o el cuerpo de un archivo `.tex` en tu editor de código. Una herramienta de dictado que pega en la posición del cursor no le importa cuál estás usando. No hay ningún plugin que conectar con tu gestor de referencias, ni ningún «modo tesis» especial.

Así que la pregunta real no es «qué aplicación admite dictado». Es «qué herramienta de dictado funciona encima de la aplicación en la que ya escribo» y, para un trabajo de años que a menudo no tiene financiación, dos cosas importan más que para un correo rápido: debe funcionar sin conexión y en un nivel gratuito local, y debe aprender los nombres y la jerga que maneja tu campo. Voy a recorrer el flujo de trabajo capítulo a capítulo, a configurarlo en dos minutos y a contarte el único trabajo que debes encargar a otra herramienta.

Por qué los estudiantes de posgrado hablan el primer borrador

Escritorio lleno de libros académicos abiertos, papeles impresos y un portátil durante una sesión nocturna de redacción de tesis

El objetivo no es «escribir palabras más rápido». El objetivo es «dejar de quedarse mirando». Un capítulo de tesis tiene entre ocho y doce mil palabras, y la primera versión de cada sección va a ser torpe sin importar cómo la produzcas. La única pregunta es si produces un borrador torpe en una tarde hablando, o si pasas una semana sin conseguir uno limpio escribiendo. Hablar gana porque es alérgico al perfeccionismo. No puedes editar una frase a mitad de aliento como sí puedes hacerlo a mitad de pulsación de tecla, así que las palabras salen y se quedan, y las corriges después.

Hay una segunda razón, y es puramente física. Una tesis es lo más largo que la mayoría de las personas escribirá en su vida, a menudo durante meses de sesiones maratonianas, y las manos tienen su propia opinión al respecto. Dictar parte del borrador significa que parte de la escritura del día ocurre con las manos alejadas del teclado. No voy a presentar esto como una afirmación médica, porque no lo es — es una cuestión de productividad y comodidad, igual que levantarse cada hora. Si el dolor de muñeca es lo que te preocupa concretamente, el artículo más detallado sobre el dictado como forma de descansar las manos aborda el lado productivo de eso con honestidad. Para la tesis en sí, el punto es más sencillo: puedes seguir redactando los días en que tus manos preferirían que no escribieras.

Y la verdad aburrida es que la mayor parte de una tesis no es la prosa elegante del resultado final. Es el andamiaje — el «en este capítulo argumento», los resúmenes de lo que encontró fulano de tal, los párrafos de enlace entre secciones. Ese andamiaje es exactamente lo que sale bien por voz y no suena peor que si lo hubieras escrito. Reserva el teclado para las frases que realmente necesitan ser precisas.

Pulsa una tecla, habla, el texto aparece en tu editor

El mecanismo es aburrido, que es el mayor elogio que puedo hacerle. Pulsas una tecla de acceso rápido, hablas, la sueltas y la transcripción aparece en la posición del cursor en lo que tengas en primer plano — un encabezado en Word, un documento en Scrivener, un párrafo en un Google Doc, un bloque de comentarios en tu archivo LaTeX. Whisper mantiene una pequeña cola al soltar la tecla, para que la última palabra de una frase larga no se corte. Como pega en la posición del cursor del sistema operativo, tu editor es simplemente «el cuadro de texto que está delante».

Esa es la parte que los tutoriales complican en exceso. No hay ninguna integración que instalar en Word, ningún complemento para Scrivener, ningún token que pegar en tu gestor de referencias. Tu cursor está en el documento, hablas y las palabras aparecen. Mientras hablas, aparece una pequeña cápsula para que sepas que está escuchando:

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

La tecla de acceso rápido es lo único que vale la pena configurar bien antes de empezar una sesión larga. En Windows es Ctrl+Space; en Mac es Command+Option, una combinación de modificadores que mantienes pulsada mientras hablas y sueltas para detener. Ambas se pueden cambiar en Ajustes si entran en conflicto con algo — y en un entorno de escritura lleno de atajos de LaTeX y teclas de gestor de referencias, casi siempre entra en conflicto algo. Si ya has configurado el dictado en Windows o en Mac antes, es el mismo reflejo, apuntado ahora a tu tesis.

Configúralo en dos minutos (Windows o Mac)

Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior, un micrófono que funcione y tu editor abierto — Word, Scrivener, una pestaña del navegador con Google Docs o tu editor de LaTeX. Todo el pipeline local es gratuito para cualquier cuenta registrada, sin que se pida método de pago al registrarse, lo que importa cuando el trabajo va a llevar años y la situación de financiación es la que es. Esta es la secuencia.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Todo el pipeline de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la aplicación en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2 — Elige una vía de transcripción.

La aplicación no elige por ti. Tienes tres opciones: Cloud (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para un borrador largo sin conexión con términos específicos del campo, Whisper local es la opción — más adelante explico por qué.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu tecla de acceso rápido.

En Windows el valor predeterminado es Ctrl+Space; en Mac es Command+Option mantenido como push-to-talk. En Mac, concede el permiso de Accesibilidad cuando se te solicite; sin él, el pegado en el cursor no puede llegar a tu editor.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Coloca el cursor en tu borrador y habla.

Abre el capítulo, haz clic donde irá el siguiente párrafo, mantén la tecla de acceso rápido, di unas frases y suéltala. La transcripción aparece en el cursor, dentro del documento.

Sabrás que funcionó cuando tu párrafo hablado esté en el capítulo como texto.

Whisper
La aplicación de escritorio real de Whisper en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga única del modelo, no la configuración. Todo lo que viene después son los cuatro pasos anteriores. Una vez que funciona, abrir un capítulo deja de ser «encontrar energía para escribir» y pasa a ser «encontrar energía para hablar», que en un jueves agotador es un listón mucho más bajo.

voz a texto en Windows · en Mac

Redactar un capítulo por voz y enseñarle tu jerga

El flujo de trabajo que funciona para texto largo es hablar en bloques y editar en pasadas. No intentes dictar un capítulo pulido de arriba abajo — eso es la mentalidad del teclado con micrófono. En su lugar, abre tu esquema, coloca el cursor debajo de un encabezado y di en voz alta la versión aproximada de esa sección como si se la explicaras a un compañero de laboratorio tomando un café. Una sección, unos cientos de palabras, suelta la tecla, pasa al siguiente encabezado. Estás rellenando el esqueleto, no tallando la estatua. El tallado es la edición, y llega después con el teclado.

Lo que hace o rompe el dictado académico es el vocabulario. Una tesis está llena de palabras que ningún transcriptor general espera — los métodos que citas, los productos químicos, constructos o teoremas de tu campo y, sobre todo, los apellidos. «Foucault», «Nyquist», «Bourdieu», el nombre polaco o coreano de un coautor escrito exactamente como lo necesita la cita. Un motor general intentará adivinar y fallará, igual que el corrector automático estropea un nombre que nunca ha visto. Aquí es donde Whisper local gana su lugar: admite vocabulario personalizado — le das una lista de palabras clave, los nombres de autores y términos del campo que usas constantemente, y el motor los transcribe correctamente. Parakeet, el motor local más rápido, no admite palabras clave, así que para un borrador con mucha jerga Whisper es la opción local. El modo Cloud también tiene buena precisión, pero la función de vocabulario personalizado es específica de Whisper local.

Configura esa lista una vez al inicio de la tesis y te dará rendimiento durante dos años. Añade los veinte o treinta términos y nombres que se repiten en tu trabajo, y el texto que obtengas de vuelta dejará de necesitar un buscar-y-reemplazar de «Burdew» en cada párrafo. Seguirás corrigiendo cosas — ninguna herramienta escribe bien todos los nombres a la primera — pero estarás corrigiendo fallos ocasionales en lugar de reescribir cada término técnico que utilizas.

Local o nube para un trabajo privado de varios años

Para una tesis, yo empezaría en local, y no solo por principio. Investigación no publicada, un argumento inacabado, material de entrevistas que estás obligado a mantener confidencial — nada de eso tiene ninguna razón para viajar al servidor de alguien para que puedas escribirlo con la voz. Un motor local funciona completamente en tu máquina sin enviar nada a ningún lugar, que es el mismo razonamiento que lleva a elegir una configuración de voz a texto privada y sin conexión desde el principio. Además, no tiene coste por minuto ni requiere conexión a internet, lo que importa cuando la escritura ocurre en el sótano de una biblioteca con mala Wi-Fi durante un par de años sin financiación. Aquí te explico en qué se diferencian las tres vías, porque la aplicación te obliga a elegir.

La aplicación no elige por ti, así que elige teniendo en cuenta tu borrador real:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB y la opción local más rápida — entre 5 y 10 veces más rápido que Whisper en CPU. Inglés más 24 idiomas europeos, 25 en total. Sin traducción al inglés y sin vocabulario personalizado, por lo que no es la opción adecuada para una tesis con mucha jerga. Ideal para borradores rápidos en inglés llano donde los términos son comunes.
  • Whisper localmás lento que Parakeet en la misma máquina, pero cubre 99 idiomas, puede traducir al inglés y, lo más importante, admite vocabulario personalizado y palabras clave para los términos de tu campo y los nombres que citas. Para una tesis llena de apellidos y jerga, este es el motor local que debes usar. El modelo de inglés por defecto ocupa unos 480 MB; los modelos más grandes intercambian velocidad por precisión.
  • Cloud (OpenAI, BYOK)la mejor precisión bruta y acceso web en tiempo real, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, por lo que es la única vía que sale de tu máquina — válida para secciones no confidenciales, menos ideal para material reservado. El modo Cloud forma parte de Whisper Pro.

La respuesta honesta es que para la mayor parte de una tesis, Whisper local con una buena lista de vocabulario es más que suficiente, no cuesta nada y se queda en tu portátil. El Cloud gana su lugar cuando quieres máxima precisión en una grabación difícil o necesitas consultar un dato en la web a mitad de una frase. Para dos años de redacción confidencial, el local es la opción predeterminada y el Cloud es la válvula de escape ocasional.

Convertir un capítulo hablado en prosa que puedas entregar

El dictado en bruto sale como un bloque sin puntuación. Dices «entonces este capítulo examina cómo la noción de disciplina de Foucault se aplica a la vigilancia laboral moderna apoyándose en el trabajo empírico del capítulo tres» y eso es el muro sin puntuar que cualquier motor de voz te devuelve. Está bien — es un primer borrador, y los primeros borradores se supone que son feos. La limpieza es lo que lo hace legible.

Windows Voice Typing añade puntuación mientras hablas, y macOS Dictation gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más profunda — eliminar las muletillas, arreglar los bloques sin puntuación, partir una frase interminable en tres — Whisper puede ejecutar un pase de IA antes de que el texto llegue. Di la frase de activación «Hey whisper» y el texto se mejora al pasar. En un modelo local que funciona a través de Ollama, completamente sin conexión; en modo Cloud es gpt-5-mini por defecto. Arregla la mecánica para que puedas dedicar tu tiempo de edición al argumento, no a las comas.

Thinking...
Sin procesar

entonces este capítulo examina cómo la noción de disciplina de foucault se aplica a la vigilancia laboral moderna apoyándose en el trabajo empírico del capítulo tres eh y los datos de las entrevistas

Corregido

Este capítulo examina cómo la noción de disciplina de Foucault se aplica a la vigilancia laboral moderna, apoyándose en el trabajo empírico del capítulo tres y los datos de las entrevistas.

Lo que un pase de IA no hará — ni debe hacer — es la edición académica. No comprobará si tu cita respalda la afirmación, no corregirá una fecha equivocada ni notará que el párrafo cuatro contradice el párrafo uno. Ese es tu trabajo, y es el trabajo en sí, y el dictado no pretende lo contrario. La secuencia honesta es: habla el borrador aproximado, ejecuta la limpieza para que la mecánica sea legible, luego lee cada línea tú mismo con el teclado y los últimos comentarios de tu supervisor abiertos. La herramienta te consigue un borrador legible una hora antes. No te consigue un argumento defendible — esa parte sigue siendo tuya, como debe ser.

Ese ritmo de hablar-y-limpiar se extiende más allá de la tesis también — puedes escribir más rápido con la voz en tu correo, tus solicitudes de becas y las cartas de presentación para el mercado laboral, todo con la misma tecla de acceso rápido.

Cuándo el dictado es la herramienta equivocada

Dos flechas en un poste de madera que señalan en direcciones diferentes, ilustrando la elección de una herramienta

El dictado transcribe las palabras que tú dices. No es un servicio de transcripción para las palabras que dicen otras personas, y confundirlos te costará una tarde frustrante. El malentendido más común en el trabajo de investigación: convertir en texto una entrevista grabada, un grupo de discusión o una sesión de campo. Eso es otro trabajo. No estás redactando — estás transcribiendo una grabación con varios hablantes, a menudo con solapamientos, acentos y la necesidad de etiquetas de hablante y marcas de tiempo. Para eso, recurre a un servicio de transcripción dedicado y diseñado para archivos de audio. Una tecla de dictado en vivo es la forma equivocada del todo; escucha tu micrófono ahora mismo, no un MP3 de dos horas del martes pasado.

Y para fragmentos genuinamente cortos, la herramienta correcta es la gratuita que ya tienes en tu máquina. Si vas a dejar una nota de una línea en tu gestor de referencias o un comentario rápido en un documento compartido, tu sistema operativo lo cubre. En Windows, pulsa la tecla Windows + H y la barra de escritura por voz integrada se abre donde esté el cursor. La pega: usa los servidores de Microsoft y necesita internet, por lo que no es una opción sin conexión, lo que importa más de lo habitual para investigación confidencial. En Mac, Dictation te permite hablar en cualquier lugar donde puedas escribir, configurado en Ajustes del Sistema bajo Teclado, y en Apple Silicon el texto general puede procesarse en el dispositivo.

Recurre a una herramienta dedicada a nivel de sistema cuando las integradas empiezan a quedarse cortas: capítulos largos, jerga del campo que necesita vocabulario personalizado, privacidad sin conexión para trabajo no publicado, o querer una sola tecla de acceso rápido que funcione igual en Word, Scrivener y tu editor de LaTeX. Por debajo de ese umbral, usa lo que es gratuito, y para el audio de entrevistas usa algo diseñado para ello. No voy a decirte que dictes un capítulo de tesis con la misma herramienta que usarías para transcribir una grabación — son dos trabajos distintos, y fingir que son uno solo es cómo la gente acaba decepcionada con ambos.

Ningún editor ha lanzado nunca un botón de «escríbeme la tesis», y después de unos años en las trincheras dejas de esperarlo. El cursor es la integración: habla en el documento, consigue un borrador aproximado y luego gánate la versión limpia con el teclado y mucho café. Saca el mal borrador de tu cabeza y ponlo en la página donde puedas pelear con él. Esa pelea es el trabajo real — el dictado solo te lleva a la pelea unas horas antes, que en los días en que la página está en blanco es todo el juego.

Habla el próximo capítulo para que exista

Abre el borrador, coloca el cursor bajo el encabezado, mantén la tecla de acceso rápido y di la versión aproximada en voz alta. Edítala después. Una página en blanco es más difícil que una mala.

Modo local gratuito para cualquier cuenta registrada. No se requiere tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, muy probablemente dictando las respuestas.

Lecturas complementarias