Guía
Software de dictado para académicos
Investigadores, profesores y candidatos a doctorado redactan artículos y propuestas de subvenciones más rápido por voz. Pulsa una tecla, habla y la transcripción aparece donde está el cursor, en Word, en una pestaña de Overleaf, en Google Docs o en Scrivener. Funciona sin conexión, así que el trabajo inédito nunca sale de tu ordenador.
Última actualización: junio de 2026

El software de dictado para académicos convierte frases habladas en texto escrito dentro de cualquier aplicación de escritura —Word, editores de LaTeX, Google Docs o Scrivener— mediante un atajo de teclado global. Una herramienta como Whisper funciona completamente sin conexión, de modo que la investigación inédita permanece en el equipo, y aprende el vocabulario especializado del campo y los nombres de los autores para que los términos técnicos se transcriban correctamente.
Una revisión bibliográfica es un documento extraño para escribir tecleando. Ya sabes lo que quieres decir: leíste los cuarenta artículos, tienes el argumento en la cabeza, y luego pasas una hora convirtiendo ese argumento en pulsaciones de teclas, letra a letra, con los dedos entumecidos. El pensamiento ya está hecho. Escribir es solo el peaje. Ese hueco —entre conocer la frase y producirla físicamente— es donde el dictado se gana su lugar en el flujo de trabajo académico.
Quienes buscan «software de dictado para académicos» esperan algo pensado para la academia: gestión de citas, integración con gestores de referencias, todo eso. No existe tal cosa, y cualquier herramienta que lo prometa está vendiendo humo. Lo que obtienes en realidad es más sencillo y más útil: una forma de hablar un párrafo hasta hacerlo existir, en el editor que ya usas, sin que el audio de tus resultados inéditos llegue jamás a un servidor. Dos minutos de configuración y funciona igual en Word que en un archivo LaTeX.
Aquí está la parte que la mayoría de las páginas que persiguen esta palabra clave pasan de largo. Un borrador de manuscrito no es más que un cuadro de texto. Lo mismo vale para la sección de métodos, la carta de presentación al editor, el resumen que no paras de reescribir. El dictado que pega en el cursor no distingue si ese cursor está en Microsoft Word, en el panel de Overleaf, en un párrafo de Google Docs o en una tarjeta de Scrivener. Escribe donde lo apuntes.
Así que la pregunta real no es «¿existe un software de dictado específico para la academia?». En su mayor parte no existe, y tampoco lo necesitas. La pregunta es qué herramienta de dictado usas sobre tu editor, si se mantiene sin conexión para el trabajo que no puedes arriesgarte a filtrar, y si puede escribir correctamente los nombres y términos propios de tu campo. Voy a recorrer todo eso, a configurarlo y a contarte el único caso en que deberías optar por una herramienta completamente diferente.
Por qué los investigadores recurren al dictado

El motivo honesto es el volumen. La escritura académica es larga por naturaleza: un artículo ronda las ocho mil palabras, un capítulo de tesis muchas más, y una propuesta de subvención llega con su propio recuento de palabras y un plazo inamovible. Teclear todo eso es lento, y la lentitud se multiplica cuando ya conoces el contenido. El habla fluye a unas tres o cuatro veces la velocidad de escritura para la mayoría de las personas, de ahí que dictar un primer borrador y luego editarlo sea más eficiente que teclear un borrador limpio que vas a editar de todas formas.
El segundo motivo son las manos. Las sesiones de escritura largas son el origen de las lesiones por esfuerzo repetitivo, y muchos investigadores que conozco adoptaron el dictado no como truco de velocidad sino como forma de seguir escribiendo los días en que las muñecas les protestaban. Quede claro: esto es una ayuda de productividad y accesibilidad, no un dispositivo médico ni un consejo sanitario; simplemente reduce las pulsaciones de teclado, nada más. Pero reducir pulsaciones es exactamente lo que quieres cuando la defensa de tesis es dentro de seis semanas y las manos son el cuello de botella.
El tercer motivo es la captura. La buena idea para la sección de discusión llega mientras caminas hacia la máquina de café, no cuando estás sentado frente al teclado. Un atajo que puedes pulsar y al que hablar convierte esa idea en un párrafo del borrador antes de que se evapore. Redactar, no teclear: ese es el cambio. Dejas de producir texto carácter a carácter y empiezas a producirlo frase a frase, que es más parecido a cómo vive el argumento en tu cabeza.
Pulsa un atajo, habla, el texto aterriza en tu borrador
Esta es toda la mecánica, y es aburrida en el mejor sentido. Pulsas un atajo, hablas, lo sueltas y la transcripción se pega donde está el cursor, en el campo de texto que tenga el foco. Whisper guarda un pequeño margen después de soltar la tecla, para que tu última palabra no quede cortada. Como pega en el cursor del sistema operativo, el editor es simplemente «cualquier cuadro de texto»: un documento de Word, el panel de fuente de Overleaf, un párrafo de Google Docs, una tarjeta de Scrivener, el cuadro de comentarios del portal de envío de una revista.
Eso es lo que las páginas de marketing complican innecesariamente. No hay ningún complemento que instalar en Word, ningún paquete de LaTeX que añadir, ningún add-on que autorizar dentro de Google Docs. El cursor está en el manuscrito, hablas y las palabras aparecen en el manuscrito. Mientras hablas aparece una pequeña cápsula para que sepas que está escuchando:
El atajo es lo único que merece configurar bien desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un modificador push-to-talk que mantienes pulsado mientras hablas. Ambos se pueden cambiar en Ajustes si entran en conflicto con un atajo que ya usa tu editor —y las herramientas académicas están llenas de atajos que colisionan, así que esto importa más aquí que en cualquier otro sitio—. Si ya has configurado el dictado en Windows o en Mac antes, este es el mismo movimiento apuntado a tu borrador.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior, un micrófono funcionando y tu editor abierto: Word, una pestaña del navegador con Overleaf o Google Docs, Scrivener, lo que uses para redactar. Todo el flujo local es gratuito para cualquier cuenta con sesión iniciada, sin pedir ningún método de pago al registrarte. Estos son los pasos.
Paso 1 — Instala Whisper e inicia sesión.
Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Todo el flujo de transcripción local se abre de inmediato.
Sabrás que ha funcionado cuando aparezca el icono en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.
Paso 2 — Elige una ruta de transcripción.
La aplicación no elige por ti. Tienes tres opciones: Cloud (OpenAI, con tu propia clave), Local Parakeet o Local Whisper. Para trabajo inédito, empieza en local; más adelante explico cuál elegir.
Sabrás que ha funcionado cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma el atajo de teclado.
En Windows el predeterminado es Ctrl+Space; en Mac, Command+Option mantenido como push-to-talk. En Mac, concede el permiso de Accesibilidad cuando se te pida; sin él, el pegado en el cursor no puede llegar a otras aplicaciones.
Sabrás que ha funcionado cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Pon el cursor en tu borrador y habla.
Abre el manuscrito, haz clic donde va la siguiente frase, mantén el atajo, di la frase, suéltalo. La transcripción aparece en el cursor, dentro del documento.
Sabrás que ha funcionado cuando la frase que dijiste aparezca como texto en el borrador.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos anteriores. Una vez en marcha, redactar un párrafo deja de ser una tarea de escritura y se convierte en una tarea de habla, y tu editor nunca se entera de que algo cambió.
Vocabulario técnico, nombres de autores y trabajo sin conexión
Hay dos problemas específicos de la escritura académica, y ambos tienen una respuesta concreta. El primero es el vocabulario. Tu campo está lleno de términos que un modelo de habla general nunca ha visto: el nombre de un gen, un compuesto químico, un método bautizado con los apellidos de las tres personas que lo inventaron, el apellido del autor al que citas cuarenta veces. De entrada, cualquier motor de dictado va a estropear algunos de esos términos, porque adivina palabras comunes que suenan parecido. El Whisper local resuelve esto con hotwords y vocabulario personalizado: le das los términos y nombres de autores que usas y lo sesgas hacia transcribirlos correctamente en lugar de la palabra cotidiana más próxima. Parakeet, el motor local más rápido, no admite hotwords, así que si el manuscrito está cargado de jerga técnica, esa es la razón para elegir Whisper sobre Parakeet.
El segundo problema es la privacidad, y para la investigación inédita no es paranoia: es el trabajo en sí. Los resultados antes de la publicación, una propuesta de subvención antes de presentarla, un artículo bajo embargo, cualquier cosa con un acuerdo de confidencialidad o una patente pendiente. El dictado en la nube envía tu audio al servidor de un proveedor para transcribirlo. El dictado local no. Tanto Whisper como Parakeet funcionan íntegramente en tu propio equipo, sin que nada lo abandone, lo que significa que el audio de tus hallazgos inéditos nunca acaba en el registro de actividad de terceros. Si esa distinción importa en tu trabajo —y en mucha investigación es innegociable— el caso offline-first se expone en detalle en voz a texto privado y sin conexión.
Entre tú y yo, esta es la parte en la que yo no cedería si fuera quien escribe el artículo. Un borrador es la versión más sensible de tu trabajo: la que todavía tiene los errores, la que un competidor agradecería, la que aún no has reclamado como prioridad. Enrutarla por un servidor que no controlas para ahorrarte una descarga de modelo es un mal negocio. Tu portátil ya tiene micrófono y CPU. Para un párrafo de texto, no necesita ningún servidor de por medio.
Local o nube: qué modo elegir para el trabajo académico
Para la mayoría de los borradores académicos, empieza en local. La razón por la que la privacidad aparece es precisamente que el trabajo es inédito, y el modo local es el único que mantiene el audio en tu equipo. Si tu Mac tiene Apple Silicon o tu PC es de los últimos años, el modo local gestiona el dictado cotidiano sin quejarse, y la nube pasa a ser la salida de emergencia, no el valor predeterminado. Así es como difieren realmente las tres rutas que la app te hace elegir.
Prefiero que elijas bien antes que rápido, así que aquí está la versión llana de cada opción:
- Local Parakeet — El motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más veloz que Whisper en CPU. Cubre inglés más 24 lenguas europeas, 25 en total. Sin traducción al inglés y sin hotwords, así que no se puede ajustar al vocabulario de tu campo. Elige esta opción para borradores rápidos y completamente sin conexión en prosa sencilla con vocabulario común.
- Local Whisper — Más lento que Parakeet en el mismo equipo, pero admite hotwords y vocabulario personalizado —lo que necesitas para nombres de autores y términos técnicos— y las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son únicamente en inglés, no las 99. El modelo inglés predeterminado pesa unos 480 MB. Para un manuscrito con mucha jerga, esta es la opción local.
- Cloud (OpenAI, BYOK) — La mayor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Requiere conexión a internet, así que es la única ruta que sale de tu equipo: bien para escritura no sensible, mala decisión para resultados bajo embargo. El modo Cloud forma parte de Whisper Pro.
La verdad sin adornos es que para el tipo de prosa del que están hechos la mayoría de los artículos, el Whisper local es más que suficiente, y el soporte de hotwords es lo que lo convierte en el motor local adecuado para la investigación en concreto. La nube gana cuando quieres precisión de primer nivel en una grabación difícil, o cuando necesitas un dato de la web a mitad de una frase y el trabajo no es confidencial. Para un borrador que no puedes arriesgarte a filtrar, la elección se hace sola.
Convertir un borrador hablado en prosa limpia
El dictado en bruto sale como una ristra sin puntuación. Dices «así que los resultados sugieren una correlación entre las dos variables aunque hay que señalar que el tamaño de la muestra era pequeño» y eso es la pared sin puntos ni comas que cualquier motor de habla te devuelve. Limpiarla es donde los modos divergen.
El dictado por voz de Windows añade puntuación mientras hablas, y el Dictado de macOS gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más profunda —eliminar las falsas arrancadas, corregir las frases en cadena, convertir un párrafo hablado en algo que pondrías en un manuscrito— Whisper puede ejecutar un pase de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de aterrizar. En un modelo local funciona a través de Ollama, de modo que la limpieza también se queda sin conexión; en modo nube usa gpt-5-mini por defecto.
así que los resultados sugieren una correlación entre las dos variables aunque hay que señalar eh que el tamaño de la muestra era bastante pequeño aquí
Los resultados sugieren una correlación entre las dos variables, aunque el tamaño de la muestra era bastante pequeño.
Una advertencia justa, porque inflar las expectativas no le hace bien a nadie: el pase de IA limpia la gramática y las muletillas, pero no verifica tus afirmaciones ni corrige tus estadísticas, y puede «corregir» silenciosamente un término técnico preciso por una palabra común que suena parecida. Lee lo que produjo: lo harías de todas formas, porque es tu artículo. Trata la limpieza como un primer borrador más rápido, nunca como uno final. La respuesta honesta es que la voz baja las palabras al papel con rapidez, y tu propio juicio sigue haciendo la ciencia.
Ese mismo flujo de hablar y luego limpiar rinde bien mucho más allá del manuscrito: también puedes dictar prosa limpia en Google Docs de la misma manera, de modo que un documento coescrito o una respuesta a revisores se convierte en unas pocas frases habladas en lugar de un párrafo que teclear.
Cuándo saltarte el dictado y usar una herramienta de transcripción

El dictado y la transcripción se confunden constantemente, y en el trabajo académico la diferencia lo es todo. El dictado eres tú, hablando a propósito, en tiempo real, produciendo tu propio texto. La transcripción es convertir una grabación existente —una entrevista, un grupo de discusión, una conferencia, horas de audio de trabajo de campo— en texto a posteriori. Son tareas distintas, y un atajo de dictado es la herramienta equivocada para la segunda.
Si tu tarea es audio de investigación cualitativa —entrevistas presenciales, sesiones grabadas, un corpus de grabaciones de campo que necesitas convertir en una transcripción con etiquetas de hablantes y marcas de tiempo— recurre a un servicio de transcripción especializado o a una herramienta diseñada para archivos de audio en lote. Eso es un trabajo de procesamiento de grabaciones, a menudo con varios hablantes, y necesitas un software diseñado exactamente para eso. El software de dictado, incluido este, es para la parte en la que eres tú quien habla y las palabras deben aterrizar en tu borrador mientras las pronuncias.
Y para las tareas verdaderamente pequeñas, los integradores gratuitos son suficientes. En Windows, la tecla Windows + H abre la barra de Escritura por voz donde esté el cursor; puntúa sola y pasa por los servidores de Microsoft, así que no es una opción sin conexión. En Mac, el Dictado está en Ajustes del sistema, bajo Teclado, y en Apple Silicon el texto general puede procesarse en el dispositivo. Para una nota breve o un correo rápido a un coautor, con eso basta. Recurre a una herramienta dedicada, sin conexión y de nivel de sistema cuando el trabajo sea largo, el vocabulario sea técnico o los resultados no puedan salir de tu equipo.
Si tu borrador vive más en un navegador que en una aplicación de escritorio, la misma lógica se aplica en escritura por voz en Google Docs donde el cursor, y no un complemento, es de nuevo la verdadera integración.
No existe software de dictado creado específicamente para la academia, y después de escribir esto estoy convencido de que no hace falta. El manuscrito no es más que un cuadro de texto, el cursor es la integración, y las únicas partes específicamente académicas —mantener el trabajo inédito sin conexión y enseñarle a la herramienta la jerga de tu campo— son ajustes, no productos separados. Dicté la mayor parte de esto en un editor de texto plano que nunca oyó hablar de una cita bibliográfica, con una herramienta que mantuvo cada palabra en mi propio portátil, y luego lo edité como el primer borrador que era. Ese es el truco.
Redacta tu próximo artículo por voz
Mantén el atajo, habla, suéltalo. La transcripción aterriza donde esté el cursor —Word, LaTeX, Google Docs, Scrivener— y sin conexión, para que el trabajo inédito permanezca en tu equipo.
Modo local gratuito para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.



