Guía
Apps de transcripción de clases, explicadas
Captura en directo o autodictado: de dónde viene el audio y la frontera local-vs-nube que los estudiantes deberían sopesar más de lo que suelen hacer.
Última actualización: junio de 2026

Una app de transcripción de clases convierte las lecciones habladas en texto buscable, ya sea capturando el audio en directo o transcribiendo una grabación posterior. Algunas herramientas graban el aula en la nube. Otras, como Whisper, transcriben lo que dictas en el propio dispositivo con una tecla de pulsar-para-hablar. La elección correcta depende de qué voz capturas y dónde se procesa el audio.
La primavera pasada un estudiante me envió la grabación de una clase de química orgánica de 90 minutos y me preguntó por qué su herramienta había convertido «enantiómero» en «Ana tiene miedo». Buena pregunta. La respuesta honesta es que la mayoría de las apps de clase están haciendo la misma tarea difícil: convertir una sala ruidosa con un profesor que habla a cierta distancia en texto limpio, y lo que las diferencia es adónde va el audio y quién puede quedárselo. Una clase de 90 minutos es el peor escenario de audio posible: distancia, eco, jerga técnica y un micrófono diseñado para videollamadas.
Los estudiantes llevan años buscando una transcripción fiable de sus clases, y las apps de apuntes integradas han seguido siendo poco más que inútiles para clips cortos. En 2026 la brecha se ha cerrado. Varias apps son capaces de convertir una clase completa en un transcript buscable más un resumen, y algunas funcionan en tu propio portátil sin que nada salga de él. Este artículo explica la diferencia entre grabar una clase en directo y dictar tus propios apuntes, de dónde viene el audio y la frontera local-vs-nube que los estudiantes deberían sopesar más de lo que suelen hacer. Leo la mayor parte del correo de soporte que nos envían los estudiantes, y la verdad aburrida es que la mayor parte llega de personas que eligieron la categoría equivocada de app desde el principio. Ese montón de tickets es, a su manera, la razón por la que este artículo existe.
Hay tres tipos de estudiante que buscan una app de transcripción: el que le duele la mano después de 20 minutos tomando apuntes, el que se desconecta y quiere un respaldo, y el que estudia en una lengua que no es la suya. Los tres están resolviendo el mismo problema —seguir el ritmo de un ser humano que habla— y los tres están a punto de descubrir que «app de transcripción» puede significar dos cosas muy distintas.
Graba la clase, obtén texto limpio. Ese es el trabajo.
Si quitamos el marketing, todas las apps de transcripción de clases hacen una sola cosa: toman el audio de alguien hablando y te devuelven texto que puedes buscar, citar y estudiar. El profesor habla, la app escucha, las palabras llegan a la página. Las diferencias entre herramientas son todas consecuencia de eso: si el audio se captura en directo o después, si se procesa en un servidor o en tu máquina, y cómo la app limpia el resultado.
Whisper by Remskill se encarga del lado del dictado. Mantienes una tecla, hablas y el transcript se pega en el cursor dentro de la app que estés usando, ya sea Notion, Word, un documento de Google o un correo. En Windows la tecla predeterminada es Ctrl+Space. En macOS es el acorde Command+Option de pulsar-para-hablar: mantenlo para grabar, suéltalo para parar. Después de soltarlo, el micrófono permanece abierto 500 milisegundos más para que la última palabra no se corte. No hay paso de «unirse a la reunión» ni espera mientras se sube nada. Hablas, y uno o dos segundos después el texto está ahí.
Esta distinción importa más en el contexto de las clases que en la mayoría de los casos de uso, que es lo siguiente que hay que aclarar.
Captura en directo y dictar tus propios apuntes no son lo mismo

Aquí está la distinción que confunde a la mayoría de los estudiantes. Algunas apps están pensadas para capturar una clase en directo: graban la sala o se unen a una llamada de Zoom y transcriben la voz del profesor por ti. Otras están diseñadas para que tú dictes, con tu propia voz, los apuntes y resúmenes que quieres. Ambas producen un transcript. Pero no son intercambiables.
Whisper está en el segundo grupo. Transcribe lo que el micrófono escucha mientras tú hablas. Eso es excelente para la parte del estudio que llega después de clase: dictar tu resumen mientras está fresco, razonar en voz alta un ejercicio, grabarte explicando de nuevo un concepto, o redactar un correo para un grupo de estudio. No es un bot que se queda en el aula capturando al profesor. Si lo que necesitas es capturar sin supervisión la clase en directo de otra persona, una grabadora dedicada es la mejor herramienta, y más adelante menciono cuáles en la sección honesta.
La verdad aburrida es que el transcript más preciso que puedes obtener de una clase es aquel en el que el hablante está cerca de un buen micrófono. Cuando dictas tu propio resumen, tu boca está a 20 centímetros del micro. Cuando grabas al profesor, su boca está a 20 metros, detrás de un atril, luchando contra el sistema de ventilación. El mismo software, dos mundos de resultado completamente distintos.
De dónde viene el audio de la clase

Todo transcript empieza con un micrófono, y un aula universitaria es el lugar donde los buenos micrófonos van a sufrir. El audio puede venir de tres sitios. El primero es el micrófono integrado del portátil, calibrado para quien está justo enfrente: perfecto para dictar tus propios apuntes, pero pésimo para un profesor al otro lado de una sala de 200 butacas. El segundo es el audio del sistema por loopback —el sonido que sale por tus altavoces—, que es lo que captarías en una clase online en directo por Zoom o en una grabación. El tercero es un micrófono externo dedicado colocado cerca de la fuente.
La posición del micrófono es la palanca más importante para la precisión, no el modelo. Un micro USB de $20 aporta más a un transcript que cualquier actualización a un modelo más grande. He visto estudiantes angustiarse por cuál app es «más precisa» mientras dictaban en el micro del portátil en una cafetería. La app nunca fue el problema. El audio sí.
Para una clase online o una conferencia por Zoom, capturar el audio por loopback funciona bien porque la voz ya llega por canales digitales limpios. Para un aula grande presencial, la respuesta realista es grabar cerca de la fuente —siéntate en las primeras filas o usa un micro de solapa— y transcribir después. Ninguna app convierte una grabación turbia en un transcript perfecto. Convierten buen audio en texto excelente, y mal audio en «Ana tiene miedo».
La transcripción local y en la nube trazan una línea de privacidad que los estudiantes deberían ver
La mayoría de las comparativas de apps de clase se saltan esta parte, y es la que más me importaría si fuera estudiante. ¿Dónde se procesa el audio? Hay dos respuestas. Las herramientas en la nube envían tu grabación a un servidor, la transcriben allí y te devuelven el texto. Las herramientas locales hacen todo en tu portátil, sin que nada salga de la máquina.
Entre tú y yo, transcribir una clase solo en la nube es una decisión de privacidad que la gente toma sin darse cuenta de que la está tomando. Una grabación de tu profesor —sus palabras, su investigación inédita, el comentario de pasada sobre el examen que se acerca— guardada en los registros de un proveedor es algo sin importancia hasta que deja de serlo. Local primero o mejor no molestarse. Es una afirmación más tajante de lo que suelo hacer, y la respaldo: cuando una grabación vive únicamente en tu portátil, no hay brecha de servidor que pueda filtrarla, no hay cambio en las condiciones de servicio que conceda derechos de entrenamiento a tus espaldas, no hay cuenta olvidada que borrar.
Whisper ejecuta la transcripción local en Rust puro, sin sidecar de Python, con dos motores a elegir. El motor Whisper local ofrece varios tamaños de modelo, desde un modelo Base de unos 140 MB hasta un Large v3 multilingüe de unos 3 GB, y las variantes multilingües cubren 99 idiomas con traducción al inglés. NVIDIA Parakeet es un único modelo de unos 600 MB, cubre inglés más 24 idiomas europeos (25 en total) y funciona de 5 a 10 veces más rápido que Whisper en CPU, aunque no puede traducir ni soporta idiomas asiáticos. Si quieres la mejor calidad y acceso a la web, también hay un modo Cloud que usa tu propia clave de OpenAI. Todo el pipeline local es gratuito para cualquier usuario con sesión iniciada, sin necesidad de tarjeta al registrarse; Cloud es un complemento de pago. Además, funciona completamente sin internet, y hay una guía más detallada en nuestro guía de reconocimiento de voz sin conexión si esa es tu principal preocupación.
Las otras apps de clase que vale la pena conocer
Whisper es una herramienta de dictado, no un bot que graba el aula, así que para captura en directo lo honesto es señalarte las apps diseñadas para eso. Aquí te explico en qué se diferencian las opciones más comunes, con cifras reales cuando la fuente primaria las proporcionó.
| App | Para qué está pensada | Dónde se procesa el audio | Plan gratuito real | Idiomas |
|---|---|---|---|---|
| Whisper by Remskill | Dictar tus propios apuntes y resúmenes | Local (Whisper o Parakeet) o Cloud con tu propia clave | Pipeline local completo gratis, sin tarjeta | 99 con Whisper multilingüe; 25 con Parakeet |
| Otter | Grabar y resumir reuniones/clases en directo | Nube | 300 min/mes, límite de 30 min por grabación | No indicado por la fuente |
| Apple Voice Memos | Grabar una clase y leer luego el transcript | Apple (integrado) | Integrado en macOS | No indicado por la fuente |
| Notta | Toma de notas con IA en la nube para reuniones/clases | Nube | Precio no verificado | Decenas, según los propios datos de Notta |
Un par de esas filas merecen un comentario. El plan Basic gratuito de Otter te da 300 minutos de transcripción al mes con un límite de 30 minutos por grabación, lo que significa que una sola clase de 90 minutos no cabe en una grabación gratuita. Apple Voice Memos puede grabar audio y luego mostrar su transcripción, así que para los usuarios de Mac es una opción genuina de «graba la clase, léela después» que ya está instalada. Notta dice que soporta decenas de idiomas, aunque no pude abrir su página de precios para verificar los límites de minutos, así que trata los detalles de su plan como «compruébalo antes de comprometerte».
Cuándo no usar Whisper para clases
Si lo que necesitas es dejar una herramienta delante de un profesor en directo y marcharte con sus palabras, no uses Whisper. Transcribimos lo que tú dictas, no lo que dice alguien al otro lado del aula. Para captura en directo sin supervisión, elige una grabadora diseñada para ello. En Mac, Apple Voice Memos graba el ambiente y luego te muestra la transcripción gratis, ya instalada. Si quieres captura de reuniones en directo con etiquetas de hablante y resúmenes, Otter está hecho para eso. Su plan gratuito cubre 300 minutos al mes, aunque el límite de 30 minutos por grabación significa que una clase completa necesita el plan de pago. Usa Whisper para el estudio que llega después de clase: el resumen que dictas, el problema que razonas en voz alta, el correo que mandas mientras preparas la cena.
Transcripción local gratuita, Pro para la superficie cloud
Aquí está la parte que más preguntan los estudiantes: el precio. Todo el lado local de Whisper —ambos motores, la limpieza con IA mediante un modelo local, el historial, la tecla personalizada y las descargas de modelos— es gratuito para cualquier usuario con sesión iniciada, sin necesidad de método de pago al registrarse. Eso es deliberado. La transcripción local funciona en la CPU de tu portátil. Cobrar una cuota mensual por una capacidad de cómputo que ya pagaste nunca nos ha parecido bien.
El nivel de pago, Whisper Pro, añade la superficie Cloud: transcripción cloud con OpenAI, mejora con IA en la nube y búsqueda web por voz. Esa es la parte que tiene un coste por uso en OpenAI y un servidor en el proceso, por eso requiere una suscripción con una prueba Cloud breve. Las cifras exactas están en la página de precios. Para el dictado de estudio de clase puro, la mayoría de los estudiantes nunca salen del nivel local gratuito. Ese es el objetivo.
Un martes por la tarde del semestre pasado estaba preparando las fiambreras (sándwich, fruta, el yogur que la pequeña siempre rechaza) cuando mi hija mayor necesitaba una respuesta para el profesor sobre una excursión. Agarré el portátil con una mano, mantuve la tecla y dicté el correo entre cortes de pepino: una pausa para preguntar cómo se escribía el apellido del profesor, otra pausa cuando la pequeña preguntó por qué a veces no se ve la luna, y luego seguí. El correo salió. Las fiambreras quedaron listas. Con mi letra, para lo que sirve saberlo, no hubiera salido ninguna de las dos cosas. Esa es la versión de la transcripción que encaja en una vida real: no un bot en un aula, sino una voz que aguanta el ritmo mientras tus manos están ocupadas. Elige la herramienta que se ajusta al trabajo, y luego a estudiar. Cómo funciona Whisper.
¿Quieres probarlo en tu próxima sesión de estudio?
Descarga Whisper, mantén la tecla y dicta el resumen de tu clase mientras lo tienes fresco. El pipeline local es gratuito.
Transcripción local gratuita para cualquier cuenta registrada, sin tarjeta al registrarse.



