Por Denys Medvediev

Guía

Software de transcripción de reuniones

Un mismo término de búsqueda, dos trabajos muy distintos. Algunas herramientas envían un bot a tu llamada para escribir notas compartidas. Otras procesan una grabación que ya tienes, sin conexión, en tu propio ordenador. Aquí te explicamos cómo saber cuál necesitas realmente.

Última actualización: junio de 2026

Sala de conferencias vacía con micrófonos y monitores dispuestos para una reunión que el software transcribirá

El software de transcripción de reuniones convierte las conversaciones habladas de una llamada en texto escrito y con capacidad de búsqueda. Funciona de dos formas: en tiempo real, donde la transcripción aparece en pantalla mientras las personas hablan, y tras la reunión, donde se procesa una grabación para obtener notas más limpias con etiquetas de hablante y marcas de tiempo. La mayoría de las herramientas se unen automáticamente a las llamadas mediante sincronización de calendario y un bot; unas pocas funcionan sin bot a partir de una grabación que ya tienes.

La primera vez que vi a un equipo acumular una factura abultada por transcribir reuniones, la cifra tenía cinco dígitos y las reuniones ya tenían sus propias notas. Un contratista había montado un prototipo interno de dictado con IA que llamaba a la API en la nube en cada intervención, con una lógica de reintentos tan agresiva que transcribió la misma reunión de seguimiento cuatro veces. El responsable abrió el panel de costes a fin de trimestre. El silencio en la sala lo dijo todo.

La aburrida verdad de esta categoría es que elegir la herramienta equivocada sale caro en dinero, en privacidad o en tiempo, casi siempre antes de que nadie se dé cuenta.

Ese es el propósito de este artículo. Los equipos llevan una década queriendo notas de reuniones sin esfuerzo, y las herramientas por fin hacen el trabajo bien. El problema es que hacen trabajos muy distintos bajo un mismo término de búsqueda. Algunas se unen a tu videollamada como bot y escriben notas compartidas para todos. Otras procesan una grabación después del hecho, sin conexión, en tu propio ordenador.

A continuación repaso ambas vías, menciono las herramientas que vale la pena conocer y soy honesto sobre lo que nuestra propia aplicación no hace: no es un bot de reuniones. Como la persona que lee el correo de soporte, puedo decirte que la mayor parte de la confusión en esta categoría viene de gente que elige el tipo de herramienta equivocado desde el primer día. He respondido ese mismo correo suficientes veces como para reconocerlo por el asunto.

Qué hace el software de transcripción de reuniones (y las dos formas en que funciona)

Más allá del marketing, todas las herramientas de aquí hacen una sola cosa: toman audio y producen texto. El audio es la voz humana en una reunión. El texto es una transcripción. Todo lo demás — resúmenes, tareas pendientes, etiquetas de hablante, búsqueda — se construye sobre esa única conversión.

La categoría se divide según cuándo ocurre esa conversión.

  • Transcripción en tiempo real funciona mientras la gente habla. Las palabras aparecen en pantalla uno o dos segundos después del hablante. Esto es lo que obtienes con los subtítulos en directo de Zoom o Microsoft Teams, y con los bots de notas que muestran una transcripción continua durante la llamada. Es útil en el momento: para la accesibilidad, para seguir el hilo o para captar un nombre que se te escapó.
  • Transcripción posterior a la reunión se ejecuta sobre una grabación una vez que la llamada ha terminado. La herramienta tiene el archivo completo, así que puede tomarse su tiempo. Limpia los falsos arranques, etiqueta quién dijo qué, añade marcas de tiempo y construye un documento legible. El procesamiento posterior produce texto más limpio, con etiquetas de hablante y marcas de tiempo, que la versión en directo. El precio es que hay que esperar.

La mayoría de las herramientas conocidas (Otter, Fireflies, Fathom, tl;dv) hacen las dos cosas, y obtienen el audio del mismo modo: un bot se une a la llamada. Conectas tu calendario de Google o Outlook, la herramienta detecta una reunión con un enlace de vídeo y envía a un participante a la sala para escuchar y grabar. Ese pequeño recuadro de grabación que has visto en la cuadrícula de Zoom es todo el modelo en un solo fotograma.

Una tercera vía más discreta se esconde tras el término de búsqueda: transcribir una grabación que ya tienes, en tu propia máquina, sin bot y sin llamada. Eso es software de dictado y transcripción, no un asistente de notas de reuniones, y es donde vive nuestra propia aplicación. Más sobre esto a continuación, incluida la parte honesta sobre cuándo no es la elección correcta.

Cuándo un bot de reuniones es la opción correcta (y Whisper no lo es)

Bot de notas · Sincronía semanalGrabando
En llamada
María (anfitriona)
Tom
Priya
Bot de notas
Transcripción en directo

María 10:02 Empecemos con la fecha de lanzamiento.

Tom 10:02 Creo que nos retrasamos una semana.

Auto-unión: calendario sincronizado · Resumen + tareas al terminar la llamada
Un bot tomador de notas: se une automáticamente a la llamada desde tu calendario, aparece en la lista de participantes y escribe una transcripción en directo compartida para todos. Whisper no hace esto.

Si tu problema es «algo debería unirse a mi llamada de Zoom, Teams o Google Meet, capturar a todos y entregar al equipo notas compartidas al terminar», necesitas un bot de reuniones. Whisper no hace eso. No se une automáticamente a una llamada, no graba a otros participantes y no realiza diarización multi-hablante en una videollamada. Pretender lo contrario solo haría perder la tarde.

Para ese trabajo, las opciones correctas son los bots tomadores de notas. Otter.ai se une a Zoom, Microsoft Teams y Google Meet para escribir y compartir notas automáticamente, y tiene un plan Basic gratuito si quieres probar el modelo antes de pagar. Fireflies.ai se une por invitación o por auto-unión a las reuniones del calendario, y su nivel gratuito incluye transcripción ilimitada con resúmenes de IA limitados. tl;dv graba Google Meet, Zoom y Teams, ofrece un modo de captura sin bot y tiene un plan gratuito para siempre sin límite de tiempo. Fathom tiene un plan gratuito para siempre con grabaciones ilimitadas y la opción de captura sin bot (en beta) o con bot.

Esta es la parte del artículo donde, a propósito, te mando a otra herramienta. Otter es para reuniones. Whisper es para escribir. Son categorías distintas, y pagar por la equivocada es el error más común en todo este espacio. Si necesitas diarización multi-hablante en una llamada grabada, auto-unión al calendario y un resumen en el canal del equipo antes de que termine la reunión, un bot de notas hace un trabajo para el que nuestra app nunca fue diseñada. Nosotros hacemos que escribir con la voz sea rápido; ellos hacen que capturar una reunión sea automático. Elige primero la categoría, luego la herramienta.

¿Qué tan precisa es realmente la transcripción de reuniones con IA?

La respuesta honesta: mejor de lo que esperas con audio limpio, peor de lo que esperas en una reunión real. La categoría ronda entre el 85 y el 95 % de precisión con audio claro y en un solo idioma, bajando con ruido de fondo, acentos, jerga y personas hablando al mismo tiempo. Los servicios con verificación humana vuelven a acercarse al 99 %, porque una persona corrige lo que el modelo falló.

Nuestro propio modo local reporta una precisión que normalmente se sitúa entre el 95 y el 99 %, con los modelos más grandes puntuando más alto. Quiero ser cuidadoso aquí. Esa es nuestra medición sobre nuestro software, no una comparativa independiente frente a Otter o Fireflies, y no voy a inventarme una. Quien te dé un único porcentaje de precisión para transcripción de reuniones sin decirte las condiciones del audio está vendiendo, no midiendo.

Aquí va algo que nadie vende, porque no hay upsell en ello. El micrófono importa más que el modelo. Un micrófono USB de veinte dólares hace más por tu transcripción que pasar de un modelo pequeño al más grande. La mayoría de las malas transcripciones que he visto no eran un fallo del modelo. Eran el micrófono del portátil captando el aire acondicionado, cuatro personas compartiendo una sala y un altavoz, o unos auriculares Bluetooth cortando la primera palabra de cada frase. Arregla el audio primero. La IA no puede borrar el ruido de una tetera.

Hay dos cosas más que impulsan la precisión por dentro. Una es cómo la herramienta decide dónde termina una persona y empieza otra, algo que se complica cuando la gente se interrumpe (la razón por la que cualquier transcripción de mi familia en la cena sonaría como una frase interminable de 400 palabras sin puntos). La otra es el soporte de vocabulario personalizado: la capacidad de añadir nombres de productos, apellidos y acrónimos que ningún modelo general ha visto nunca. Whisper te permite definir vocabulario personalizado y dar prioridad a palabras clave en su motor Whisper local, y muchos bots de reuniones también. Si tus llamadas están llenas de jerga, esa sola configuración vale más que actualizar el modelo.

Sin bot y sin conexión: transcribir una grabación que ya tienes

Esta es la vía que el término de búsqueda no suele mostrar, y para la que está diseñada nuestra aplicación. No siempre necesitas software que se una a una reunión. A veces ya tienes la grabación — una nota de voz de una conversación uno a uno, una entrevista, la exportación de un webinar, un clip que te envió un compañero — y solo necesitas texto limpio a partir de ella, en tu propia máquina, sin ningún bot en la llamada de nadie.

El software de dictado y transcripción como Whisper encaja aquí y se gana el respeto en privacidad. Todo en el modo local se ejecuta en tu portátil. El audio nunca sale del dispositivo: sin servidor de por medio, sin registros del proveedor, sin contador de costes en la nube. El salario de tu jefe, la grabación legal, la conversación de recursos humanos: nada de eso debería acabar en el almacenamiento de un tercero porque necesitabas una transcripción. Lo local no es una función aquí. Es toda la propuesta.

Whisper
La aplicación real de Whisper, ejecutándose en local — pruébala. Esta es la vía sin bot: apúntala a una grabación que ya tienes y obtén texto limpio, en tu propia máquina.

Whisper ejecuta dos motores locales, ambos en Rust puro mediante transcribe-rs, sin proceso auxiliar de Python que ralentice el arranque. El primero es el Whisper de código abierto de OpenAI, que en sus versiones multilingüe cubre 99 idiomas y puede traducir al inglés, con tamaños de modelo desde Base con unos 140 MB hasta Large v3 con unos 3 GB. Las versiones solo en inglés son exactamente eso, solo inglés, y tienden a ser algo más ligeras. El segundo motor es el Parakeet TDT de NVIDIA, unos 600 MB, descrito en la app como entre 5 y 10 veces más rápido que Whisper en CPU, cubriendo inglés más 24 idiomas europeos (25 en total) sin traducción al inglés. Elige Parakeet por velocidad si trabajas principalmente en inglés. Elige Whisper si necesitas traducción o un idioma que Parakeet no cubre.

CancelTranscribing
El overlay de Whisper mientras procesa una grabación — un pequeño widget flotante, sin ningún bot en la llamada de nadie.

La interacción es la misma que uso todo el día. Mantienes pulsada la tecla de acceso rápido — Ctrl+Space en Windows, o el acorde Command+Option en Mac, manteniendo ambas teclas y soltando cualquiera para detener — hablas, y el texto aparece en el cursor en la aplicación que tengas activa. Un pequeño overlay muestra el estado mientras trabaja. Para una grabación en lugar de habla en directo, apuntas la app al archivo y recibes la transcripción. Si quieres la parte de dictado específicamente, nuestra guía de reconocimiento de voz sin conexión profundiza en cómo ejecutar todo en el dispositivo.

También existe una opción Cloud, para quienes quieran los últimos modelos de OpenAI y una búsqueda web por voz en la misma herramienta. Conecta tu propia clave de OpenAI y di «Hey whisper» para enrutar el texto a través de la IA. Pero para transcribir una grabación que ya tienes, el modo local es la respuesta, y es gratuito para cualquier usuario registrado.

Las demás herramientas que vale la pena conocer

Esta categoría está saturada, y los resultados de búsqueda los dominan listas con seis a diez herramientas cada una. Aquí tienes un mapa claro para no tener que leer diez reseñas para saber para qué sirve cada una. Todas las funciones indicadas provienen de las propias páginas de cada herramienta.

  • Otter.aiel tomador de notas de reuniones por defecto. El bot se une a Zoom, Teams y Meet; plan Basic gratuito con 300 minutos mensuales, y niveles Pro y Business de pago. Transcripción en seis idiomas: inglés, español, francés, alemán, japonés y chino.
  • Fireflies.aiel bot se une por invitación o por auto-unión al calendario. Plan gratuito con transcripción ilimitada y resúmenes de IA limitados; anuncia más de 100 idiomas en sus distintos niveles.
  • tl;dvgraba Meet, Zoom y Teams, ofrece un modo sin bot, transcribe en más de 30 idiomas y tiene un plan gratuito para siempre sin límite de tiempo ni tarjeta requerida.
  • Fathomplan gratuito para siempre con grabaciones ilimitadas, y opción de captura sin bot (beta) o con bot; niveles de pago Premium, Team y Business.
  • Nottatiene un bot de reuniones para Zoom, Teams y Meet y un nivel gratuito; su propio centro de ayuda indica alrededor de 58 idiomas.
  • Zoom y Teams, integradosantes de comprar nada, comprueba lo que ya pagas. Zoom transcribe las grabaciones en la nube y ofrece transcripción en tiempo real con AI Companion en 46 idiomas en los planes de pago elegibles. Microsoft Teams tiene transcripción en directo integrada en aproximadamente más de 50 idiomas; la transcripción traducida en directo requiere Teams Premium.

Aquí tienes el mismo mapa en forma de tabla, solo con los datos que puedes verificar en las propias páginas de cada herramienta. Sin cifras de precisión ni velocidad, porque nadie ha hecho esa comparativa con el mismo audio, y no voy a inventarme la prueba.

Herramientas de transcripción de reuniones comparadas por método de captura, dónde se ejecutan, soporte sin conexión, modelo de precios, número de idiomas y para qué destaca cada una.
HerramientaCapturaLocal/CloudFunciona sin conexiónModelo de preciosIdiomasMejor para
Otter.aiBot que se une a la llamadaCloudNoNivel gratuito + pago por usuario6El tomador de notas de equipo por defecto
Fireflies.aiBot por invitación o auto-uniónCloudNoNivel gratuito + pago por usuario100+Transcripción gratuita generosa
tl;dvGraba la llamada, modo sin bot disponibleCloudNoGratuito para siempre + pago30+Sin bot visible en la reunión
FathomSin bot (beta) o con botCloudNoGratuito para siempre + pagoNo indicado en su página de preciosGrabaciones gratuitas ilimitadas
NottaBot que se une a la llamadaCloudNoNivel gratuito + pago~58 (su centro de ayuda)Un bot con nivel gratuito
Zoom / Teams (integrado)Nativo de la llamadaCloudNoIncluido en los planes de pago elegiblesZoom 46, Teams 50+Lo que ya pagas
Whisper by RemskillSin llamada; transcribe un archivo o dictadoLocal (Cloud opcional)Nivel local gratuito + Pro99 multilingüe, 25 ParakeetPrivado, sin bot, en el dispositivo

Si tus reuniones ya se realizan en un plan de pago de Zoom o Teams, la transcripción integrada puede ser todo lo que necesitas, sin añadir otra suscripción ni otro bot a la llamada.

Qué elegiría yo en cada situación

Leo el correo de soporte, así que veo el arrepentimiento por elegir la herramienta equivocada con suficiente frecuencia como para tener opiniones. Así es como yo lo elegiría.

  • Quieres notas de una videollamada de equipo, automáticamente, compartidas con todos. Usa un bot de notas. Otter si quieres la opción pulida por defecto, Fireflies o Fathom si quieres un nivel gratuito generoso, tl;dv si te importa que no haya ningún bot visible en la cuadrícula.
  • Ya tienes un plan de pago de Zoom o Teams. Prueba la transcripción integrada antes de pagar por una tercera herramienta.
  • Tienes una grabación y quieres texto limpio, de forma privada, en tu propia máquina. Esta es la vía sin bot y sin conexión: Whisper, u otra herramienta de transcripción local. El audio permanece en el dispositivo.
  • Quieres escribir con la voz (correos, documentos, notas durante o después de la llamada) en el cursor, en cualquier aplicación. Eso es dictado, y es el trabajo para el que se diseñó Whisper. Nuestra comparativa de software de transcripción explica con más detalle la diferencia entre dictado y notas de reuniones.
  • Necesitas una transcripción casi perfecta garantizada para un registro legal o de cumplimiento normativo. Usa un servicio con verificación humana. La IA sola no supera el 99 % en audio real.

El error que hay que evitar es pagar por un bot de reuniones para hacer dictado, o esperar que una herramienta de dictado se una a tus llamadas. Son categorías distintas. Elige la que se ajusta al trabajo. Llevo quince años desarrollando software y el año pasado compré la herramienta equivocada para un trabajo, así que esto no es un sermón de alguien que siempre lo hizo bien a la primera.

Precios en números directos

La mayoría de las herramientas aquí tienen un nivel gratuito que vale la pena probar antes de sacar la tarjeta. Otter, Fireflies, tl;dv y Fathom ofrecen todos un plan gratuito, con niveles de pago cuando necesitas más minutos, más puestos o almacenamiento ilimitado. Los bots de notas generalmente cobran por usuario al mes, lo que se acumula rápido en un equipo.

Whisper es gratuito para todos los usuarios registrados en toda la cadena local — ambos motores, mejora con IA mediante Ollama, historial, presets, vocabulario personalizado, la tecla de acceso rápido, todo — sin pedir método de pago al registrarse. El nivel de pago añade la superficie Cloud para quienes quieran los modelos de OpenAI y búsqueda web por voz. Los números exactos para mensual, anual, de por vida y puestos de equipo están en la página de precios. Prefiero que empieces gratis y decidas por ti mismo antes de tomar un precio fuera de contexto aquí.

Elige el tipo de herramienta antes que la marca. Si un bot debe unirse a tu llamada, usa un tomador de notas. Si una grabación en tu ordenador debe convertirse en texto privado, usa algo sin conexión. La factura de cinco cifras que vi acumular a un equipo llegó porque nunca se preguntaron para qué trabajo estaban pagando, y esa es una reunión de la que nadie necesitaba transcripción.

Prueba la vía sin bot con una grabación que ya tienes

Descarga Whisper, apúntala a una grabación y observa cómo aparece texto limpio en tu propia máquina, sin ningún bot en la llamada de nadie.

Gratuito para todos los usuarios registrados en toda la cadena local. Sin método de pago al registrarse.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee el correo de soporte, muy probablemente dictando las respuestas.

Lectura adicional