Comparativa
El mejor software de transcripción en 2026
El mejor software de transcripción en 2026 depende de la tarea, no hay un único ganador. Las notas de reuniones van a Otter, la precisión de nivel jurídico va a servicios humanos como Rev, el audio multilingüe va a Sonix, y el dictado práctico que pega texto en cualquier sitio va a una herramienta local como Whisper by Remskill. Primero adapta la herramienta a la tarea.
Revisado el 3 de junio de 2026, contrastado con las páginas de precios y especificaciones en vivo de cada proveedor.

No existe un único mejor software de transcripción en 2026, porque las herramientas apenas hacen lo mismo. Elige según la tarea: Otter para notas de reuniones y etiquetas de quién habla, Rev para precisión verificada por humanos en grabaciones críticas, Descript para editar audio o vídeo a partir de su transcripción, Sonix para archivos multilingües, y una herramienta local como Whisper by Remskill para dictar texto directamente en cualquier aplicación, sin conexión. Define la tarea en una sola frase y la herramienta se elige sola.
Un amigo me escribió en abril preguntándome qué aplicación de transcripción debía comprar. Había abierto doce pestañas, leído cuatro listas y terminado más confundido que cuando empezó. Cada lista llamaba "la mejor" a una herramienta distinta. Una colocaba un editor de vídeo en primer lugar, con cobro mensual. Otra ponía un servicio humano que cobra por minuto junto a un modelo gratuito sin conexión y fingía que competían. Él solo quería convertir una entrevista grabada en texto limpio sin perder una tarde. Para cuando terminó de leer, había perdido la tarde igualmente.
Ese es el problema de toda esta categoría. "El mejor software de transcripción" es la pregunta equivocada, porque las herramientas apenas hacen lo mismo.
Algunas transcriben archivos grabados. Otras subtitulan reuniones en vivo. Otras te permiten editar un pódcast editando su texto. Una de ellas, la que yo construyo, escribe tus palabras en la aplicación donde esté tu cursor, en el momento en que dejas de hablar. La brecha que mete a mi amigo doce pestañas adentro es que "transcripción" abarca al menos cuatro tareas distintas, y casi nadie las separa antes de ordenarlas.
Esta guía las separa. Repasa cómo se contrastó cada herramienta principal con sus propias páginas de precios y especificaciones, cuáles son las diferencias reales y cuál elegiría yo en cada situación, incluidos los casos en que la respuesta no somos nosotros. Tras un año leyendo nuestra bandeja de soporte, puedo decirte que la mayoría de los correos vienen de gente que compró la categoría de herramienta equivocada, no la marca equivocada.
La respuesta corta, según lo que estás haciendo
Ninguna herramienta gana esta categoría por sí sola, y cualquier lista que corone a una sin preguntar qué estás transcribiendo está rellenando palabras. Así que aquí va el mapa honesto, por tarea.
- Notas de reuniones — ¿Grabas reuniones y quieres notas, etiquetas de quién habla y resúmenes después? Quieres una herramienta de reuniones. Otter.ai es la opción evidente aquí: transcripción en vivo, identificación de hablantes por nombre y subtítulos en vivo para Google Meet.
- Precisión crítica — Si necesitas una precisión casi perfecta en una declaración legal o un historial médico y estás dispuesto a pagar para que una persona lo revise, quieres un servicio con intervención humana. Rev anuncia "Transcripción humana experta con 99 % de precisión" para exactamente eso.
- Edición de contenido — ¿Editas un pódcast o un vídeo y quieres cortar el audio cortando las palabras? Eso es un editor basado en transcripción. Descript mide sus planes por horas de medios, no por minutos de transcripción, porque eso es lo que es: un editor.
- Archivos multilingües — Si tu audio es multilingüe, quieres una amplia cobertura de idiomas. Sonix anuncia más de 54 idiomas para transcripción.
- Escribir con la voz — Y si quieres dejar de teclear, dictar correos, notas y documentos directamente en cualquier aplicación, sin conexión, con un solo atajo, quieres una herramienta de dictado. Esa es la categoría en la que vive Whisper by Remskill. Otra tarea. Otra lista.
Cómo elegí estas, y qué significa "precisión"
Una nota rápida de honestidad sobre el método, porque las listas de "las mejores" con sello de año suelen saltársela. No pasé estas herramientas por un laboratorio con muestras de audio idénticas y un cronómetro. Leí la propia página de precios y especificaciones de cada herramienta en la fecha en que se escribió esto, y me apoyé en un año dirigiendo mi propia aplicación de dictado y su bandeja de soporte. Así que las elecciones se basan en capacidades documentadas más el tiempo de uso con una herramienta del conjunto, no en pruebas comparativas que tendría que inventar para que parecieran rigurosas.
Cada cifra de este artículo se sacó de la propia página de precios o especificaciones de la herramienta. No de la memoria, ni del blog de un competidor. Si los precios de una herramienta vivían tras una aplicación de JavaScript que no podíamos leer, el precio no se cita. Se deja fuera, porque un número equivocado es peor que uno ausente.
Cuatro cosas que sopesé, definidas antes de mirar cualquier producto:
- Precisión — El truco es que "99 % de precisión" es una frase de marketing, no una prueba medida, a menos que alguien te diga cuál fue el conjunto de prueba. Rev y Sonix anuncian ambos un 99 por ciento. Son afirmaciones de los propios proveedores sobre sus propios servicios, en sus propias páginas. La precisión real depende de tu micrófono, tu acento, el ruido de fondo y de cuántas personas hablan a la vez. La verdad aburrida es que un micrófono USB barato mueve la precisión más que cambiar entre dos herramientas que ambas afirman un 99 por ciento.
- Cobertura de idiomas — Aquí es donde las listas se equivocan con más frecuencia, así que los recuentos van matizados por herramienta. Otter cubre seis idiomas para transcripción con IA. Rev cubre inglés y español en su nivel más barato, más de 37 en los superiores. Sonix cubre más de 54. Trint cubre más de 40. El modelo de código abierto OpenAI Whisper —el que varias de estas herramientas ejecutan por debajo— maneja 99 idiomas en sus variantes multilingües.
- Dónde acaba tu audio — Las herramientas en la nube envían tu grabación a un servidor. Para un pódcast, bien. Para una hoja de cálculo de salarios leída en voz alta o una llamada legal confidencial, menos bien. El funcionamiento sin conexión importa más de lo que admiten la mayoría de las listas.
- La tarea real, dictado frente a transcripción — Una herramienta de reuniones que se une a tus llamadas automáticamente es inútil si lo que quieres es dictar un documento directamente en ella. La transcripción convierte una grabación en texto después; el dictado convierte tu voz en directo en texto mientras hablas. Son tareas distintas, y puntúo según el encaje, no según el número de funciones.
- El modelo de precios, en su forma — No la cifra exacta en dólares, que cambia, sino la forma: con nivel gratuito o sin él, suscripción por usuario, pago por uso por hora, o gratuito y local. El modelo te dice más sobre si una herramienta encaja con tu costumbre que cualquier precio concreto.
Las herramientas que vale la pena conocer, una al lado de otra
Aquí están las herramientas que aparecen en toda lista seria, con una línea honesta sobre para qué sirve cada una. Los precios se describen en su forma, no en cifras exactas, porque los números de las tiendas cambian y un precio caduco no ayuda a nadie. Consulta la propia página de cada herramienta antes de pagar.
Primero la tabla, para el vistazo de diez segundos. Cada columna aquí es algo que el proveedor documenta o que afirma la ficha del modelo. Sin números de precisión ni de velocidad, porque nadie las comparó entre sí, yo incluido.
| Herramienta | Plataforma | Local o nube | Funciona sin conexión | Modelo de precios | Idiomas | Mejor para |
|---|---|---|---|---|---|---|
| Otter.ai | Web, móvil | Nube | No | Nivel gratuito más suscripción por usuario | 6 | Notas de reuniones y subtítulos en vivo |
| Rev | Web | Nube | No | Nivel gratuito más suscripción por usuario, servicio humano con precio aparte | Inglés y español de entrada, más de 37 en niveles superiores | Precisión crítica con revisión humana |
| Descript | Escritorio, web | Nube | No | Nivel gratuito más suscripción por usuario, medido en horas de medios | No es su punto fuerte | Editar audio o vídeo a partir de su transcripción |
| Sonix | Web | Nube | No | Pago por uso por hora o niveles de horas mensuales | más de 54 | Archivos multilingües |
| Trint | Web | Nube | No | Suscripción (precios tras una aplicación JS, no citados) | más de 40 | Periodistas y redacciones |
| OpenAI Whisper (código abierto) | CLI multiplataforma | Local | Sí | Gratuito, licencia MIT | 99 en variantes multilingües | Desarrolladores cómodos en una terminal |
| OpenAI Speech-to-Text API | API en la nube | Nube | No | Pago por uso, con tu propia clave | 65 | Desarrolladores que integran transcripción |
| Wispr Flow | Windows, macOS | Nube | No | Nivel gratuito más suscripción | más de 100 con detección automática | Dictado en la nube en todas las apps |
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Local o nube | Sí, en modo local | Flujo local gratuito, Pro añade la nube | 99 en Whisper multilingüe, 25 en Parakeet | Escribir con la voz en cualquier app, sin conexión |
Otter.ai: transcripción de reuniones. Transcripción en vivo, identificación de hablantes y subtítulos para Google Meet, con un nivel gratuito limitado a 300 minutos al mes. Seis idiomas. La opción por defecto si tu problema es "estuve en una reunión y necesito notas".
Rev: transcripción humana más IA. Comercializa un servicio de precisión humana del 99 por ciento, con un nivel gratuito y planes de pago que incluyen miles de minutos de IA al mes. Inglés y español en el nivel de entrada, más de 37 idiomas en los superiores. Recurre a él cuando un error en la transcripción tenga consecuencias legales.
Descript: edición de audio y vídeo basada en transcripción. Sus planes se miden en horas de medios, no en minutos de transcripción, con un nivel gratuito de una hora al mes. Es un editor que también transcribe, no al revés. La herramienta adecuada si produces contenido.
Sonix: transcripción multilingüe. Anuncia más de 54 idiomas para transcripción, más de 55 para traducción, un informe SOC 2 Type II y cumplimiento de HIPAA en su plan empresarial, con niveles de pago por uso y horas mensuales. Sólido cuando tus archivos no están en inglés.
Trint: hecho para periodistas y redacciones. Transcribe en más de 40 idiomas, incluido en vivo, con detección de hablantes y un diccionario personalizado.
OpenAI Whisper (código abierto): el modelo gratuito, no un producto. Publicado bajo la licencia MIT, código y pesos, y puede traducir voz al inglés desde muchos idiomas en la mayoría de los tamaños de modelo. Ejecuta 99 idiomas en sus variantes multilingües. El truco: es un modelo de línea de comandos. No hay atajo, ni superposición, ni aplicación. Tendrías que construir tú mismo la comodidad.
La API de Speech-to-Text alojada de OpenAI: la versión de pago, en la nube, de la misma familia. Ofrece whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe y una variante con diarización que añade etiquetas de hablantes, con un límite de subida de 25 MB por archivo y 65 idiomas admitidos. Para un desarrollador que integra, no para un usuario final que transcribe.
Wispr Flow: dictado de voz a texto, el vecino más cercano a lo que hacemos. "No teclees, solo habla", funciona en todas las apps y admite más de 100 idiomas con detección automática. Basado en la nube.
Whisper by Remskill: esos somos nosotros. Dictado que pega texto donde sea que esté tu cursor, en cualquier aplicación, con un solo atajo: Ctrl+Space en Windows, y un acorde de pulsar para hablar Command+Option en macOS, donde mantienes ambas teclas y sueltas cualquiera para detener. Funciona totalmente en local y sin conexión si quieres, y el modelo se descarga a tu equipo sin que nada salga de tu dispositivo. O conectas tu propia clave de OpenAI para obtener calidad en la nube y búsqueda web. La transcripción local funciona en Rust puro, sin Python, con dos motores: ocho modelos de OpenAI Whisper y Parakeet TDT de NVIDIA. Los modelos multilingües de Whisper cubren 99 idiomas y pueden traducir al inglés; Parakeet cubre 25 idiomas europeos y es el más rápido de los dos. Mejor para: escribir con la voz, en tu propio equipo, en cualquier aplicación.
Transcripción con IA frente a transcripción humana, y cuándo merece la pena cada una
Una sola división lo decide casi todo. La transcripción con IA es instantánea y barata. La transcripción humana es lenta y cara, y capta las cosas que la IA aún se pierde: voces superpuestas, acentos marcados, un nombre murmurado que tiene que quedar exactamente bien.
Para el 90 por ciento de las tareas, la IA ya es lo bastante buena como para que pagar a una persona se sienta como comprar un fax. Dictas un correo, grabas un pódcast, conviertes una clase en notas, y la IA moderna se encarga de todo en segundos por una fracción de céntimo por minuto.
El 10 por ciento en el que aún quieres a un humano: cualquier cosa donde una sola palabra equivocada te cueste caro. Una declaración judicial. Un historial clínico. Una entrevista oficial que leerá un abogado. Por eso Rev sigue vendiendo un servicio humano y lo comercializa con un 99 por ciento de precisión, para los casos en los que "la IA estaba un 96 por ciento segura" no es una frase que puedas permitirte.
Aquí está la parte que las listas se saltan. La propia transcripción con IA se divide en nube y local, y la diferencia no es la velocidad, es dónde acaba tu audio. Vi a un equipo de una empresa con la que trabajé construir un prototipo interno de dictado en la nube, ejecutándolo en cada portátil, llamando a la API en cada intervención. El responsable abrió el panel de costes de la nube al final del trimestre y se encontró una factura de cinco cifras, la mayor parte de un solo equipo que transcribía las grabaciones de las reuniones diarias cuatro veces porque la lógica de "reintento inteligente" era demasiado agresiva. El contratista dijo que deberían optimizar el prompt. El director financiero dijo que no deberían estar pagando por transcribir en la nube reuniones que ya tenían notas. La transcripción local no acumula esa factura, y no pone tu grabación en el servidor de nadie.
Cuándo Otter es la mejor opción, y cuándo saltarse todas las herramientas de aquí
La sección honesta de "cuándo saltarse Whisper"
Lo diré en voz alta. Otter es para reuniones. Whisper es para escribir. Son categorías distintas, y no deberías pagar por la equivocada. Si tu problema real es "aguanté una llamada de 50 minutos y necesito notas con quién dijo qué", compra la herramienta de reuniones: Otter hace transcripción en vivo e identificación de hablantes por nombre, y nosotros no. No nos uniremos automáticamente a tu llamada de Zoom ni etiquetaremos a tres hablantes, y fingir lo contrario solo me ganaría un correo de soporte a la hora menos oportuna.
Sáltate por completo las herramientas de dictado si lo que tienes es una carpeta de archivos grabados para procesar en lote: eso es una tarea de subir y transcribir, y Sonix, Rev o Trint están hechas para ello. Sáltate la vía local si estás en un Mac Intel antiguo o en Linux; solo distribuimos para Windows y Macs con Apple Silicon. Y si solo necesitas transcribir una grabación corta este mes gratis, el modelo de código abierto OpenAI Whisper no cuesta nada bajo la licencia MIT, aunque tendrás que vivir en una línea de comandos para usarlo.
Whisper by Remskill se gana su sitio cuando la tarea es lo opuesto a una reunión: tú, hablando, convirtiendo el habla en texto dentro de la aplicación en la que ya estás. Si no estás haciendo eso, una de las otras ocho herramientas de arriba es tu respuesta, y prefiero decírtelo a venderte un mal encaje. Para el caso concreto de reuniones, nuestra comparativa de alternativas a Otter.ai profundiza en dónde está exactamente la línea.
Lo que obtienes de los niveles gratuitos
Los niveles gratuitos son reales, pero están dimensionados para empujarte a mejorar de plan, así que conoce el techo antes de crear una costumbre sobre uno.
El plan gratuito Basic de Otter te da 300 minutos de transcripción al mes. El plan gratuito de Descript te da una hora de medios al mes, que para un editor de vídeo desaparece rápido. Rev tiene un nivel gratuito por encima de sus planes de pago. El modelo de código abierto OpenAI Whisper es gratuito sin ningún límite de minutos, porque se ejecuta en tu propio hardware bajo la licencia MIT.
Whisper by Remskill es gratuito para cada usuario registrado en todo el flujo local: cada modelo de Whisper, Parakeet, limpieza con IA local, historial, ajustes preestablecidos, atajo personalizado, sin pedir ningún método de pago al registrarse. El nivel de pago, Whisper Pro, añade la superficie en la nube por encima de eso: transcripción con calidad de OpenAI con tu propia clave, más búsqueda web por voz. La mitad local no cuesta nada y sigue así. Sigo esperando a que alguien me escriba para preguntar dónde está la trampa. Hasta ahora la respuesta honesta es que no la hay.
Precios, en términos claros
No voy a citar aquí las cifras en dólares de la competencia como verdad absoluta, porque los precios de las tiendas cambian y las páginas en EUR y USD no coinciden más a menudo de lo que crees. El resumen honesto: las herramientas de reuniones y de edición (Otter, Descript) venden suscripciones mensuales por usuario con niveles gratuitos asociados. Las herramientas de servicio humano (Rev) cobran más, porque hay una persona haciendo el trabajo. Las herramientas multilingües en la nube (Sonix) venden por hora o por mes. Consulta la propia página de precios de cada una el día que compres. Ese es el único número que es cierto.
En cuanto a nuestros precios, el flujo local es gratuito para usuarios autenticados y Whisper Pro añade la superficie en la nube. Las cifras exactas viven en la página de precios, mantenidas al día allí en lugar de en un artículo que envejece. Si quieres la comparativa de herramientas de dictado reducida a un solo rival, la alternativa a Wispr Flow cubre a la más cercana cara a cara.
La primavera pasada, mi amigo el de las doce pestañas por fin me dijo simplemente qué estaba haciendo: convertir una entrevista grabada en un borrador de artículo. Una frase, y la respuesta cayó sola: subir el archivo a un transcriptor en la nube, y luego dictar las correcciones directamente en su documento. Cerró once pestañas. La categoría, no la marca, era lo que le había faltado todo el tiempo, y a la mayoría de la gente que me escribe le falta lo mismo. Sigo pensando en ponerlo en la página de inicio, justo después de terminar de explicarle a mi hija pequeña por qué el ordenador no tiene hora de dormir.
¿Quieres ver cómo se siente el dictado por atajo?
Descarga Whisper, prueba gratis el modo local y observa cómo tus palabras aparecen en cualquier aplicación en el momento en que dejas de hablar.
Flujo local gratuito para cada cuenta registrada. Sin tarjeta al registrarse.



