Guía
Las herramientas de transcripción con IA, explicadas
Qué es en realidad una herramienta de transcripción con IA, cómo funciona el proceso de voz a texto, qué tan precisa es de verdad cuando el audio no se graba en un estudio, y la única decisión (local o en la nube) que importa más que el logotipo que elijas.
Última actualización: junio de 2026

Una herramienta de transcripción con IA es un software que convierte el audio hablado en texto escrito mediante modelos de reconocimiento de voz. Escucha una grabación o el habla en directo, predice las palabras más probables y genera una transcripción. A esta misma tecnología se la llama voz a texto o reconocimiento automático del habla, y la mayoría de las herramientas modernas ejecutan un modelo de la familia OpenAI Whisper.
Hace una década vi a un familiar intentar dictar una carta navideña en un ordenador con Windows 98. El software necesitaba primero 45 minutos de "entrenamiento", luego funcionaba con quizá un 70 % de precisión y un retraso de cuatro segundos por frase. Un solo párrafo tardó quince minutos. Los auriculares acabaron volando por la habitación. Los auriculares sobrevivieron; el experimento no. Hoy mi hija de siete años le dicta un correo a su abuela en 90 segundos y nunca hace una sola pregunta después de la demostración. Esa diferencia es toda la historia de la transcripción con IA, y se cerró mucho más rápido de lo que casi nadie predijo.
Esta es la parte que las páginas de marketing se saltan: la voz a texto solía ser un problema de investigación, hasta que en 2022 apareció el modelo de código abierto Whisper y, sin hacer ruido, dejó de serlo para la mayoría de la gente. Una herramienta de transcripción con IA significa ahora un modelo lo bastante bueno como para apartarse de tu camino casi siempre, envuelto en un software que decide a dónde va tu audio y qué pasa con el texto después. Este artículo explica cómo funciona ese proceso, qué tan preciso es cuando el audio no es el de un estudio de pódcast, y la única decisión (local o en la nube) que importa más que el logotipo que elijas. Leo todos los correos de soporte que recibimos, y las personas que están descontentas casi siempre se equivocaron en esa decisión, no en la herramienta.
Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.
Quítale los paneles y el eslogan de "motor de conocimiento conversacional", y toda herramienta de esta categoría hace una sola cosa: entra audio, sale texto. Las diferencias son todo lo que envuelve a ese núcleo: dónde se ejecuta el modelo, qué hace con la transcripción y cuánto cobra por hacerlo.
Dominan tres formatos de producto. El tomador de notas de reuniones se une a tu llamada, graba a todos y escupe un resumen con tareas pendientes. Otter es el ejemplo canónico, con 300 minutos gratis de transcripción al mes. El servicio de carga de archivos te deja subir un archivo de audio y descargar la transcripción más tarde. Rev y Sonix viven aquí, y Rev además vende transcriptores humanos como alternativa de alta precisión. La herramienta de dictado se queda en segundo plano y pega el texto donde tengas el cursor en cuanto dejas de hablar. Esto último es lo que hace Whisper by Remskill: pulsa un atajo global, habla, y el texto transcrito aparece en la app en la que ya estás.
El mismo trabajo de fondo. Tres experiencias diarias completamente distintas. Buena parte de la confusión en esta categoría viene de comparar un tomador de notas de reuniones con una herramienta de dictado como si compitieran. No lo hacen, igual que un autobús no compite con una bicicleta.
Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)
El mecanismo es más simple de lo que sugiere el eslogan. Tu micrófono capta el sonido como una onda, un flujo de números que describe la presión del aire a lo largo del tiempo. El modelo divide ese flujo en fragmentos cortos, convierte cada fragmento en una representación numérica de sus características acústicas y luego predice, token a token, la secuencia de texto más probable que produjo esos sonidos. Está haciendo estadística sobre el audio, no entendiendo el significado. Pasé mi primera semana en este proyecto dibujando el proceso como un diagrama de cajas ordenado antes de haber ejecutado el modelo ni una vez. El diagrama ya estaba mal en el segundo commit. Al modelo le dio igual mi diagrama.
Ese detalle es la razón por la que la transcripción con IA tropieza donde tropieza. El modelo predice las palabras más probables, no las correctas. Dale habla limpia y dicción clara, y lo probable y lo correcto son lo mismo. Dale voces que se solapan, un acento marcado que apenas vio durante el entrenamiento, jerga del sector o un mal micrófono, y los dos se separan. La versión honesta, que el resumen de IA de esta misma búsqueda dice en voz alta, es que estas herramientas pueden alucinar palabras que nunca se dijeron, confundir a un hablante con otro y, sin hacer ruido, transcribir mal una frase hasta convertirla en algo que se lee perfecto y significa lo contrario.
Vale la pena conocer un truco de traducción. Los modelos multilingües de Whisper pueden transcribir 99 idiomas, y pueden traducir habla que no esté en inglés a texto en inglés en una sola pasada. Las variantes del modelo solo en inglés, las versiones .en, prescinden de eso y se dedican únicamente al inglés, lo que las hace un poco más afiladas en ello. Nada de esto requiere que "entrenes" nada. Si una herramienta aún te pide leer un guion de calibración antes de funcionar, está corriendo sobre suposiciones de 1999.
¿Qué tan precisa es, de verdad? La respuesta honesta.

La respuesta honesta es: lo bastante precisa como para ahorrarte tiempo real, no lo bastante como para publicar sin leerla. Nuestro propio rango publicado para la transcripción local es del 95 % al 99 %, y los modelos más grandes quedan más arriba. Pero una sola cifra de precisión es casi insignificante por sí sola, porque la cifra que importa es la de tu audio: tu acento, tu sala, tu micrófono, tu vocabulario.
Desconfía de las afirmaciones redondas y sin condiciones. Una página de producto que dice "99 % de precisión" sin mencionar la calidad del audio está citando el mejor de los casos, no una promesa. Cuando Rev anuncia un 99 %, esa cifra va asociada a sus transcriptores humanos, no a su modelo de IA. La versión de marketing aplana una curva en un único punto halagador.
Esta es la mejora de precisión más barata que nadie te vende: un micrófono. Pasar del micrófono integrado del portátil a un micrófono USB básico hace más por tu transcripción que saltar de un modelo pequeño al más grande. La IA no arregla el mal audio. Solo adivina con más confianza. Pasé dos noches haciendo pruebas con el modelo más grande que pude descargar antes de darme cuenta de que estaba hablando contra la bisagra del portátil a un metro de distancia; un micrófono de doce dólares arregló más que los dos gigabytes extra. Gasta los veinte dólares en hardware antes de gastar una noche descargando un modelo de tres gigabytes. Para trabajos de alto riesgo, lee la transcripción. Para un mensaje de Slack, envíalo y ya.
Local o en la nube: a dónde va tu audio importa
A dónde va tu audio es la decisión que más importa, y no tiene nada que ver con la precisión.
Una herramienta de transcripción en la nube envía tu audio a los servidores de una empresa, ejecuta allí el modelo y te devuelve el texto. Una herramienta local descarga el modelo una vez y lo ejecuta en tu propia máquina. A partir de ahí funciona sin conexión, y nada sale de tu ordenador. Whisper by Remskill hace ambas cosas, y el cambio es un solo interruptor. En modo local, el audio se procesa por completo en tu máquina y nada se envía a ningún servidor. En modo nube, el audio va directo desde tu ordenador a OpenAI a través de tu propia clave de API, y nosotros nunca estamos en medio.
Voy a dejar clara mi postura aquí, porque las páginas de marketing no lo harán: el dictado solo en la nube es un desastre de privacidad esperando a ser transcrito. Un equipo con el que trabajé una vez contrató a alguien para construir un prototipo interno de dictado con IA en la nube. Llamaba a la API por cada frase pronunciada, incluidas grabaciones de standups que retranscribía cuatro veces porque la lógica de "reintento inteligente" era demasiado agresiva. El responsable abrió el panel de costes al final del trimestre y se encontró con una factura de cinco cifras. La solución del contratista fue "optimizar el prompt". La solución del director financiero fue "dejar de enviar a un servidor reuniones de las que ya tenemos notas". La hoja de salarios de tu jefe, el correo al colegio de tu hijo, el escrito legal que estás redactando: nada de eso pertenece a los registros de un proveedor solo porque quisieras escribir con la voz. Tu portátil ya tiene un micrófono y una CPU. Para la mayoría de los párrafos no necesita un servidor en medio. Si quieres el razonamiento completo, lo escribimos en nuestra guía de voz a texto sin conexión.
Dicho esto, la nube no es la mala de la película. Es un compromiso. El modo nube te da los últimos modelos de OpenAI, acceso a la web y cero carga de hardware. Lo local te da privacidad y fiabilidad sin conexión. La cuestión no es que una sea la correcta. Es que deberías elegir a propósito, no descubrir después que tus grabaciones viven en el disco de otra persona.
Las otras herramientas que conviene conocer
Verás los mismos nombres en cada recopilatorio, y caen en carriles claros.
| Herramienta | Carril | Lo único que hay que saber |
|---|---|---|
| Otter.ai | Notas de reuniones | 300 minutos gratis al mes, resúmenes y etiquetas de hablante; seis idiomas concretos. |
| Rev | Carga de archivos + humano | El nivel gratuito de IA son 45 minutos al mes; vende transcriptores humanos para audio de alto riesgo. |
| OpenAI Whisper | Modelo de código abierto | Con licencia MIT; el motor que ejecutan la mayoría de las demás herramientas, no una app terminada. |
| API en la nube de OpenAI | API para desarrolladores | Límite de carga de 25 MB; gpt-4o-transcribe y whisper-1; se paga por minuto. |
| Notta, Sonix, Fireflies, Descript, Riverside | Mixto | Enfocadas en reuniones y edición; consulta la propia página de cada herramienta para los límites actuales. |
Una nota sobre esa última fila: esas cinco tienen cada una sus propios detalles de precios e idiomas que cambian a menudo, así que no voy a citar cifras que no haya verificado hoy contra sus propias páginas. El patrón, eso sí, se mantiene: la mayoría de estas son herramientas de reuniones o de edición, y la mayoría ejecuta un modelo de la familia Whisper bajo la marca.
Whisper by Remskill está en un carril distinto al de todas ellas. Es una herramienta de dictado, no un tomador de notas de reuniones. Nos pusimos el nombre del modelo de código abierto que ejecutamos; si has comparado las apps de dictado solo en la nube, nuestro análisis de alternativas a Otter.ai y la más amplia guía de software de transcripción cubren los carriles con más detalle.
Cuándo prescindir por completo de una herramienta de transcripción con IA

A veces la herramienta correcta es ninguna herramienta. Si el audio es de alto riesgo y con valor legal (una declaración judicial, un historial médico, un trámite regulado), paga a una persona. El servicio humano de Rev existe precisamente porque un margen de error del cinco por ciento en un contrato es una demanda, no una errata. Y si lo único que necesitas es una respuesta de texto de 30 palabras, el dictado que ya viene integrado en tu teléfono o en tu Mac es gratis y suficiente; no descargues nada. La transcripción con IA se gana su sitio en el medio: más larga que un mensaje, menos riesgo que una declaración, lo bastante a menudo como para merecer un atajo. Fuera de esa franja, recurre a una persona o a la herramienta gratuita que ya tienes en tu dispositivo.
Cuánto cuesta
Los precios de esta categoría van de gratis a genuinamente caros, y la diferencia te dice qué vende cada herramienta. Los niveles gratuitos son reales pero limitados: Otter topa su plan gratis en 300 minutos al mes, el nivel gratuito de IA de Rev en 45 minutos, y el modelo de código abierto Whisper es gratis para siempre si estás dispuesto a ejecutarlo tú mismo. Las API en la nube cobran por minuto, lo cual está bien hasta que un bucle de reintentos descontrolado convierte un trimestre en una factura de cinco cifras. Whisper by Remskill es gratis para todo el proceso local una vez que tienes cuenta, sin necesidad de método de pago para empezar; las funciones en la nube están detrás de Whisper Pro. Las cifras exactas, los planes y lo que incluye Pro están en la página de precios — prefiero que consultes la cifra en vivo a que confíes en un número que yo haya tecleado en una entrada de blog.
Para cuando termines de leer esto, mi hija podría haber dictado tres correos y haberme preguntado dos veces por qué a veces la luna no está. La tecnología ya no es la parte difícil. La única elección real que queda es si tus palabras se quedan en tu máquina o se van de viaje a la de otra persona — y esa es una elección que vale la pena tomar antes de pulsar grabar, no después.
¿Quieres probarlo sin enviar tu voz a ninguna parte?
Descarga Whisper, elige el modo local, mantén pulsado el atajo y mira cómo la transcripción aparece en la app en la que ya estás. Nada sale de tu máquina.
Transcripción local gratuita para todo usuario que haya iniciado sesión. Pro añade las funciones en la nube en una prueba aparte.



