What is the best AI tool for transcription?

There isn't one — there's a best one *for your job*. For live meeting notes with summaries, a notetaker like Otter fits. For dropping in a file and getting a transcript back, a service like Rev works. For dictating into whatever app you're already using, a hotkey-driven dictation tool fits. Pick the lane first, then the tool.

Is there a free AI transcription tool?

Yes, several. Otter offers 300 free minutes a month, Rev offers 45, and the open-source OpenAI Whisper model is free if you run it yourself. Whisper by Remskill's entire local pipeline is free once you sign in, with no card required to start.

Can AI transcribe audio accurately?

For clear audio, yes — in the 95% to 99% range on local models, higher with larger ones. Accuracy drops with crosstalk, heavy accents, jargon, and bad microphones. For anything high-stakes, read the transcript before you rely on it.

Does AI transcription work offline?

It can, if the tool runs the model on your machine. Whisper by Remskill works offline in local mode after a one-time model download — nothing is sent to any server. Cloud-based tools need an internet connection because the model runs on a server.

Is my audio private when I use a cloud transcription tool?

Only as private as that vendor's policy. Cloud tools send your audio to their servers. With Whisper by Remskill's cloud mode, audio travels straight from your machine to OpenAI through your own key, and we never see it. For true privacy, use a local tool where audio never leaves your computer.

Can AI transcription tell speakers apart?

Some can. Meeting notetakers like Otter label speakers, and OpenAI offers a diarization model in its API. Dictation tools don't, because they assume one speaker — you. Match the feature to the task.

Do these tools need me to "train" them first?

Modern ones don't. Whisper-family models work out of the box across accents and languages. If a tool still makes you read a calibration script before it works, its design predates the model that made that step unnecessary.

Por Denys Medvediev9 de marzo de 2026

Guía

Las herramientas de transcripción con IA, explicadas

Qué es en realidad una herramienta de transcripción con IA, cómo funciona el proceso de voz a texto, qué tan precisa es de verdad cuando el audio no se graba en un estudio, y la única decisión (local o en la nube) que importa más que el logotipo que elijas.

Última actualización: junio de 2026

Primer plano de una interfaz de audio digital que muestra una vibrante onda de sonido, evocando el habla captada para su transcripción

Una herramienta de transcripción con IA es un software que convierte el audio hablado en texto escrito mediante modelos de reconocimiento de voz. Escucha una grabación o el habla en directo, predice las palabras más probables y genera una transcripción. A esta misma tecnología se la llama voz a texto o reconocimiento automático del habla, y la mayoría de las herramientas modernas ejecutan un modelo de la familia OpenAI Whisper.

Hace una década vi a un familiar intentar dictar una carta navideña en un ordenador con Windows 98. El software necesitaba primero 45 minutos de "entrenamiento", luego funcionaba con quizá un 70 % de precisión y un retraso de cuatro segundos por frase. Un solo párrafo tardó quince minutos. Los auriculares acabaron volando por la habitación. Los auriculares sobrevivieron; el experimento no. Hoy mi hija de siete años le dicta un correo a su abuela en 90 segundos y nunca hace una sola pregunta después de la demostración. Esa diferencia es toda la historia de la transcripción con IA, y se cerró mucho más rápido de lo que casi nadie predijo.

Esta es la parte que las páginas de marketing se saltan: la voz a texto solía ser un problema de investigación, hasta que en 2022 apareció el modelo de código abierto Whisper y, sin hacer ruido, dejó de serlo para la mayoría de la gente. Una herramienta de transcripción con IA significa ahora un modelo lo bastante bueno como para apartarse de tu camino casi siempre, envuelto en un software que decide a dónde va tu audio y qué pasa con el texto después. Este artículo explica cómo funciona ese proceso, qué tan preciso es cuando el audio no es el de un estudio de pódcast, y la única decisión (local o en la nube) que importa más que el logotipo que elijas. Leo todos los correos de soporte que recibimos, y las personas que están descontentas casi siempre se equivocaron en esa decisión, no en la herramienta.

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Quítale los paneles y el eslogan de "motor de conocimiento conversacional", y toda herramienta de esta categoría hace una sola cosa: entra audio, sale texto. Las diferencias son todo lo que envuelve a ese núcleo: dónde se ejecuta el modelo, qué hace con la transcripción y cuánto cobra por hacerlo.

Pasted

El overlay de grabación de Whisper en su estado final: un pequeño widget flotante que devuelve el texto terminado en cuanto dejas de hablar. La interfaz real que enviamos, no una maqueta.

Dominan tres formatos de producto. El tomador de notas de reuniones se une a tu llamada, graba a todos y escupe un resumen con tareas pendientes. Otter es el ejemplo canónico, con 300 minutos gratis de transcripción al mes. El servicio de carga de archivos te deja subir un archivo de audio y descargar la transcripción más tarde. Rev y Sonix viven aquí, y Rev además vende transcriptores humanos como alternativa de alta precisión. La herramienta de dictado se queda en segundo plano y pega el texto donde tengas el cursor en cuanto dejas de hablar. Esto último es lo que hace Whisper by Remskill: pulsa un atajo global, habla, y el texto transcrito aparece en la app en la que ya estás.

El mismo trabajo de fondo. Tres experiencias diarias completamente distintas. Buena parte de la confusión en esta categoría viene de comparar un tomador de notas de reuniones con una herramienta de dictado como si compitieran. No lo hacen, igual que un autobús no compite con una bicicleta.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

El mecanismo es más simple de lo que sugiere el eslogan. Tu micrófono capta el sonido como una onda, un flujo de números que describe la presión del aire a lo largo del tiempo. El modelo divide ese flujo en fragmentos cortos, convierte cada fragmento en una representación numérica de sus características acústicas y luego predice, token a token, la secuencia de texto más probable que produjo esos sonidos. Está haciendo estadística sobre el audio, no entendiendo el significado. Pasé mi primera semana en este proyecto dibujando el proceso como un diagrama de cajas ordenado antes de haber ejecutado el modelo ni una vez. El diagrama ya estaba mal en el segundo commit. Al modelo le dio igual mi diagrama.

CancelTranscribing

El estado de transcripción del overlay: el modelo convirtiendo una onda de sonido en texto, en tu máquina, mientras esperas el segundo y poco que tarda.

Ese detalle es la razón por la que la transcripción con IA tropieza donde tropieza. El modelo predice las palabras más probables, no las correctas. Dale habla limpia y dicción clara, y lo probable y lo correcto son lo mismo. Dale voces que se solapan, un acento marcado que apenas vio durante el entrenamiento, jerga del sector o un mal micrófono, y los dos se separan. La versión honesta, que el resumen de IA de esta misma búsqueda dice en voz alta, es que estas herramientas pueden alucinar palabras que nunca se dijeron, confundir a un hablante con otro y, sin hacer ruido, transcribir mal una frase hasta convertirla en algo que se lee perfecto y significa lo contrario.

Vale la pena conocer un truco de traducción. Los modelos multilingües de Whisper pueden transcribir 99 idiomas, y pueden traducir habla que no esté en inglés a texto en inglés en una sola pasada. Las variantes del modelo solo en inglés, las versiones .en, prescinden de eso y se dedican únicamente al inglés, lo que las hace un poco más afiladas en ello. Nada de esto requiere que "entrenes" nada. Si una herramienta aún te pide leer un guion de calibración antes de funcionar, está corriendo sobre suposiciones de 1999.

¿Qué tan precisa es, de verdad? La respuesta honesta.

Una lupa sostenida sobre un documento impreso, ilustrando la revisión minuciosa de la precisión de la transcripción

La respuesta honesta es: lo bastante precisa como para ahorrarte tiempo real, no lo bastante como para publicar sin leerla. Nuestro propio rango publicado para la transcripción local es del 95 % al 99 %, y los modelos más grandes quedan más arriba. Pero una sola cifra de precisión es casi insignificante por sí sola, porque la cifra que importa es la de tu audio: tu acento, tu sala, tu micrófono, tu vocabulario.

Desconfía de las afirmaciones redondas y sin condiciones. Una página de producto que dice "99 % de precisión" sin mencionar la calidad del audio está citando el mejor de los casos, no una promesa. Cuando Rev anuncia un 99 %, esa cifra va asociada a sus transcriptores humanos, no a su modelo de IA. La versión de marketing aplana una curva en un único punto halagador.

Esta es la mejora de precisión más barata que nadie te vende: un micrófono. Pasar del micrófono integrado del portátil a un micrófono USB básico hace más por tu transcripción que saltar de un modelo pequeño al más grande. La IA no arregla el mal audio. Solo adivina con más confianza. Pasé dos noches haciendo pruebas con el modelo más grande que pude descargar antes de darme cuenta de que estaba hablando contra la bisagra del portátil a un metro de distancia; un micrófono de doce dólares arregló más que los dos gigabytes extra. Gasta los veinte dólares en hardware antes de gastar una noche descargando un modelo de tres gigabytes. Para trabajos de alto riesgo, lee la transcripción. Para un mensaje de Slack, envíalo y ya.

Local o en la nube: a dónde va tu audio importa

A dónde va tu audio es la decisión que más importa, y no tiene nada que ver con la precisión.

Una herramienta de transcripción en la nube envía tu audio a los servidores de una empresa, ejecuta allí el modelo y te devuelve el texto. Una herramienta local descarga el modelo una vez y lo ejecuta en tu propia máquina. A partir de ahí funciona sin conexión, y nada sale de tu ordenador. Whisper by Remskill hace ambas cosas, y el cambio es un solo interruptor. En modo local, el audio se procesa por completo en tu máquina y nada se envía a ningún servidor. En modo nube, el audio va directo desde tu ordenador a OpenAI a través de tu propia clave de API, y nosotros nunca estamos en medio.

Whisper

La app real de Whisper, funcionando en directo: las pantallas de Local y de Nube en una sola ventana. Entra en Ajustes y elige un motor; el cambio entre local y nube es un solo interruptor.

Voy a dejar clara mi postura aquí, porque las páginas de marketing no lo harán: el dictado solo en la nube es un desastre de privacidad esperando a ser transcrito. Un equipo con el que trabajé una vez contrató a alguien para construir un prototipo interno de dictado con IA en la nube. Llamaba a la API por cada frase pronunciada, incluidas grabaciones de standups que retranscribía cuatro veces porque la lógica de "reintento inteligente" era demasiado agresiva. El responsable abrió el panel de costes al final del trimestre y se encontró con una factura de cinco cifras. La solución del contratista fue "optimizar el prompt". La solución del director financiero fue "dejar de enviar a un servidor reuniones de las que ya tenemos notas". La hoja de salarios de tu jefe, el correo al colegio de tu hijo, el escrito legal que estás redactando: nada de eso pertenece a los registros de un proveedor solo porque quisieras escribir con la voz. Tu portátil ya tiene un micrófono y una CPU. Para la mayoría de los párrafos no necesita un servidor en medio. Si quieres el razonamiento completo, lo escribimos en nuestra guía de voz a texto sin conexión.

Dicho esto, la nube no es la mala de la película. Es un compromiso. El modo nube te da los últimos modelos de OpenAI, acceso a la web y cero carga de hardware. Lo local te da privacidad y fiabilidad sin conexión. La cuestión no es que una sea la correcta. Es que deberías elegir a propósito, no descubrir después que tus grabaciones viven en el disco de otra persona.

Las otras herramientas que conviene conocer

Verás los mismos nombres en cada recopilatorio, y caen en carriles claros.

Herramienta	Carril	Lo único que hay que saber
Otter.ai	Notas de reuniones	300 minutos gratis al mes, resúmenes y etiquetas de hablante; seis idiomas concretos.
Rev	Carga de archivos + humano	El nivel gratuito de IA son 45 minutos al mes; vende transcriptores humanos para audio de alto riesgo.
OpenAI Whisper	Modelo de código abierto	Con licencia MIT; el motor que ejecutan la mayoría de las demás herramientas, no una app terminada.
API en la nube de OpenAI	API para desarrolladores	Límite de carga de 25 MB; gpt-4o-transcribe y whisper-1; se paga por minuto.
Notta, Sonix, Fireflies, Descript, Riverside	Mixto	Enfocadas en reuniones y edición; consulta la propia página de cada herramienta para los límites actuales.

Los mismos nombres de cada recopilatorio, ordenados en sus carriles. La mayoría son herramientas de reuniones o de edición, y la mayoría ejecuta un modelo de la familia Whisper bajo la marca.

Una nota sobre esa última fila: esas cinco tienen cada una sus propios detalles de precios e idiomas que cambian a menudo, así que no voy a citar cifras que no haya verificado hoy contra sus propias páginas. El patrón, eso sí, se mantiene: la mayoría de estas son herramientas de reuniones o de edición, y la mayoría ejecuta un modelo de la familia Whisper bajo la marca.

Whisper by Remskill está en un carril distinto al de todas ellas. Es una herramienta de dictado, no un tomador de notas de reuniones. Nos pusimos el nombre del modelo de código abierto que ejecutamos; si has comparado las apps de dictado solo en la nube, nuestro análisis de alternativas a Otter.ai y la más amplia guía de software de transcripción cubren los carriles con más detalle.

Cuándo prescindir por completo de una herramienta de transcripción con IA

Un escritorio con una figura de la justicia, un diploma y documentos, evocando trabajo de alto riesgo donde gana la transcripción manual

A veces la herramienta correcta es ninguna herramienta. Si el audio es de alto riesgo y con valor legal (una declaración judicial, un historial médico, un trámite regulado), paga a una persona. El servicio humano de Rev existe precisamente porque un margen de error del cinco por ciento en un contrato es una demanda, no una errata. Y si lo único que necesitas es una respuesta de texto de 30 palabras, el dictado que ya viene integrado en tu teléfono o en tu Mac es gratis y suficiente; no descargues nada. La transcripción con IA se gana su sitio en el medio: más larga que un mensaje, menos riesgo que una declaración, lo bastante a menudo como para merecer un atajo. Fuera de esa franja, recurre a una persona o a la herramienta gratuita que ya tienes en tu dispositivo.

Cuánto cuesta

Los precios de esta categoría van de gratis a genuinamente caros, y la diferencia te dice qué vende cada herramienta. Los niveles gratuitos son reales pero limitados: Otter topa su plan gratis en 300 minutos al mes, el nivel gratuito de IA de Rev en 45 minutos, y el modelo de código abierto Whisper es gratis para siempre si estás dispuesto a ejecutarlo tú mismo. Las API en la nube cobran por minuto, lo cual está bien hasta que un bucle de reintentos descontrolado convierte un trimestre en una factura de cinco cifras. Whisper by Remskill es gratis para todo el proceso local una vez que tienes cuenta, sin necesidad de método de pago para empezar; las funciones en la nube están detrás de Whisper Pro. Las cifras exactas, los planes y lo que incluye Pro están en la página de precios — prefiero que consultes la cifra en vivo a que confíes en un número que yo haya tecleado en una entrada de blog.

Para cuando termines de leer esto, mi hija podría haber dictado tres correos y haberme preguntado dos veces por qué a veces la luna no está. La tecnología ya no es la parte difícil. La única elección real que queda es si tus palabras se quedan en tu máquina o se van de viaje a la de otra persona — y esa es una elección que vale la pena tomar antes de pulsar grabar, no después.

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Descarga Whisper, elige el modo local, mantén pulsado el atajo y mira cómo la transcripción aparece en la app en la que ya estás. Nada sale de tu máquina.

Descargar Whisper Ver cómo funciona

Transcripción local gratuita para todo usuario que haya iniciado sesión. Pro añade las funciones en la nube en una prueba aparte.

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable dictando las respuestas.

Lecturas adicionales

Preguntas frecuentes

No hay una sola — hay una mejor para tu tarea. Para notas de reuniones en directo con resúmenes, encaja un tomador de notas como Otter. Para soltar un archivo y recibir una transcripción, funciona un servicio como Rev. Para dictar dentro de la app que ya estés usando, encaja una herramienta de dictado con atajo. Elige primero el carril, luego la herramienta.

Por Denys Medvediev9 de marzo de 2026

Guía

Las herramientas de transcripción con IA, explicadas

Última actualización: junio de 2026

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Pasted

El overlay de grabación de Whisper en su estado final: un pequeño widget flotante que devuelve el texto terminado en cuanto dejas de hablar. La interfaz real que enviamos, no una maqueta.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

CancelTranscribing

El estado de transcripción del overlay: el modelo convirtiendo una onda de sonido en texto, en tu máquina, mientras esperas el segundo y poco que tarda.

¿Qué tan precisa es, de verdad? La respuesta honesta.

Local o en la nube: a dónde va tu audio importa

A dónde va tu audio es la decisión que más importa, y no tiene nada que ver con la precisión.

Whisper

La app real de Whisper, funcionando en directo: las pantallas de Local y de Nube en una sola ventana. Entra en Ajustes y elige un motor; el cambio entre local y nube es un solo interruptor.

Las otras herramientas que conviene conocer

Verás los mismos nombres en cada recopilatorio, y caen en carriles claros.

Herramienta	Carril	Lo único que hay que saber
Otter.ai	Notas de reuniones	300 minutos gratis al mes, resúmenes y etiquetas de hablante; seis idiomas concretos.
Rev	Carga de archivos + humano	El nivel gratuito de IA son 45 minutos al mes; vende transcriptores humanos para audio de alto riesgo.
OpenAI Whisper	Modelo de código abierto	Con licencia MIT; el motor que ejecutan la mayoría de las demás herramientas, no una app terminada.
API en la nube de OpenAI	API para desarrolladores	Límite de carga de 25 MB; gpt-4o-transcribe y whisper-1; se paga por minuto.
Notta, Sonix, Fireflies, Descript, Riverside	Mixto	Enfocadas en reuniones y edición; consulta la propia página de cada herramienta para los límites actuales.

Los mismos nombres de cada recopilatorio, ordenados en sus carriles. La mayoría son herramientas de reuniones o de edición, y la mayoría ejecuta un modelo de la familia Whisper bajo la marca.

Cuándo prescindir por completo de una herramienta de transcripción con IA

Cuánto cuesta

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Descarga Whisper, elige el modo local, mantén pulsado el atajo y mira cómo la transcripción aparece en la app en la que ya estás. Nada sale de tu máquina.

Descargar Whisper Ver cómo funciona

Transcripción local gratuita para todo usuario que haya iniciado sesión. Pro añade las funciones en la nube en una prueba aparte.

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable dictando las respuestas.

Las herramientas de transcripción con IA, explicadas

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

¿Qué tan precisa es, de verdad? La respuesta honesta.

Local o en la nube: a dónde va tu audio importa

Las otras herramientas que conviene conocer

Cuándo prescindir por completo de una herramienta de transcripción con IA

Cuánto cuesta

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Lecturas adicionales

Preguntas frecuentes

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Las herramientas de transcripción con IA, explicadas

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

¿Qué tan precisa es, de verdad? La respuesta honesta.

Local o en la nube: a dónde va tu audio importa

Las otras herramientas que conviene conocer

Cuándo prescindir por completo de una herramienta de transcripción con IA

Cuánto cuesta

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Lecturas adicionales

Preguntas frecuentes

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Las herramientas de transcripción con IA, explicadas

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

¿Qué tan precisa es, de verdad? La respuesta honesta.

Local o en la nube: a dónde va tu audio importa

Las otras herramientas que conviene conocer

Cuándo prescindir por completo de una herramienta de transcripción con IA

Cuánto cuesta

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Lecturas adicionales

Preguntas frecuentes

Sigue leyendo

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Las herramientas de transcripción con IA, explicadas

Una herramienta de transcripción con IA convierte el habla en texto. Ese es todo su trabajo.

Cómo funciona de verdad la transcripción con IA (y dónde sigue tropezando)

¿Qué tan precisa es, de verdad? La respuesta honesta.

Local o en la nube: a dónde va tu audio importa

Las otras herramientas que conviene conocer

Cuándo prescindir por completo de una herramienta de transcripción con IA

Cuánto cuesta

¿Quieres probarlo sin enviar tu voz a ninguna parte?

Lecturas adicionales

Preguntas frecuentes

Sigue leyendo

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar