Por Denys Medvediev

Guía

Cómo convertir mp3 a texto

Para convertir un mp3 a texto, pasa el archivo por una herramienta de voz a texto. La vía gratuita y privada es una app local de código abierto como Buzz o la línea de comandos de OpenAI Whisper, que transcriben en tu propia máquina. La vía más rápida de empezar es un conversor web al que subes el archivo.

Última actualización: junio de 2026

Una pantalla de ordenador mostrando la forma de onda de una grabación de sonido en un software de edición de audio

Para convertir un mp3 a texto, pasa el archivo por una herramienta de voz a texto. La vía gratuita y privada es una app local de código abierto como Buzz o la línea de comandos de OpenAI Whisper, que transcriben en tu propia máquina. La vía más rápida de empezar es un conversor web al que subes el archivo. Ambas convierten el audio en texto editable.

Así que tienes un mp3 y necesitas las palabras que contiene. Una entrevista grabada, una nota de voz, un episodio de pódcast, una clase que guardaste desde el móvil. El trabajo es el mismo en todos los casos: tomar audio y obtener texto que puedas editar.

La buena noticia es que en 2026 esto es un problema resuelto, y la mayoría de las formas de hacerlo son gratuitas. La noticia algo molesta es que todas las herramientas tienen nombres que suenan parecido, así que déjame ordenarlas.

Hay tres vías honestas. Ejecutar una herramienta local gratuita en tu propio ordenador (la más privada, sin subidas, sin coste). Usar una app de Mac creada para esto. O subir el archivo a un servicio web que lo transcribe en un servidor, que es lo más rápido para empezar, aunque el audio sale de tu máquina. La opción correcta depende de si te importa más la privacidad o la comodidad, y de lo técnico que te sientas hoy.

Conviene decir la parte incómoda cuanto antes, porque sería deshonesto esconderla. La app que hace mi equipo, Whisper by Remskill, no convierte archivos mp3. Es una herramienta de dictado en directo. Mantienes pulsado un atajo, hablas, y tus palabras aparecen en lo que sea que estés escribiendo. Un trabajo completamente distinto. Explicaré dónde encaja casi al final, pero si llegaste aquí para convertir una grabación que ya tienes, las herramientas de abajo son las que quieres.

La vía gratuita y privada es una herramienta local de código abierto

Si no quieres que tu grabación acabe en el servidor de otra persona, ejecuta la transcripción en tu propio ordenador. El motor que casi todo el mundo usa para esto es OpenAI Whisper, publicado bajo licencia MIT, gratis de usar, gratis de leer, gratis de ejecutar. Es la misma familia de modelo que mueve muchas de las apps de pago que has visto anunciadas.

Hay varias formas de usarlo de verdad, desde "me manejo bien en una terminal" hasta "dame un botón para hacer clic, por favor".

OpenAI Whisper (línea de comandos de Python)

Instálalo con pip, instala la herramienta ffmpeg de la que depende y luego apúntalo a tu archivo: whisper recording.mp3 --model turbo. Lee el mp3, lo transcribe y escribe un archivo de texto. Hay seis tamaños de modelo, desde uno diminuto y rápido hasta uno grande y preciso, así que puedes cambiar velocidad por precisión. Es multilingüe e incluso puede traducir al inglés audio que no esté en inglés. La pega es la configuración. pip y ffmpeg no son difíciles, pero tampoco son nada. Una vez me pasé veinte minutos arreglando una ruta de ffmpeg en un portátil recién estrenado. Tengo un máster.

whisper.cpp

El mismo modelo Whisper, reescrito en C y C++ puros para que corra rápido sin Python y sin dependencias pesadas. Funciona solo con la CPU y está muy optimizado para los Mac con Apple Silicon. También con licencia MIT. Lo compilas desde el código fuente y lo ejecutas desde la línea de comandos, así que es claramente para los que se manejan bien en una terminal. Es la opción ligera si tienes muchos archivos que procesar.

Buzz

Esta es la que recomiendo a la gente no técnica. Buzz es una app de escritorio normal con una ventana normal. La abres, eliges tu mp3 y lo transcribe sin conexión en tu máquina. Está construida sobre OpenAI Whisper, puede transcribir y traducir, y funciona en macOS, Windows y Linux. Licencia MIT y gratuita. Sin terminal, sin pip, sin pelearte con ffmpeg. Si tienes un solo archivo y quieres acabarlo con el mínimo lío, esta es la respuesta.

Whisper Desktop (Const-me)

Una app de Windows para quien tiene una tarjeta gráfica. Transcribe archivos de audio y usa la GPU para hacerlo rápido, lo que importa cuando tu archivo es largo. Es de código abierto bajo la licencia MPL-2.0. Solo para Windows. Si estás en un PC con una GPU decente y una grabación de dos horas, este es el carril rápido.

Código y una terminal de línea de comandos abiertos en la pantalla de un portátil sobre un escritorio ordenado

En un Mac, una app dedicada te ahorra la configuración

Si estás en un Mac y la línea de comandos no es tu idea de una buena tarde, MacWhisper está hecha justo para esto. Arrastras un archivo de audio o vídeo dentro y lo transcribe en el dispositivo, así que nada sale de tu máquina. Ejecuta los mismos modelos de OpenAI Whisper, más el motor Parakeet de NVIDIA, y hace bien el trabajo de transcribir archivos. También exporta a los formatos que de verdad necesitas, como archivos de subtítulos para vídeo.

MacWhisper es, por diseño, primero el archivo: entran grabaciones, sale texto. Ese es todo su sentido, y lo hace bien. Lo señalo en concreto porque es lo más parecido a una respuesta de un clic en Mac para lo exacto que buscaste.

Un conversor web es lo más rápido para empezar, pero tu audio sale de tu máquina

La otra vía no necesita ninguna instalación. Muchos servicios web te dejan subir un mp3, esperar un minuto y descargar una transcripción. Sin configuración, sin modelo que descargar, funciona desde un móvil o un portátil prestado. Para algo puntual y rápido, esa comodidad es real, y no voy a fingir lo contrario.

Aquí va la única opinión firme de este artículo, y la respaldo con la razón obvia en lugar de irme por las ramas. Cuando subes una grabación a un conversor web, el audio sale de tu ordenador y aterriza en el servidor de otra persona. Para un pódcast que de todos modos vas a publicar, a quién le importa. Para una llamada de Recursos Humanos grabada, una nota médica, o una reunión con un cliente donde se dice en voz alta una cifra de salario o el nombre de un paciente, esa es una decisión de privacidad que estás tomando, a menudo sin leer la página que te dice cuánto tiempo se guarda el archivo. Una herramienta local hace el mismo trabajo y el audio no va a ninguna parte. La transcripción solo en la nube es, para grabaciones sensibles, un desastre de privacidad esperando a ser transcrito.

Si un conversor web es de verdad la opción correcta para ti, vale la pena echar un vistazo al panorama de los servicios de transcripción. He escrito sobre ese grupo en otro sitio. Empieza con el recorrido por la transcripción rápida y la guía de conversores de audio a texto, que cubren la vía de subida y la local una al lado de la otra.

Elige la precisión y el idioma con el modelo, no con el marketing

Sea cual sea la herramienta que elijas, la precisión depende sobre todo de dos cosas que tú controlas: el tamaño del modelo y el micrófono con el que se grabó el audio. Los modelos más grandes son más lentos y más precisos. Los más pequeños son más rápidos y ligeros. La mayoría de las herramientas locales de arriba te dejan elegir, porque todas ejecutan los mismos modelos Whisper subyacentes bajo botones distintos.

La verdad aburrida que nadie que te venda un conversor de "IA inteligente" quiere decir en voz alta: una grabación limpia con un micrófono USB barato gana a una turbia pasada por el modelo más grande. La herramienta no puede dejar de oír el aire acondicionado. Si tu mp3 se grabó al otro lado de la sala con el micrófono de un portátil, ajusta tus expectativas y quizá vuelve a grabar si aún puedes.

Dónde encaja Whisper by Remskill, y dónde no

Ahora la parte honesta que prometí. Whisper by Remskill no toma tu mp3 y lo convierte en texto. Está hecho para otro momento.

Es una herramienta de dictado en directo. Pulsas un atajo (Ctrl+Space en Windows por defecto, reasignable), hablas, y tus palabras se escriben directamente en la app en la que estés: tu correo, tu documento, un mensaje de Slack, un comentario de código. La transcripción ocurre localmente mientras hablas, y el texto aterriza en tu cursor un instante después de que paras. Sin archivo, sin subida, sin el bucle de grabar y luego convertir.

Pasted
La superposición posterior al dictado que se publica: un dictado en directo terminando en tu cursor, no un archivo convirtiéndose.

Entonces, ¿cuándo es esa la herramienta que de verdad quieres? Cuando las palabras que necesitas todavía no existen como grabación, porque siguen en tu cabeza. Si tu objetivo real nunca fue "convertir este archivo" sino "meter rápido mis propias palabras habladas en un documento", te saltas la grabación por completo. Lo piensas, lo dices, queda escrito. Todo el flujo local es gratuito, y funciona en Windows y Mac (Apple Silicon). Una vez dicté un correo a una profesora, una lista de la compra y una respuesta a mi hermana en lo que tardó la tetera en hervir, y luego me olvidé de servir el té. La herramienta funcionó. Yo no.

Whisper
La app Whisper by Remskill en vivo: barra lateral, panel de transcripción y tarjetas de instrucción de IA. Esta es la interfaz real, no una captura de pantalla.

Para la imagen completa de cómo funciona por dentro la transcripción en directo y sin conexión, la guía de voz a texto sin conexión profundiza más. Pero si tienes una grabación ahora mismo en tu carpeta de descargas, vuelve a subir por la página. Buzz o la línea de comandos de Whisper es lo que quieres, no nosotros.

Si solo lo necesitas una vez

¿Un archivo, una vez, sin planes de repetirlo? Abre Buzz, suelta tu mp3 dentro, déjalo correr. Es gratis, funciona sin conexión, y no habrás instalado nada que tengas que mantener. Esa es toda la recomendación. Guarda las herramientas de terminal para el día en que tengas cincuenta archivos en vez de uno.

La forma más rápida de convertir un mp3 es no tener un mp3. Pero para la grabación que ya tienes, una herramienta local gratuita te lleva hasta ahí sin enviarla a ninguna parte.

Whisper by Remskill es para dictado en directo, no para conversión de archivos

Si tu objetivo es meter tus propias palabras habladas en un documento sin teclear, mira cómo funciona el dictado en directo. Para convertir una grabación que ya tienes, Buzz es la respuesta gratuita de arriba.

Flujo local gratuito. Windows y Mac (Apple Silicon).

Foto de Denys Medvediev

Denys Medvediev

Soy el que lee nuestro correo de soporte, lo más probable dictando las respuestas.

Lecturas adicionales