Tutorial
Audio a subtítulos: qué funciona de verdad
Un generador de subtítulos a partir de audio convierte un archivo de sonido en un SRT o VTT con marcas de tiempo. Aquí tienes el flujo de trabajo real, las herramientas que realmente exportan uno y la opción gratuita sin conexión que nunca sube tu audio.
Última actualización: junio de 2026

Un generador de subtítulos a partir de audio toma un archivo de sonido —un MP3, un WAV o una exportación de podcast— y escribe un archivo de subtítulos con marcas de tiempo. Cada línea de texto incluye una hora de inicio y una de fin. Herramientas web como VEED, Kapwing y Descript hacen esto en el navegador. La herramienta de línea de comandos OpenAI Whisper, gratuita y de código abierto, lo hace sin conexión en tu propio equipo.
Una vez invertí cuarenta minutos subtitulando a mano un clip de podcast de diez minutos: pausando cada tres segundos para escribir y adivinar las marcas de tiempo. Tengo un máster en ingeniería de software. La aritmética es despiadada de cualquier manera. Hacer subtítulos a mano lleva varias veces la duración del audio. Un generador de subtítulos moderno hace el mismo trabajo en aproximadamente lo que dura el archivo más un café. Lo que nadie te dice de entrada es que la herramienta correcta depende de una sola pregunta: ¿necesitas un archivo con marcas de tiempo que puedas descargar, o solo el texto?
"Generador de subtítulos" se usa para dos trabajos distintos, y elegir la herramienta equivocada te cuesta una tarde. El espacio se divide entre herramientas de navegador que exportan archivos con marcas de tiempo y herramientas sin conexión que hacen lo mismo gratis si estás dispuesto a abrir una terminal. Esta guía explica cómo funciona el flujo de trabajo, qué herramientas generan un archivo .srt real solo a partir de audio, qué significan SRT, VTT y TXT, y en qué casos una app de dictado como la nuestra es la elección equivocada. Al final sabrás qué herramienta abrir según lo que necesitas entregar. La mayor parte de la confusión que leo en nuestro buzón de soporte viene de personas que eligieron una herramienta de transcripción cuando necesitaban un archivo de subtítulos. Un año de esos mensajes es gran parte de la razón por la que existe este artículo.
Necesitas marcas de tiempo, no solo texto
Un archivo de subtítulos no es una transcripción. Una transcripción son palabras. Un archivo de subtítulos son palabras más tiempo. Cada bloque de subtítulo dice "muestra esta línea de 00:01:04 a 00:01:07". Ese tiempo es todo el trabajo. Le indica al reproductor de video qué palabras mostrar en pantalla en cada segundo exacto.
La mayoría de las herramientas de "voz a texto", incluida la nuestra, solo te dan palabras. Pegan un párrafo limpio en tu cursor y ahí se detienen. Un generador de subtítulos a partir de audio tiene que hacer más: divide el habla en fragmentos cortos del tamaño de un subtítulo, alinea cada fragmento con el reloj del audio y lo escribe todo en un formato de archivo estricto que un reproductor puede leer. Si lo que necesitas entregar es un archivo para subir a YouTube, a un editor de video o a una plataforma de cursos, necesitas las marcas de tiempo. Si lo que necesitas es texto en un documento, no las necesitas, y no deberías pagar por una herramienta de subtítulos para obtenerlo.
Cómo generar subtítulos a partir de un archivo de audio en tres pasos

El flujo de trabajo es prácticamente el mismo en todas las herramientas, web o sin conexión.
Sube o apunta al archivo de audio. La mayoría de las herramientas acepta MP3, WAV, M4A y FLAC; no hace falta video. VEED acepta MP3, WAV, grabaciones de podcast, audio de entrevistas y notas de voz. Si solo tienes un video, la herramienta extrae el audio por ti.
Deja que transcriba y marque el tiempo del habla. La herramienta pasa el audio por un modelo de voz, divide el resultado en líneas del tamaño de un subtítulo y marca cada una con hora de inicio y fin. La versión manual consume varias veces la duración del audio. La versión automática tarda aproximadamente lo que dura el archivo.
Revisa y exporta el archivo. Lee la transcripción una vez (el resultado del modelo es bueno, no perfecto), corrige los nombres que haya distorsionado y exporta. Aquí eliges el formato: SRT, VTT o TXT simple.
Ese es el ciclo completo. Las diferencias entre herramientas se reducen a precio, cobertura de idiomas, adónde va tu audio y si el tercer paso es gratuito.
SRT vs VTT vs TXT: qué archivo necesitas
Tres formatos aparecen en todos los menús de exportación, y la gente elige el equivocado constantemente.
- SRT (SubRip) es el archivo de subtítulos por defecto. Es un archivo de texto plano con bloques numerados, cada uno con un rango de código de tiempo y una o dos líneas de texto. YouTube, la mayoría de los editores de video y casi todos los reproductores lo leen. Si no sabes cuál elegir, elige SRT.
- VTT (WebVTT) es el primo web del SRT. Misma idea, sintaxis ligeramente distinta, más soporte para estilos y posicionamiento. Usa VTT cuando un sitio web o un reproductor de video HTML5 lo solicite por su nombre.
- TXT son las palabras, sin marcas de tiempo. Este es el formato que quieres cuando estás escribiendo un artículo, generando un resumen o citando una entrevista. También es el único de los tres que una herramienta de dictado básica puede darte.
Mi regla general: SRT para video, TXT para documentos, VTT cuando una plataforma web lo pide por su nombre. La mayoría de las herramientas exportan los tres: VEED, Kapwing y Descript.
Las herramientas que convierten audio en archivos de subtítulos
Aquí está dónde queda cada herramienta de navegador, con las afirmaciones sobre sus capacidades tomadas directamente de la propia página de cada herramienta.
- VEED es un generador automático de subtítulos web y móvil que transcribe desde un archivo solo de audio y te permite descargar el resultado como SRT, VTT o TXT. Es gratuito para empezar. Descargar el archivo de subtítulos y subtitular videos más largos te pasan a un nivel de pago.
- Kapwing anuncia "subtítulos con 99% de precisión, generados en segundos". Esa es la cifra de marketing de Kapwing, no un benchmark independiente. Acepta cualquier archivo de video o audio, incluido MP3, puede traducir subtítulos a más de 100 idiomas y exporta SRT, VTT y TXT. Las cuentas gratuitas obtienen hasta 10 minutos de subtítulos y una marca de agua; Pro elimina la marca de agua.
- Descript genera subtítulos en más de 22 idiomas, acepta archivos solo de audio y exporta subtítulos blandos como SRT o VTT a través de Publicar, luego Exportar, luego Subtítulos. Funciona con un modelo freemium con una hora de contenido multimedia gratuita al mes.
Así es como se comparan las cuatro opciones en los aspectos que puedes verificar antes de decidirte. Sin cifras de precisión ni velocidad, porque nadie las ha comparado de frente con el mismo audio:
| Herramienta | Plataforma | Local o nube | Funciona sin conexión | Modelo de precios | Idiomas | Ideal para |
|---|---|---|---|---|---|---|
| VEED | Web, móvil | Nube | No | Inicio gratuito, pago para exportar | Lista más de 40 opciones, sin total declarado | Un pase rápido en el navegador con descarga |
| Kapwing | Web | Nube | No | Nivel gratuito (marca de agua), Pro | Traduce a más de 100 | Subtítulos rápidos más traducción |
| Descript | Web | Nube | No | Freemium, una hora de multimedia gratis | 22+ | Editar audio y subtítulos a la vez |
| OpenAI Whisper CLI | Windows, macOS, Linux | Local | Sí | Gratis, código abierto | 99 multilingüe, 1 para versiones .en | Gratis, privado, sin subida |
Las tres herramientas de navegador envían tu audio al servidor de otra persona. Para un clip de marketing está bien. Para una llamada grabada con un cliente o cualquier cosa que contenga cifras de salario, sigue leyendo.
Esas herramientas comparten una interfaz que se parece más o menos a esto:
Sube, haz clic en generar, elige un formato, descarga. Esa barra, no la nuestra, es lo que parece un generador de subtítulos a partir de audio.
Gratis y sin conexión: generar SRT con Whisper de código abierto

Si prefieres no subir nada, la herramienta de línea de comandos Whisper de código abierto de OpenAI escribe archivos de subtítulos en tu propio equipo de forma gratuita. Su flag --output_format acepta txt, vtt, srt, tsv, json o all, y el valor por defecto es all. Así que un solo comando, whisper interview.mp3 --model turbo, produce un archivo .srt sin conexión, sin cuenta y sin subir nada.
El Whisper de código abierto es un proyecto distinto de Whisper by Remskill, y conviene dejarlo claro. Es el modelo de línea de comandos de OpenAI que se ejecuta en tu ordenador y genera archivos de subtítulos con marcas de tiempo. Incluye seis tamaños de modelo (tiny, base, small, medium, large y turbo) con variantes solo en inglés para los cuatro más pequeños. Los modelos multilingües cubren 99 idiomas; las variantes .en son solo en inglés.
Esta es la opinión que defiendo: para cualquier cosa sensible, el audio no debería salir nunca de tu portátil. Una evaluación de desempeño grabada, las notas dictadas de un médico, una declaración legal: nada de eso debería acabar en los registros de procesamiento de un proveedor solo porque necesitabas marcas de tiempo.
Una vez vi a un equipo acumular una factura de IA en la nube de cinco cifras en un trimestre transcribiendo grabaciones de reuniones diarias. La reacción del director financiero en la siguiente revisión no fue "optimicemos el prompt". Fue "¿por qué enviamos el audio de las reuniones a un servidor?". Tu portátil ya tiene un procesador y un micrófono. Para material privado, el Whisper CLI sin conexión es la respuesta, y no cuesta nada.
Existe un puerto local más rápido llamado whisper.cpp, una compilación en C/C++ de Whisper sin dependencias que funciona solo con CPU bajo una licencia abierta. Según los usuarios, también puede escribir archivos de subtítulos, aunque te recomendaría el Whisper CLI oficial de OpenAI para el camino verificado de .srt y tratar whisper.cpp como la mejora de velocidad una vez que te sientas cómodo.
Cuándo Whisper by Remskill es la herramienta equivocada para esto
Esta es la parte que la mayoría de los blogs de producto omiten. Si lo que necesitas es un archivo .srt o .vtt descargable, nuestra app es la herramienta equivocada, y prefiero decírtelo ahora a que pierdas la descarga.
Whisper by Remskill es ante todo una herramienta de dictado. Mantienes pulsado un atajo de teclado (Ctrl+Space en Windows, Command+Option en macOS), hablas, lo sueltas y la transcripción se pega en el cursor de la app que tengas abierta. No divide el habla en bloques de subtítulos, no alinea el texto con el reloj del audio y no genera un archivo de subtítulos con marcas de tiempo. Dale una entrevista y obtendrás un párrafo limpio, no un SRT. Construí el menú de exportación en mi cabeza una docena de veces y nunca lo lancé, porque los subtítulos con marcas de tiempo son su propio producto y hacerlos mal no ayuda a nadie.
Usa las herramientas anteriores para archivos de subtítulos. Recurre a nuestra app para el trabajo adyacente: convertir tu propio habla en texto en el momento en que lo necesitas. Un email, un borrador, un pie de foto que escribirás manualmente en una publicación en redes. Funciona con dos motores de Rust puro, OpenAI Whisper y NVIDIA Parakeet, sin Python y sin subida. Trabajo distinto, herramienta distinta. Elegir la correcta es el objetivo de todo este artículo.
Antes de abrir nada, responde la pregunta que lo decide todo: ¿estás entregando un archivo o entregando palabras? Un archivo significa marcas de tiempo, lo que significa un generador de subtítulos de verdad. VEED o Kapwing para un pase rápido en el navegador, el Whisper CLI para uso gratuito y privado. Las palabras significan una transcripción, y eso es una herramienta distinta. Construí una app de dictado y aun así te mando a otro sitio cuando ese otro sitio es el correcto. Mi hija de siete años me preguntó la semana pasada qué hago en el trabajo, y la respuesta honesta es que ayudo a la gente a dejar de escribir, lo que le pareció profundamente decepcionante. La tarde que ahorras es la que yo pasé subtitulando ese clip de podcast a mano, tres segundos cada vez.
¿Prefieres la mitad de dictado?
Si lo que necesitas son palabras en el cursor, no un archivo de subtítulos, Whisper convierte tu propio habla en texto en el momento en que lo necesitas, completamente sin conexión.
Dictado local gratuito para todos los usuarios registrados. Para archivos de subtítulos, usa las herramientas anteriores.



