Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Por Denys Medvediev23 de abril de 2026

Tutorial

Audio a subtítulos: qué funciona de verdad

Un generador de subtítulos a partir de audio convierte un archivo de sonido en un SRT o VTT con marcas de tiempo. Aquí tienes el flujo de trabajo real, las herramientas que realmente exportan uno y la opción gratuita sin conexión que nunca sube tu audio.

Última actualización: junio de 2026

Formas de onda de audio en una pantalla, ilustrando la conversión de un archivo de sonido en una pista de subtítulos

Un generador de subtítulos a partir de audio toma un archivo de sonido —un MP3, un WAV o una exportación de podcast— y escribe un archivo de subtítulos con marcas de tiempo. Cada línea de texto incluye una hora de inicio y una de fin. Herramientas web como VEED, Kapwing y Descript hacen esto en el navegador. La herramienta de línea de comandos OpenAI Whisper, gratuita y de código abierto, lo hace sin conexión en tu propio equipo.

Una vez invertí cuarenta minutos subtitulando a mano un clip de podcast de diez minutos: pausando cada tres segundos para escribir y adivinar las marcas de tiempo. Tengo un máster en ingeniería de software. La aritmética es despiadada de cualquier manera. Hacer subtítulos a mano lleva varias veces la duración del audio. Un generador de subtítulos moderno hace el mismo trabajo en aproximadamente lo que dura el archivo más un café. Lo que nadie te dice de entrada es que la herramienta correcta depende de una sola pregunta: ¿necesitas un archivo con marcas de tiempo que puedas descargar, o solo el texto?

"Generador de subtítulos" se usa para dos trabajos distintos, y elegir la herramienta equivocada te cuesta una tarde. El espacio se divide entre herramientas de navegador que exportan archivos con marcas de tiempo y herramientas sin conexión que hacen lo mismo gratis si estás dispuesto a abrir una terminal. Esta guía explica cómo funciona el flujo de trabajo, qué herramientas generan un archivo .srt real solo a partir de audio, qué significan SRT, VTT y TXT, y en qué casos una app de dictado como la nuestra es la elección equivocada. Al final sabrás qué herramienta abrir según lo que necesitas entregar. La mayor parte de la confusión que leo en nuestro buzón de soporte viene de personas que eligieron una herramienta de transcripción cuando necesitaban un archivo de subtítulos. Un año de esos mensajes es gran parte de la razón por la que existe este artículo.

Necesitas marcas de tiempo, no solo texto

Un archivo de subtítulos no es una transcripción. Una transcripción son palabras. Un archivo de subtítulos son palabras más tiempo. Cada bloque de subtítulo dice "muestra esta línea de 00:01:04 a 00:01:07". Ese tiempo es todo el trabajo. Le indica al reproductor de video qué palabras mostrar en pantalla en cada segundo exacto.

La mayoría de las herramientas de "voz a texto", incluida la nuestra, solo te dan palabras. Pegan un párrafo limpio en tu cursor y ahí se detienen. Un generador de subtítulos a partir de audio tiene que hacer más: divide el habla en fragmentos cortos del tamaño de un subtítulo, alinea cada fragmento con el reloj del audio y lo escribe todo en un formato de archivo estricto que un reproductor puede leer. Si lo que necesitas entregar es un archivo para subir a YouTube, a un editor de video o a una plataforma de cursos, necesitas las marcas de tiempo. Si lo que necesitas es texto en un documento, no las necesitas, y no deberías pagar por una herramienta de subtítulos para obtenerlo.

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

Portátil con software de edición de audio y auriculares sobre un escritorio en un espacio de trabajo en casa

El flujo de trabajo es prácticamente el mismo en todas las herramientas, web o sin conexión.

Sube o apunta al archivo de audio. La mayoría de las herramientas acepta MP3, WAV, M4A y FLAC; no hace falta video. VEED acepta MP3, WAV, grabaciones de podcast, audio de entrevistas y notas de voz. Si solo tienes un video, la herramienta extrae el audio por ti.

Deja que transcriba y marque el tiempo del habla. La herramienta pasa el audio por un modelo de voz, divide el resultado en líneas del tamaño de un subtítulo y marca cada una con hora de inicio y fin. La versión manual consume varias veces la duración del audio. La versión automática tarda aproximadamente lo que dura el archivo.

Revisa y exporta el archivo. Lee la transcripción una vez (el resultado del modelo es bueno, no perfecto), corrige los nombres que haya distorsionado y exporta. Aquí eliges el formato: SRT, VTT o TXT simple.

Ese es el ciclo completo. Las diferencias entre herramientas se reducen a precio, cobertura de idiomas, adónde va tu audio y si el tercer paso es gratuito.

SRT vs VTT vs TXT: qué archivo necesitas

Tres formatos aparecen en todos los menús de exportación, y la gente elige el equivocado constantemente.

SRT (SubRip) es el archivo de subtítulos por defecto. Es un archivo de texto plano con bloques numerados, cada uno con un rango de código de tiempo y una o dos líneas de texto. YouTube, la mayoría de los editores de video y casi todos los reproductores lo leen. Si no sabes cuál elegir, elige SRT.
VTT (WebVTT) es el primo web del SRT. Misma idea, sintaxis ligeramente distinta, más soporte para estilos y posicionamiento. Usa VTT cuando un sitio web o un reproductor de video HTML5 lo solicite por su nombre.
TXT son las palabras, sin marcas de tiempo. Este es el formato que quieres cuando estás escribiendo un artículo, generando un resumen o citando una entrevista. También es el único de los tres que una herramienta de dictado básica puede darte.

Mi regla general: SRT para video, TXT para documentos, VTT cuando una plataforma web lo pide por su nombre. La mayoría de las herramientas exportan los tres: VEED, Kapwing y Descript.

Las herramientas que convierten audio en archivos de subtítulos

Aquí está dónde queda cada herramienta de navegador, con las afirmaciones sobre sus capacidades tomadas directamente de la propia página de cada herramienta.

VEED es un generador automático de subtítulos web y móvil que transcribe desde un archivo solo de audio y te permite descargar el resultado como SRT, VTT o TXT. Es gratuito para empezar. Descargar el archivo de subtítulos y subtitular videos más largos te pasan a un nivel de pago.
Kapwing anuncia "subtítulos con 99% de precisión, generados en segundos". Esa es la cifra de marketing de Kapwing, no un benchmark independiente. Acepta cualquier archivo de video o audio, incluido MP3, puede traducir subtítulos a más de 100 idiomas y exporta SRT, VTT y TXT. Las cuentas gratuitas obtienen hasta 10 minutos de subtítulos y una marca de agua; Pro elimina la marca de agua.
Descript genera subtítulos en más de 22 idiomas, acepta archivos solo de audio y exporta subtítulos blandos como SRT o VTT a través de Publicar, luego Exportar, luego Subtítulos. Funciona con un modelo freemium con una hora de contenido multimedia gratuita al mes.

Así es como se comparan las cuatro opciones en los aspectos que puedes verificar antes de decidirte. Sin cifras de precisión ni velocidad, porque nadie las ha comparado de frente con el mismo audio:

Herramienta	Plataforma	Local o nube	Funciona sin conexión	Modelo de precios	Idiomas	Ideal para
VEED	Web, móvil	Nube	No	Inicio gratuito, pago para exportar	Lista más de 40 opciones, sin total declarado	Un pase rápido en el navegador con descarga
Kapwing	Web	Nube	No	Nivel gratuito (marca de agua), Pro	Traduce a más de 100	Subtítulos rápidos más traducción
Descript	Web	Nube	No	Freemium, una hora de multimedia gratis	22+	Editar audio y subtítulos a la vez
OpenAI Whisper CLI	Windows, macOS, Linux	Local	Sí	Gratis, código abierto	99 multilingüe, 1 para versiones .en	Gratis, privado, sin subida

Las tres herramientas de navegador envían tu audio al servidor de otra persona. Para un clip de marketing está bien. Para una llamada grabada con un cliente o cualquier cosa que contenga cifras de salario, sigue leyendo.

Esas herramientas comparten una interfaz que se parece más o menos a esto:

interview-audio.mp3Subtítulo automático

SRTVTTTXTDescargar

Sube, haz clic en generar, elige un formato, descarga. Esa barra, no la nuestra, es lo que parece un generador de subtítulos a partir de audio.

Gratis y sin conexión: generar SRT con Whisper de código abierto

Código en una pantalla de ordenador en modo oscuro, evocando un flujo de trabajo de subtítulos por línea de comandos

Si prefieres no subir nada, la herramienta de línea de comandos Whisper de código abierto de OpenAI escribe archivos de subtítulos en tu propio equipo de forma gratuita. Su flag --output_format acepta txt, vtt, srt, tsv, json o all, y el valor por defecto es all. Así que un solo comando, whisper interview.mp3 --model turbo, produce un archivo .srt sin conexión, sin cuenta y sin subir nada.

El Whisper de código abierto es un proyecto distinto de Whisper by Remskill, y conviene dejarlo claro. Es el modelo de línea de comandos de OpenAI que se ejecuta en tu ordenador y genera archivos de subtítulos con marcas de tiempo. Incluye seis tamaños de modelo (tiny, base, small, medium, large y turbo) con variantes solo en inglés para los cuatro más pequeños. Los modelos multilingües cubren 99 idiomas; las variantes .en son solo en inglés.

Esta es la opinión que defiendo: para cualquier cosa sensible, el audio no debería salir nunca de tu portátil. Una evaluación de desempeño grabada, las notas dictadas de un médico, una declaración legal: nada de eso debería acabar en los registros de procesamiento de un proveedor solo porque necesitabas marcas de tiempo.

Una vez vi a un equipo acumular una factura de IA en la nube de cinco cifras en un trimestre transcribiendo grabaciones de reuniones diarias. La reacción del director financiero en la siguiente revisión no fue "optimicemos el prompt". Fue "¿por qué enviamos el audio de las reuniones a un servidor?". Tu portátil ya tiene un procesador y un micrófono. Para material privado, el Whisper CLI sin conexión es la respuesta, y no cuesta nada.

Existe un puerto local más rápido llamado whisper.cpp, una compilación en C/C++ de Whisper sin dependencias que funciona solo con CPU bajo una licencia abierta. Según los usuarios, también puede escribir archivos de subtítulos, aunque te recomendaría el Whisper CLI oficial de OpenAI para el camino verificado de .srt y tratar whisper.cpp como la mejora de velocidad una vez que te sientas cómodo.

Cuándo Whisper by Remskill es la herramienta equivocada para esto

Pasted

El overlay de Whisper en su estado completo: pega un párrafo limpio en tu cursor, no un archivo de subtítulos con marcas de tiempo. El widget azul se superpone a cualquier app.

Esta es la parte que la mayoría de los blogs de producto omiten. Si lo que necesitas es un archivo .srt o .vtt descargable, nuestra app es la herramienta equivocada, y prefiero decírtelo ahora a que pierdas la descarga.

Whisper by Remskill es ante todo una herramienta de dictado. Mantienes pulsado un atajo de teclado (Ctrl+Space en Windows, Command+Option en macOS), hablas, lo sueltas y la transcripción se pega en el cursor de la app que tengas abierta. No divide el habla en bloques de subtítulos, no alinea el texto con el reloj del audio y no genera un archivo de subtítulos con marcas de tiempo. Dale una entrevista y obtendrás un párrafo limpio, no un SRT. Construí el menú de exportación en mi cabeza una docena de veces y nunca lo lancé, porque los subtítulos con marcas de tiempo son su propio producto y hacerlos mal no ayuda a nadie.

Usa las herramientas anteriores para archivos de subtítulos. Recurre a nuestra app para el trabajo adyacente: convertir tu propio habla en texto en el momento en que lo necesitas. Un email, un borrador, un pie de foto que escribirás manualmente en una publicación en redes. Funciona con dos motores de Rust puro, OpenAI Whisper y NVIDIA Parakeet, sin Python y sin subida. Trabajo distinto, herramienta distinta. Elegir la correcta es el objetivo de todo este artículo.

Antes de abrir nada, responde la pregunta que lo decide todo: ¿estás entregando un archivo o entregando palabras? Un archivo significa marcas de tiempo, lo que significa un generador de subtítulos de verdad. VEED o Kapwing para un pase rápido en el navegador, el Whisper CLI para uso gratuito y privado. Las palabras significan una transcripción, y eso es una herramienta distinta. Construí una app de dictado y aun así te mando a otro sitio cuando ese otro sitio es el correcto. Mi hija de siete años me preguntó la semana pasada qué hago en el trabajo, y la respuesta honesta es que ayudo a la gente a dejar de escribir, lo que le pareció profundamente decepcionante. La tarde que ahorras es la que yo pasé subtitulando ese clip de podcast a mano, tres segundos cada vez.

¿Prefieres la mitad de dictado?

Si lo que necesitas son palabras en el cursor, no un archivo de subtítulos, Whisper convierte tu propio habla en texto en el momento en que lo necesitas, completamente sin conexión.

Ver cómo funciona Whisper Ver precios

Dictado local gratuito para todos los usuarios registrados. Para archivos de subtítulos, usa las herramientas anteriores.

Denys Medvediev

Soy quien lee nuestro email de soporte, muy probablemente dictando las respuestas.

Lectura adicional

Preguntas frecuentes

Sí. VEED, Kapwing, Descript y el Whisper CLI de código abierto transcriben desde un archivo de audio: MP3, WAV, M4A, FLAC. No se necesita pista de video; la herramienta marca el tiempo del habla por sí sola.

Por Denys Medvediev23 de abril de 2026

Tutorial

Audio a subtítulos: qué funciona de verdad

Última actualización: junio de 2026

Necesitas marcas de tiempo, no solo texto

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

El flujo de trabajo es prácticamente el mismo en todas las herramientas, web o sin conexión.

Ese es el ciclo completo. Las diferencias entre herramientas se reducen a precio, cobertura de idiomas, adónde va tu audio y si el tercer paso es gratuito.

SRT vs VTT vs TXT: qué archivo necesitas

Tres formatos aparecen en todos los menús de exportación, y la gente elige el equivocado constantemente.

SRT (SubRip) es el archivo de subtítulos por defecto. Es un archivo de texto plano con bloques numerados, cada uno con un rango de código de tiempo y una o dos líneas de texto. YouTube, la mayoría de los editores de video y casi todos los reproductores lo leen. Si no sabes cuál elegir, elige SRT.
VTT (WebVTT) es el primo web del SRT. Misma idea, sintaxis ligeramente distinta, más soporte para estilos y posicionamiento. Usa VTT cuando un sitio web o un reproductor de video HTML5 lo solicite por su nombre.
TXT son las palabras, sin marcas de tiempo. Este es el formato que quieres cuando estás escribiendo un artículo, generando un resumen o citando una entrevista. También es el único de los tres que una herramienta de dictado básica puede darte.

Mi regla general: SRT para video, TXT para documentos, VTT cuando una plataforma web lo pide por su nombre. La mayoría de las herramientas exportan los tres: VEED, Kapwing y Descript.

Las herramientas que convierten audio en archivos de subtítulos

Aquí está dónde queda cada herramienta de navegador, con las afirmaciones sobre sus capacidades tomadas directamente de la propia página de cada herramienta.

VEED es un generador automático de subtítulos web y móvil que transcribe desde un archivo solo de audio y te permite descargar el resultado como SRT, VTT o TXT. Es gratuito para empezar. Descargar el archivo de subtítulos y subtitular videos más largos te pasan a un nivel de pago.
Kapwing anuncia "subtítulos con 99% de precisión, generados en segundos". Esa es la cifra de marketing de Kapwing, no un benchmark independiente. Acepta cualquier archivo de video o audio, incluido MP3, puede traducir subtítulos a más de 100 idiomas y exporta SRT, VTT y TXT. Las cuentas gratuitas obtienen hasta 10 minutos de subtítulos y una marca de agua; Pro elimina la marca de agua.
Descript genera subtítulos en más de 22 idiomas, acepta archivos solo de audio y exporta subtítulos blandos como SRT o VTT a través de Publicar, luego Exportar, luego Subtítulos. Funciona con un modelo freemium con una hora de contenido multimedia gratuita al mes.

Herramienta	Plataforma	Local o nube	Funciona sin conexión	Modelo de precios	Idiomas	Ideal para
VEED	Web, móvil	Nube	No	Inicio gratuito, pago para exportar	Lista más de 40 opciones, sin total declarado	Un pase rápido en el navegador con descarga
Kapwing	Web	Nube	No	Nivel gratuito (marca de agua), Pro	Traduce a más de 100	Subtítulos rápidos más traducción
Descript	Web	Nube	No	Freemium, una hora de multimedia gratis	22+	Editar audio y subtítulos a la vez
OpenAI Whisper CLI	Windows, macOS, Linux	Local	Sí	Gratis, código abierto	99 multilingüe, 1 para versiones .en	Gratis, privado, sin subida

Esas herramientas comparten una interfaz que se parece más o menos a esto:

interview-audio.mp3Subtítulo automático

SRTVTTTXTDescargar

Sube, haz clic en generar, elige un formato, descarga. Esa barra, no la nuestra, es lo que parece un generador de subtítulos a partir de audio.

Gratis y sin conexión: generar SRT con Whisper de código abierto

Cuándo Whisper by Remskill es la herramienta equivocada para esto

Pasted

El overlay de Whisper en su estado completo: pega un párrafo limpio en tu cursor, no un archivo de subtítulos con marcas de tiempo. El widget azul se superpone a cualquier app.

¿Prefieres la mitad de dictado?

Si lo que necesitas son palabras en el cursor, no un archivo de subtítulos, Whisper convierte tu propio habla en texto en el momento en que lo necesitas, completamente sin conexión.

Ver cómo funciona Whisper Ver precios

Dictado local gratuito para todos los usuarios registrados. Para archivos de subtítulos, usa las herramientas anteriores.

Denys Medvediev

Soy quien lee nuestro email de soporte, muy probablemente dictando las respuestas.

Audio a subtítulos: qué funciona de verdad

Necesitas marcas de tiempo, no solo texto

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

SRT vs VTT vs TXT: qué archivo necesitas

Las herramientas que convierten audio en archivos de subtítulos

Gratis y sin conexión: generar SRT con Whisper de código abierto

Cuándo Whisper by Remskill es la herramienta equivocada para esto

¿Prefieres la mitad de dictado?

Lectura adicional

Preguntas frecuentes

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Audio a subtítulos: qué funciona de verdad

Necesitas marcas de tiempo, no solo texto

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

SRT vs VTT vs TXT: qué archivo necesitas

Las herramientas que convierten audio en archivos de subtítulos

Gratis y sin conexión: generar SRT con Whisper de código abierto

Cuándo Whisper by Remskill es la herramienta equivocada para esto

¿Prefieres la mitad de dictado?

Lectura adicional

Preguntas frecuentes

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Audio a subtítulos: qué funciona de verdad

Necesitas marcas de tiempo, no solo texto

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

SRT vs VTT vs TXT: qué archivo necesitas

Las herramientas que convierten audio en archivos de subtítulos

Gratis y sin conexión: generar SRT con Whisper de código abierto

Cuándo Whisper by Remskill es la herramienta equivocada para esto

¿Prefieres la mitad de dictado?

Lectura adicional

Preguntas frecuentes

Sigue leyendo

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar

Audio a subtítulos: qué funciona de verdad

Necesitas marcas de tiempo, no solo texto

Cómo generar subtítulos a partir de un archivo de audio en tres pasos

SRT vs VTT vs TXT: qué archivo necesitas

Las herramientas que convierten audio en archivos de subtítulos

Gratis y sin conexión: generar SRT con Whisper de código abierto

Cuándo Whisper by Remskill es la herramienta equivocada para esto

¿Prefieres la mitad de dictado?

Lectura adicional

Preguntas frecuentes

Sigue leyendo

Dictado por voz en Word

El atajo de dictado por voz en cada sistema operativo

Alternativa a la escritura por voz de Google: dicta en cualquier lugar