Por Denys Medvediev

Tutorial

Transcribir vídeos de YouTube: 3 formas

Tres métodos cubren casi todo: abrir el panel de transcripción del propio vídeo, pegar el enlace en un generador gratuito o dictar tus propias notas con la voz. Los dos primeros solo necesitan un navegador.

Última actualización: junio de 2026

Un portátil con software de edición de vídeo sobre un escritorio moderno, listo para convertir vídeo en texto

Para transcribir vídeos de YouTube, tres métodos cubren casi todo: abre el panel Mostrar transcripción del propio vídeo para cualquier vídeo con subtítulos, pega el enlace en un generador de transcripciones online gratuito para obtener un texto más limpio y descargarlo, o captura y dicta tus propias notas con una herramienta de escritorio. Los dos primeros solo necesitan un navegador.

La semana pasada perdí veinte minutos intentando copiar tres frases de una charla de cuarenta minutos. No transcribir la charla entera. Tres frases, dichas en torno al minuto dieciocho, que quería citar en un correo. Adelantaba y retrocedía como si estuviera desactivando una bomba. La verdad, por aburrida que sea, es que la mayoría de quienes buscan una herramienta para transcribir vídeos de YouTube no necesitan la transcripción completa. Necesitan leer en lugar de ver, atrapar una cita o convertir un vídeo en notas que luego puedan buscar.

Los vídeos de YouTube se acumulan en pestañas igual que los libros sin leer se acumulan en una estantería, y verlos a velocidad normal es la forma más lenta de sacarles información. Ahora mismo, los resultados de búsqueda para esto son un muro de widgets de pegar-un-enlace, casi todos idénticos, todos prometiendo transcripciones gratis en segundos. La mayoría funcionan bien. La pregunta es qué método encaja con lo que estás haciendo. Esta guía recorre tres: la transcripción integrada de YouTube, los generadores gratuitos de pegar-un-enlace y una herramienta de dictado de escritorio para la parte que esos generadores no pueden tocar. Al terminar sabrás cuál usar en menos de diez segundos, y dejarás de recorrer una línea de tiempo con la mandíbula apretada. Yo leo nuestro correo de soporte, así que he visto a mucha gente elegir mal a la primera. Normalmente justo después de que yo eligiera mal a la primera.

La forma gratuita ya está dentro de YouTube

Transcript··· Toggle timestamps
0:00so the thing people get wrong about this is
0:04you don't actually need the whole transcript
0:09you need three sentences and a way to find them
0:14which is what the panel on the right is for
El propio panel Mostrar transcripción de YouTube: gratis, instantáneo y ya en tu navegador.

Si el vídeo tiene subtítulos, ya tienes la transcripción. No necesitas ninguna herramienta, ni cuenta, ni tarjeta de crédito. Abre el vídeo, mira debajo en la zona de la descripción y haz clic en Mostrar transcripción. Se abre un panel junto al reproductor con el texto completo, y a medida que el vídeo avanza, el panel se desplaza hasta la línea que se está diciendo. Haz clic en cualquier línea y el vídeo salta a ese momento.

Este es el método que la mayoría de los artículos entierran al final, probablemente porque no hay nada que vender a su alrededor. Funciona en escritorio y en móvil. La pega: el vídeo necesita tener subtítulos para empezar. La mayoría de los canales populares los tienen, autogenerados o añadidos por quien sube el vídeo, pero un vídeo antiguo de un creador pequeño puede que no.

Comprueba que funcionó: el panel de transcripción muestra texto que se desplaza al ritmo del audio. Si no se abre, el vídeo no tiene subtítulos y pasas al método dos.

Una cosa más que la gente pasa por alto. El panel de transcripción tiene un pequeño menú para desactivar las marcas de tiempo, lo que hace que el texto sea mucho más fácil de copiar como prosa limpia. Esa opción vive en el panel, no en la documentación de soporte. Está ampliamente documentada, pero no en la página de ayuda oficial de YouTube. Conviene saberlo antes de pegar un muro de números en un documento.

Pega un enlace, obtén un texto más limpio

Cuando quieres la transcripción fuera de YouTube (para descargarla, pasarla por un resumidor o leer un vídeo que se resiste en el panel integrado), un generador gratuito de pegar-un-enlace es la jugada. La forma es siempre la misma. Copia la URL de YouTube, pégala en una casilla y recibes el texto.

Generador de transcripciones de YouTube
La transcripción aparece aquí: cópiala o descárgala como .txt
Un generador de transcripciones típico de pegar-un-enlace, reducido a lo que importa.

El generador gratuito de transcripciones de YouTube de Tactiq acepta una URL pegada, no pide instalación, ni registro, ni correo electrónico, y te deja descargar el resultado como archivo .txt. Es honesto al decir que el reconocimiento automático de voz no siempre es 100% preciso, que es lo decente que se puede admitir. El generador de NoteGPT hace el mismo truco de pegar-un-enlace, devuelve una transcripción con marcas de tiempo, admite varios idiomas, te deja copiar con o sin las marcas de tiempo y suma resumen con IA. El primer resultado, youtubetotranscript.com, anuncia traducción, límites de longitud y una API en sus preguntas frecuentes. Tómatelo como anunciado, no como probado.

Comprueba que funcionó: puedes seleccionar, copiar o descargar el texto de la transcripción. Si la herramienta se atasca o no devuelve nada, normalmente el vídeo no tiene subtítulos de los que tirar. Estos generadores leen la pista de subtítulos que ya existe en YouTube; no escuchan el audio.

Esa última frase es toda la limitación. Y ahí es donde entra el tercer método.

Lo que las herramientas de enlace no pueden hacer

Todos los métodos anteriores dependen de que YouTube tenga una pista de subtítulos que entregar. Sin subtítulos, no hay transcripción. Eso cubre la mayoría de los vídeos públicos, pero deja un hueco: el audio que no es un vídeo público de YouTube en absoluto. Un enlace privado que alguien compartió contigo. Una retransmisión en directo que aún no tiene subtítulos. Un clip dentro del reproductor de un curso. Tu propio material antes de subirlo.

También deja un segundo hueco, más silencioso. A veces no quieres las palabras del vídeo. Quieres tus palabras sobre el vídeo. La nota que escribirías mientras lo ves. El resumen con tu propia forma de decirlo. Las tres frases que le dictarías a un compañero para explicarle por qué esa charla importa.

Aquí es donde una herramienta de voz de escritorio se gana su lugar, y conviene ser preciso sobre lo que hace y lo que no. Whisper by Remskill es una app de dictado por atajo de teclado. Pulsas el atajo, hablas al micrófono y tus palabras aparecen como texto en el cursor, en cualquier app en la que estés. No coge un enlace de YouTube y te transcribe el vídeo. Ese es el trabajo de los generadores de pegar-un-enlace, no el nuestro. Lo que hace es dejarte ver un vídeo y capturar tus propias notas hablando en vez de teclear, que para mucha gente es la tarea real escondida detrás de "transcribe este vídeo".

Dicta tus notas mientras el vídeo avanza

Este es el flujo que uso yo. Pon el vídeo. Cuando algo merezca la pena guardar, mantén pulsado el atajo, di la nota en voz alta y suelta. El texto aparece en tu documento. Sin cambiar de pestaña, sin parar para teclear, sin perder el hilo.

En Windows, el atajo por defecto es Ctrl+Space. En macOS es un acorde de solo modificadores para hablar mientras se pulsa: mantén Command+Option juntos y suelta cualquiera de las dos teclas para parar. Puedes cambiarlo en Ajustes si choca con otra cosa. La superposición de grabación te muestra que está escuchando, así que nunca tienes que adivinar si te captó.

Cancel
La superposición de grabación de Whisper mientras dictas una nota: te muestra que está escuchando.

La transcripción funciona de dos maneras, y eliges tú. El modo local se ejecuta en tu propia máquina mediante dos motores puramente en Rust: OpenAI Whisper, con tamaños de modelo desde unos 140 MB hasta unos 3 GB y 99 idiomas en las variantes multilingües, y NVIDIA Parakeet TDT, un único modelo de ~600 MB que cubre 25 idiomas (inglés más 24 europeos) y es el más rápido de los dos. En modo local nada sale de tu portátil. El modo en la nube es de tipo trae-tu-propia-clave de OpenAI, usando gpt-4o-mini-transcribe o gpt-4o-transcribe para el reconocimiento de voz, para cuando quieres los modelos más recientes y acceso a la web.

El procesamiento local es gratis para cualquier usuario con sesión iniciada; la nube es la capa Whisper Pro.

Esta es la parte donde admito mi propio sesgo. La mayoría de las herramientas de productividad son problemas de tecleo disfrazados. Una app de notas, un gestor de portapapeles, un segundo cerebro con once bases de datos anidadas: debajo de todo eso está el mismo acto de mover los dedos por las teclas para capturar algo que ya sabes decir. El dictado se salta el teclado. Hablar va a unas 145 palabras por minuto frente a las 40 de teclear, así que una nota de vídeo que tardaba un minuto en escribirse tarda unos quince segundos en decirse. La solución a un problema de tecleo no suele ser una app más lustrosa. Es no teclear.

Comprueba que funcionó: puedes ver el vídeo entero y acabar con una página de notas sin tocar el teclado más que para desplazarte.

Marcas de tiempo, archivos SRT y otros idiomas

Tres cosas que la gente pide y que no vienen todas del mismo sitio, así que déjame ordenarlas.

Marcas de tiempo. El panel integrado de YouTube y NoteGPT te dan líneas con marcas de tiempo que puedes copiar con o sin los números. Si quieres marcas de tiempo ligadas a los subtítulos que el vídeo ya tiene, usa esas. Una herramienta de dictado por micrófono no sabe en qué punto estás del vídeo de otra persona.

Archivos de subtítulos SRT y VTT. Esto es un trabajo de exportación de subtítulos. La propia API de reconocimiento de voz de OpenAI puede generar formatos srt y vtt con el modelo whisper-1, y herramientas de edición como Descript producen archivos de subtítulos a partir del material que subes. Whisper by Remskill pega texto plano en el cursor. Está hecho para meter palabras en tus apps, no para crear un archivo .srt. Herramienta correcta para el trabajo correcto.

Otros idiomas. Los generadores de pegar-un-enlace manejan varios idiomas a partir de la pista de subtítulos de YouTube. Si estás dictando tus propias notas multilingües, el motor local de Whisper cubre 99 idiomas en sus modelos multilingües y puede traducir el habla al inglés; Parakeet cubre 25 y no traduce. Para una configuración del dictado paso a paso, la guía de la app de voz a texto lo recorre todo.

Entrevistas y conversaciones grabadas. El mismo flujo de soltar-un-archivo maneja entrevistas grabadas, donde normalmente quieres un texto limpio de cada interlocutor de una conversación larga. Nuestra guía sobre cómo transcribir entrevistas automáticamente cubre ese caso concreto de principio a fin.

Whisper
La app real de Whisper: los controles de idioma y traducción están en Ajustes. Toca por ahí.

Cuándo saltarte Whisper por completo

Si tu único trabajo es leer un vídeo público de YouTube como texto, sáltate Whisper sin pensarlo dos veces. La transcripción integrada de YouTube es gratis, instantánea y ya está instalada en tu navegador.

Si necesitas un archivo descargable o una copia más limpia, un generador gratuito como Tactiq lo hace sin cuenta ni correo y exporta un .txt.

Si estás incrustando subtítulos en un vídeo que estás editando, un editor de peso como Descript (que anuncia más de 30 idiomas y hasta un 95% de precisión sobre el material subido) es la categoría adecuada, no nosotros. Nosotros somos para la parte que esas herramientas no tocan: capturar tus propias palabras, con la voz, mientras ves el vídeo.

La tarde que perdí veinte minutos por tres frases, mi hija mayor pasó por delante, me vio recorrer los mismos diez segundos por cuarta vez y me preguntó por qué no lo leía y ya. Le dije que el vídeo no venía con transcripción. Me dijo que ahora todo tiene transcripción, papá, y se fue a hacer unos deberes de los que se libraría a base de negociar una hora más tarde. Tenía bastante razón. La transcripción casi siempre ya está ahí: debajo del vídeo, detrás de un enlace o a un atajo de distancia con tus propias palabras.

Pruébalo en tu próximo vídeo

Descarga Whisper y dicta tu próxima tanda de notas de vídeo en lugar de teclearlas.

Gratis para todo el procesamiento local. Sin tarjeta al registrarte.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable es que dictando las respuestas.

Más lecturas