Von Denys Medvediev

Tutorial

YouTube-Videos transkribieren: 3 Wege

Drei Methoden decken fast alles ab: das eigene Transkript-Panel des Videos öffnen, den Link in einen kostenlosen Generator einfügen oder deine eigenen Notizen per Sprache diktieren. Für die ersten beiden brauchst du nur einen Browser.

Zuletzt aktualisiert: Juni 2026

Laptop mit Videoschnitt-Software auf einem modernen Schreibtisch, ein Setup, um Video in Text zu verwandeln

Um YouTube-Videos zu transkribieren, decken drei Methoden fast alles ab: Öffne bei jedem Video mit Untertiteln das eigene Transkript-Panel über die Funktion „Transkript anzeigen“, füge den Link für saubereren Text und Downloads in einen kostenlosen Online-Transkript-Generator ein oder erfasse und diktiere deine eigenen Notizen mit einem Desktop-Tool. Für die ersten beiden brauchst du nur einen Browser.

Letzte Woche habe ich zwanzig Minuten damit verbracht, drei Sätze aus einem vierzigminütigen Konferenzvortrag zu kopieren. Nicht den ganzen Vortrag transkribieren. Drei Sätze, gesagt irgendwo um die achtzehnte Minute, die ich in einer E-Mail zitieren wollte. Ich spulte vor und zurück, als würde ich eine Bombe entschärfen. Die nüchterne Wahrheit ist: Die meisten, die zu einem Tool zum Transkribieren von YouTube-Videos greifen, brauchen gar nicht das ganze Transkript. Sie wollen lesen statt schauen, ein Zitat herausgreifen oder ein Video in Notizen verwandeln, die sie später durchsuchen können.

YouTube-Videos stapeln sich in Tabs, so wie ungelesene Bücher sich im Regal stapeln, und eines in normaler Geschwindigkeit zu schauen ist der langsamste Weg, an die Informationen darin zu kommen. Die Suchergebnisse dazu sind im Moment eine Wand aus Link-einfügen-Widgets, alle nahezu identisch, alle versprechen kostenlose Transkripte in Sekunden. Die meisten funktionieren tadellos. Die Frage ist, welche Methode zu dem passt, was du gerade tust. Dieser Leitfaden geht drei davon durch: das eingebaute Transkript von YouTube, kostenlose Generatoren zum Link-Einfügen und ein Desktop-Diktiertool für den Teil, den diese Generatoren nicht abdecken. Am Ende weißt du in unter zehn Sekunden, zu welchem du greifst, und musst dich nicht mehr mit zusammengebissenen Zähnen durch eine Zeitleiste spulen. Ich lese unsere Support-Mails, also habe ich vielen Leuten dabei zugesehen, wie sie zuerst die falsche Methode wählen. Meist gleich nachdem ich selbst zuerst die falsche gewählt hatte.

Der kostenlose Weg steckt schon in YouTube

Transcript··· Toggle timestamps
0:00so the thing people get wrong about this is
0:04you don't actually need the whole transcript
0:09you need three sentences and a way to find them
0:14which is what the panel on the right is for
YouTubes eigenes „Transkript anzeigen“-Panel — kostenlos, sofort, schon in deinem Browser.

Wenn das Video Untertitel hat, hast du das Transkript bereits. Du brauchst kein Tool, kein Konto und keine Kreditkarte. Öffne das Video, schau darunter im Beschreibungsbereich nach und klicke auf „Transkript anzeigen“. Neben dem Player öffnet sich ein Panel mit dem vollständigen Text, und während das Video läuft, scrollt das Panel zur gerade gesprochenen Zeile mit. Klick auf eine beliebige Zeile, und das Video springt zu diesem Moment.

Das ist die Methode, die die meisten Artikel ganz unten verstecken — vermutlich, weil sich drumherum nichts verkaufen lässt. Sie funktioniert auf dem Desktop und auf dem Handy. Der Haken: Das Video muss überhaupt erst Untertitel haben. Die meisten populären Kanäle haben welche, automatisch erzeugt oder vom Uploader hinzugefügt, aber ein älterer Upload eines kleinen Creators hat sie vielleicht nicht.

Prüfen, ob es geklappt hat: Das Transkript-Panel zeigt Text, der im Takt mit dem Ton mitscrollt. Öffnet es sich gar nicht erst, hat das Video keine Untertitel — dann geht es weiter zu Methode zwei.

Noch etwas, das viele übersehen. Das Transkript-Panel hat ein kleines Menü, um die Zeitstempel auszublenden, was den Text als sauberen Fließtext deutlich einfacher zu kopieren macht. Diese Option steckt im Panel, nicht in der Hilfe-Dokumentation. Sie ist vielfach beschrieben, aber nicht auf YouTubes offizieller Hilfeseite. Gut zu wissen, bevor du eine Wand aus Zahlen in ein Dokument einfügst.

Link einfügen, saubereren Text bekommen

Wenn du das Transkript außerhalb von YouTube brauchst (um es herunterzuladen, durch einen Zusammenfasser zu schicken oder ein Video zu lesen, das dich beim eingebauten Panel ärgert), ist ein kostenloser Generator zum Link-Einfügen die richtige Wahl. Der Ablauf ist immer derselbe. YouTube-URL kopieren, in ein Feld einfügen, Text zurückbekommen.

YouTube Transcript Generator
Hier erscheint das Transkript — als .txt kopieren oder herunterladen
Ein typischer Transkript-Generator zum Link-Einfügen, reduziert auf das Wesentliche.

Tactiqs kostenloser YouTube-Transkript-Generator nimmt eine eingefügte URL, verlangt keine Installation, keine Anmeldung und keine E-Mail und lässt dich das Ergebnis als .txt-Datei herunterladen. Er sagt offen, dass die automatische Spracherkennung nicht immer zu 100 % genau ist — das ist die ehrliche Aussage. NoteGPTs Generator macht denselben Link-einfügen-Trick, liefert ein Transkript mit Zeitstempeln zurück, unterstützt mehrere Sprachen, lässt dich mit oder ohne Zeitstempel kopieren und legt eine KI-Zusammenfassung obendrauf. Das Suchergebnis auf Platz eins, youtubetotranscript.com, wirbt in seinen FAQ mit Übersetzung, Längenbegrenzungen und einer API. Nimm das als beworben, nicht als getestet.

Prüfen, ob es geklappt hat: Du kannst den Transkripttext markieren, kopieren oder herunterladen. Hängt das Tool oder gibt es nichts zurück, hat das Video meist keine Untertitel, aus denen es schöpfen könnte. Diese Generatoren lesen YouTubes vorhandene Untertitelspur — sie hören nicht auf den Ton.

Dieser letzte Satz ist die ganze Einschränkung. Und genau da kommt die dritte Methode ins Spiel.

Was die Link-Tools nicht können

Jede der bisherigen Methoden hängt davon ab, dass YouTube eine Untertitelspur zum Übergeben hat. Keine Untertitel, kein Transkript. Das deckt die meisten öffentlichen Videos ab, lässt aber eine Lücke: Audio, das gar kein öffentliches YouTube-Video ist. Ein privater Link, den dir jemand geschickt hat. Ein Livestream, der noch keine Untertitel hat. Ein Clip in einem Kurs-Player. Dein eigenes Filmmaterial, bevor du es hochlädst.

Es bleibt auch eine zweite, leisere Lücke. Manchmal willst du nicht die Worte des Videos. Du willst deine Worte über das Video. Die Notiz, die du beim Schauen schreiben würdest. Die Zusammenfassung in deiner eigenen Formulierung. Die drei Sätze, die du einem Kollegen diktieren würdest, um zu erklären, warum dieser Vortrag wichtig ist.

Hier verdient sich ein Desktop-Sprachtool seinen Platz, und es lohnt sich, genau zu sein, was es tut und was nicht. Whisper by Remskill ist eine per Hotkey gesteuerte Diktier-App. Drück den Hotkey, sprich ins Mikrofon, und deine Worte landen als Text an der Cursorposition — in welcher App du auch gerade bist. Sie nimmt keinen YouTube-Link und transkribiert das Video für dich. Das ist der Job der Link-einfügen-Generatoren, nicht unserer. Was sie tut: Sie lässt dich ein Video schauen und deine eigenen Notizen sprechen statt tippen — was für viele Menschen die eigentliche Aufgabe ist, die sich hinter „dieses Video transkribieren“ versteckt.

Sprich deine Notizen, während das Video läuft

Hier ist der Arbeitsablauf, den ich nutze. Spiel das Video ab. Wenn etwas wert ist, festgehalten zu werden, halte den Hotkey gedrückt, sprich die Notiz laut aus, lass los. Der Text erscheint in deinem Dokument. Kein Tab-Wechsel, kein Pausieren zum Tippen, kein Verlieren des roten Fadens.

Unter Windows ist der Standard-Hotkey Ctrl+Space. Unter macOS ist es eine reine Push-to-talk-Kombination aus Modifiertasten: Halte Command+Option zusammen gedrückt, lass eine der Tasten los, um zu stoppen. Du kannst das in den Einstellungen ändern, falls es mit etwas kollidiert. Das Aufnahme-Overlay zeigt dir, dass es zuhört, sodass du nie raten musst, ob es dich erfasst hat.

Cancel
Das Whisper-Aufnahme-Overlay, während du eine Notiz diktierst — es zeigt dir, dass es zuhört.

Die Transkription läuft auf zwei Wegen, und du wählst. Der lokale Modus läuft auf deinem eigenen Rechner über zwei reine Rust-Engines: OpenAI Whisper, mit Modellgrößen von rund 140 MB bis etwa 3 GB und 99 Sprachen bei den mehrsprachigen Varianten, und NVIDIA Parakeet TDT, ein einzelnes ~600 MB großes Modell für 25 Sprachen (Englisch plus 24 europäische), das schnellere der beiden. Im lokalen Modus verlässt nichts deinen Laptop. Der Cloud-Modus läuft mit deinem eigenen OpenAI-Schlüssel und nutzt gpt-4o-mini-transcribe oder gpt-4o-transcribe für die Sprache-zu-Text-Umwandlung — für die Fälle, in denen du die neuesten Modelle und Web-Zugriff willst.

Die lokale Pipeline ist für jeden angemeldeten Nutzer kostenlos; die Cloud ist die Whisper Pro-Ebene.

Hier kommt der Teil, in dem ich meine eigene Voreingenommenheit zugebe. Die meisten Produktivitäts-Tools sind Tipp-Probleme in Verkleidung. Eine Notiz-App, ein Zwischenablage-Manager, ein Zweitgehirn mit elf verschachtelten Datenbanken: Unter all dem steckt derselbe Akt, die Finger über Tasten zu bewegen, um etwas festzuhalten, das du ohnehin schon zu sagen weißt. Diktieren überspringt die Tastatur. Sprechen liegt bei rund 145 Wörtern pro Minute gegenüber etwa 40 beim Tippen, sodass eine Videonotiz, für deren Tippen man eine Minute braucht, gesprochen etwa fünfzehn Sekunden dauert. Die Lösung für ein Tipp-Problem ist meist keine schickere App. Sie ist: nicht zu tippen.

Prüfen, ob es geklappt hat: Du kannst das ganze Video schauen und am Ende eine Seite voller Notizen haben, ohne die Tastatur je zu berühren — außer zum Scrollen.

Zeitstempel, SRT-Dateien und andere Sprachen

Drei Dinge, nach denen Leute fragen, die nicht alle aus derselben Ecke kommen — lass sie mich also sortieren.

Zeitstempel. YouTubes eingebautes Panel und NoteGPT geben dir beide Zeilen mit Zeitstempeln, die du mit oder ohne die Zahlen kopieren kannst. Wenn du Zeitstempel willst, die an die vorhandenen Untertitel des Videos gebunden sind, nimm diese. Ein Mikrofon-Diktiertool weiß nicht, wo du dich im Video von jemand anderem befindest.

SRT- und VTT-Untertiteldateien. Das ist ein Untertitel-Export-Job. OpenAIs eigene Sprache-zu-Text-API kann mit dem whisper-1-Modell srt- und vtt-Formate ausgeben, und Bearbeitungstools wie Descript erzeugen Untertiteldateien aus Medien, die du hochlädst. Whisper by Remskill fügt einfachen Text an der Cursorposition ein. Es ist dafür gebaut, Worte in deine Apps zu bringen, nicht um eine .srt-Datei zu erstellen. Das richtige Tool für den richtigen Job.

Andere Sprachen. Die Link-einfügen-Generatoren handhaben mehrere Sprachen über YouTubes Untertitelspur. Wenn du deine eigenen mehrsprachigen Notizen diktierst, deckt die lokale Whisper-Engine 99 Sprachen mit ihren mehrsprachigen Modellen ab und kann Sprache ins Englische übersetzen; Parakeet deckt 25 ab und übersetzt nicht. Für die Schritt-für-Schritt-Einrichtung des Diktierens führt dich der Leitfaden zur Voice-to-Text-App durch die ganze Sache.

Interviews und aufgezeichnete Gespräche. Derselbe Datei-Drop-Ablauf bewältigt aufgezeichnete Interviews, bei denen du meist sauberen Sprechertext aus einem langen Gespräch herausziehen willst. Unser Leitfaden dazu, wie du Interviews automatisch transkribierst, deckt genau diesen Fall von Anfang bis Ende ab.

Whisper
Die echte Whisper-App — Sprach- und Übersetzungsregler liegen in den Einstellungen. Klick dich durch.

Wann du Whisper ganz weglässt

Wenn deine einzige Aufgabe ist, ein öffentliches YouTube-Video als Text zu lesen, lass Whisper weg und überleg nicht zweimal. YouTubes eingebautes Transkript ist kostenlos, sofort da und schon in deinem Browser installiert.

Wenn du eine herunterladbare Datei oder eine sauberere Kopie brauchst, erledigt das ein kostenloser Generator wie Tactiq ohne Konto und ohne E-Mail und exportiert eine .txt.

Wenn du Untertitel in ein Video schneidest, das du gerade bearbeitest, ist ein schwergewichtiger Editor wie Descript (der mit über 30 Sprachen und bis zu 95 % Genauigkeit bei hochgeladenen Medien wirbt) die richtige Kategorie, nicht wir. Wir sind für den Teil da, den diese Tools nicht abdecken: deine eigenen Worte per Sprache festhalten, während du schaust.

An dem Nachmittag, an dem ich zwanzig Minuten an drei Sätze verlor, ging meine ältere Tochter vorbei, sah mir zu, wie ich dieselben zehn Sekunden zum vierten Mal durchspulte, und fragte, warum ich es nicht einfach lese. Ich sagte ihr, das Video komme nicht mit einem Transkript. Sie sagte, alles hat heute ein Transkript, Papa, und ging davon, um Hausaufgaben zu machen, aus denen sie sich eine Stunde später wieder herausreden würde. Sie hatte größtenteils recht. Das Transkript ist meistens schon da: unter dem Video, hinter einem Link oder einen Hotkey entfernt in deinen eigenen Worten.

Probier es bei deinem nächsten Video aus

Lade Whisper herunter und diktiere deine nächste Runde Videonotizen, statt sie zu tippen.

Kostenlos für die gesamte lokale Pipeline. Keine Karte bei der Anmeldung.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest — höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Lektüre