Tutorial
Audio zu Untertiteln: was wirklich funktioniert
Ein Untertitelgenerator aus Audio wandelt eine Sounddatei in eine zeitgesteuerte SRT- oder VTT-Datei um. Hier erfährst du, wie der echte Workflow aussieht, welche Tools tatsächlich einen Export liefern – und welche kostenlose Offline-Option dein Audio nie hochlädt.
Zuletzt aktualisiert: Juni 2026

Ein Untertitelgenerator aus Audio nimmt eine Sounddatei – eine MP3, eine WAV oder einen Podcast-Export – und schreibt daraus eine zeitgesteuerte Untertiteldatei. Jede Textzeile trägt einen Start- und Endzeitstempel. Web-Tools wie VEED, Kapwing und Descript erledigen das im Browser. Das kostenlose OpenAI-Whisper-Kommandozeilentool macht dasselbe offline auf deinem eigenen Rechner.
Ich habe einmal vierzig Minuten damit verbracht, einen zehnminütigen Podcast-Clip von Hand zu untertiteln – alle drei Sekunden auf Pause drücken, tippen, Zeitstempel raten. Ich habe einen Master in Softwareentwicklung. Die Rechnung ist trotzdem grausam: Untertitel von Hand brauchen ein Vielfaches der Audiolänge. Ein moderner Untertitelgenerator schafft dasselbe in etwa der Länge der Datei plus einem Kaffee. Was dir niemand vorher sagt: Das richtige Tool hängt von einer einzigen Frage ab. Brauchst du eine zeitgesteuerte Datei zum Herunterladen – oder reichen dir die Wörter?
„Untertitelgenerator" wird für zwei völlig verschiedene Aufgaben verwendet, und das falsche Tool kostet dich einen Nachmittag. Der Markt teilt sich auf in Browser-Tools, die zeitgesteuerte Dateien exportieren, und Offline-Tools, die dasselbe kostenlos erledigen – wenn du bereit bist, ein Terminal anzufassen. Dieser Leitfaden erklärt, wie der Workflow abläuft, welche Tools wirklich eine .srt-Datei aus Audio allein ausgeben, was SRT, VTT und TXT jeweils bedeuten und wann eine Diktierlösung wie unsere das falsche Werkzeug ist. Am Ende weißt du, welches Tool du für dein Ergebnis öffnen musst. Die meiste Verwirrung in unserem Support-Postfach kommt von Leuten, die ein Tipp-Tool gewählt haben, obwohl sie eine Untertiteldatei brauchten. Ein Jahr solcher Nachrichten ist der Hauptgrund, warum dieser Artikel existiert.
Du brauchst Zeitstempel, nicht nur Text
Eine Untertiteldatei ist kein Transkript. Ein Transkript enthält Wörter. Eine Untertiteldatei enthält Wörter plus Timing. Jeder Caption-Block sagt: „Diese Zeile anzeigen von 00:01:04 bis 00:01:07." Dieses Timing ist die eigentliche Arbeit. Es erlaubt einem Videoplayer, zur richtigen Sekunde die richtigen Wörter einzublenden.
Die meisten „Sprache zu Text"-Tools – auch unseres – liefern dir Wörter und sonst nichts. Sie fügen einen sauberen Absatz an deinem Cursor ein und hören dort auf. Ein Untertitelgenerator aus Audio muss mehr leisten. Er zerlegt die Sprache in kurze Caption-Abschnitte, richtet jeden Abschnitt an der Audio-Uhr aus und schreibt alles in ein striktes Dateiformat, das ein Player lesen kann. Wenn dein Ergebnis eine Datei ist, die du bei YouTube, einem Videoeditor oder einer Kursplattform hochlädst, brauchst du die Zeitstempel. Wenn dein Ergebnis Text in einem Dokument ist, brauchst du sie nicht – und du solltest kein Geld für ein Untertitel-Tool ausgeben, um das zu bekommen.
Untertitel aus einer Audiodatei in drei Schritten

Der Workflow ist bei fast jedem Tool gleich – ob Browser oder Offline.
Audiodatei hochladen oder angeben. Die meisten Tools nehmen MP3, WAV, M4A und FLAC – ohne Video. VEED akzeptiert MP3, WAV, Podcast-Aufnahmen, Interview-Audio und Sprachmemos. Falls du nur ein Video als Quelle hast, extrahiert das Tool das Audio automatisch.
Transkription und Zeitstempel erzeugen lassen. Das Tool schickt das Audio durch ein Sprachmodell, zerlegt das Ergebnis in Caption-Zeilen und versieht jede mit einem Start- und Endzeitstempel. Die Handarbeit dauert ein Vielfaches der Audiolänge. Die Maschinenversion braucht etwa so lang wie die Datei selbst.
Überprüfen und Datei exportieren. Lies das Transkript einmal durch (Modellausgabe ist gut, nicht perfekt), korrigiere falsch erkannte Namen, dann exportieren. Hier wählst du das Format: SRT, VTT oder reines TXT.
Das ist der gesamte Ablauf. Die Unterschiede zwischen den Tools liegen im Preis, der Sprachabdeckung, dem Ort, wo dein Audio landet – und ob Schritt drei kostenlos ist.
SRT vs. VTT vs. TXT: Welche Datei brauchst du?
Drei Formate tauchen in jedem Exportmenü auf – und die Leute greifen ständig zum falschen.
- SRT (SubRip) ist die Standard-Untertiteldatei. Es ist eine reine Textdatei aus nummerierten Blöcken, jeder mit einem Timecode-Bereich und ein oder zwei Textzeilen. YouTube, die meisten Videoeditoren und fast jeder Player können es lesen. Wenn du nicht weißt, was du nehmen sollst, nimm SRT.
- VTT (WebVTT) ist SRTs Web-Cousin. Gleiche Idee, leicht andere Syntax, plus Unterstützung für Styling und Positionierung. Verwende VTT, wenn eine Website oder ein HTML5-Videoplayer es ausdrücklich verlangt.
- TXT enthält nur die Wörter, ohne Zeitstempel. Das ist das Format, das du willst, wenn du einen Artikel schreibst, eine Zusammenfassung einspeist oder ein Interview zitierst. Es ist auch das einzige der drei, das dir ein reines Diktiertool liefern kann.
Meine Faustregel: SRT für Video, TXT für Dokumente, VTT wenn eine Webplattform es namentlich verlangt. Die meisten Tools exportieren alle drei: VEED, Kapwing und Descript.
Die Tools, die Audio in Untertiteldateien umwandeln
Hier ein Überblick über die Browser-Tools – die Funktionsaussagen stammen direkt von den eigenen Seiten der jeweiligen Anbieter.
- VEED ist ein webbasierter und mobiler Auto-Untertitel-Generator, der aus einer reinen Audiodatei transkribiert und das Ergebnis als SRT, VTT oder TXT herunterladen lässt. Der Start ist kostenlos. Das Herunterladen der Untertiteldatei und das Untertiteln längerer Videos erfordern ein kostenpflichtiges Abo.
- Kapwing bewirbt „99 % genaue Untertitel, in Sekunden generiert." Das ist Kapwings eigene Marketingzahl, kein unabhängiger Benchmark. Es nimmt jede Video- oder Audiodatei inklusive MP3, kann Untertitel in 100+ Sprachen übersetzen und exportiert SRT, VTT und TXT. Kostenlose Konten erhalten bis zu 10 Minuten Untertitel und ein Wasserzeichen; Pro entfernt das Wasserzeichen.
- Descript generiert Untertitel in 22+ Sprachen, akzeptiert reine Audiodateien und exportiert weiche Untertitel als SRT oder VTT über Publish → Export → Subtitles. Es läuft nach einem Freemium-Modell mit einer kostenlosen Stufe von einer Medienstunde pro Monat.
So schneiden die vier Tools bei den Punkten ab, die du vor dem Einstieg überprüfen kannst. Keine Genauigkeits- oder Geschwindigkeitszahlen – niemand hat sie mit demselben Audio gegeneinander getestet:
| Tool | Plattform | Lokal oder Cloud | Offline nutzbar | Preismodell | Sprachen | Am besten für |
|---|---|---|---|---|---|---|
| VEED | Web, Mobil | Cloud | Nein | Kostenloser Start, Export kostenpflichtig | 40+ Optionen laut Angabe, keine Gesamtzahl | Schneller Browser-Durchlauf mit Download |
| Kapwing | Web | Cloud | Nein | Kostenlose Stufe (Wasserzeichen), Pro | Übersetzung in 100+ | Schnelle Untertitel plus Übersetzung |
| Descript | Web | Cloud | Nein | Freemium, eine Medienstunde kostenlos | 22+ | Audio und Untertitel gemeinsam bearbeiten |
| OpenAI Whisper CLI | Windows, macOS, Linux | Lokal | Ja | Kostenlos, Open Source | 99 mehrsprachig, 1 für .en-Builds | Kostenlos, privat, ohne Upload |
Alle drei Browser-Tools schicken dein Audio auf einen fremden Server. Für einen Marketing-Clip ist das in Ordnung. Für ein aufgezeichnetes Kundengespräch oder alles, das Gehaltszahlen enthält, lies weiter.
Diese Tools haben alle ungefähr diese Benutzeroberfläche gemeinsam:
Hochladen, auf Generieren klicken, Format wählen, herunterladen. Diese Leiste – nicht unsere – ist das, wie ein Untertitelgenerator aus Audio aussieht.
Kostenlos und offline: SRT mit Open-Source-Whisper erstellen

Wer lieber nichts hochladen möchte, dem schreibt das Open-Source-Whisper-Kommandozeilentool von OpenAI kostenlos Untertiteldateien auf dem eigenen Rechner. Das Flag --output_format akzeptiert txt, vtt, srt, tsv, json oder all und gibt standardmäßig all aus. Ein einziger Befehl – whisper interview.mp3 --model turbo – erzeugt offline eine .srt-Datei, ohne Konto und ohne Upload.
Das Open-Source-Whisper ist ein anderes Projekt als Whisper by Remskill, und das sollte klar sein. Es ist OpenAIs Kommandozeilenmodell, das auf deinem Computer läuft und zeitgesteuerte Untertiteldateien ausgibt. Es liefert sechs Modellgrößen (tiny, base, small, medium, large und turbo) mit englischsprachigen Varianten für die vier kleineren. Die mehrsprachigen Modelle unterstützen 99 Sprachen; die .en-Varianten sind nur für Englisch.
Eine Meinung, zu der ich stehe: Bei sensiblem Material sollte das Audio den Laptop nie verlassen. Ein aufgezeichnetes Mitarbeitergespräch, diktierte Arztnotizen, ein juristisches Protokoll – nichts davon gehört in die Verarbeitungslogs eines Anbieters, nur weil du Zeitstempel brauchtest.
Ich habe einmal zugesehen, wie ein Team in einem Quartal eine fünfstellige Cloud-KI-Rechnung angehäuft hat – nur durch das Transkribieren von Standup-Aufnahmen. Die Reaktion des CFOs im nächsten Review war nicht „Lass uns den Prompt optimieren." Es war „Warum schicken wir Meeting-Audio überhaupt auf einen Server?" Dein Laptop hat bereits eine CPU und ein Mikrofon. Für privates Material ist der Offline-Whisper-CLI die Antwort – und er kostet nichts.
Es gibt einen schnelleren lokalen Port namens whisper.cpp, einen einfachen C/C++-Build von Whisper ohne Abhängigkeiten, der nur die CPU nutzt und unter einer offenen Lizenz steht. Berichte zufolge kann er ebenfalls Untertiteldateien schreiben – ich würde dich aber zunächst auf das offizielle OpenAI-Whisper-CLI für den verifizierten .srt-Weg verweisen und whisper.cpp als Speed-Upgrade behandeln, sobald du dich sicher fühlst.
Wann Whisper by Remskill das falsche Tool dafür ist
Das ist der Teil, den die meisten Produktblogs überspringen. Wenn dein Ziel eine herunterladbare .srt- oder .vtt-Datei ist, ist unsere App das falsche Tool – und ich sage dir das lieber jetzt, als dass du den Download umsonst machst.
Whisper by Remskill ist eine Diktierlösung. Du hältst eine Schnelltaste gedrückt (Ctrl+Space unter Windows, Command+Option unter macOS), sprichst, lässt los – und die Transkription wird in der geöffneten App an deinem Cursor eingefügt. Es zerlegt keine Sprache in Caption-Blöcke, richtet keinen Text an einer Audio-Uhr aus und schreibt keine zeitgesteuerte Untertiteldatei. Wenn du ein Interview einliest, bekommst du einen sauberen Absatz, kein SRT. Ich habe das Exportmenü ein Dutzend Mal im Kopf durchgeplant und es dann doch nicht gebaut – denn zeitgesteuerte Untertitel sind ein eigenes Produkt, und etwas schlecht zu machen hilft niemandem.
Nutze die oben genannten Tools für Untertiteldateien. Greif zu unserer App für die benachbarte Aufgabe: deine eigene Sprache in dem Moment in Text umwandeln, in dem du ihn brauchst. Eine E-Mail, ein Entwurf, ein Caption-Text, den du von Hand in einen Social-Media-Post tippst. Es läuft auf zwei reinen Rust-Engines – OpenAI Whisper und NVIDIA Parakeet – ohne Python und ohne Upload. Andere Aufgabe, anderes Tool. Das Richtige zu wählen ist der ganze Punkt dieses Artikels.
Beantworte diese eine Frage, bevor du irgendetwas öffnest: Lieferst du eine Datei oder lieferst du Wörter? Eine Datei bedeutet Zeitstempel – also einen echten Untertitelgenerator. VEED oder Kapwing für einen schnellen Browser-Durchlauf, die Whisper-CLI für kostenlose und private Nutzung. Wörter bedeuten ein Transkript, und dafür gibt es ein anderes Tool. Ich habe eine Diktierlösung gebaut und schicke dich trotzdem woanders hin, wenn das die bessere Wahl ist. Meine Siebenjährige hat mich letzte Woche gefragt, was ich bei der Arbeit mache, und ehrlich gesagt helfe ich Menschen, weniger zu tippen – was sie zutiefst unbeeindruckt ließ. Der Nachmittag, den du sparst, ist genau der, den ich damit verbracht habe, diesen Podcast-Clip von Hand zu untertiteln, drei Sekunden nach drei Sekunden.
Lieber die Diktiervariante?
Wenn dein Ziel Wörter am Cursor sind und keine Untertiteldatei, wandelt Whisper deine eigene Sprache in dem Moment in Text um, in dem du ihn brauchst – vollständig offline.
Kostenloses lokales Diktieren für jeden angemeldeten Nutzer. Für Untertiteldateien nutze die oben genannten Tools.



