Von Denys Medvediev20. Mai 2026

Anleitung

So wandelst du MP3 in Text um

Um eine MP3 in Text umzuwandeln, schickst du die Datei durch ein Spracherkennungs-Tool. Der kostenlose, private Weg ist eine lokale Open-Source-App wie Buzz oder die OpenAI Whisper Kommandozeile, die direkt auf deinem eigenen Rechner transkribieren. Der schnellere Einstieg ist ein Web-Konverter, in den du die Datei hochlädst.

Zuletzt aktualisiert: Juni 2026

Ein Computerbildschirm zeigt die Wellenform einer Tonaufnahme in einer Audiobearbeitungssoftware

Du hast also eine MP3 und brauchst die Worte, die darin stecken. Ein aufgenommenes Interview, eine Sprachnotiz, eine Podcast-Folge, eine Vorlesung, die du auf dem Handy gespeichert hast. Die Aufgabe ist jedes Mal dieselbe: Audio rein, bearbeitbarer Text raus.

Die gute Nachricht: 2026 ist das ein gelöstes Problem, und die meisten Wege dorthin sind kostenlos. Die etwas nervige Nachricht: Die Tools haben alle Namen, die gleich klingen, also sortiere ich das mal für dich.

Es gibt drei ehrliche Wege. Ein kostenloses lokales Tool auf dem eigenen Computer laufen lassen (am privatesten, kein Upload, kostet nichts). Eine Mac-App nutzen, die genau dafür gebaut ist. Oder die Datei zu einem Web-Dienst hochladen, der sie auf einem Server transkribiert, was am schnellsten startet, auch wenn das Audio dabei deinen Rechner verlässt. Der richtige Weg hängt davon ab, ob dir Privatsphäre oder Bequemlichkeit wichtiger ist und wie technikaffin du dich heute fühlst.

Den unangenehmen Teil sage ich besser gleich, denn es wäre unehrlich, ihn zu verstecken. Die App, die mein Team baut, Whisper by Remskill, wandelt keine MP3-Dateien um. Sie ist ein Werkzeug für Live-Diktat. Du hältst eine Tastenkombination gedrückt, du sprichst, und deine Worte erscheinen genau dort, wo du gerade tippst. Eine völlig andere Aufgabe. Wo sie hineinpasst, erkläre ich gegen Ende, aber wenn du hergekommen bist, um eine vorhandene Aufnahme umzuwandeln, sind die Tools weiter unten genau das Richtige.

Der kostenlose, private Weg ist ein lokales Open-Source-Tool

Wenn deine Aufnahme nicht auf dem Server eines anderen liegen soll, lass die Transkription auf deinem eigenen Computer laufen. Die Engine, die dafür fast alle nutzen, ist OpenAI Whisper, veröffentlicht unter der MIT-Lizenz, kostenlos zu nutzen, kostenlos einsehbar, kostenlos auszuführen. Es ist dieselbe Modellfamilie, die viele der bezahlten Apps antreibt, für die du Werbung gesehen hast.

Es gibt ein paar Wege, sie tatsächlich zu nutzen, von "ich fühle mich im Terminal wohl" bis "gib mir bitte einen Knopf zum Klicken".

OpenAI Whisper (Python-Kommandozeile)

Installiere es mit pip, installiere das Tool ffmpeg, von dem es abhängt, und richte es dann auf deine Datei: whisper recording.mp3 --model turbo. Es liest die MP3, transkribiert sie und schreibt eine Textdatei aus. Es gibt sechs Modellgrößen, von einer winzigen schnellen bis zu einer großen genauen, du kannst also Tempo gegen Genauigkeit tauschen. Es ist mehrsprachig und kann fremdsprachiges Audio sogar ins Englische übersetzen. Der Haken ist die Einrichtung. pip und ffmpeg sind nicht schwer, aber auch nicht geschenkt. Ich habe einmal zwanzig Minuten damit verbracht, einen ffmpeg-Pfad auf einem frischen Laptop zu reparieren. Ich habe einen Masterabschluss.

whisper.cpp

Dasselbe Whisper-Modell, neu geschrieben in reinem C und C++, damit es schnell läuft, ganz ohne Python und ohne schwere Abhängigkeiten. Es läuft allein auf der CPU und ist stark auf Apple Silicon Macs optimiert. Ebenfalls MIT-lizenziert. Du baust es aus dem Quellcode und startest es über die Kommandozeile, es ist also klar etwas für die im-Terminal-zu-Hause-Fraktion. Die schlanke Option, wenn du viele Dateien durchzukauen hast.

Buzz

Das ist die App, zu der ich nicht-technische Leute schicke. Buzz ist eine ganz normale Desktop-App mit einem ganz normalen Fenster. Du öffnest sie, wählst deine MP3, und sie transkribiert offline auf deinem Rechner. Sie basiert auf OpenAI Whisper, kann transkribieren und übersetzen und läuft unter macOS, Windows und Linux. MIT-lizenziert und kostenlos. Kein Terminal, kein pip, kein ffmpeg-Gefummel. Wenn du eine Datei hast und sie mit dem geringsten Aufwand erledigt haben willst, ist das die Antwort.

Whisper Desktop (Const-me)

Eine Windows-App für Leute mit Grafikkarte. Sie transkribiert Audiodateien und nutzt dafür die GPU, um es schnell zu erledigen, was zählt, wenn deine Datei lang ist. Sie ist Open Source unter der MPL-2.0-Lizenz. Nur für Windows. Wenn du an einem PC mit ordentlicher GPU und einer zwei Stunden langen Aufnahme sitzt, ist das die Überholspur.

Code und ein Kommandozeilen-Terminal, geöffnet auf einem Laptop-Bildschirm auf einem aufgeräumten Schreibtisch

Auf dem Mac spart dir eine spezielle App die Einrichtung

Wenn du an einem Mac sitzt und die Kommandozeile nicht deine Vorstellung von einem schönen Abend ist, ist MacWhisper genau dafür gebaut. Du ziehst eine Audio- oder Videodatei hinein, und sie transkribiert auf dem Gerät, sodass nichts deinen Rechner verlässt. Sie lässt dieselben OpenAI Whisper Modelle laufen, dazu NVIDIAs Parakeet-Engine, und erledigt die Datei-Transkription gut. Sie exportiert außerdem in die Formate, die du wirklich brauchst, etwa Untertiteldateien für Video.

MacWhisper ist von Grund auf datei-orientiert: Aufnahmen rein, Text raus. Das ist der ganze Sinn der App, und sie kann es gut. Ich weise ausdrücklich darauf hin, weil sie dem Ein-Klick-Erlebnis auf dem Mac am nächsten kommt, für genau das, wonach du gesucht hast.

Ein Web-Konverter startet am schnellsten, aber dein Audio verlässt deinen Rechner

Der andere Weg braucht überhaupt keine Installation. Jede Menge Web-Dienste lassen dich eine MP3 hochladen, eine Minute warten und ein Transkript herunterladen. Keine Einrichtung, kein Modell zum Herunterladen, funktioniert vom Handy oder einem geliehenen Laptop aus. Für eine schnelle einmalige Sache ist diese Bequemlichkeit echt, und ich tue nicht so, als wäre es anders.

Hier kommt die eine starke Meinung in diesem Artikel, und ich untermauere sie mit dem offensichtlichen Grund statt mit leerem Gerede. Wenn du eine Aufnahme zu einem Web-Konverter hochlädst, verlässt das Audio deinen Computer und landet auf dem Server eines anderen. Bei einem Podcast, den du ohnehin gleich veröffentlichst, ist das egal. Bei einem aufgezeichneten HR-Gespräch, einer Arztnotiz oder einem Kundentermin, in dem ein Gehalt oder ein Patientenname laut ausgesprochen wird, triffst du damit eine Entscheidung über deine Privatsphäre, oft ohne die Seite gelesen zu haben, die dir sagt, wie lange die Datei gespeichert wird. Ein lokales Tool erledigt dieselbe Aufgabe, und das Audio geht nirgendwohin. Reine Cloud-Transkription ist bei sensiblen Aufnahmen ein Datenschutz-Desaster, das nur darauf wartet, transkribiert zu werden.

Wenn ein Web-Konverter für dich wirklich die richtige Wahl ist, lohnt sich ein Blick auf die Landschaft der Transkriptionsdienste. Darüber habe ich an anderer Stelle geschrieben. Fang mit der Anleitung zur schnellen Transkription und dem Leitfaden für Audio-zu-Text-Konverter an, die beide den Upload-Weg und den lokalen Weg nebeneinanderstellen.

Wähle Genauigkeit und Sprache über das Modell, nicht über das Marketing

Egal, bei welchem Tool du landest, die Genauigkeit hängt vor allem von zwei Dingen ab, die du steuerst: der Modellgröße und dem Mikrofon, mit dem das Audio aufgenommen wurde. Größere Modelle sind langsamer und genauer. Kleinere Modelle sind schneller und leichter. Die meisten der lokalen Tools oben lassen dich wählen, denn sie lassen alle dieselben zugrunde liegenden Whisper-Modelle unter verschiedenen Knöpfen laufen.

Die langweilige Wahrheit, die dir niemand, der dir einen "smarten KI"-Konverter verkaufen will, laut sagen möchte: Eine saubere Aufnahme mit einem billigen USB-Mikro schlägt eine matschige, die durch das größte Modell läuft. Das Tool kann die Klimaanlage nicht ungehört machen. Wenn deine MP3 quer durch den Raum über ein Laptop-Mikro aufgenommen wurde, dämpfe deine Erwartungen und nimm vielleicht neu auf, falls das noch geht.

Wo Whisper by Remskill hineinpasst und wo nicht

Jetzt der ehrliche Teil, den ich versprochen habe. Whisper by Remskill nimmt deine MP3 nicht und macht Text daraus. Es ist für einen anderen Moment gebaut.

Es ist ein Werkzeug für Live-Diktat. Du drückst eine Tastenkombination (standardmäßig Ctrl+Space unter Windows, frei belegbar), du sprichst, und deine Worte werden direkt in die App getippt, in der du gerade bist: deine E-Mail, dein Dokument, eine Slack-Nachricht, ein Code-Kommentar. Die Transkription passiert lokal, während du sprichst, und der Text landet einen Wimpernschlag, nachdem du aufgehört hast, an deinem Cursor. Keine Datei, kein Upload, keine Aufnehmen-dann-umwandeln-Schleife.

Pasted

Das ausgelieferte Overlay nach dem Diktat — ein Live-Diktat, das an deinem Cursor endet, keine Datei, die umgewandelt wird.

Wann ist das also das Tool, das du wirklich willst? Wenn die Worte, die du brauchst, noch nicht als Aufnahme existieren, weil sie noch in deinem Kopf sind. Wenn dein eigentliches Ziel nie "diese Datei umwandeln" war, sondern "meine eigenen gesprochenen Worte schnell in ein Dokument bringen", überspringst du die Aufnahme komplett. Du denkst es, du sagst es, es ist getippt. Die gesamte lokale Pipeline ist kostenlos und läuft unter Windows und Mac (Apple Silicon). Ich habe einmal eine E-Mail an die Lehrerin, eine Einkaufsliste und eine Antwort an meine Schwester diktiert, in der Zeit, die der Wasserkocher zum Kochen brauchte, und dann vergessen, den Tee tatsächlich aufzugießen. Das Tool hat funktioniert. Ich nicht.

Whisper

Die echte Whisper by Remskill App — Seitenleiste, Transkriptionsbereich und KI-Anweisungskarten. Das ist die echte Oberfläche, kein Screenshot.

Wie das Live-Transkribieren offline unter der Haube funktioniert, zeigt das Handbuch zur Offline-Spracherkennung im Detail. Aber wenn gerade jetzt eine Aufnahme in deinem Download-Ordner liegt, scroll wieder nach oben. Buzz oder die Whisper Kommandozeile sind das, was du willst, nicht wir.

Wenn du es nur ein einziges Mal brauchst

Eine Datei, ein Mal, kein Plan, es noch einmal zu tun? Öffne Buzz, lass deine MP3 hineinfallen, lass sie laufen. Es ist kostenlos, läuft offline, und du hast nichts installiert, das du pflegen musst. Das ist die ganze Empfehlung. Heb dir die Terminal-Tools für den Tag auf, an dem du fünfzig Dateien statt einer hast.

Der schnellste Weg, eine MP3 umzuwandeln, ist, gar keine MP3 zu haben. Aber für die Aufnahme, die du bereits hast, bringt dich ein kostenloses lokales Tool ans Ziel, ohne sie irgendwohin zu schicken.

Whisper by Remskill ist für Live-Diktat, nicht für die Datei-Umwandlung

Wenn dein Ziel ist, deine eigenen gesprochenen Worte ohne Tippen in ein Dokument zu bringen, sieh dir an, wie Live-Diktat funktioniert. Um eine Aufnahme umzuwandeln, die du schon hast, ist Buzz die kostenlose Antwort oben.

So funktioniert Live-Diktat So funktioniert es

Kostenlose lokale Pipeline. Windows und Mac (Apple Silicon).

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest, höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Lektüre

Häufig gestellte Fragen

Nutze ein kostenloses lokales Tool. Buzz ist am einfachsten: eine Desktop-App, die du öffnest, auf deine MP3 richtest und offline transkribieren lässt. Sie basiert auf OpenAI Whisper und läuft unter Windows, Mac und Linux. Wenn du dich im Terminal wohlfühlst, sind die OpenAI Whisper Kommandozeile und whisper.cpp ebenfalls kostenlos und Open Source. Keines davon kostet etwas oder lädt deine Datei hoch.

Von Denys Medvediev20. Mai 2026

Anleitung

So wandelst du MP3 in Text um

Zuletzt aktualisiert: Juni 2026