Von Denys Medvediev

Ratgeber

Audio-zu-Text-Konverter, erklärt

Kostenlose Web-Tools, Offline-Desktop-Apps und Cloud-Dienste mit eigenem API-Schlüssel verwandeln alle Ton in Text. Worauf es wirklich ankommt, ist der Ort, an dem dein Audio verarbeitet wird.

Zuletzt aktualisiert: Juni 2026

Nahaufnahme einer digitalen Audiooberfläche mit einer leuchtenden Schallwellenform auf dunklem Bildschirm

Ein Audio-zu-Text-Konverter verwandelt eine Aufnahme oder gesprochene Live-Sprache mithilfe eines Speech-to-Text-Modells in bearbeitbaren, durchsuchbaren Text. Worauf es wirklich ankommt, ist der Ort der Verarbeitung: Kostenlose Web-Tools laden Dateien auf einen Server hoch, während eine Desktop-App wie Whisper die Transkription vollständig auf deinem eigenen Computer erledigen kann – offline – und das Ergebnis genau dort einfügt, wo dein Cursor steht.

Die meisten kostenlosen Audio-zu-Text-Tools begrenzen dich auf die ersten 10 bis 30 Minuten Transkription und verlangen dann eine Kreditkarte. Das ist fair. Server kosten Geld. Was niemand laut ausspricht: Dein Audio musste erst zu diesen Servern reisen. Eine Sprachnotiz von einer Ärztin, die Aufnahme einer Vorstandssitzung, eine Vorbereitungsdatei für eine Sorgerechtsverhandlung – alles hochgeladen zu einem Anbieter, den du nie kennengelernt hast.

Ich habe dazu eine Meinung, und ich komme noch darauf zurück.

Ein Audio-zu-Text-Konverter erledigt genau eine Aufgabe: Er hört Ton und schreibt die Wörter auf. Die spannenden Unterschiede liegen darin, wie er zuhört (ein Modell), wo er zuhört (deine Maschine oder ein Server) und was er anschließend mit dem Text macht (in eine Datei legen oder dort einfügen, wo du gerade tippst). Die drei bestplatzierten kostenlosen Konverter für diese Suche sind alle vom Typ Datei-hochladen-und-warten. Whisper by Remskill ist ein anderes Kaliber. Es ist diktiergetrieben: Du drückst ein Tastenkürzel, sprichst, und der Text erscheint an der Cursorposition in jeder beliebigen App.

Dieser Ratgeber erklärt, wie Konverter funktionieren, geht den dreistufigen Weg für eine aufgenommene Datei durch und sagt dir, wann ein Web-Konverter die richtige Wahl ist und wann nicht. Nach einem Jahr, in dem ich unsere Support-E-Mails gelesen habe, kann ich dir sagen: Das meiste davon stammt von Leuten, die für Audio, das ihren Laptop nie hätte verlassen dürfen, ein Cloud-Tool gewählt haben.

Ein Audio-zu-Text-Konverter verwandelt Aufnahmen in Wörter, die du bearbeiten kannst

Whisper
Die echte Whisper-App – klick dich durch die Einstellungen, um zu sehen, wie lokale und Cloud-Transkription eingerichtet werden.

Unter der Haube läuft in jedem Konverter dasselbe: ein Spracherkennungsmodell. Es nimmt die Wellenform deines Audios und sagt die Wörter voraus, Stück für Stück. Im Modell steckt die Genauigkeit. Das große offene Modell hinter vielen dieser Tools ist OpenAIs Whisper, das in seinen mehrsprachigen Varianten 99 Sprachen unterstützt. Dieselbe OpenAI Speech-to-Text-API stellt whisper-1 sowie die neueren Modelle gpt-4o-transcribe und gpt-4o-mini-transcribe bereit.

Das Ergebnis ist einfacher, bearbeitbarer Text. Du kannst einen Namen korrigieren, nach einer Phrase suchen, ihn in eine E-Mail einfügen. Genau darum geht es. Ton lässt sich schwer überfliegen, Text ist leicht zu erfassen. Whisper erzeugt denselben bearbeitbaren Text, übergibt dir aber nicht einfach einen Download, sondern kann ihn direkt in die App einfügen, in der du gerade bist. Die oben eingebettete App ist das echte Desktop-Frontend, kein Mockup.

Welches Modell du wählst, ist die Entscheidung über die Genauigkeit, und das offene Whisper-Modell und Google Cloud Speech-to-Text landen an unterschiedlichen Punkten; unser Vergleich Whisper vs. Google Speech-to-Text stellt die beiden Engines Seite an Seite – bei Genauigkeit, Sprachabdeckung und der Frage, wohin dein Audio geht.

So wandelst du eine Audiodatei in drei Schritten in Text um

Für eine aufgenommene Datei ist der Weg kurz. Die kostenlosen Web-Konverter beschreiben ihn als Hochladen, Klicken, Herunterladen.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Ein typischer Web-Konverter: Datei reinziehen, auf den Upload warten, das Transkript herunterladen.
1

Wähle, wo es läuft. Cloud-Konverter verlangen, dass du die Datei auf ihren Server hochlädst. Whisper führt die Transkription im lokalen Modus auf deiner eigenen Maschine aus, sodass die Datei deinen Computer nie verlässt.

2

Wähle ein Modell für deine Sprache. Reine Englisch-Dateien sind mit einem kleineren Modell am schnellsten. Mehrsprachiges oder gemischtsprachiges Audio braucht ein mehrsprachiges Modell, das 99 Sprachen abdeckt.

3

Hol dir den Text und bearbeite ihn. Das Transkript kommt als einfacher Text zurück. Korrigiere die Tippfehler, die ein Modell bei Eigennamen immer macht, und du bist fertig.

CancelTranscribing
Whisper transkribiert eine Aufnahme lokal – die Datei verlässt deine Maschine nie.

Ein Haken, den man kennen sollte: Cloud-APIs haben Größenobergrenzen. Der OpenAI-Transkriptionsendpunkt begrenzt Uploads auf 25 MB pro Anfrage. Die Aufnahme einer langen Besprechung im WAV-Format sprengt das schnell. Bei lokaler Verarbeitung gibt es keine solche Grenze – außer deinem eigenen Speicherplatz und deiner Geduld.

Aufgenommene Dateien vs. Live-Diktat: Was brauchst du?

Hier ist die Frage, die die meisten Konverter-Seiten überspringen. Transkribierst du eine Datei, die bereits existiert, oder versuchst du, mit deiner Stimme etwas Neues zu schreiben?

Wenn du eine Aufnahme hast (ein Interview, eine Vorlesung, einen Podcast), ist ein Datei-Konverter das richtige Werkzeug. Hochladen, Transkript holen, weitermachen. Die drei besten kostenlosen Tools erledigen das, mit täglichen Minutengrenzen in der kostenlosen Stufe.

Cancel
Whispers Live-Aufnahme-Overlay – Tastenkürzel halten, sprechen, loslassen.

Wenn du eine neue E-Mail, Notiz oder ein Dokument verfasst, willst du überhaupt keine Datei. Du willst, dass die Wörter erscheinen, während du sprichst. Das ist Diktieren, und es ist ein anderer Mechanismus. Bei Whisper hältst du ein Tastenkürzel gedrückt, sprichst und lässt los. Unter Windows ist die Standardvorgabe Ctrl+Space, und unter macOS eine Command+Option-Push-to-Talk-Kombination (beide halten, eine der Tasten loslassen zum Stoppen). Der transkribierte Text wird an deiner Cursorposition in jeder Anwendung eingefügt. Kein Upload, kein Download, kein Tab-Wechsel. Das Overlay oben ist das, was du siehst, während es zuhört.

Die meisten, die nach einem Audio-zu-Text-Konverter suchen, wollen das Erste und merken, dass sie eigentlich auch das Zweite wollten. Du nimmst weniger Dinge auf, als du schreibst. Ich habe letztes Jahr zwei Wochen lang nach einem besseren Datei-Konverter gesucht, als ich in Wahrheit nur aufhören wollte, Antworten Buchstabe für Buchstabe mit einem Finger zu tippen, während meine Tochter Schwimmtraining hatte.

Lokal vs. Cloud: wo dein Audio verarbeitet wird (und warum das wichtig ist)

Reihen von Rechenzentrums-Serverracks mit aktiver Hardware, sinnbildlich für Audioverarbeitung in der Cloud

Hier kommt die entscheidende Weggabelung, und es ist genau die, über die die kostenlosen Tools am leisesten sind. Ein Web-Konverter verarbeitet dein Audio auf seinen Servern. AudioConvert.ai gibt an, Dateien innerhalb von 24 Stunden zu löschen. HappyScribe und NoteGPT laden ebenfalls in die Cloud hoch. Das ist Standard, und für einen öffentlichen Podcast ist das in Ordnung.

Jetzt die versprochene Meinung. Reine Cloud-Audiokonvertierung ist ein Datenschutz-Desaster, das nur darauf wartet, transkribiert zu werden. Ein Team, mit dem ich einmal gearbeitet habe, ließ von einem Auftragnehmer einen internen Diktier-Prototyp bauen, der für jede Äußerung eine Cloud-KI aufrief. Der Manager öffnete am Quartalsende das Kosten-Dashboard und fand eine fünfstellige Rechnung – das meiste davon vom Transkribieren von Standup-Aufnahmen, viermal hintereinander, weil die Wiederholungslogik zu aggressiv war. Die Antwort der Finanzchefin war kurz: oder wir bezahlen einfach nicht dafür, Meetings hochzuladen, die schon Notizen haben. Das Geld war das kleinere Problem. Das größere war, dass quartalsweise interne Gespräche jetzt auf den Servern von jemand anderem lebten.

Whispers lokaler Modus beantwortet das. Im lokalen Modus wird alles Audio auf deinem Computer verarbeitet, und nichts verlässt das Gerät; nach einem einmaligen Modell-Download (je nach Modell zwischen etwa 140 MB und 3 GB) funktioniert es vollständig offline. Zwei Engines laufen auf dem Gerät: die Whisper-Modelle und NVIDIAs Parakeet, das auf der CPU 5- bis 10-mal schneller ist als Whisper, aber nur Englisch plus 24 europäische Sprachen abdeckt, ohne Übersetzung ins Englische. Wenn du die Cloud bevorzugst, hat Whisper einen OpenAI-Modus mit eigenem API-Schlüssel, der gpt-4o-mini-transcribe oder gpt-4o-transcribe nutzt (dieselben Modelle, die die API bereitstellt), direkt von OpenAI abgerechnet, ohne Aufschlag von uns. Der Punkt ist: Du entscheidest. Die kostenlosen Web-Tools entscheiden für dich, und die Antwort ist immer ihr Server. Mehr dazu, wie du ganz aus der Cloud herausbleibst, findest du in unserem Ratgeber zu Offline-Sprache-zu-Text.

Genauigkeit wählen: welches Modell mit deinem Akzent und deiner Sprache zurechtkommt

Genauigkeit ist überwiegend eine Frage des Modells, und das Modell ist eine Frage der Sprache. Die kostenlosen Konverter werben mit großen Zahlen. AudioConvert.ai behauptet bis zu 99 % Genauigkeit bei klarem Audio, HappyScribe spricht von bis zu 96 %. Das sind Marketingaussagen der Anbieter ohne veröffentlichte Methode – behandle sie also als Hochglanzbroschüre, nicht als Benchmark.

Was die Genauigkeit wirklich bewegt, ist die Abstimmung des Modells auf dein Audio. Whisper liefert 8 lokale Modelle aus, aufgeteilt in reine Englisch- und mehrsprachige Varianten. Die reinen Englisch-Builds (von Base mit ~140 MB bis Medium mit ~1,5 GB) sperren den Sprachwähler auf Englisch und erledigen diese eine Aufgabe gut. Die mehrsprachigen Builds (Small, Medium, Large v3 mit ~3 GB sowie ein Large v3 Turbo) decken 99 Sprachen mit automatischer Erkennung ab. Ukrainisch und Englisch gemischt in einem Satz? Das braucht ein mehrsprachiges Modell. Eine saubere englische Sprachnotiz? Das englische Base-Modell ist schneller und leichter.

Whisper
Die Modell- und Sprachauswahl in der echten Whisper-App – reine Englisch- und mehrsprachige Builds Seite an Seite.

Die langweilige Wahrheit, die keine Modell-Seite zugibt: Ein günstiges Ansteckmikrofon bringt für die Genauigkeit mehr als jedes Modell-Upgrade. Müll rein, Müll raus. Keine noch so gute KI repariert eine Aufnahme, die neben einer laufenden Spülmaschine gemacht wurde. Ich habe ein Wochenende lang an Modelleinstellungen herumgeschraubt, um mein eigenes matschiges Audio aufzuräumen, bevor mir klar wurde, dass das Problem das Laptop-Mikrofon fünfzehn Zentimeter neben einem Lüfter war. Ich habe einen Master-Abschluss. Im Einstellungsfenster oben wählst du das Modell und die Sprache.

Wann du einen Web-Konverter überspringen solltest (und etwas anderes nimmst)

Ein aufgeräumter Schreibtisch mit Notizbuch, Brille und Stiften, als Sinnbild für manuelle Notizen-Alternativen

Manchmal ist ein Web-Konverter die bessere Wahl, und das sage ich dir lieber, als dass du mit dem falschen Werkzeug kämpfst. Wenn du eine kurze Aufnahme hast (einen fünfminütigen Interviewausschnitt, eine einzelne Sprachnotiz) und es dir egal ist, dass sie einen Server berührt, bekommst du bei einem kostenlosen Konverter wie HappyScribe die ersten 10 Minuten gratis und ohne Kreditkarte. Seite öffnen, hochladen, fertig. Dafür eine Desktop-App zu installieren, wäre übertrieben.

Überspring den Web-Konverter, wenn eines von drei Dingen zutrifft: Das Audio ist sensibel (medizinisch, juristisch, finanziell), die Datei ist groß genug, um an eine 25-MB-Cloud-Grenze zu stoßen, oder du schreibst etwas Neues, statt etwas Altes zu transkribieren. Die ersten beiden Fälle wollen lokale Verarbeitung. Der dritte will Diktieren, gar keinen Konverter. Für meeting-typische Transkription mit mehreren Sprechern und Zusammenfassungen passt ein darauf spezialisiertes Werkzeug besser als beides – das ist eine andere Aufgabe, behandelt in unserem Überblick über Transkriptionssoftware.

Was es kostet

Whisper ist für die gesamte lokale Pipeline für alle kostenlos (beide Transkriptions-Engines, KI-Textaufbereitung, Verlauf und das eigene Tastenkürzel), ohne dass zur Anmeldung eine Zahlungsmethode nötig ist. Die Cloud-Funktion mit eigenem API-Schlüssel ist die kostenpflichtige Pro-Stufe, und OpenAI rechnet die tatsächlich transkribierten Minuten direkt mit dir ab. Die kostenlosen Web-Konverter in dieser Suche laufen über ein Freemium-Minutenlimit: HappyScribe gibt 10 Gratisminuten, AudioConvert.ai 30 Minuten pro Tag. Whisper ist heute für Windows und macOS auf Apple Silicon verfügbar. Die genauen Tarifzahlen stehen schriftlich auf der Preisseite.

Die kostenlosen Konverter sind gut in dem, was sie tun – Datei reinziehen, warten, Text herauskopieren. Nimm einen für den Podcast-Ausschnitt, den du gern teilst. Aber die Aufnahmen, die am meisten zählen, sind meist genau die, die du am wenigsten hochladen möchtest – und genau in dem Moment hört ein Konverter, der auf deinem eigenen Laptop läuft, auf, bloß ein nettes Extra zu sein.

Probier eine Aufnahme aus, die deine Maschine nie verlässt

Meine jüngere Tochter hat letzten Samstag eine 90-Wörter-E-Mail an ihre Großmutter diktiert und mich gefragt, wohin die Wörter verschwunden seien. Nirgendwohin, habe ich ihr gesagt. Sie sind genau hier geblieben. Diese Antwort ist der ganze Grund, warum ich das gebaut habe.

Kostenlos für die gesamte lokale Pipeline. Keine Zahlungsmethode zur Anmeldung nötig.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Lektüre