Von Denys Medvediev

Erklärt

Wie genau ist Whisper wirklich

Whisper ist bei klarem Englisch sehr genau und kommt bei den wichtigsten Sprachen gut zurecht — aber perfekt ist es nicht. Der größte Hebel für deine eigene Genauigkeit ist das Mikrofon und ein ruhiger Raum, nicht das Modell, das du wählst. Ein KI-Durchlauf bereinigt danach Zeichensetzung und Füllwörter.

Zuletzt aktualisiert: Juni 2026

Blaue Audiowellenform auf einem dunklen Bildschirm, die Sprache darstellt, die auf Transkriptionsgenauigkeit gemessen wird

Whisper ist genau genug für die tägliche Diktatarbeit und professionelle Notizen — mit dem Medium-Modell werden bei sauberem, gesprochenem Englisch etwa 3 % Wortfehlerrate erreicht. Bei Akzenten, Hintergrundgeräuschen, Fachbegriffen und überlappenden Stimmen sinkt die Genauigkeit. Der größte Fortschritt, den die meisten erreichen können, ist ein besseres Mikrofon und ein ruhiger Raum — nicht ein größeres Modell.

"Wie genau ist Whisper" ist eine jener Fragen, auf die es eine ehrliche Antwort und eine Marketing-Antwort gibt — und die beiden sind nicht identisch. Die Marketing-Antwort lautet: "unglaublich genau, auf dem neuesten Stand der Technik." Die ehrliche Antwort: "sehr gut bei einer sauberen Aufnahme, merklich schlechter bei einer schlechten — und der Unterschied liegt meistens am Mikrofon." Ich habe erlebt, wie dasselbe Modell einen Satz über ein $20-USB-Mikrofon perfekt transkribiert und über ein Laptop-Mikrofon in einer lauten Küche komplett verhunzt hat.

Das hier ist also kein Benchmark-Ranking. Es ist die Antwort, die ich einem Freund geben würde, der fragt, ob er Sprachdiktat für echte Arbeit vertrauen kann. Kurze Version: ja, mit Einschränkungen, die man kontrollieren kann. Lange Version folgt unten — einschließlich der einen Zahl, die wirklich zählt, und der drei Dinge, die die Genauigkeit still und leise ruinieren, egal wie gut das Modell ist.

Das überspringen die meisten "Whisper-Genauigkeit"-Seiten. Genauigkeit ist keine einzelne Zahl. Sie hängt von der Modellgröße ab, der Sprache, die du sprichst — und mehr als von beidem — von der Qualität des eingehenden Audios. Ein kleines Modell mit einer sauberen Aufnahme schlägt ein riesiges Modell mit einer dumpfen, jedes Mal.

Forscher messen das mit der Wortfehlerrate, kurz WER. Das ist der Prozentsatz der Wörter, die das System falsch transkribiert. Whispers veröffentlichte WER bei sauberem Englisch ist niedrig. Deine WER an einem Dienstagnachmittag mit laufender Spülmaschine ist eine andere Geschichte. Ich erkläre, was die Zahl bedeutet, was Whisper wirklich erreicht, was sie nach unten zieht — und die langweilige, günstige Lösung, die mehr hilft als jedes Modell-Upgrade.

Was "Genauigkeit" wirklich bedeutet: die Wortfehlerrate

Nahaufnahme einer Audiowellenform in einem Bearbeitungsprogramm auf einem dunklen Monitor, die Sprache illustriert, die auf Fehler gemessen wird

Wenn Menschen sagen, ein Transkriptionssystem sei "95 % genau", meinen sie damit fast immer die Wortfehlerrate, kurz WER. Es ist das einfachste, ehrlichste Maß, das es gibt: Man nimmt eine bekannte Textpassage, lässt das System sie transkribieren und zählt dann die falsch erkannten Wörter. Eine WER von 5 % bedeutet, dass 5 von 100 Wörtern falsch herauskamen — als Ersetzung, Auslassung oder eingefügtes Wort, das gar nicht gesagt wurde. Weniger ist besser. Null wäre perfekt — und das schafft in der Praxis niemand.

Dieser letzte Punkt ist wichtig, also sage ich es direkt. Keine Spracherkennungs-Engine ist perfekt, und jedes Produkt, das das Gegenteil behauptet, rundet für eine Präsentation. Auch Menschen sind keine perfekten Transkribenten — professionelle menschliche Transkriptionisten kommen bei sauberem Audio auf etwa 4 % WER, bei schwierigen Aufnahmen auf mehr. Wenn du also liest, dass Whisper "3 % WER" erreicht, liegt das bei dieser Art Audio in etwa auf menschlichem Niveau — kein Wunder, sondern ein Werkzeug, das meistens richtig liegt und manchmal falsch, wie jedes andere Werkzeug auch.

Noch eine Nuance, die dreißig Sekunden wert ist. WER zählt jedes Wort gleich — das stimmt nicht damit überein, wie man Fehler tatsächlich empfindet. Wenn Whisper ein Homophon verwechselt, ist das ein 1-Wort-Fehler, der kaum auffällt. Den Namen eines Kunden oder eine Medikamentendosierung falsch zu verstehen, ist ebenfalls ein 1-Wort-Fehler, der den Satz ruiniert. Die Gesamtzahl zeigt dir also das Bild im Groben; sie sagt dir nicht, ob das eine Wort, das wirklich zählt, korrekt war. Deshalb ist ein abschließendes Durchlesen nie aus der Mode, egal wie niedrig die WER ist.

Wie genau ist Whisper in der Praxis

Bei sauberem, gesprochenem Englisch ist Whisper wirklich stark. Die öffentlich dokumentierten Benchmarks setzen das Medium-Modell bei etwa 3 % Wortfehlerrate auf einem standardisierten sauberen Sprach-Testset an, das kleinere Modell bei rund 5 %. Im Klartext: Bei einer ordentlichen Aufnahme einer klar sprechenden Person fallen pro paar Sätze ein bis zwei falsche Wörter auf — meistens ein Lautgleiches oder ein verirrtes Komma, keine verbogene Bedeutung. Fürs Diktieren von E-Mails, Notizen und Entwürfen liegt das weit über der Schwelle, ab der es Zeit spart, anstatt sie zu kosten.

Die Bedienung in der App ist dieselbe, unabhängig davon, wie genau die Aufnahme wird. Du drückst einen Hotkey, sprichst, lässt los — und das Transkript wird an deinem Cursor in der gerade aktiven App eingefügt. Während du sprichst, erscheint eine kleine Kapsel, damit du weißt, dass Whisper zuhört. Was du in dieser Kapsel siehst, ist die laufende Aufnahme — die Genauigkeitsfrage entscheidet sich in der halben Sekunde nach dem Loslassen, wenn das Modell das Audio in Text umwandelt.

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die beim Sprechen erscheint, damit du weißt, dass Whisper zuhört.

Der ehrliche Vorbehalt steht direkt neben der guten Zahl. Diese Benchmark-Werte stammen von sauberer, vorgelesener Sprache in einem Labor. Deine Küche, dein Akzent, deine Gewohnheit, mitten im Satz die Stimme zu senken — nichts davon steckt im Testset. Der Benchmark zeigt dir die Obergrenze. Der Rest dieses Leitfadens handelt davon, wie nah du dieser Obergrenze tatsächlich kommst und welche Stellschrauben das entscheiden. Spoiler: Die wichtigste ist nicht das Modell.

Was die Zahl tatsächlich nach oben oder unten bewegt

Drei Dinge beeinflussen deine reale Genauigkeit weit mehr als das Modell: das Audio, die Sprache und die Wörter selbst. Audioqualität steht mit großem Abstand an erster Stelle. Ein eingebautes Laptop-Mikrofon, das Raumhall, einen Lüfter und ein Kind einfängt, das fragt, warum der Mond manchmal nicht zu sehen ist — das stellt jedem Modell eine schwierigere Aufgabe als ein Podcast-Mikrofon in einem ruhigen Zimmer. Dasselbe Modell, derselbe Satz kann allein durch die Aufnahme von nahezu perfekt zu merklich falsch kippen. Das ist die Stellschraube, die fast niemand dreht — und die am meisten bringt.

Sprache ist der zweite Hebel. Whispers mehrsprachige Versionen decken 99 Sprachen ab, aber diese Abdeckung ist nicht gleichmäßig. Englisch ist am besten unterstützt, die großen europäischen und asiatischen Sprachen sind stark, und ressourcenarme Sprachen — solche mit weniger Trainingsdaten im Internet — sind schwächer und fehleranfälliger. Übersetzen ins Englische ist nur mit multilingualen Whisper-Versionen möglich; die nur-englischen Builds können das nicht, und Parakeets 25 Sprachen auch nicht. "Unterstützt 99 Sprachen" stimmt also — bedeutet aber nicht, dass alle 99 gleich genau sind. Teste deine spezifische Sprache mit deinem eigenen Audio, bevor du ihr bei wichtigen Dingen vertraust.

Der dritte Hebel ist der Inhalt. Akzente verschieben die Zahl — Whisper kommt ohne jeglichen "Trainings"-Schritt mit einer breiten Palette zurecht, aber ein starker Akzent kombiniert mit Fachbegriffen ist der ungünstigste Fall für jede Engine. Fachvokabular sorgt ebenfalls für Stolperer: ungewöhnliche Produktnamen, medizinische oder rechtliche Begriffe, Nachnamen, die es noch nie gesehen hat. Und überlappende Sprecher sind die echte harte Grenze — Whisper ist auf eine Stimme gleichzeitig ausgelegt; zwei Personen, die durcheinanderreden, erzeugen ein Durcheinander. Mit lokalem Whisper kann man gegensteuern: benutzerdefiniertes Vokabular und Hotword-Biasing lenken es in Richtung der Namen und Begriffe, die man tatsächlich verwendet. Parakeet bietet keine Hotwords — ein fairer Grund, Whisper zu wählen, wenn die eigene Arbeit voll von Eigennamen ist.

Größeres Modell, mehr Genauigkeit, weniger Geschwindigkeit

Es gibt einen echten Kompromiss zwischen Genauigkeit und Geschwindigkeit, und die App zeigt ihn dir, anstatt ihn zu verstecken. Als Faustregel gilt: Je größer das Whisper-Modell, desto genauer ist es — und desto langsamer läuft es. Das nur-englische Small-Modell ist rund 480 MB groß und schnell; Medium ist etwa 1,5 GB und genauer; das mehrsprachige Large v3 ist rund 3 GB und bietet die beste Genauigkeit, braucht aber 16 GB RAM und einen neueren Rechner, um sich flott anzufühlen. Wähle das größte Modell, das deine Hardware komfortabel betreibt — nicht das größte, das es gibt.

Die interessante Ausnahme ist Turbo. Whispers Turbo-Build (distil-large-v3) ist dokumentiert als etwa 6-mal schneller als Large v3 — bei rund 99 % seiner Genauigkeit. Das ist der Sweet Spot, den viele ansteuern: nahezu die Qualität des größten Modells, ohne die Wartezeit. Es ist rund 1,5 GB groß. Wer hohe Genauigkeit möchte und nicht auf einen Ladebalken starren will, liegt mit Turbo pragmatisch richtig.

Hier ist der Teil, der den gesamten Kompromiss in ein neues Licht rückt. Der Genauigkeitsunterschied zwischen einem kleinen Modell und dem größten ist real, aber kleiner als man denkt — ein paar Prozentpunkte WER bei sauberem Audio. Der Genauigkeitsunterschied zwischen einem Laptop-Mikrofon und einem ordentlichen USB-Mikrofon beim gleichen Modell ist größer. Bevor du also 3 GB herunterlädst, um den letzten Genauigkeitspunkt zu jagen, steck ein besseres Mikrofon ein und nimm irgendwo ruhig auf. Die ernüchternde Wahrheit ist, dass die meisten "das Modell lag falsch"-Beschwerden eigentlich "der Raum lag falsch" bedeuten.

Lokal oder Cloud: Wo die beste Genauigkeit zuhause ist

Die App wählt keinen Weg für dich. Sie bietet drei an und lässt dich wählen, je nachdem, worauf es dir ankommt — Geschwindigkeit, Sprachabdeckung oder maximale Genauigkeit. Für Genauigkeit im Besonderen ist hier die Übersicht — denn der Unterschied ist real und das Wissen lohnt sich, bevor du eine Aufnahme einem der Wege anvertraust.

Die drei Wege, geordnet nach tatsächlicher Genauigkeit:

  • Lokales ParakeetNVIDIAs TDT-Engine, rund 600 MB, die schnellste lokale Option — 5 bis 10-mal schneller als Whisper auf der CPU. Die Genauigkeit ist gut — nicht Large-v3-gut, aber mehr als ausreichend für den täglichen englischen Diktatbetrieb. Deckt Englisch plus 24 europäische Sprachen ab, 25 insgesamt. Kein Übersetzen ins Englische, keine Hotwords. Wähle es, wenn Geschwindigkeit zählt und du hauptsächlich Englisch sprichst.
  • Lokales WhisperLangsamer als Parakeet auf demselben Rechner, aber die mehrsprachigen Builds erreichen 99 Sprachen, übersetzen ins Englische und erlauben es, benutzerdefiniertes Vokabular und Hotwords einzustellen — die Genauigkeitsregler, die bei Eigennamen und Fachbegriffen den Unterschied machen. Der größte Build (Large v3) ist die genaueste lokale Option. Wähle ihn für mehrsprachige Arbeit, Übersetzung oder feinere Kontrolle.
  • Cloud (OpenAI, BYOK)Erstklassige Genauigkeit und Web-Zugang mit deinem eigenen OpenAI-Schlüssel, direkt über OpenAI abgerechnet. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Eine Internetverbindung ist erforderlich — das ist der einzige Weg, bei dem dein Audio das Gerät verlässt. Die Cloud-Funktion ist Teil von Whisper Pro.

Das ehrliche Ranking für rohe Genauigkeit sieht ungefähr so aus: Cloud an der Spitze, lokales Large v3 knapp dahinter auf Platz zwei, Parakeet ein fähiger Dritter für Englisch. Aber "top Genauigkeit" gewinnt nur, wenn dein Audio sauber genug ist, um das zu verdienen. Eine gedämpfte Aufnahme aus dem anderen Zimmer an die Cloud zu schicken, schlägt kein lokales Whisper mit einer sauberen Aufnahme. Für die meisten Diktataufgaben laufen beide lokalen Engines vollständig auf dem eigenen Gerät, ohne etwas an einen Server zu senden — das reicht völlig. Greif zur Cloud, wenn du wirklich eine schwierige Aufnahme hast oder mitten im Satz eine Information aus dem Web brauchst.

Vier Wege, die eigene Genauigkeit zu verbessern

Whispers Obergrenze wird vom Modell gesetzt. Deine Untergrenze wird von allem drum herum gesetzt — und die Untergrenze ist der Ort, wo die meisten Menschen Genauigkeit verlieren. Die gute Nachricht: Die Korrekturen sind günstig und dauern ein paar Minuten. Hier sind die vier, die wirklich zählen — in der Reihenfolge ihres Nutzens.

Schritt 1 — Zuerst das Mikrofon reparieren.

Ein USB-Mikrofon für 20 Dollar bringt mehr für die Genauigkeit als jedes Modell-Upgrade. Platziere es nah, seitlich zum Mund, damit es nicht poppt, und weg vom Lüfter des Laptops. Das ist die einzige Änderung mit dem besten Nutzen-Aufwand-Verhältnis.

Du merkst, dass es gewirkt hat, wenn derselbe Satz, der über das Laptop-Mikrofon unleserlich herauskam, jetzt sauber ist.

Schritt 2 — Den Raum beruhigen.

Tür schließen, Musik pausieren, auf das Ende des Spülmaschinenprogramms warten. Hintergrundgeräusche und Hall sind das, was die meisten "das Modell liegt falsch"-Momente tatsächlich ausmacht. Ein ruhiger Raum ist kostenlos.

Du merkst, dass es gewirkt hat, wenn Füllwörter und halb eingefangene Phrasen nicht mehr im Transkript auftauchen.

Schritt 3 — Das Modell auf die Aufgabe abstimmen.

Wähle das größte Modell, das dein Rechner komfortabel betreibt, oder Turbo für nahezu maximale Genauigkeit bei hoher Geschwindigkeit. Für Namen und Fachbegriffe im lokalen Whisper füge benutzerdefiniertes Vokabular und Hotwords hinzu, damit es in Richtung deiner Begriffe tendiert.

Du merkst, dass es gewirkt hat, wenn ein Modell fertig geladen ist, als bereit angezeigt wird und deine Eigennamen korrekt landen.

Schritt 4 — Einen KI-Durchlauf bereinigen lassen.

Rohes Diktat ist ein Schachtelsatz voller Füllwörter. Whisper kann einen KI-Bereinigungsdurchlauf ausführen, der Zeichensetzung korrigiert, Ähs und Ühs entfernt und den Satz glättet, bevor er eingefügt wird. Sage den Aktivierungsausdruck "Hey whisper", um ihn auszulösen.

Du merkst, dass es gewirkt hat, wenn der eingefügte Text wie redigierter Fließtext klingt — nicht wie ein Transkript.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Bereichen für Transkription und KI.

Dieser letzte Schritt lohnt sich zu sehen, denn er verändert, was "Genauigkeit" für dein Ergebnis überhaupt bedeutet. Das Transkript kann wortgenau sein und trotzdem wie ein Schachtelsatz klingen — weil man so spricht. Der Bereinigungsdurchlauf korrigiert die Lesbarkeit, die WER nie misst. Auf einem lokalen Modell läuft er über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini. Hier ist derselbe Satz vor und nach dem Durchlauf:

Thinking...
Das Overlay während des KI-Bereinigungsdurchlaufs, bevor der aufgeräumte Text an deinem Cursor landet.
Roh

also die Genauigkeit hängt eigentlich vor allem vom Mikrofon ab und nicht vom Modell und wie ein ruhiger Raum hilft mehr als die Leute denken

Bereinigt

Die Genauigkeit hängt vor allem vom Mikrofon ab, nicht vom Modell — und ein ruhiger Raum hilft mehr, als die meisten denken.

Der Bereinigungsdurchlauf hat kein einziges Wort in seiner Bedeutung verändert — er hat lediglich Zeichensetzung hinzugefügt und die Füllwörter des Rohtranskripts entfernt. Das ist der Teil, den die Menschen mit Genauigkeit verwechseln — zu Unrecht. Die Aufgabe des Modells ist es, dich korrekt zu hören. Die Aufgabe des KI-Durchlaufs ist es, die korrekt erkannten Wörter gut lesbar zu machen. Bring das Mikrofon und den Raum in Ordnung, und beide Aufgaben werden leichter. Wenn du den Sprech-und-bereinige-Ablauf in jeder App haben möchtest, diktiere sauberen Fließtext in jede App — mit demselben Hotkey.

Das ehrliche Urteil über Whispers Genauigkeit

Eine Waage auf einer dunklen Oberfläche, die eine ehrliche Abwägung von Stärken und Grenzen illustriert

Also, die direkte Antwort. Whisper ist genau genug, um ihm bei echten Aufgaben zu vertrauen — E-Mails, Notizen, Entwürfe, Meeting-Zusammenfassungen — bei sauberem Audio in einer gut unterstützten Sprache. Es ist nicht perfekt und behauptet das auch nie. Akzente, Hintergrundgeräusche, schwerer Fachjargon und überlappende Stimmen ziehen die Zahl nach unten — und kein Modell rettet eine schlechte Aufnahme vollständig. Wer hier mit der Hoffnung auf "100 % Genauigkeit" angekommen ist: Die ehrliche Antwort ist, dass das nichts leistet — und wer das verkauft, verkauft eine Folie.

Wann lohnt es sich nicht, Whisper-Niveau Genauigkeit zu verfolgen? Wenn du nur gelegentlich einen 30-Wörter-Text diktierst, macht das dein Betriebssystem bereits kostenlos. Unter Windows öffnest du mit Windows-Taste + H die Spracherkennung, wo immer der Cursor steht — sie setzt selbst Zeichensetzung, läuft aber über Microsofts Server und braucht Internet, ist also nicht offline. Auf dem Mac tippt die Diktierfunktion in den Systemeinstellungen in jedes Feld; auf Apple Silicon kann allgemeiner Text lokal verarbeitet werden. Für kurze Einschübe reicht das, und ich werde niemanden auffordern, für eine einzeilige Erinnerung etwas zu installieren. Ein dediziertes Tool verdient seinen Platz bei längeren Notizen, mehrsprachiger Arbeit, Offline-Datenschutz und den Genauigkeitsreglern — Hotwords, Modellwahl, Bereinigungsdurchlauf —, die die eingebauten Funktionen nicht bieten.

Wenn du die lokalen Engines gegeneinander abwägst, dreht sich die Entscheidung ganz um Genauigkeit versus Geschwindigkeit — und das wird klar dargelegt in welches Whisper-Modell du verwenden solltest und im Parakeet-Modell-Überblick. Für die meisten Menschen ist die Antwort unspektakulär: ein mittelgroßes Modell, ein ordentliches Mikrofon, ein ruhiger Raum und ein Bereinigungsdurchlauf. Diese Kombination bringt dich auf dem Audio, das du tatsächlich aufnimmst, sehr nah an den Benchmark heran.

Wenn du dir Sorgen um die Genauigkeit machst, weil du die Cloud ganz meiden möchtest, erklärt Offline-Sprache-zu-Text, wie lokale Modelle ohne Netzwerk abschneiden.

Ich habe in der Anfangszeit eine Woche damit verbracht, überzeugt davon zu sein, dass ein Modell-Upgrade meine Transkripte verbessern würde — lud 3 GB herunter und gewann vielleicht einen Prozentpunkt WER. Dann kaufte ich ein USB-Mikrofon für 20 Dollar und wechselte vom Küchentisch weg, und die Transkripte wurden noch am gleichen Nachmittag deutlich sauberer. Das Modell war nie das Problem. Der Raum war es. Whisper ist sehr genau — ob du das siehst, hängt davon ab, was du hineinfütterst.

Hör es selbst mit deiner eigenen Stimme

Lade Whisper herunter, schließ ein ordentliches Mikrofon an und diktiere einen Absatz. Genauigkeit lässt sich an deinem eigenen Audio viel einfacher beurteilen als am Benchmark anderer Leute.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte zum Starten erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest — höchstwahrscheinlich indem ich die Antworten diktiere.

Weiterführende Quellen