Erklärt
Welches Whisper-Modell sollte ich nutzen
Es gibt nicht das eine richtige Whisper-Modell – welches passt, hängt davon ab, was dir am wichtigsten ist: Geschwindigkeit, Genauigkeit, Sprache oder Speicherplatz. Dieser Leitfaden ordnet jedes mitgelieferte Modell einem Anwendungsfall zu, sodass du dich in etwa einer Minute entscheiden kannst – und sagt dir, wann du Whisper überspringen und stattdessen Parakeet nehmen solltest.
Zuletzt aktualisiert: Juni 2026

Das beste Whisper-Modell hängt von der Aufgabe ab: Wähle ein kleines englisches Modell für den Alltag auf Englisch, ein mehrsprachiges Modell für andere Sprachen, das große Modell für höchste Genauigkeit oder Turbo für Tempo nahe der Qualität des großen Modells. Wer überwiegend Englisch spricht und Tempo will, fährt mit Parakeet besser als mit Whisper. Die App zeigt dir alle Optionen und lässt dich wählen.
Diese Frage höre ich häufiger als jede andere, meist in der Form: „Ich habe die App heruntergeladen – welches Modell nehme ich jetzt?“ Eine berechtigte Frage, und die ehrliche erste Antwort lautet: Es gibt nicht das eine Modell, das gewinnt. Es gibt ein Modell, das für deinen Rechner, deine Sprache und dafür gewinnt, wie sehr es dich stört, eine halbe Sekunde länger zu warten. Deshalb entscheidet die App nicht für dich. Sie zeigt dir die Optionen und geht dir dann aus dem Weg.
Das klingt nach einer Ausrede – bis du siehst, wie weit das Feld auseinanderliegt. Das kleinste englische Modell ist rund 140 MB groß und läuft auf einem Laptop von 2016. Das beste mehrsprachige liegt bei etwa 3 GB und will 16 GB RAM. Dazwischen leben sechs weitere Optionen plus eine eigene Engine namens Parakeet. Wähle falsch, und du wartest entweder zu lange oder transkribierst in der falschen Sprache. Wähle richtig, und du vergisst, dass es das Modell überhaupt gibt – genau das ist das Ziel.
Hier ist der Denkrahmen, mit dem die ganze Liste plötzlich Sinn ergibt. Jedes Modell ist ein Kompromiss zwischen vier Dingen: Geschwindigkeit, Genauigkeit, wie viele Sprachen es kann und wie viel Speicher und RAM es frisst. Du kannst nicht alle vier gleichzeitig ausreizen. Ein 3-GB-Modell ist genauer und kann mehr Sprachen, aber es ist langsamer und passt nicht auf einen 8-GB-Rechner. Ein 140-MB-Modell ist sofort da, beherrscht aber nur Englisch – und das auch nur bis zu einem gewissen Grad.
Die eigentliche Frage ist also nicht „Welches Modell ist das beste?“, sondern „Welchen Kompromiss will ich?“ Sobald du weißt, ob du auf einem bescheidenen Laptop nur auf Englisch diktierst, als Übersetzer über neun Sprachen hinweg arbeitest oder einfach nur die schnellste lokale Option willst, die es gibt, ergibt sich die Wahl von selbst. Ich gehe die rein englischen Modelle durch, dann die mehrsprachigen, dann den Punkt, an dem Parakeet sie alle schlägt – und am Ende die Ein-Satz-Empfehlung, falls du den Rest nicht lesen willst.
Beginne mit einer Frage: Was ist dir am wichtigsten?

Bevor irgendein Modellname fällt, beantworte eine Frage: Was zählt für dich gerade am meisten – Geschwindigkeit, Genauigkeit, Sprachabdeckung oder Speicherplatz? Du darfst nur eines als Priorität wählen, denn die Modelle handeln diese Dinge gegeneinander aus. Die meisten, die sich daran abarbeiten, haben noch nicht entschieden, worauf sie optimieren – deshalb wirkt die Liste lähmend. Ist sie aber nicht. Es sind vier kurze Antworten in acht Namensgewändern.
Wenn du Tempo willst und Englisch sprichst, landest du bei einem kleinen englischen Modell oder, wahrscheinlicher, bei Parakeet. Brauchst du eine andere Sprache als Englisch, bist du in der mehrsprachigen Familie – ob es dir gefällt oder nicht. Willst du die genaueste Transkription, die lokal möglich ist, und hast das RAM dafür, dann ist das das große Modell. Und wenn der Speicherplatz knapp ist, ist das kleinste Modell dein Freund und das 3-GB-Modell vom Tisch. Das ist der komplette Entscheidungsbaum – der Rest dieses Leitfadens füllt nur noch die Namen ein.
Eines macht die App ganz bewusst: Sie zwingt dir nie eine Voreinstellung auf. Es gibt kein „Empfohlen“-Abzeichen, das dich zu dem Modell schubst, das uns zufällig in einem Benchmark gut dastehen lässt. Du siehst Cloud, du siehst Parakeet, du siehst die acht Whisper-Modelle aufgeteilt in rein englische und mehrsprachige – und du wählst. Wenn du schon einmal Sprache-zu-Text unter Windows oder auf dem Mac eingerichtet hast, ist das derselbe Bildschirm, nur auf eine andere Frage gerichtet.
Die rein englischen Modelle – vom alten Laptop bis zur Spitzengenauigkeit
Wenn du ausschließlich auf Englisch diktierst, sind die rein englischen Modelle die effiziente Wahl – sie lassen die mehrsprachige Maschinerie weg und stecken dieses Budget stattdessen ins Englische. Es gibt vier davon, und sie reihen sich sauber von „alter Laptop“ bis „bestes Englisch, das du lokal fahren kannst“. Du drückst die Tastenkombination, sprichst, lässt los, und das Transkript wird an deiner Cursorposition eingefügt – egal, welches du gewählt hast. Der einzige Unterschied liegt in Tempo und darin, wie oft ein kniffliges Wort sitzt. Während du sprichst, erscheint eine kleine Kapsel, damit du weißt, dass zugehört wird:
Das kleinste ist Base mit rund 140 MB. Das ist die Wahl für einen Laptop von 2016 oder einen 8-GB-Rechner, wenn du Diktat willst, das einfach funktioniert, ohne über RAM nachdenken zu müssen. Darüber liegt Small mit etwa 480 MB, die ausgewogene englische Option – langsamer als Parakeet, aber es beherrscht Übersetzung ins Englische und Stichwort-Gewichtung (Hotword-Biasing), was Parakeet nicht kann. Dann Medium mit rund 1,5 GB, das 16 GB RAM will und dir die höchste reine Englisch-Genauigkeit der Familie liefert. (In einem öffentlichen Benchmark landet das englische Medium-Modell bei sauberem Audio um die 3 % Wortfehlerrate; Small liegt eher bei 5 %. Die Werte in der Praxis hängen weit stärker von deinem Mikrofon ab als davon, welches dieser Modelle du nimmst.)
Das vierte sorgt für Verwirrung, deshalb sage ich es ganz deutlich. Turbo, also das Modell distil-large-v3, ist ebenfalls rund 1,5 GB groß und wird als 6× schneller als das große Modell bei 99 % seiner Genauigkeit beschrieben. Das klingt nach einem Geschenk, und für Englisch ist es das beinahe – es ist die Wahl, wenn du nahezu beste Englisch-Genauigkeit ohne den Tempo-Nachteil des vollen großen Modells willst. Der Haken ist das Etikett „rein Englisch“: Diese vier können Englisch und nur Englisch. In dem Moment, in dem du eine zweite Sprache brauchst, hast du diese Familie komplett verlassen – das ist der nächste Abschnitt.
Die mehrsprachigen Modelle – für die anderen 98 Sprachen
Sobald dein Audio nicht Englisch ist, willst du ein mehrsprachiges Modell. Whispers mehrsprachige Varianten decken 99 Sprachen mit automatischer Erkennung ab, und sie sind der einzige lokale Weg, Sprache beim Transkribieren direkt ins Englische zu übersetzen. Die rein englischen Modelle können das nicht, und Parakeet auch nicht. Wenn du also auf Ukrainisch diktierst, eine Notiz auf Japanisch verfasst oder willst, dass eine spanische Aufnahme als englischer Text herauskommt, ist diese Familie die Antwort – Punkt.
Auch hier gibt es vier, und sie spiegeln die Größen der englischen Modelle wider. Small mit rund 480 MB ist die schnelle mehrsprachige Basis – das Standardmodell, mit dem die App ausgeliefert wird, weil es die sicherste erste Vermutung ist, solange niemand deine Sprache kennt. Medium mit rund 1,5 GB tauscht Tempo gegen merklich bessere Qualität. Large v3 mit rund 3 GB liefert die beste Genauigkeit, die lokal möglich ist, und ist die richtige Wahl für professionelle mehrsprachige Arbeit – vorausgesetzt, du hast 16 GB RAM, um es zu füttern. Und Large v3 Turbo mit rund 1,62 GB ist die schnelle mehrsprachige Stufe – fast die ganze Qualität des großen Modells bei einem Bruchteil der Wartezeit.
Ein Wort zur Anzahl der Sprachen, denn die marketingsichere Zahl und die echte gehen auseinander, je nachdem, was du meinst. Die mehrsprachigen Modelle decken tatsächlich 99 Sprachen ab; die rein englischen genau eine. Wenn du überwiegend Englisch sprichst und gelegentlich eine zweite europäische Sprache triffst, hast du eine schnellere Option als jedes dieser Modelle – und das ist Parakeet. Das ist das Nächste, was man verstehen sollte, denn es ist das Modell, das die Leute am häufigsten aus Versehen wählen oder aus Versehen überspringen.
Wann Parakeet Whisper schlägt – und wann nicht

Parakeet ist gar kein Whisper-Modell – es ist NVIDIAs TDT-Engine, rund 600 MB groß, und es ist die schnellste lokale Option, die die App mitbringt; beschrieben als 5- bis 10-mal schneller als Whisper auf der CPU. Wenn du eine ältere oder laptop-typische CPU ohne freie GPU hast, ist dieser Tempo-Unterschied der Unterschied zwischen Diktat, das sich sofort anfühlt, und Diktat, das dich warten lässt. Für die alltägliche englische Arbeit greife ich zuerst zu Parakeet.
Es deckt Englisch plus 24 weitere europäische Sprachen ab – 25 insgesamt – und reicht damit für viele europäische Nutzer völlig aus. Was es bewusst nicht kann, sind die Whisper-eigenen Dinge: keine Übersetzung ins Englische, keine Stichwort-Gewichtung, kein Prompt für ein eigenes Vokabular. Wenn deine Arbeit einsprachig Englisch ist (oder eine dieser 24 europäischen Sprachen) und du sie einfach nur schnell willst, gewinnt Parakeet und die Frage ist beantwortet. Mehr dazu findest du in der Parakeet-Modellanalyse, wenn du das vollständige Bild willst.
Whisper gewinnt in dem Moment, in dem du aus diesem Rahmen heraustrittst. Du brauchst Chinesisch, Japanisch oder Koreanisch? Mehrsprachiges Whisper, denn Parakeet spricht sie nicht. Du willst eine Aufnahme ins Englische übersetzen? Mehrsprachiges Whisper, der einzige lokale Weg, der das kann. Du willst das Modell auf eine Liste von Produktnamen oder Fachbegriffen vorprägen, damit es sie nicht mehr verstümmelt? Whisper, über Hotwords. Die Faustregel: Parakeet für englisches Tempo, Whisper für Sprachen, Übersetzung und Kontrolle. Die App bringt beide mit, weil keines von beiden für jeden die richtige Antwort ist.
Größe, Tempo und Genauigkeit: wie der Kompromiss wirklich funktioniert
Es hilft, die drei Kräfte nebeneinander zu sehen, denn jedes Modell ist nur ein anderer Punkt auf demselben Dreieck. Größere Dateien sind genauer und langsamer; kleinere Dateien sind schneller und schonender für den RAM; und die Spezial-Engines biegen die Kurve. Hier ist die ehrliche Version jeder Kraft – die App lässt dich wählen, und ich möchte lieber, dass du im Wissen um die Kosten wählst.
Drei Wege, die Auswahl zu lesen, je nachdem, wo der Schuh drückt:
- Wenn Tempo das Problem ist — greif zuerst zu Parakeet – rund 600 MB und 5- bis 10-mal schneller als Whisper auf der CPU. Auf einem Rechner ohne GPU kommt für alltägliches Englisch lokal nichts heran. Der Preis: keine Übersetzung ins Englische und keine Hotwords.
- Wenn Genauigkeit oder Sprache das Problem ist — geh in der Whisper-Familie eine Stufe höher. Large v3 mit rund 3 GB bietet die beste lokale Genauigkeit und deckt 99 Sprachen ab, will aber 16 GB RAM. Die Turbo-Varianten geben dir den Großteil dieser Qualität bei deutlich weniger Wartezeit. Small und Medium sind die vernünftige Mitte.
- Wenn Speicherplatz oder RAM das Problem ist — bleib klein (Base mit rund 140 MB) oder verzichte ganz auf lokal und nutze den Cloud-Modus, der auf jeder Hardware läuft, weil es nur ein Netzwerkaufruf an OpenAI mit deinem eigenen Schlüssel ist. Cloud ist Teil von Whisper Pro und braucht Internet.
Die banale Wahrheit ist: Für die meisten Menschen auf einem aktuellen Rechner ist der Unterschied zwischen den mittelgroßen Modellen kleiner als der Unterschied, den dein Mikrofon ausmacht. Ein USB-Mikrofon für 20 $ bringt der Genauigkeit mehr als der Sprung von Small zu Large – die öffentlichen Whisper-Benchmarks bestätigen das, und ich habe es an meinem eigenen Schreibtisch mehr als einmal erlebt. Also quäl dich am ersten Tag nicht mit Medium gegen Large. Nimm etwas, das zu deinem RAM passt, fang an zu diktieren und steig später beim Modell um, wenn ein Wort immer wieder falsch herauskommt. Das Modell, das du tatsächlich behältst, ist das, das schnell genug ist, damit du vergisst, dass es da ist.
Probier eins aus – und wechsle mit zwei Klicks, falls es nicht passt
Hier ist der Teil, der den Druck aus der ganzen Entscheidung nimmt: Du heiratest das Modell nicht, das du zuerst wählst. Der Wechsel sind zwei Klicks in den Einstellungen, und der einzige echte Aufwand ist der Download für das Modell, zu dem du wechselst. Die richtige Strategie ist also nicht, eine Stunde zu recherchieren – es ist, eine vernünftige erste Vermutung zu treffen, damit einen Tag lang zu diktieren und zu wechseln, wenn es dich nervt. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Anmeldung nach einer Zahlungsmethode gefragt wird – ein paar Modelle auszuprobieren kostet dich also nichts außer Speicherplatz.
Schritt 1 – Öffne die Einstellungen und finde das Panel „Transkription“.
Dort lebt die Modellliste, aufgeteilt in rein englisch und mehrsprachig, mit Parakeet und Cloud daneben. Nichts ist als „das Beste“ vorausgewählt.
Du weißt, dass du am richtigen Ort bist, wenn du die Modellliste mit den Größen neben jedem Namen siehst.
Schritt 2 – Triff deine erste Vermutung anhand des Abschnitts oben.
Englisch und Tempo gewünscht: Parakeet. Englisch und Genauigkeit gewünscht: Small oder Medium Englisch. Andere Sprachen: ein mehrsprachiges Modell. RAM knapp: Base.
Du weißt, dass es geklappt hat, wenn das Modell den Download beendet und als einsatzbereit angezeigt wird.
Schritt 3 – Diktiere einen Tag lang damit.
Nutze es für echte Arbeit, nicht für einen Testsatz. Aus einem Nachmittag mit echten Notizen lernst du mehr als aus jedem Benchmark-Diagramm.
Du weißt, dass es das richtige Modell ist, wenn du es nicht mehr bemerkst und einfach sprichst.
Schritt 4 – Wechsle, falls es nicht passt.
Zu langsam: nimm etwas Kleineres oder Parakeet. Fehlt eine Sprache oder werden Wörter verstümmelt: geh mehrsprachig oder größer. Zwei Klicks, ein Download, fertig.
Du weißt, dass es geklappt hat, wenn das neue Modell geladen ist und deine nächste Aufnahme es verwendet.
Die Leute behandeln das wie eine Einbahnstraße, und das ist es nicht. Das erste Modell, das ich je laufen ließ, war nicht das, das ich behalten habe; ich startete aus Gewohnheit mit einem mehrsprachigen Modell, merkte, dass ich den ganzen Tag auf Englisch diktiere, und wechselte des Tempos wegen zu Parakeet. Das waren zwei Klicks und ein Download, der so lange dauerte wie ein Kaffee. Behandle deine erste Wahl als Entwurf.
Die schnelle Empfehlung – falls du ans Ende gesprungen bist
Wenn du sonst nichts liest, hier ist sie. Englisch, schnell, bescheidener Rechner: Parakeet. Englisch, beste lokale Genauigkeit: das englische Medium-Modell oder Turbo, wenn du diese Genauigkeit ohne Wartezeit willst. Andere Sprache oder du brauchst Übersetzung: ein mehrsprachiges Modell – Small zum Einstieg, Large v3, wenn Genauigkeit zählt und du 16 GB RAM hast. Speicher oder RAM knapp: Base. Höchste Genauigkeit mit Web-Zugriff gewünscht und du nutzt gerne deinen eigenen OpenAI-Schlüssel: Cloud. Das ist die ganze Karte.
Egal, was du wählst – das rohe Transkript kommt als ein einziger Wortstrom heraus, und das gilt für jede Sprach-Engine, nicht nur für unsere. Du sagst „okay also stell das Meeting-Modell auf medium und erinner mich daran das große später zu testen“, und genau diese unpunktierte Wand bekommst du zurück. Whisper kann einen KI-Bereinigungsdurchlauf fahren, der die Zeichensetzung korrigiert und die Füllwörter entfernt, bevor der Text landet – sag die Aktivierungsphrase „Hey Whisper“, und es räumt zuerst auf. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.
okay also stell das meeting-modell auf medium und erinner mich daran das große später zu testen ähm vielleicht parakeet für die schnellen sachen
Okay, also stell das Meeting-Modell auf Medium und erinner mich daran, das Large später zu testen – vielleicht Parakeet für die schnellen Sachen.
Ein ehrlicher Vorbehalt, der ans Ende jedes „Welches Modell“-Leitfadens gehört: Wenn du nur jemals eine 30-Wort-Notiz in ein Textfeld wirfst, brauchst du vielleicht gar kein Modell zu wählen. Unter Windows öffnet die eingebaute Spracheingabeleiste mit der Windows-Taste + H überall dort, wo dein Cursor ist – sie setzt selbst Zeichen und ist kostenlos, läuft aber über Microsofts Server und braucht Internet. Auf dem Mac macht die Diktierfunktion in den Systemeinstellungen dasselbe, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden. Unterhalb der Schwelle, ab der Genauigkeit und Länge wehtun, nutze, was ohnehin schon auf deinem Rechner ist. Wir fangen an, den Download wert zu sein, wenn du echtes Volumen bewältigst, Offline-Privatsphäre willst oder eine Sprache und Kontrolle brauchst, die die Bordmittel nicht bieten. Ich sage dir bestimmt nicht, dass du eine App installieren sollst, um eine Einkaufsliste zu diktieren.
Das „beste“ Whisper-Modell ist das, über das du aufhörst nachzudenken. Wähle den Kompromiss, der dir wichtig ist, triff eine erste Vermutung und wechsle mit zwei Klicks, falls es dich nervt. Ich habe Systeme ausgeliefert, bei denen das Architekturdiagramm schon beim zweiten Commit falsch war – ich habe also gesunden Respekt vor „einfach ausprobieren und anpassen“. Deine Modellwahl steht weniger auf dem Spiel als das und ist viel leichter rückgängig zu machen. Fang einfach irgendwo an. Der Download ist der langsame Teil; das Entscheiden sollte es nicht sein.
Wähle ein Modell und fang an zu sprechen
Triff eine erste Vermutung, diktiere einen Tag lang, wechsle mit zwei Klicks, falls es nicht passt. Die App zeigt dir jede Option und lässt dich wählen.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte für den Start nötig.



