Erklärt
Ist Whisper kostenlos?
Ja — OpenAIs Whisper ist Open-Source unter der MIT-Lizenz, das Modell kann also kostenlos heruntergeladen und genutzt werden, auch kommerziell. Der Haken liegt im Betrieb: Setup, Abhängigkeiten und eigene Hardware. Der einfache kostenlose Weg führt über eine Desktop-App, die Whisper lokal ausführt.
Zuletzt aktualisiert: Juni 2026

Whisper ist kostenlos. OpenAI hat sowohl den Code als auch die Modellgewichte unter der freizügigen MIT-Lizenz veröffentlicht — jeder kann das Spracherkennungsmodell herunterladen, betreiben und sogar kommerziell nutzen, ohne dafür zu bezahlen. Der einzige Haken ist das Setup: Whisper selbst zu betreiben bedeutet Python, ffmpeg und eigene Hardware. Eine Desktop-App nimmt diesen Haken weg.
Wer fragt „Ist Whisper kostenlos?“ erwartet einen Haken, denn 2026 ist kaum etwas Gutes wirklich umsonst. Also direkt vorweg, bevor die Einschränkungen kommen: Ja. OpenAI hat Whisper unter der MIT-Lizenz veröffentlicht — Code und Modellgewichte gleichermaßen — was zu den freizügigsten Softwarelizenzen gehört, die es gibt. Du kannst es herunterladen, betreiben, verändern, in dein eigenes Produkt einbauen und damit Geld verdienen, ohne dass OpenAI einen Cent oder auch nur eine Erwähnung verlangt.
Das ist die Kernaussage, und sie stimmt. Was die Schlagzeile weglässt, ist der Unterschied zwischen „das Modell ist kostenlos“ und „das Modell zu nutzen ist kostenlos“. Das sind nicht dieselben Aussagen. Das Modell ist eine Datei. Damit aus dieser Datei Text auf deinem Bildschirm wird, braucht es Setup, ein bisschen Geduld mit der Kommandozeile und einen Rechner, der die nötige Rechenarbeit erledigt. Nichts davon ist versteckt — es ist schlicht Arbeit, und Arbeit ist der eigentliche Preis der Open-Source-Version.
Hier liegt das, was die meisten Seiten zu diesem Thema durcheinanderbringen. Im Gespräch gibt es zwei Whisper. Einmal das Open-Source-Modell, das OpenAI auf GitHub veröffentlicht hat — kostenlos, MIT-lizenziert, zum selbst Betreiben. Und dann ist da OpenAIs gehostete Transkriptions-API, die dieselbe Modellfamilie nutzt, aber pro Minute abrechnet. Gleicher Name, sehr unterschiedliche Rechnung.
„Ist Whisper kostenlos?“ lässt sich also in drei ehrliche Antworten aufteilen. Das Modell selbst: kostenlos, Punkt. Es selbst betreiben: kostenlos in Euro, aber man zahlt mit Zeit und eigener Hardware. Von jemandem hosten lassen: das kostet Geld, egal ob OpenAIs API oder der Cloud-Tarif einer App. Dieser Leitfaden erklärt alle drei Wege, zeigt den einfachen kostenlosen Pfad und ist dabei ehrlich darüber, was wirklich nicht kostenlos ist.
Was Whisper eigentlich ist

Whisper ist ein Spracherkennungsmodell, das OpenAI Ende 2022 veröffentlicht hat. Du gibst ihm Audio, es gibt dir Text zurück. Das macht es gut — trainiert auf einer riesigen Menge mehrsprachiger Audiodaten, weshalb es Akzente, Hintergrundgeräusche und Dutzende von Sprachen besser verarbeitet als die Diktiersoftware, über die wir früher geflucht haben. Es kann Sprache in anderen Sprachen auch direkt ins Englische übersetzen — ein netter Trick, den ältere Tools nie sauber hinbekommen haben.
Das wichtige Wort ist „Modell“. Whisper ist keine App, auf die man doppelklickt. Es ist das Gehirn — eine Datei mit trainierten Gewichten plus dem Code, um sie auszuführen. Von sich aus hat es kein Fenster, keinen Knopf, keinen Mikrofonanschluss. Es ist der Motor, nicht das Auto. Viele Produkte, die du kennst, sind im Grunde nichts anderes als Whisper mit einer hübschen Verpackung drum herum — das ist völlig in Ordnung, aber es lohnt sich zu wissen, dass der Motor darunter in all diesen Produkten dasselbe kostenlose Teil ist.
Genau diese Unterscheidung ist der Grund, warum die Frage so verwirrend ist. Wenn jemand sagt „Whisper kostet 30 Dollar im Monat“, meint er nicht das Modell — er meint eine App, die das Modell eingebettet hat und für die Verpackung Geld verlangt. Wenn jemand sagt „Whisper ist kostenlos“, meint er den Motor, den OpenAI verschenkt hat. Beide Aussagen stimmen gleichzeitig — über verschiedene Dinge. Genau deshalb hast du nach einer klaren Antwort gesucht.
Ja, die MIT-Lizenz macht es wirklich kostenlos
Das ist kein Marketing-Kostenlos, bei dem „gratis“ eine auslaufende Testphase oder ein nervender Free-Tier bedeutet. OpenAI hat Whispers Code und Modellgewichte unter der MIT-Lizenz veröffentlicht. Die MIT-Lizenz ist eine freizügige, gut verstandene Open-Source-Lizenz: Sie erlaubt es, die Software zu nutzen, zu kopieren, zu verändern und zu verbreiten — auch kommerziell —, mit im Wesentlichen einer Bedingung: den Copyright-Hinweis beizubehalten. Keine Gebühr, keine Lizenzgebühr, keine Nutzerpauschale, kein Genehmigungsantrag.
In der Praxis bedeutet das: Du kannst Whisper für den privaten Gebrauch herunterladen, es geschäftlich betreiben, in ein Produkt einbauen, das du verkaufst, und für einen Kunden einen Podcast transkribieren — alles ohne OpenAI zu bezahlen. Auch die Modellgewichte — der trainierte Teil, der teuer herzustellen ist — sind frei, nicht nur der Wrapper-Code. Das ist der Teil, dem die Leute kaum glauben, weil Unternehmen trainierte Gewichte normalerweise unter Verschluss halten. OpenAI hat das hier nicht getan.
Ein ehrlicher Vorbehalt, damit mich später niemand falsch zitiert. „Kostenlos unter MIT“ bezieht sich auf die Lizenz, nicht auf ein Versprechen, dass der Betrieb nichts kostet. Strom ist nicht kostenlos. Ein Computer ist nicht kostenlos. Deine Zeit ist nicht kostenlos. Aber die Software und das Modell — die Teile, für die ein Unternehmen normalerweise ein Abo verlangt — die sind wirklich, dauerhaft, ohne Sternchen kostenlos. (Die Art von kostenlos, bei der man die Lizenz zweimal liest, weil man sicher ist, etwas übersehen zu haben. Hat man nicht.)
Der Haken ist, es selbst zu betreiben
Hier bekommt die kostenlose Version ihren Preis — bezahlt in Zeit statt in Geld. Whisper auf dem rohen, Open-Source-Weg zu betreiben bedeutet, über die Kommandozeile zu gehen. Die Standardinstallation ist ein Python-Paket, was bedeutet, dass man erst Python korrekt eingerichtet haben muss. Whisper braucht außerdem ffmpeg, ein separates Audio-Tool, das installiert und im Systempfad eingetragen sein muss. Auf manchen Rechnern braucht man zusätzlich noch Rust, damit eine Tokenizer-Abhängigkeit gebaut werden kann. Für einen Entwickler ist das alles kein Exotik. Für alle anderen ist es ein Nachmittag.
Dann ist da noch die Hardware. Whisper rechnet ernsthaft, und die größeren, genaueren Modelle rechnen sehr viel. Auf einer normalen CPU kann das Large-Modell länger für die Transkription eines Clips brauchen als der Clip selbst läuft. Für Geschwindigkeit braucht man eine ordentliche GPU — die die meisten Laptops nicht haben. Der ehrliche Preis der kostenlosen Version sind also keine Euro — sondern eine Python-Umgebung, die man pflegt, ein Befehl, den man für jede Datei von Hand eingibt, und ein Rechner, der schnell genug ist, damit man nicht wartend dasitzt. (Ich habe einmal einem Nicht-Entwickler dabei zugeschaut, wie er einem „5-Minuten-Whisper-Setup“-Blogartikel gefolgt ist. Es waren keine fünf Minuten. Es war ein Samstag, und ein Anruf bei mir.)
Und noch eine Sache, die die rohe Version nicht bietet: Live-Diktat. Whisper auf der Kommandozeile transkribiert eine Datei, die man bereits aufgenommen hat. Es wartet nicht im Hintergrund auf einen Hotkey, um dann Text an der Cursorposition einzufügen, während man spricht. Dafür — das, was die meisten bei dieser Suche eigentlich wollen — braucht man einen Wrapper ums Modell. Die gute Nachricht: Der beste Wrapper ist auch kostenlos, dazu kommt der nächste Abschnitt.
Der kostenlose, einfache Weg: Whisper in einer App nutzen
Man kann all das „Kostenlos“ des Open-Source-Modells behalten und die gesamte „Selbst-betreiben“-Steuer überspringen. Genau dafür haben wir Whisper by Remskill gebaut — es führt dasselbe Open-Source-Whisper-Modell lokal auf deinem Rechner aus, ohne Python, ohne ffmpeg, ohne Kommandozeile. Die gesamte lokale Pipeline ist für jeden angemeldeten Account kostenlos, ohne dass beim Anmelden eine Zahlungsmethode verlangt wird. Du bekommst den Open-Source-Motor ohne die Open-Source-Hausaufgaben. So geht's.
Schritt 1 — App installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte. Die lokale Transkriptionspipeline ist sofort verfügbar — kein Python, kein ffmpeg, nichts davon.
Du weißt, dass es funktioniert hat, wenn das Tray-Symbol erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.
Schritt 2 — Lokales Modell wählen.
Die App wählt nicht für dich. Für lokal stehen Whisper (8 Modelle, 99 Sprachen, Übersetzung ins Englische) oder Parakeet (schneller, Englisch plus 24 europäische Sprachen) zur Verfügung. Das Modell wird einmalig heruntergeladen und läuft vollständig auf deinem Rechner.
Du weißt, dass es funktioniert hat, wenn ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.
Schritt 3 — Hotkey bestätigen.
Windows verwendet standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac die Bedienungshilfen-Berechtigung erteilen, wenn danach gefragt wird, sonst kann der Text nicht in andere Apps eingefügt werden.
Du weißt, dass es funktioniert hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 — Cursor irgendwo hinsetzen und sprechen.
In ein beliebiges Textfeld klicken — eine E-Mail, ein Dokument, eine Suchleiste — Hotkey halten, einen Satz sagen, loslassen. Das Transkript erscheint an der Cursorposition, transkribiert von Whisper, auf deinem Rechner, kostenlos.
Du weißt, dass es funktioniert hat, wenn dein gesprochener Satz als Text im Feld steht.
Das Einzige, das etwas dauert, ist der einmalige Modell-Download — kein Installations-Ritual. Danach sitzt dasselbe Open-Source-Modell, das vorher eine Python-Umgebung und einen Befehl pro Datei verlangte, einfach im Tray und fügt Text ein, wenn man eine Taste drückt. Wenn du Diktatoptionen auf Windows oder Mac abwägst: Das ist die Version, bei der Whisper sich endlich wie eine App anfühlt — und nicht wie ein Projekt.
Lokal ist kostenlos, Cloud ist das Bezahl-Teil
Hier braucht die Antwort auf „Ist es kostenlos?“ eine klare Trennlinie. Whisper lokal zu betreiben ist kostenlos — dein Rechner, deine CPU, kein Server, keine Minutenabrechnung. Das Bezahl-Teil ist die Cloud: OpenAIs gehostete Transkriptions-API rechnet pro Minute ab, und jede App mit Cloud-Tarif gibt das weiter. In unserer App ist die gesamte lokale Pipeline kostenlos; die Cloud-Funktionen sind das Einzige, was hinter Whisper Pro liegt. So unterscheiden sich die drei Wege wirklich — denn du hast die Wahl:
- Lokal Parakeet — kostenlos — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option — 5 bis 10 Mal schneller als Whisper auf der CPU. Unterstützt Englisch plus 24 weitere europäische Sprachen, insgesamt 25. Keine Übersetzung ins Englische. Wer hauptsächlich Englisch spricht und auf bescheidener Hardware Geschwindigkeit will, findet hier die schnelle, vollständig offline verfügbare, kostenlose Wahl.
- Lokal Whisper — kostenlos — das eigentliche Open-Source-Whisper-Modell, läuft auf deinem Rechner für nichts. Die mehrsprachigen Versionen unterstützen 99 Sprachen und können ins Englische übersetzen; die Nur-Englisch-Versionen sind auf Englisch beschränkt. Auf derselben Hardware langsamer als Parakeet, aber die richtige Wahl für Chinesisch, Japanisch, Koreanisch oder jede Art von Übersetzungsarbeit. Das Standard-Englisch-Modell ist rund 480 MB groß.
- Cloud (OpenAI, BYOK) — kostenpflichtig pro Minute — beste Genauigkeit und Live-Webzugang, mit eigenem OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird — Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Das ist der Teil, der Geld kostet, abgerechnet pro Minute von OpenAI, nicht von uns. Benötigt Internet. Die Cloud-Funktionen sind das Einzige, was hinter Whisper Pro liegt.
Die nüchterne Wahrheit: Für den meisten Alltags-Diktat-Bedarf reichen lokales Whisper oder Parakeet völlig aus — und das ist der ganze Weg lang kostenlos. Beide laufen vollständig auf dem eigenen Rechner, ohne dass etwas an einen Server gesendet wird. Cloud rechtfertigt seinen Minutenpreis nur, wenn man höchste Genauigkeit bei einem schwierigen Audiofile will oder das Modell mitten im Satz etwas im Web nachschlagen soll. Wenn die Frage streng lautete „Ist Whisper kostenlos“ — die relevante Antwort ist: der lokale Weg ist es. Fang dort an.
Modelle, Genauigkeit und das Aufräumen des Rohtexts
Das kostenlose Modell ist nicht ein Modell — es ist eine Familie, und welches man wählt, ist der eigentliche Genauigkeitshebel. Kleinere Modelle sind schnell und leicht; das große mehrsprachige Modell ist das genaueste und das schwerste. Bei der Open-Source-Kommandozeilenversion wählt man die Modellgröße und lebt mit der Geschwindigkeit. In einer App wählt man aus einer Liste, und das Modell wird einmalig heruntergeladen. Der wichtigere Punkt: Genauigkeit hängt vom Modell und dem Mikrofon ab — nicht davon, was man bezahlt. Ein USB-Mikrofon für 20 Euro bringt deinen Transkriptionen mehr als jedes Upgrade.
Egal welches Modell man betreibt — rohes Diktat kommt als zusammenhängender Textstrom. Man sagt „okay also das modell ist kostenlos unter mit aber es selbst betreiben braucht python und ffmpeg“, und das ist die unpunktuierte Wand, die jede Sprach-Engine liefert. Den Text bereinigen ist ein eigener Schritt. Whisper by Remskill kann einen KI-Durchlauf über das Transkript laufen lassen: Man sagt die Aktivierungsphrase „Hey whisper“ und der Text wird verbessert, bevor er landet — Füllwörter gestrichen, Satzzeichen korrigiert. Bei einem lokalen Modell läuft das über Ollama, kostenlos; im Cloud-Modus ist standardmäßig gpt-5-mini zuständig.
okay also das modell ist kostenlos unter mit aber es selbst betreiben braucht python und ffmpeg und ähm einen ordentlichen rechner sonst ist es langsam
Okay, also das Modell ist kostenlos unter MIT, aber es selbst zu betreiben braucht Python und ffmpeg — und einen ordentlichen Rechner, sonst ist es langsam.
Die Genauigkeitsfrage hat also zwei kostenlose Hebel und einen kostenpflichtigen. Die kostenlosen Hebel: ein Modell wählen, das zur Hardware passt, und sauberes Audio von einem halbwegs vernünftigen Mikrofon liefern. Der kostenpflichtige Hebel: Cloud-Transkription, die die neuesten gehosteten Modelle bringt, wenn die lokale Qualität nicht ausreicht. Für die große Mehrheit des Diktier-Alltags sind die kostenlosen Hebel die entscheidenden. Wer „perfekte Transkripte ohne Aufwand“ verspricht, ist nicht ehrlich — das Modell ist kostenlos, aber guter Input erledigt noch immer den Großteil der Arbeit.
Genau dieser Ablauf — sprechen, dann aufräumen — zahlt sich überall aus, nicht nur hier: Man kann saubere Prosa in jede App diktieren mit einem einzigen Hotkey, sodass eine lange Nachricht zu ein paar gesprochenen Sätzen wird statt zu einem Absatz, den man eintippen muss.
Wann es sich lohnt, für Whisper zu bezahlen

Da der ganze Artikel „es ist kostenlos“ lautet, bin ich es dir schuldig, auch die ehrliche andere Hälfte zu sagen: Es gibt Situationen, in denen Bezahlen die richtige Entscheidung ist — das zu verschweigen wäre ein Verkaufsargument, keine Antwort. Wenn der kostenlose lokale Weg für dich ausreicht, nimm ihn und schließ den Tab — die meisten sind hier fertig. Aber einige Situationen rechtfertigen wirklich einen bezahlten Tarif.
Bezahle für den Cloud-Weg, wenn Genauigkeit bei einer schwierigen Aufnahme mehr zählt als das Geld — ein Interview mit starkem Akzent, eine Feldaufnahme mit viel Lärm, ein juristisches Transkript, bei dem ein falsches Wort Konsequenzen hat. Die gehosteten OpenAI-Modelle haben bei schwierigem Material die Nase vorn, und man bezahlt OpenAI pro Minute genau für diesen Vorsprung. Bezahle auch, wenn man möchte, dass der Assistent mitten im Satz eine aktuelle Information aus dem Web holt — das kann ein lokales Modell offline schlicht nicht. Und wenn man wirklich null Setup auf einem Rechner braucht, den man nicht kontrolliert — ein gesperrter Firmen-Laptop, auf dem man weder Python installieren noch ein Modell herunterladen darf — ist ein gehosteter Dienst möglicherweise die einzige offene Tür. Außerhalb dieser Fälle ist der kostenlose lokale Weg keine abgespeckte Version. Es ist dasselbe Open-Source-Modell, das dieselbe Arbeit erledigt, für nichts.
Greife zur bezahlten Option, wenn der eingebaute kostenlose Weg anfängt, Grenzen zu zeigen: höchste Genauigkeit bei schwierigem Audio, Live-Web-Abfragen oder ein Rechner, auf dem sich nichts lokal ausführen lässt. Unterhalb dieser Schwelle ist das kostenlose Modell auf der eigenen Hardware die richtige Antwort, und ich werde dich nicht dazu bringen wollen, für etwas zu bezahlen, das OpenAI bereits verschenkt hat. Die kostenlose Version existiert, sie funktioniert, und überall darunter ist derselbe Motor.
Und wenn der Grund für kostenloses, lokales Whisper Datenschutz ist — die eigene Stimme von fremden Servern fernhalten — lohnt sich der Artikel über vollständig offline nutzbare Spracherkennung als nächste Lektüre, denn genau das bringt das Betreiben des Modells auf dem eigenen Rechner.
Also: Ist Whisper kostenlos? Das Modell ist es — wirklich, MIT-lizenziert und zum selbst Betreiben bereit. Es kostenlos zu nutzen bedeutet entweder einen Nachmittag an der Kommandozeile oder eine App, die diesen Nachmittag bereits erledigt hat. Das Bezahl-Teil ist immer nur die Cloud — ein Hosting, das man für alltägliches Diktat eigentlich nicht braucht. Ich habe den Großteil dieses Textes gesprochen — in ein Textfeld —, das kostenlose lokale Modell hat zugehört, auf einem Laptop, der mich noch nie um eine Kreditkarte für die Transkription eines Satzes gebeten hat. Das ist die vollständige Antwort, und es ist selten, eine so saubere geben zu können.
Kostenloses Whisper ohne Setup nutzen
Hotkey halten, sprechen, loslassen. Das Open-Source-Modell transkribiert auf dem eigenen Rechner, kostenlos, und fügt den Text dort ein, wo der Cursor ist.
Kostenloser lokaler Modus für jeden angemeldeten Account. Keine Kreditkarte erforderlich.



