Anleitung
OpenAI Whisper für Windows
OpenAI Whisper ist ein kostenloses, quelloffenes Speech-to-Text-Modell unter der MIT-Lizenz. Unter Windows läuft es normalerweise über Python und die Kommandozeile, um Audiodateien zu transkribieren. Whisper by Remskill packt diese Modelle in eine Desktop-App, sodass du stattdessen live in jede beliebige App diktieren kannst.
Zuletzt aktualisiert: Juni 2026

OpenAI Whisper ist ein kostenloses, quelloffenes Speech-to-Text-Modell, veröffentlicht unter der MIT-Lizenz. Unter Windows läuft es normalerweise über Python und die Kommandozeile und transkribiert die Audiodateien, auf die du es ansetzt. Whisper by Remskill packt diese Modelle in eine Desktop-App, sodass du stattdessen live in jede beliebige App diktieren kannst.
OpenAI Whisper ist ein kostenloses, quelloffenes Modell. Auf einem frischen Windows-Rechner verlangt die offizielle Version Python, ffmpeg und die Kommandozeile, um Dateien zu transkribieren. Wenn du eine Datei hast, erledigen das kostenlose GUI-Tools wie Buzz oder Whisper Desktop. Wenn du einfach sprechen und deine Wörter direkt am Cursor in jeder App erscheinen sehen willst, bündelt Whisper by Remskill genau dieselben Modelle – nichts zu kompilieren und mit einer kostenlosen lokalen Stufe.
Was Leute mit "OpenAI Whisper für Windows" meinen
Die unspektakuläre Wahrheit ist: "OpenAI Whisper" sind zwei verschiedene Dinge mit demselben Namen, und die Suchergebnisse werfen sie täglich durcheinander.
Das Erste ist das Modell. Whisper ist ein Spracherkennungsmodell, das OpenAI unter der MIT-Lizenz quelloffen gemacht hat – der Code und die trainierten Gewichte sind beide kostenlos zum Herunterladen und Nutzen. Es kommt in sechs Größen (tiny, base, small, medium, large und turbo), vier davon mit einer reinen Englisch-Variante, die Geschwindigkeit gegen Genauigkeit tauscht. Es ist mehrsprachig und kann Sprache mit einem einzigen Flag ins Englische übersetzen. Das ist wirklich beeindruckend, und es ist wirklich kostenlos.
Das Zweite ist die Art, wie du es tatsächlich ausführst. Das offizielle Whisper ist ein Python-Paket. Du installierst es mit pip, du installierst das Kommandozeilen-Tool ffmpeg dazu, und dann fütterst du es aus einem Terminal mit einer Audiodatei. Wenn "Terminal", "pip" und "ffmpeg" für dich schon nach einem Samstag klingen, den du nicht eingeplant hattest, hast du genau die Lücke gefunden, um die es in diesem ganzen Artikel geht. Die Kommandozeile ist das Werkzeug, mit dem du Befehle an den Computer tippst, statt zu klicken. Die meisten Windows-Nutzer haben sie noch nie absichtlich geöffnet.
Wenn also jemand "OpenAI Whisper für Windows" bei Google eintippt, will er meist eine von zwei Antworten. Entweder: Wie bringe ich dieses kostenlose Modell dazu, meine Dateien zu transkribieren, ohne einen Informatik-Abschluss zu haben? Oder: Ich will einfach reden und meine Wörter sollen erscheinen – kann das Ding das? Das sind unterschiedliche Bedürfnisse, und sie verlangen unterschiedliche Werkzeuge. Ich beantworte beide, und ich sage ehrlich, welches Werkzeug bei welchem gewinnt.
Das kostenlose Modell ist großartig. Die Einrichtung ist der Haken.
Hier ist der Teil, den die Produktseiten überspringen. Whisper, das Modell, kostet nichts. Whisper, das Erlebnis, kostet dich auf einem frischen Windows-Rechner einen Nachmittag.
Um das offizielle OpenAI Whisper auszuführen, installierst du Python, dann das Whisper-Paket, dann ffmpeg – und stellst sicher, dass Windows es auch findet –, dann öffnest du ein Terminal und führst für jede Datei einen Befehl aus. Nichts davon ist für eine Entwicklerin schwer. Alles davon ist eine Mauer für alle anderen: die Autorin, den Anwalt, die Studentin, den Vertriebler, meine eigene Mutter, die sich beim dritten Demo bereiterklärt hat, Diktieren auszuprobieren – und die sich für genau null Demos bereiterklärt hätte, in denen der Satz "füge ffmpeg zu deinem PATH hinzu" vorkommt.
Es gibt freundlichere Einstiege, und die sind es wert, gekannt zu werden. Whisper.cpp ist eine schlichte C/C++-Portierung desselben Modells: MIT-lizenziert, schnell und reine CPU, ganz ohne Python. Aber du baust es trotzdem aus dem Quellcode oder führst es über die Kommandozeile aus. Es ist ein wunderschönes Stück Ingenieurskunst, das genau auf Menschen zielt, die Spaß an Compilern haben. Der Rest dieses Artikels ist für alle, die das nicht haben.
Wenn du stattdessen das Kommandozeilen-Whisper willst (oder einen Datei-Transkribierer)
Ich schicke dich jetzt woanders hin, denn das ist der ehrliche Teil.
Wenn du in Wahrheit eine Audiodatei hast (ein aufgezeichnetes Interview, eine Podcast-Folge, ein gespeicherter Teams-Call, eine Sprachnotiz), dann ist unsere App das falsche Werkzeug – und das sage ich dir lieber, als dir etwas Unpassendes zu verkaufen. Wir machen Live-Diktat: Du sprichst, die Wörter landen an deinem Cursor. Wir nehmen keine vorhandene Datei und transkribieren sie. Andere Aufgabe.
Für diese Aufgabe sind drei kostenlose Tools wirklich gut – und genau dafür gebaut:
- Buzz transkribiert und übersetzt Audiodateien offline, angetrieben von OpenAIs Whisper, MIT-lizenziert, und läuft unter Windows. Wenn du ein echtes Fenster mit Buttons statt eines Terminals willst, fang hier an.
- Whisper Desktop (Const-me) ist eine Windows-GUI-App. Du entpackst sie, startest WhisperDesktop.exe, zeigst auf eine Datei, und sie transkribiert über deine GPU per DirectCompute. Sie ist MPL-2.0-lizenziert und auf einer ordentlichen Grafikkarte schnell.
- whisper.cpp ist die schlanke Option, wenn du dich auf der Kommandozeile wohlfühlst und rohe Geschwindigkeit ohne Python willst.
Das ist nicht einfach diplomatische Höflichkeit. Dass ich dich zum richtigen Werkzeug schicke, auch wenn es nicht unseres ist, ist der ganze Grund, warum du dem Rest hier glauben solltest. Wenn du eine Datei hast, nimm Buzz. Wenn du ein Mikrofon und einen Satz im Kopf hast, lies weiter.
Was Whisper by Remskill unter Windows tatsächlich macht
Wir haben dieselben quelloffenen Whisper-Modelle plus eine zweite Engine genommen und in eine Windows-App verpackt – sodass es nichts zu kompilieren und nichts in ein Terminal zu tippen gibt.
Du installierst eine App, rund 25 MB. Du meldest dich an. Du drückst den Hotkey, standardmäßig Ctrl + Space und komplett frei belegbar. Du sprichst. Du lässt los. Der Text erscheint an deinem Cursor – in welcher App auch immer du gerade warst: Word, Outlook, dem Browser, Slack, einem Code-Editor, dem Suchfeld. Keine Datei, kein Terminal, keine GPU nötig; die gesamte lokale Transkription läuft auf deiner CPU.
Unter der Haube wählst du aus drei Wegen, denn wir wählen das Modell nicht für dich:
- Lokales Whisper (8 Modelle) ist das quelloffene Whisper, deretwegen du hergekommen bist – gebündelt und einsatzbereit. Englisch-optimiert von Base (~140 MB) bis Medium (~1,5 GB), dazu mehrsprachige Builds bis Large v3 (~3 GB). Die mehrsprachigen Builds decken 99 Sprachen ab und können ins Englische übersetzen.
- Parakeet (NVIDIA TDT, ~600 MB) ist eine eigene Engine, 5 bis 10 Mal schneller als Whisper auf der CPU, und deckt Englisch plus 24 weitere europäische Sprachen ab. Keine Übersetzung ins Englische. Nimm sie, wenn du Tempo willst und überwiegend auf Englisch arbeitest.
- Cloud (OpenAI, BYOK) lässt dich deinen eigenen OpenAI-Schlüssel mitbringen – für Spitzengenauigkeit und Websuche; wir behalten nichts ein. Das ist das eine Pro-Feature.
Die lokale Pipeline (jedes Whisper-Modell, Parakeet, KI-Bereinigung über Ollama, Verlauf, Vorlagen, eigener Hotkey, Modell-Downloads) ist für jeden angemeldeten Nutzer kostenlos, ohne Karte bei der Anmeldung. Der Cloud-Weg ist die kostenpflichtige Pro-Stufe; die Zahlen findest du auf der Preisseite.
Warum eine echte Windows-Diktier-App schwerer ist als pip install
Hier ist das, wovor dich niemand warnt, wenn er sagt: "Pack Whisper einfach in eine UI."
Das Modell ist der einfache Teil. Einen Hotkey unter Windows zum richtigen Verhalten zu bringen, ist es nicht. Die erste Version unseres Hotkey-Handlers feuerte den Stopp-Aufnahme-Callback sechsmal für einen einzigen echten Tastendruck. Auf einem Mac lief es perfekt. Auf einer sauberen Windows-Installation lief es perfekt. Auf echten Kundenrechnern fiel es auseinander – denen mit einer aktivierten Eingabemethode für Sprachen, die unter Windows zu unvorhersehbaren Momenten Phantom-Ctrl-+-Space-Loslass-Events erzeugt. Es kostete Tage an Telemetrie, dann ein 50-ms-Debounce, das nicht reichte, dann ein 300-ms-Debounce, das es endlich tat. Ich habe mehr über das Windows-Eingabemethoden-Framework gelernt, als ein Mensch sollte – und ich habe einen Masterabschluss. Das Urteil meiner älteren Tochter, als ich es ihr erklärte: "Deshalb dauern Papas E-Mails ewig."
Das ist der Unterschied zwischen einem Modell und einem Produkt. Das kostenlose Whisper liefert dir eine Transkription einer Datei. Eine Diktier-App muss den echten Windows-Desktop überleben, in echten Apps, während du nebenher etwas anderes tust. Das Modell sieht diesen Kampf nie. Wir schon – und wir haben ihn erst einmal etwa eine Woche lang verloren.
Wenn das eingebaute Windows-Tool alles ist, was du brauchst
Sag den Leuten, wann sie dein Ding nicht kaufen sollen, dann glauben sie dir vielleicht den Rest. Also: Wenn du nur ab und zu eine kurze Notiz diktierst, brauchst du womöglich nichts davon. Windows 11 hat ein eingebautes Sprachtipp-Tool, das du mit Win + H öffnest. Es ist kostenlos und für ein paar Zeilen völlig in Ordnung – auch wenn es dein Audio an Microsofts Online-Spracherkennung schickt, statt auf deinem Rechner zu laufen. Für eine schnelle Teams-Antwort reicht das dicke.
Wir fangen ungefähr an dem Punkt an, die Installation wert zu sein, an dem du echten Text verfasst (lange E-Mails, Schriftsätze, Vorlesungszusammenfassungen, Code-Kommentare, Marketing-Varianten) und willst, dass es auf deinem Rechner bleibt, in 99 Sprachen, mit demselben Hotkey überall. Wenn dein Tag aus Zwei-Zeilen-Chats besteht, bist du fertig. Wenn dein Tag aus Schreiben besteht, behalte die App.
Weiterführende Lektüre
OpenAI Whisper ist ein kostenloses, quelloffenes Modell, und unter Windows verlangt es normalerweise Python, ffmpeg und ein Terminal, um Dateien zu transkribieren. Wenn du eine Datei hast, erledigen das Buzz oder Whisper Desktop kostenlos mit einem echten Fenster. Wenn du in Wahrheit einfach reden und deine Wörter direkt am Cursor in jeder App landen sehen willst, ohne Build, ohne Kommandozeile, lokal auf deiner CPU laufend – genau das haben wir gebaut.
Für die ausführlichere Betrachtung der Gratis-gegen-Bezahlt-Landschaft siehe Sprache zu Text unter Windows. Um zwischen unseren beiden lokalen Engines zu wählen, siehe Whisper vs Parakeet.
Diktiere deinen ersten Satz in etwa einer Minute
Lade Whisper by Remskill für Windows herunter, melde dich ohne Karte an, drücke Ctrl + Space und sprich. Die lokale Pipeline ist kostenlos, so lange du sie nutzt.
Kostenlose lokale Transkription für immer. Keine Zahlungsmethode bei der Anmeldung. Die Cloud-Stufe ist das einzige kostenpflichtige Feature.



