Erklärt
Wie man Whisper lokal betreibt
Es gibt zwei ehrliche Wege, Whisper auf dem eigenen Rechner zu betreiben: den Entwicklerweg über Python und die Kommandozeile – oder eine Desktop-App, die das für dich erledigt, ohne Terminal. Beide halten dein Audio auf dem Computer. Dieser Artikel beschreibt beide und zeigt, wann welcher passt.
Zuletzt aktualisiert: Juni 2026

Whisper lokal betreiben bedeutet: Audiodaten auf dem eigenen Rechner transkribieren, nicht auf einem Cloud-Server. Es gibt zwei Wege: OpenAIs Open-Source-Whisper mit Python, pip und ffmpeg installieren und von der Kommandozeile starten – oder eine Desktop-App wie Whisper by Remskill verwenden, die die Modelle mitbringt und direkt am Cursor diktiert, ohne Terminal. Beide Wege lassen das Audio auf dem Gerät.
Whisper ist OpenAIs Open-Source-Spracherkennungsmodell, veröffentlicht unter der MIT-Lizenz. Warum danach so häufig gesucht wird? Weil es tatsächlich kostenlos auf eigener Hardware läuft. Kein API-Schlüssel, keine Abrechnung pro Minute, kein Audio, das den Laptop verlässt. Das ist ein echtes Angebot – und das offizielle Projekt auf GitHub stellt alles zur Verfügung.
Der Haken liegt im Wort "betreiben". Der offizielle Weg ist ein Kommandozeilenprogramm. Python installieren, `pip install openai-whisper` ausführen, ffmpeg einrichten, ein Terminal auf eine Audiodatei richten. Das ist ideal, wenn man einen Ordner voller Aufnahmen stapelweise verarbeiten will. Weniger ideal, wenn man eigentlich in die E-Mail sprechen und die Wörter erscheinen sehen möchte. Das sind zwei verschiedene Aufgaben – beide werden hier ehrlich behandelt.
Hier liegt die Weggabelung, an der die meisten Artikel einfach vorbeischwimmen. "Whisper lokal betreiben" kann je nach Fragendem etwas völlig anderes bedeuten. Für Entwickler heißt es: Modell auf die Festplatte laden und Dateien per Skript transkribieren. Für Texter oder Vertriebsleute heißt es: nicht mehr tippen und die Stimme in Text verwandeln lassen, egal in welcher App.
Die eigentliche Frage ist also nicht nur "Wie installiere ich Whisper?" – sondern "Welches lokale Whisper brauche ich: die CLI für Stapelverarbeitung und Skripte, oder einen Hotkey, der an meinem Cursor diktiert?" Ersteres ist das offizielle OpenAI-Projekt, und es ist gut in dem, was es tut. Letzteres ist eine Desktop-App, die dieselbe Modellfamilie ohne Kommandozeile betreibt. Ich richte beide ein, zeige die Hardware-Anforderungen und sage klar, wann die Kommandozeile die bessere Wahl ist.
Was "Whisper lokal betreiben" wirklich bedeutet

Whisper lokal betreiben bedeutet: Die Transkription läuft auf dem eigenen Prozessor, nicht auf irgendeinem Server. Man füttert es mit Audio, das Modell wandelt es in Text um, und nichts verlässt den Rechner. Das ist der Reiz. Die Gehaltstabelle des Chefs, die man laut vorliest, die E-Mail an die Schule des Kindes, ein aufgezeichnetes Kundengespräch – nichts davon landet in irgendwelchen Anbieter-Logs, nur weil man mit der Stimme schreiben wollte. Local-first oder gar nicht – das ist meine Überzeugung, und ich erkläre sie weiter unten noch genauer.
Whisper selbst ist nur das Modell. OpenAI hat es trainiert und die Gewichte unter der MIT-Lizenz veröffentlicht. Deshalb kann es jeder herunterladen und ohne Bezahlung nutzen. Es gibt verschiedene Modellgrößen: von einem winzigen mit 39 Millionen Parametern bis zu einem großen mit 1,55 Milliarden. Die Wahl hängt davon ab, wie viel Genauigkeit man braucht und wie viel die Hardware mitmacht. Das Modell ist dasselbe, ob man es vom Terminal oder aus einer App startet. Was sich ändert, ist die Hülle drumherum.
Und diese Hülle ist die ganze Frage. Es gibt zwei davon, beide legitim. Das offizielle OpenAI-Kommandozeilenprogramm: kostenlos, skriptbar, Python-basiert, gebaut für die Transkription von Dateien. Und Desktop-Apps, die dasselbe Modell hinter einem normalen Fenster laden – man drückt eine Taste und spricht, statt einen Befehl zu tippen. Die schlichte Wahrheit ist: Die meisten, die diesen Begriff suchen, wollen eines von beidem und wissen noch nicht welches. Die nächsten zwei Abschnitte beschreiben genau diese zwei Wege.
Der Entwicklerweg: Python, pip und ffmpeg
Wer sich im Terminal wohlfühlt, findet im offiziellen Projekt die sauberste Antwort – und sie ist wirklich kostenlos. Man braucht drei Dinge: Python (das Projekt zielt auf 3.8 bis 3.11), das Whisper-Paket selbst und ffmpeg, das Audiowerkzeug, auf das Whisper beim Lesen der Dateien zurückgreift. Die Installation besteht aus zwei Befehlen. `pip install -U openai-whisper` lädt das Paket und seine PyTorch-Abhängigkeit. Dann ffmpeg, je nach Betriebssystem: `brew install ffmpeg` auf dem Mac, `choco install ffmpeg` oder `scoop install ffmpeg` auf Windows, `sudo apt install ffmpeg` auf Ubuntu.
Nach der Installation läuft man es gegen eine Datei. `whisper audio.mp3 --model turbo` transkribiert die Aufnahme und schreibt den Text heraus. `--language Japanese` überspringt die automatische Erkennung, `--task translate` gibt eine nicht-englische Aufnahme auf Englisch aus. Das ist der Kern. Es ist ein Datei-rein-Text-raus-Werkzeug, und das kann es gut. Einfach auf einen Ordner mit Sprachnotizen über Nacht richten – es arbeitet jeden davon durch, ohne dass man zuschauen muss.
Die Hardware-Realität ist dort, wo Erwartungen auf eine Wand treffen. Die offiziellen Modellgrößen sind tiny (39M Parameter), base (74M), small (244M), medium (769M), large (1,55B) und turbo (809M). Der VRAM-Bedarf zeigt die wahre Geschichte: ungefähr 1 GB für tiny, etwa 2 GB für small, rund 5 GB für medium und grob 10 GB für large. Diese Zahlen gelten für eine GPU. Kleinere Modelle laufen auch auf der CPU, aber eine dedizierte Grafikkarte macht die größeren erst wirklich brauchbar. Ich habe einmal ein sauberes "einfach large auf dem Laptop laufen lassen"-Setup skizziert und es dann auf der integrierten Grafik kriechen sehen. Die Skizze stimmt nie nach dem zweiten Versuch. Die CPU kommt irgendwann ans Ziel – das große Modell auf einem schlanken Laptop ist kein Plan für einen normalen Dienstagnachmittag.
Der Terminal-freie Weg: Whisper in einer Desktop-App
Wer nie wieder eine Eingabeaufforderung sehen will, findet hier den anderen ehrlichen Weg. Whisper by Remskill ist eine Desktop-App für Windows 10 und neuer sowie für Apple Silicon Macs, die Whisper lokal betreibt – die Modelle laden innerhalb der App herunter, kein pip, kein ffmpeg, kein Python. Sie betreibt auch Parakeet, eine zweite lokale Engine, auf die ich noch eingehe. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne Zahlungsmittel bei der Registrierung. So läuft es ab.
Schritt 1 – Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte. Die lokale Transkriptions-Pipeline öffnet sich sofort.
Es hat funktioniert, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.
Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.
Die App wählt nicht für einen. Man bekommt drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für alles, was lokal laufen soll, eine der beiden lokalen Engines wählen und das Modell in der App herunterladen lassen.
Es hat funktioniert, wenn das Modell fertig heruntergeladen ist und als bereit angezeigt wird.
Schritt 3 – Den Hotkey bestätigen.
Windows nutzt standardmäßig Ctrl+Space, Mac Command+Option als Drücken-und-Halten für Push-to-Talk. Auf dem Mac die Bedienungshilfen-Berechtigung erteilen, wenn sie angefordert wird – ohne sie kann das Einfügen am Cursor keine anderen Apps erreichen.
Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 – Cursor irgendwo platzieren und sprechen.
In ein beliebiges Textfeld klicken – eine E-Mail, ein Dokument, ein Chat-Fenster – den Hotkey halten, einen Satz sprechen, loslassen. Das Transkript erscheint an der Cursorposition.
Es hat funktioniert, wenn der gesprochene Satz als Text im Textfeld sitzt.
Das Langsame ist der Modell-Download – genauso wie beim CLI-Weg. Die Gewichte sind die Gewichte. Alles andere sind die vier Schritte oben. Der Unterschied: Kein Terminal steht zwischen einem und dem Modell, und statt Datei-rein-Text-raus gibt es einen Hotkey, der überall diktiert, wo der Cursor gerade steht. Dasselbe Whisper darunter, eine andere Aufgabe darüber.
Welches Modell und welche Hardware man braucht
Beide Wege erfordern eine Modellwahl, und sie läuft auf denselben Kompromiss hinaus: Größere Modelle sind genauer und langsamer, kleinere schneller und leichter. In der offiziellen CLI braucht das large-Modell ungefähr 10 GB VRAM, das small-Modell etwa 2 GB – die Grafikkarte setzt die Grenze. In der Desktop-App unterteilen sich die Whisper-Modelle in Englisch-only und mehrsprachig: Das Standard-Englisch-Modell ist etwa 480 MB groß, das größte mehrsprachige rund 3 GB. Die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen; die Englisch-only-Versionen können nur Englisch.
Die andere lokale Engine der App ist hier einen Blick wert, weil sie das Hardware-Problem für viele umgeht. Parakeet ist NVIDIAs TDT-Modell, rund 600 MB, und läuft 5 bis 10 Mal schneller als Whisper auf einer CPU. Es deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25, ohne Übersetzung ins Englische. Wer hauptsächlich Englisch spricht und keine starke GPU hat, ist mit Parakeet als schneller lokaler Option gut bedient. Wer Chinesisch, Japanisch, Koreanisch oder Übersetzung braucht, muss zu Whispers mehrsprachigem Terrain wechseln – Parakeet kann das nicht. Während man spricht, zeigt eine kleine Kapsel, dass die App zuhört:
Das Beste, was man für die Genauigkeit tun kann, ist kein größeres Modell. Ein USB-Mikrofon für 20 Dollar bringt mehr für die Transkription als zwei Modellgrößen nach oben zu springen – sauberes Audio schlägt ein stärkeres Modell, das mit Laptopmic-Matsch gefüttert wird. Erst das Geld ins Mikrofon stecken, dann über das Modell nachdenken. Das ist der eine Hardware-Ratschlag, hinter dem ich uneingeschränkt stehe.
Lokal oder Cloud: welcher Modus für welche Aufgabe
Wer Apple Silicon hat oder einen PC der letzten Jahre, sollte zuerst lokal ausprobieren. Cloud ist der Notausgang, nicht der Standard. Aber die Desktop-App lässt einen zwischen drei Wegen wählen – und damit man gut wählt, hier der Unterschied.
So unterscheiden sich die drei Wege, denn die App zwingt zur Wahl:
- Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB – die schnellste lokale Option, 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Keine Übersetzung ins Englische. Wer auf Englisch oder einer anderen europäischen Sprache diktiert und Tempo ohne GPU will, ist hier vollständig offline bedient.
- Local Whisper — Langsamer als Parakeet auf demselben Rechner, aber die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen. Die Englisch-only-Versionen können nur Englisch, keine 99. Diesen Weg wählen für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsaufgabe, die Parakeet nicht kann. Standard-Englisch-Modell ist rund 480 MB; das größte mehrsprachige etwa 3 GB.
- Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugang – mit dem eigenen OpenAI-Schlüssel, direkt bei OpenAI abgerechnet. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt Internet, ist also der einzige Weg, der den Rechner verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.
Die nüchterne Wahrheit: Für alltägliches Diktieren reicht lokal völlig aus – beide lokalen Engines laufen vollständig auf dem eigenen Rechner, nichts wird an einen Server gesendet. Cloud lohnt sich, wenn man bei einer schwierigen Aufnahme absolute Spitzengenauigkeit will oder das Modell mitten im Satz eine Tatsache aus dem Netz abrufen soll. Egal, welchen Weg man gewählt hat, um Whisper lokal zu betreiben – CLI oder App – die Datenschutzaussage ist dieselbe: Das Audio bleibt, wo es ist. Wer genau deshalb hier ist, um offline zu bleiben, findet unter Offline-Spracherkennung noch mehr dazu.
Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen
Was auch immer Whisper betreibt – rohes Diktat kommt als Fließtext ohne Struktur heraus. Man sagt "okay also transkribier die Standup-Aufnahme dann schick die Zusammenfassung vor dem Mittagessen ans Team", und das ist die unformatierte Wand, die jede Sprachengine liefert. Die offizielle CLI gibt diesen Text aus und hört dort auf – Aufräumen ist Eigenaufgabe, per Skript oder von Hand. Das ist in Ordnung für Stapeltranskriptionen, wo man die Ausgabe sowieso später weiterverarbeitet.
Die Desktop-App kann den Aufräumschritt erledigen, bevor der Text ankommt. Wer den Aktivierungsausdruck "Hey whisper" sagt, startet einen KI-Durchlauf, der Füllwörter entfernt, Satzgrenzen setzt und Satzzeichen hinzufügt. Lokal läuft das über Ollama auf dem eigenen Rechner; im Cloud-Modus ist es standardmäßig gpt-5-mini. Der Unterschied zwischen roh und bereinigt ist der Unterschied zwischen einem Transkript, das man bearbeiten muss, und einem, das man direkt senden kann:
okay also transkribier die standup aufnahme dann schick die zusammenfassung vor dem mittagessen ans team ähm und setze den manager in cc
Okay, also transkribiere die Standup-Aufnahme, dann schicke die Zusammenfassung vor dem Mittagessen ans Team und setze den Manager in CC.
Genauigkeit ist hauptsächlich eine Frage von Modell und Mikrofon – das Mikrofon habe ich schon angesprochen. Auf der Modellseite sind die größeren mehrsprachigen Whisper-Versionen in 99 Sprachen stark, und der Cloud-Modus fügt OpenAIs erstklassige Transkription hinzu, wenn eine Aufnahme wirklich schwierig ist. Aber für sauberes Audio und normale Sprache sind selbst die kleinen Modelle solide – und das größte Modell auf schwacher Hardware bringt langsamere Ausgabe für Genauigkeit, die man wahrscheinlich gar nicht bemerkt. Das Modell zur Aufgabe passend wählen, nicht zum Datenblatt.
Wer hauptsächlich sprechen statt tippen will, findet in demselben Sprech-und-bereinigen-Ablauf die Grundlage dafür, Sprache auf Windows in Text umzuwandeln – ohne je ein Terminal zu öffnen. Das ist der Punkt des Terminal-freien Wegs.
Wann die Kommandozeile die richtige Wahl ist

Manchmal ist das Terminal wirklich das bessere Werkzeug, und das Gegenteil zu behaupten, nur um eine App zu verkaufen, wäre unehrlich. Die offizielle OpenAI CLI ist kostenlos, MIT-lizenziert und für eine Aufgabe gebaut, die die Desktop-App nicht macht: Dateien, in großen Mengen, per Skript transkribieren. Wer das tut, braucht die App nicht.
Die Kommandozeile ist die richtige Wahl, wenn man einen Ordner voller Aufnahmen über Nacht stapelweise verarbeiten will; wenn man Whisper in eine größere Python-Pipeline oder auf einen selbst verwalteten Server einbinden will; wenn man ein spezifisches Modell-Flag braucht, das die GUI nicht anbietet; oder wenn man ohnehin im Terminal lebt und kein weiteres Fenster öffnen will. Es ist auch die richtige Entscheidung unter Linux, für das die Desktop-App nicht verfügbar ist. Die CLI läuft überall, wo Python und ffmpeg laufen. Das ist keine Kritik an der App – es ist einfach eine andere Art von Problem.
Die Desktop-App ist die richtige Wahl, wenn die Aufgabe Diktat ist, keine Dateiverarbeitung: Man will in E-Mails, Dokumente, Chats sprechen und die Wörter mit einem Tastendruck am Cursor erscheinen sehen. Die CLI kann nicht in ein anderes Programm einfügen – das war nie ihre Aufgabe. Die ehrliche Aufteilung lautet also: Dateien und Skripte – Terminal; Sprechen statt Tippen – App. Die meisten wissen sofort, auf welcher Seite sie stehen, sobald ihnen das klar ist.
Dieselbe On-Device-ohne-Cloud-Logik gilt auch bei der Einrichtung auf einem Mac – der Leitfaden zu Sprache-zu-Text auf dem Mac erklärt die Apple-Silicon-Seite, einschließlich der Bedienungshilfen-Berechtigung, die der Hotkey benötigt.
Whisper auf dem eigenen Rechner zu betreiben ist eines der besseren Angebote in der Softwarewelt gerade – ein Modell, das OpenAI verschenkt hat, dasselbe, das große Cloud-Tools still im Hintergrund aufrufen, auf der eigenen Festplatte ohne Kosten. Die einzige echte Entscheidung ist, welche Hülle zum Alltag passt. Ich starte die CLI, wenn ich Dateien zu verarbeiten habe, und die App die anderen 95 % der Zeit – weil ich ungefähr vierzig Mal pro Stunde das Programm wechsle und keinen Befehl dafür tippen will. Diesen Leitfaden habe ich größtenteils per Hotkey diktiert, in ein Textfeld, das kein Terminal war, während das Modell die ganze Zeit auf demselben Laptop lief.
Whisper lokal betreiben – ohne Terminal
Hotkey halten, sprechen, loslassen. Das Modell läuft auf dem eigenen Rechner, und das Transkript landet dort, wo der Cursor ist – kein Python, kein pip, kein ffmpeg.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte erforderlich.



