Is Whisper free to run locally?

Yes. OpenAI released Whisper under the MIT license, so the model is free to download and run on your own hardware with no API key and no per-minute fee. The official command-line tool is free, and Whisper by Remskill's local pipeline is free for any signed-in account with no card at sign-up. The only cost is your own electricity and disk space.

How do I install Whisper on my computer?

For the developer route, install Python 3.8–3.11, run `pip install -U openai-whisper`, and install ffmpeg for your OS (`brew install ffmpeg` on Mac, `choco install ffmpeg` on Windows). For the no-terminal route, download the Whisper by Remskill desktop app, which bundles the models and needs no Python, pip, or ffmpeg.

What hardware do I need to run Whisper locally?

It depends on the model. The official VRAM guidance runs from about 1 GB for the tiny model up to roughly 10 GB for the large one, so a discrete GPU helps for the bigger models. Smaller models run on a CPU. The desktop app's Parakeet engine runs 5 to 10 times faster than Whisper on a CPU, which is the practical pick if you don't have a strong GPU.

Do I need ffmpeg to run Whisper?

For the official command-line Whisper, yes — ffmpeg is a required dependency it uses to read audio files, installed separately via your OS package manager. The Whisper by Remskill desktop app handles audio internally, so you don't install ffmpeg yourself when using it.

Which Whisper model should I use?

Bigger models are more accurate and slower; smaller ones are faster and lighter. The official sizes are tiny, base, small, medium, large, and turbo. In the desktop app, the default English model is around 480 MB and the largest multilingual one is around 3 GB. For most clean-audio dictation, a small or medium model is plenty — and a good microphone helps accuracy more than a bigger model.

Can Whisper run completely offline?

Yes. Once the model is downloaded, both the official CLI and the desktop app's local engines transcribe entirely on your machine with nothing sent to a server. That's the main reason to run it locally rather than through a cloud API. Cloud mode in the app is the only path that needs internet, and it's optional.

Can the local Whisper translate other languages to English?

Yes, the multilingual Whisper models can. On the official CLI, add `--task translate` to a non-English recording. In the desktop app, the multilingual Whisper builds cover 99 languages and can translate to English; the English-only builds and the Parakeet engine cannot translate.

What's the difference between the Whisper CLI and a desktop app?

The CLI transcribes audio files from the command line — ideal for batch jobs and scripting. A desktop app like Whisper by Remskill runs the same kind of model behind a normal window and dictates at your cursor with a hotkey, so you talk into any app instead of processing files. Same model family, two different jobs.

Von Denys Medvediev5. April 2026

Erklärt

Wie man Whisper lokal betreibt

Es gibt zwei ehrliche Wege, Whisper auf dem eigenen Rechner zu betreiben: den Entwicklerweg über Python und die Kommandozeile – oder eine Desktop-App, die das für dich erledigt, ohne Terminal. Beide halten dein Audio auf dem Computer. Dieser Artikel beschreibt beide und zeigt, wann welcher passt.

Zuletzt aktualisiert: Juni 2026

Ein Laptop auf einem dunklen Schreibtisch, der Codezeilen in einem Terminalfenster zeigt – passend für ein Kommandozeilen-Setup

Whisper lokal betreiben bedeutet: Audiodaten auf dem eigenen Rechner transkribieren, nicht auf einem Cloud-Server. Es gibt zwei Wege: OpenAIs Open-Source-Whisper mit Python, pip und ffmpeg installieren und von der Kommandozeile starten – oder eine Desktop-App wie Whisper by Remskill verwenden, die die Modelle mitbringt und direkt am Cursor diktiert, ohne Terminal. Beide Wege lassen das Audio auf dem Gerät.

Whisper ist OpenAIs Open-Source-Spracherkennungsmodell, veröffentlicht unter der MIT-Lizenz. Warum danach so häufig gesucht wird? Weil es tatsächlich kostenlos auf eigener Hardware läuft. Kein API-Schlüssel, keine Abrechnung pro Minute, kein Audio, das den Laptop verlässt. Das ist ein echtes Angebot – und das offizielle Projekt auf GitHub stellt alles zur Verfügung.

Der Haken liegt im Wort "betreiben". Der offizielle Weg ist ein Kommandozeilenprogramm. Python installieren, `pip install openai-whisper` ausführen, ffmpeg einrichten, ein Terminal auf eine Audiodatei richten. Das ist ideal, wenn man einen Ordner voller Aufnahmen stapelweise verarbeiten will. Weniger ideal, wenn man eigentlich in die E-Mail sprechen und die Wörter erscheinen sehen möchte. Das sind zwei verschiedene Aufgaben – beide werden hier ehrlich behandelt.

Hier liegt die Weggabelung, an der die meisten Artikel einfach vorbeischwimmen. "Whisper lokal betreiben" kann je nach Fragendem etwas völlig anderes bedeuten. Für Entwickler heißt es: Modell auf die Festplatte laden und Dateien per Skript transkribieren. Für Texter oder Vertriebsleute heißt es: nicht mehr tippen und die Stimme in Text verwandeln lassen, egal in welcher App.

Die eigentliche Frage ist also nicht nur "Wie installiere ich Whisper?" – sondern "Welches lokale Whisper brauche ich: die CLI für Stapelverarbeitung und Skripte, oder einen Hotkey, der an meinem Cursor diktiert?" Ersteres ist das offizielle OpenAI-Projekt, und es ist gut in dem, was es tut. Letzteres ist eine Desktop-App, die dieselbe Modellfamilie ohne Kommandozeile betreibt. Ich richte beide ein, zeige die Hardware-Anforderungen und sage klar, wann die Kommandozeile die bessere Wahl ist.

Was "Whisper lokal betreiben" wirklich bedeutet

Eine Person arbeitet an einem Laptop am Schreibtisch – steht für lokale Verarbeitung statt Cloud

Whisper lokal betreiben bedeutet: Die Transkription läuft auf dem eigenen Prozessor, nicht auf irgendeinem Server. Man füttert es mit Audio, das Modell wandelt es in Text um, und nichts verlässt den Rechner. Das ist der Reiz. Die Gehaltstabelle des Chefs, die man laut vorliest, die E-Mail an die Schule des Kindes, ein aufgezeichnetes Kundengespräch – nichts davon landet in irgendwelchen Anbieter-Logs, nur weil man mit der Stimme schreiben wollte. Local-first oder gar nicht – das ist meine Überzeugung, und ich erkläre sie weiter unten noch genauer.

Whisper selbst ist nur das Modell. OpenAI hat es trainiert und die Gewichte unter der MIT-Lizenz veröffentlicht. Deshalb kann es jeder herunterladen und ohne Bezahlung nutzen. Es gibt verschiedene Modellgrößen: von einem winzigen mit 39 Millionen Parametern bis zu einem großen mit 1,55 Milliarden. Die Wahl hängt davon ab, wie viel Genauigkeit man braucht und wie viel die Hardware mitmacht. Das Modell ist dasselbe, ob man es vom Terminal oder aus einer App startet. Was sich ändert, ist die Hülle drumherum.

Und diese Hülle ist die ganze Frage. Es gibt zwei davon, beide legitim. Das offizielle OpenAI-Kommandozeilenprogramm: kostenlos, skriptbar, Python-basiert, gebaut für die Transkription von Dateien. Und Desktop-Apps, die dasselbe Modell hinter einem normalen Fenster laden – man drückt eine Taste und spricht, statt einen Befehl zu tippen. Die schlichte Wahrheit ist: Die meisten, die diesen Begriff suchen, wollen eines von beidem und wissen noch nicht welches. Die nächsten zwei Abschnitte beschreiben genau diese zwei Wege.

Der Entwicklerweg: Python, pip und ffmpeg

Wer sich im Terminal wohlfühlt, findet im offiziellen Projekt die sauberste Antwort – und sie ist wirklich kostenlos. Man braucht drei Dinge: Python (das Projekt zielt auf 3.8 bis 3.11), das Whisper-Paket selbst und ffmpeg, das Audiowerkzeug, auf das Whisper beim Lesen der Dateien zurückgreift. Die Installation besteht aus zwei Befehlen. `pip install -U openai-whisper` lädt das Paket und seine PyTorch-Abhängigkeit. Dann ffmpeg, je nach Betriebssystem: `brew install ffmpeg` auf dem Mac, `choco install ffmpeg` oder `scoop install ffmpeg` auf Windows, `sudo apt install ffmpeg` auf Ubuntu.

Nach der Installation läuft man es gegen eine Datei. `whisper audio.mp3 --model turbo` transkribiert die Aufnahme und schreibt den Text heraus. `--language Japanese` überspringt die automatische Erkennung, `--task translate` gibt eine nicht-englische Aufnahme auf Englisch aus. Das ist der Kern. Es ist ein Datei-rein-Text-raus-Werkzeug, und das kann es gut. Einfach auf einen Ordner mit Sprachnotizen über Nacht richten – es arbeitet jeden davon durch, ohne dass man zuschauen muss.

Die Hardware-Realität ist dort, wo Erwartungen auf eine Wand treffen. Die offiziellen Modellgrößen sind tiny (39M Parameter), base (74M), small (244M), medium (769M), large (1,55B) und turbo (809M). Der VRAM-Bedarf zeigt die wahre Geschichte: ungefähr 1 GB für tiny, etwa 2 GB für small, rund 5 GB für medium und grob 10 GB für large. Diese Zahlen gelten für eine GPU. Kleinere Modelle laufen auch auf der CPU, aber eine dedizierte Grafikkarte macht die größeren erst wirklich brauchbar. Ich habe einmal ein sauberes "einfach large auf dem Laptop laufen lassen"-Setup skizziert und es dann auf der integrierten Grafik kriechen sehen. Die Skizze stimmt nie nach dem zweiten Versuch. Die CPU kommt irgendwann ans Ziel – das große Modell auf einem schlanken Laptop ist kein Plan für einen normalen Dienstagnachmittag.

Der Terminal-freie Weg: Whisper in einer Desktop-App

Wer nie wieder eine Eingabeaufforderung sehen will, findet hier den anderen ehrlichen Weg. Whisper by Remskill ist eine Desktop-App für Windows 10 und neuer sowie für Apple Silicon Macs, die Whisper lokal betreibt – die Modelle laden innerhalb der App herunter, kein pip, kein ffmpeg, kein Python. Sie betreibt auch Parakeet, eine zweite lokale Engine, auf die ich noch eingehe. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne Zahlungsmittel bei der Registrierung. So läuft es ab.

Schritt 1 – Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte. Die lokale Transkriptions-Pipeline öffnet sich sofort.

Es hat funktioniert, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Die App wählt nicht für einen. Man bekommt drei Optionen: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Für alles, was lokal laufen soll, eine der beiden lokalen Engines wählen und das Modell in der App herunterladen lassen.

Es hat funktioniert, wenn das Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 – Den Hotkey bestätigen.

Windows nutzt standardmäßig Ctrl+Space, Mac Command+Option als Drücken-und-Halten für Push-to-Talk. Auf dem Mac die Bedienungshilfen-Berechtigung erteilen, wenn sie angefordert wird – ohne sie kann das Einfügen am Cursor keine anderen Apps erreichen.

Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

In ein beliebiges Textfeld klicken – eine E-Mail, ein Dokument, ein Chat-Fenster – den Hotkey halten, einen Satz sprechen, loslassen. Das Transkript erscheint an der Cursorposition.

Es hat funktioniert, wenn der gesprochene Satz als Text im Textfeld sitzt.

Whisper

Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Transkriptions- und KI-Bereichen.

Das Langsame ist der Modell-Download – genauso wie beim CLI-Weg. Die Gewichte sind die Gewichte. Alles andere sind die vier Schritte oben. Der Unterschied: Kein Terminal steht zwischen einem und dem Modell, und statt Datei-rein-Text-raus gibt es einen Hotkey, der überall diktiert, wo der Cursor gerade steht. Dasselbe Whisper darunter, eine andere Aufgabe darüber.

Welches Modell und welche Hardware man braucht

Beide Wege erfordern eine Modellwahl, und sie läuft auf denselben Kompromiss hinaus: Größere Modelle sind genauer und langsamer, kleinere schneller und leichter. In der offiziellen CLI braucht das large-Modell ungefähr 10 GB VRAM, das small-Modell etwa 2 GB – die Grafikkarte setzt die Grenze. In der Desktop-App unterteilen sich die Whisper-Modelle in Englisch-only und mehrsprachig: Das Standard-Englisch-Modell ist etwa 480 MB groß, das größte mehrsprachige rund 3 GB. Die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen; die Englisch-only-Versionen können nur Englisch.

Die andere lokale Engine der App ist hier einen Blick wert, weil sie das Hardware-Problem für viele umgeht. Parakeet ist NVIDIAs TDT-Modell, rund 600 MB, und läuft 5 bis 10 Mal schneller als Whisper auf einer CPU. Es deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25, ohne Übersetzung ins Englische. Wer hauptsächlich Englisch spricht und keine starke GPU hat, ist mit Parakeet als schneller lokaler Option gut bedient. Wer Chinesisch, Japanisch, Koreanisch oder Übersetzung braucht, muss zu Whispers mehrsprachigem Terrain wechseln – Parakeet kann das nicht. Während man spricht, zeigt eine kleine Kapsel, dass die App zuhört:

Cancel

Die Aufnahme-Einblendung: eine kleine Kapsel, die beim Sprechen erscheint – damit man weiß, dass die App zuhört.

Das Beste, was man für die Genauigkeit tun kann, ist kein größeres Modell. Ein USB-Mikrofon für 20 Dollar bringt mehr für die Transkription als zwei Modellgrößen nach oben zu springen – sauberes Audio schlägt ein stärkeres Modell, das mit Laptopmic-Matsch gefüttert wird. Erst das Geld ins Mikrofon stecken, dann über das Modell nachdenken. Das ist der eine Hardware-Ratschlag, hinter dem ich uneingeschränkt stehe.

Lokal oder Cloud: welcher Modus für welche Aufgabe

Wer Apple Silicon hat oder einen PC der letzten Jahre, sollte zuerst lokal ausprobieren. Cloud ist der Notausgang, nicht der Standard. Aber die Desktop-App lässt einen zwischen drei Wegen wählen – und damit man gut wählt, hier der Unterschied.

So unterscheiden sich die drei Wege, denn die App zwingt zur Wahl:

Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB – die schnellste lokale Option, 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Keine Übersetzung ins Englische. Wer auf Englisch oder einer anderen europäischen Sprache diktiert und Tempo ohne GPU will, ist hier vollständig offline bedient.
Local Whisper — Langsamer als Parakeet auf demselben Rechner, aber die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen. Die Englisch-only-Versionen können nur Englisch, keine 99. Diesen Weg wählen für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsaufgabe, die Parakeet nicht kann. Standard-Englisch-Modell ist rund 480 MB; das größte mehrsprachige etwa 3 GB.
Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugang – mit dem eigenen OpenAI-Schlüssel, direkt bei OpenAI abgerechnet. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt Internet, ist also der einzige Weg, der den Rechner verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.

Die nüchterne Wahrheit: Für alltägliches Diktieren reicht lokal völlig aus – beide lokalen Engines laufen vollständig auf dem eigenen Rechner, nichts wird an einen Server gesendet. Cloud lohnt sich, wenn man bei einer schwierigen Aufnahme absolute Spitzengenauigkeit will oder das Modell mitten im Satz eine Tatsache aus dem Netz abrufen soll. Egal, welchen Weg man gewählt hat, um Whisper lokal zu betreiben – CLI oder App – die Datenschutzaussage ist dieselbe: Das Audio bleibt, wo es ist. Wer genau deshalb hier ist, um offline zu bleiben, findet unter Offline-Spracherkennung noch mehr dazu.

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Was auch immer Whisper betreibt – rohes Diktat kommt als Fließtext ohne Struktur heraus. Man sagt "okay also transkribier die Standup-Aufnahme dann schick die Zusammenfassung vor dem Mittagessen ans Team", und das ist die unformatierte Wand, die jede Sprachengine liefert. Die offizielle CLI gibt diesen Text aus und hört dort auf – Aufräumen ist Eigenaufgabe, per Skript oder von Hand. Das ist in Ordnung für Stapeltranskriptionen, wo man die Ausgabe sowieso später weiterverarbeitet.

Die Desktop-App kann den Aufräumschritt erledigen, bevor der Text ankommt. Wer den Aktivierungsausdruck "Hey whisper" sagt, startet einen KI-Durchlauf, der Füllwörter entfernt, Satzgrenzen setzt und Satzzeichen hinzufügt. Lokal läuft das über Ollama auf dem eigenen Rechner; im Cloud-Modus ist es standardmäßig gpt-5-mini. Der Unterschied zwischen roh und bereinigt ist der Unterschied zwischen einem Transkript, das man bearbeiten muss, und einem, das man direkt senden kann:

Thinking...

Roh

okay also transkribier die standup aufnahme dann schick die zusammenfassung vor dem mittagessen ans team ähm und setze den manager in cc

Bereinigt

Okay, also transkribiere die Standup-Aufnahme, dann schicke die Zusammenfassung vor dem Mittagessen ans Team und setze den Manager in CC.

Genauigkeit ist hauptsächlich eine Frage von Modell und Mikrofon – das Mikrofon habe ich schon angesprochen. Auf der Modellseite sind die größeren mehrsprachigen Whisper-Versionen in 99 Sprachen stark, und der Cloud-Modus fügt OpenAIs erstklassige Transkription hinzu, wenn eine Aufnahme wirklich schwierig ist. Aber für sauberes Audio und normale Sprache sind selbst die kleinen Modelle solide – und das größte Modell auf schwacher Hardware bringt langsamere Ausgabe für Genauigkeit, die man wahrscheinlich gar nicht bemerkt. Das Modell zur Aufgabe passend wählen, nicht zum Datenblatt.

Wer hauptsächlich sprechen statt tippen will, findet in demselben Sprech-und-bereinigen-Ablauf die Grundlage dafür, Sprache auf Windows in Text umzuwandeln – ohne je ein Terminal zu öffnen. Das ist der Punkt des Terminal-freien Wegs.

Wann die Kommandozeile die richtige Wahl ist

Zwei Wege, die sich teilen – steht für die Wahl zwischen Kommandozeile und Desktop-App

Manchmal ist das Terminal wirklich das bessere Werkzeug, und das Gegenteil zu behaupten, nur um eine App zu verkaufen, wäre unehrlich. Die offizielle OpenAI CLI ist kostenlos, MIT-lizenziert und für eine Aufgabe gebaut, die die Desktop-App nicht macht: Dateien, in großen Mengen, per Skript transkribieren. Wer das tut, braucht die App nicht.

Die Kommandozeile ist die richtige Wahl, wenn man einen Ordner voller Aufnahmen über Nacht stapelweise verarbeiten will; wenn man Whisper in eine größere Python-Pipeline oder auf einen selbst verwalteten Server einbinden will; wenn man ein spezifisches Modell-Flag braucht, das die GUI nicht anbietet; oder wenn man ohnehin im Terminal lebt und kein weiteres Fenster öffnen will. Es ist auch die richtige Entscheidung unter Linux, für das die Desktop-App nicht verfügbar ist. Die CLI läuft überall, wo Python und ffmpeg laufen. Das ist keine Kritik an der App – es ist einfach eine andere Art von Problem.

Die Desktop-App ist die richtige Wahl, wenn die Aufgabe Diktat ist, keine Dateiverarbeitung: Man will in E-Mails, Dokumente, Chats sprechen und die Wörter mit einem Tastendruck am Cursor erscheinen sehen. Die CLI kann nicht in ein anderes Programm einfügen – das war nie ihre Aufgabe. Die ehrliche Aufteilung lautet also: Dateien und Skripte – Terminal; Sprechen statt Tippen – App. Die meisten wissen sofort, auf welcher Seite sie stehen, sobald ihnen das klar ist.

Dieselbe On-Device-ohne-Cloud-Logik gilt auch bei der Einrichtung auf einem Mac – der Leitfaden zu Sprache-zu-Text auf dem Mac erklärt die Apple-Silicon-Seite, einschließlich der Bedienungshilfen-Berechtigung, die der Hotkey benötigt.

Whisper auf dem eigenen Rechner zu betreiben ist eines der besseren Angebote in der Softwarewelt gerade – ein Modell, das OpenAI verschenkt hat, dasselbe, das große Cloud-Tools still im Hintergrund aufrufen, auf der eigenen Festplatte ohne Kosten. Die einzige echte Entscheidung ist, welche Hülle zum Alltag passt. Ich starte die CLI, wenn ich Dateien zu verarbeiten habe, und die App die anderen 95 % der Zeit – weil ich ungefähr vierzig Mal pro Stunde das Programm wechsle und keinen Befehl dafür tippen will. Diesen Leitfaden habe ich größtenteils per Hotkey diktiert, in ein Textfeld, das kein Terminal war, während das Modell die ganze Zeit auf demselben Laptop lief.

Whisper lokal betreiben – ohne Terminal

Hotkey halten, sprechen, loslassen. Das Modell läuft auf dem eigenen Rechner, und das Transkript landet dort, wo der Cursor ist – kein Python, kein pip, kein ffmpeg.

Whisper herunterladen Wie es funktioniert

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte erforderlich.

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Links

Häufig gestellte Fragen

Ja. OpenAI hat Whisper unter der MIT-Lizenz veröffentlicht – das Modell ist kostenlos herunterzuladen und auf eigener Hardware zu betreiben, ohne API-Schlüssel und ohne minutenweise Abrechnung. Das offizielle Kommandozeilenprogramm ist kostenlos, und die lokale Pipeline von Whisper by Remskill ist für jedes angemeldete Konto kostenlos, ohne Karte bei der Registrierung. Die einzigen Kosten sind Strom und Speicherplatz.

Von Denys Medvediev5. April 2026

Erklärt

Wie man Whisper lokal betreibt

Zuletzt aktualisiert: Juni 2026

Was "Whisper lokal betreiben" wirklich bedeutet

Der Entwicklerweg: Python, pip und ffmpeg

Der Terminal-freie Weg: Whisper in einer Desktop-App

Schritt 1 – Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Karte. Die lokale Transkriptions-Pipeline öffnet sich sofort.

Es hat funktioniert, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Es hat funktioniert, wenn das Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 – Den Hotkey bestätigen.

Es hat funktioniert, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

In ein beliebiges Textfeld klicken – eine E-Mail, ein Dokument, ein Chat-Fenster – den Hotkey halten, einen Satz sprechen, loslassen. Das Transkript erscheint an der Cursorposition.

Es hat funktioniert, wenn der gesprochene Satz als Text im Textfeld sitzt.

Whisper

Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Transkriptions- und KI-Bereichen.

Welches Modell und welche Hardware man braucht

Cancel

Die Aufnahme-Einblendung: eine kleine Kapsel, die beim Sprechen erscheint – damit man weiß, dass die App zuhört.

Lokal oder Cloud: welcher Modus für welche Aufgabe

So unterscheiden sich die drei Wege, denn die App zwingt zur Wahl:

Local Parakeet — NVIDIAs TDT-Engine, rund 600 MB – die schnellste lokale Option, 5 bis 10 Mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, insgesamt 25. Keine Übersetzung ins Englische. Wer auf Englisch oder einer anderen europäischen Sprache diktiert und Tempo ohne GPU will, ist hier vollständig offline bedient.
Local Whisper — Langsamer als Parakeet auf demselben Rechner, aber die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen. Die Englisch-only-Versionen können nur Englisch, keine 99. Diesen Weg wählen für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsaufgabe, die Parakeet nicht kann. Standard-Englisch-Modell ist rund 480 MB; das größte mehrsprachige etwa 3 GB.
Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugang – mit dem eigenen OpenAI-Schlüssel, direkt bei OpenAI abgerechnet. Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Benötigt Internet, ist also der einzige Weg, der den Rechner verlässt. Die Cloud-Oberfläche ist Teil von Whisper Pro.

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Thinking...

Roh

okay also transkribier die standup aufnahme dann schick die zusammenfassung vor dem mittagessen ans team ähm und setze den manager in cc

Bereinigt

Okay, also transkribiere die Standup-Aufnahme, dann schicke die Zusammenfassung vor dem Mittagessen ans Team und setze den Manager in CC.

Wann die Kommandozeile die richtige Wahl ist

Whisper lokal betreiben – ohne Terminal

Hotkey halten, sprechen, loslassen. Das Modell läuft auf dem eigenen Rechner, und das Transkript landet dort, wo der Cursor ist – kein Python, kein pip, kein ffmpeg.

Whisper herunterladen Wie es funktioniert

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte erforderlich.

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Wie man Whisper lokal betreibt

Was "Whisper lokal betreiben" wirklich bedeutet

Der Entwicklerweg: Python, pip und ffmpeg

Der Terminal-freie Weg: Whisper in einer Desktop-App

Schritt 1 – Whisper installieren und anmelden.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Schritt 3 – Den Hotkey bestätigen.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

Welches Modell und welche Hardware man braucht

Lokal oder Cloud: welcher Modus für welche Aufgabe

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Wann die Kommandozeile die richtige Wahl ist

Whisper lokal betreiben – ohne Terminal

Weiterführende Links

Häufig gestellte Fragen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Wie man Whisper lokal betreibt

Was "Whisper lokal betreiben" wirklich bedeutet

Der Entwicklerweg: Python, pip und ffmpeg

Der Terminal-freie Weg: Whisper in einer Desktop-App

Schritt 1 – Whisper installieren und anmelden.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Schritt 3 – Den Hotkey bestätigen.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

Welches Modell und welche Hardware man braucht

Lokal oder Cloud: welcher Modus für welche Aufgabe

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Wann die Kommandozeile die richtige Wahl ist

Whisper lokal betreiben – ohne Terminal

Weiterführende Links

Häufig gestellte Fragen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Wie man Whisper lokal betreibt

Was "Whisper lokal betreiben" wirklich bedeutet

Der Entwicklerweg: Python, pip und ffmpeg

Der Terminal-freie Weg: Whisper in einer Desktop-App

Schritt 1 – Whisper installieren und anmelden.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Schritt 3 – Den Hotkey bestätigen.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

Welches Modell und welche Hardware man braucht

Lokal oder Cloud: welcher Modus für welche Aufgabe

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Wann die Kommandozeile die richtige Wahl ist

Whisper lokal betreiben – ohne Terminal

Weiterführende Links

Häufig gestellte Fragen

Weiterlesen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Wie man Whisper lokal betreibt

Was "Whisper lokal betreiben" wirklich bedeutet

Der Entwicklerweg: Python, pip und ffmpeg

Der Terminal-freie Weg: Whisper in einer Desktop-App

Schritt 1 – Whisper installieren und anmelden.

Schritt 2 – Einen Transkriptionspfad wählen und ein Modell herunterladen.

Schritt 3 – Den Hotkey bestätigen.

Schritt 4 – Cursor irgendwo platzieren und sprechen.

Welches Modell und welche Hardware man braucht

Lokal oder Cloud: welcher Modus für welche Aufgabe

Genauigkeit, Zeichensetzung und das rohe Transkript aufräumen

Wann die Kommandozeile die richtige Wahl ist

Whisper lokal betreiben – ohne Terminal

Weiterführende Links

Häufig gestellte Fragen

Weiterlesen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren