Von Denys Medvediev

Leitfaden

Whisper für Mac

"Whisper für Mac" kann zweierlei bedeuten. Entweder das quelloffene OpenAI-Whisper-Modell, das über Python und die Kommandozeile auf einem Mac läuft, oder eine Mac-App, die Whisper im Hintergrund nutzt. Die meisten Leute wollen das Zweite. Sie wissen es nur noch nicht.

Zuletzt aktualisiert: Juni 2026

Ein MacBook und ein Mikrofon auf einem Schreibtisch, sinnbildlich für Whisper-Sprachdiktat auf dem Mac

"Whisper für Mac" sind zwei verschiedene Dinge, die sich einen Namen teilen. Das Modell ist quelloffen und kostenlos, aber der offizielle Weg, es zu nutzen, verlangt Python und die Kommandozeile – und es transkribiert Dateien, nicht deine gesprochene Sprache in Echtzeit. Wenn du einfach eine Taste drücken und deine Worte in jeder Mac-App landen lassen willst, brauchst du eine Diktier-App wie Whisper by Remskill, deren gesamte lokale Pipeline für jeden angemeldeten Nutzer kostenlos ist.

Whisper ist ein Modell, keine Mac-App

Lass mich das mit den Namen klären, denn die Suchergebnisse werfen alles in einen Topf.

Whisper ist ein quelloffenes Speech-to-Text-Modell von OpenAI, veröffentlicht unter der MIT-Lizenz. Das Modell ist kostenlos. Der Code ist kostenlos. Du kannst die Gewichte herunterladen und auf deinem eigenen Rechner laufen lassen, ganz ohne Konto. Das ist im wörtlichen Sinne tatsächlich "Whisper für Mac".

Der Haken liegt darin, wie man es ausführt. Das offizielle OpenAI Whisper ist ein Werkzeug für Python und die Kommandozeile. Du installierst es mit pip, brauchst zusätzlich das Kommandozeilen-Tool ffmpeg und richtest es dann auf eine Audiodatei. Es transkribiert Aufnahmen: audio.mp3, audio.wav, solche Dinge. Es tippt nicht deine gesprochene Sprache in Mail oder Slack. Es macht aus einer Datei, die du bereits hast, Text.

Es gibt sechs Modellgrößen (tiny, base, small, medium, large und turbo), vier davon mit reinen Englisch-Varianten, die Geschwindigkeit gegen Genauigkeit tauschen. Whisper ist mehrsprachig und kann Sprache mit einem einzigen Schalter ins Englische übersetzen. Ein gutes Modell. Die nüchterne Wahrheit ist: Das Modell war nie der schwierige Teil. Es so in deinen tatsächlichen Arbeitsalltag auf dem Mac einzubinden, schon.

Die Mac-Tools, die Whisper verpacken – und wofür jedes da ist

Die meisten, die nach "Whisper für Mac" suchen, wollen pip gar nicht anfassen. Sie wollen eine App. Davon gibt es mehrere gute, und sie sind nicht austauschbar. Sie teilen sich in zwei Lager.

Lager eins: Dateien transkribieren

whisper.cpp ist eine reine C/C++-Portierung von Whisper, MIT-lizenziert, und auf Apple Silicon erstklassig zu Hause – optimiert mit ARM NEON, dem Accelerate-Framework, Metal und Core ML. Es läuft rein über die CPU, du baust es aus dem Quellcode und steuerst es über die Kommandozeile. Wenn du dich im Terminal wohlfühlst und rohe, schnelle, lokale Datei-Transkription willst, ist es hervorragend. MacWhisper liefert dir eine grafische Version derselben Idee. Es transkribiert Audio- und Videodateien direkt auf dem Gerät mit OpenAI Whisper und NVIDIA Parakeet, ohne dass Daten deinen Rechner verlassen, dazu eine systemweite Diktierfunktion. Wenn deine Aufgabe darin besteht, Aufnahmen in Transkripte zu verwandeln, ist dieses Lager das richtige.

Lager zwei: deine gesprochene Sprache tippen

Das ist Diktieren. Du drückst eine Taste, du sprichst, und der Text erscheint an deinem Cursor in der App, die gerade im Fokus ist. VoiceInk gehört hierher. Es ist quelloffen unter GPL-3.0, lässt lokale Modelle auf der Apple Neural Engine laufen, darunter Parakeet v3, und fügt per Push-to-talk-Kürzel an der Cursorposition ein. Es setzt Apple Silicon und macOS 14.4 oder neuer voraus. Auch superwhisper ist hier zu Hause, mit Live-Diktat plus Datei-Transkription, lokal oder in der Cloud, auf Mac, Windows und iOS.

Whisper by Remskill, die App, die ich baue, ist in Lager zwei. Diktat zuerst. Es lohnt sich zu wissen, in welchem Lager du bist, bevor du irgendetwas herunterlädst.

Was Whisper by Remskill auf einem Mac macht

Ich beschreibe das Ding, das ich gebaut habe, und dann kannst du es gegen den Rest abwägen.

Whisper
Die echte Whisper-by-Remskill-App – Seitenleiste, Transkriptionsbereich und KI-Anweisungskarten. Das ist die tatsächliche Oberfläche, kein Screenshot.

Es ist eine Diktier-App. Du drückst eine Taste, du sprichst, und der Text landet an deinem Cursor in jeder App: Mail, Notizen, Slack, dein Code-Editor, das Feld, in dem du gerade die Einverständniserklärung für die Schule dieses Jahr ausfüllst. Die Standardtaste auf dem Mac ist Command und Option zusammen gehalten, und sie lässt sich frei umbelegen. Die gesamte Transkription passiert auf deinem Mac. Keine Datei zum Hochladen, keine Aufnahme zu verwalten.

Du führst auch kein Python aus. Kein pip, kein ffmpeg, kein Terminal, keine GPU. Das Ganze ist reines Rust. Die Whisper- und Parakeet-Engines laufen über eine Bibliothek namens transcribe-rs, ganz ohne mitgelieferten Python-Sidecar. Die lokale Transkription läuft auf deiner CPU, eine dedizierte GPU ist nicht nötig, und die App belegt rund 25 MB auf der Festplatte.

Beim Modell selbst hast du die Wahl. Lokales Whisper bietet dir 8 Modelle, 99 Sprachen, Übersetzung ins Englische, eigenes Vokabular, Beam-Size-Steuerung und Hotword-Gewichtung. Langsamer, aber mit der meisten Kontrolle. Parakeet ist die NVIDIA-TDT-Engine, rund 600 MB groß, und läuft auf einer CPU 5- bis 10-mal schneller als Whisper, deckt Englisch plus 24 weitere europäische Sprachen ab, ohne Übersetzung ins Englische. Der Cloud-Modus ist der dritte Weg: Du bringst deinen eigenen OpenAI-Schlüssel mit, und wir behalten nichts ein. Ich treffe die Wahl bewusst nicht für dich. Die Unterschiede legen wir in Whisper vs Parakeet dar, wenn du die ausführliche Fassung willst.

Die lokale Genauigkeit liegt typischerweise zwischen 95 % und 99 %. Die gesamte lokale Pipeline ist für jeden angemeldeten Nutzer kostenlos: Whisper, Parakeet, Offline-KI-Aufbereitung über Ollama, Transkriptionsverlauf, Voreinstellungen, Hotwords, Hardwarebeschleunigung, Modell-Downloads und die eigene Tastenkombination. Keine Zahlungsmethode bei der Anmeldung. Du kannst es auf bis zu 3 Geräten nutzen. Die kostenpflichtige Stufe, Whisper Pro, ergänzt nur die Cloud-Ebene: OpenAI-Cloud-Transkription, KI-Aufbereitung in der Cloud und Websuche. Die Preise findest du auf der Preisseite. Ich nenne hier keine Zahlen, weil Preisseiten sich ändern und du sie direkt an der Quelle nachlesen solltest.

Eine ehrliche Einschränkung: Unser Mac-Build läuft nur auf Apple Silicon, M1 bis M4. Wenn du einen Intel-Mac hast, ist diese App nichts für dich – und ich sage dir gleich, was passt.

So sieht dein erstes Diktat tatsächlich aus. Drück die Taste, ein kleiner Aufnahme-Indikator erscheint, du sprichst, du lässt los, und der aufbereitete Text fällt genau dorthin, wo dein Cursor saß. Das Overlay unten ist das echte Ding, das die App zeigt, kein Mockup.

Pasted
Das ausgelieferte "Fertig"-Overlay nach dem Diktat – die echte App-Oberfläche in dem Moment, in dem ein vollständig lokales Diktat abgeschlossen ist.

Die Einrichtung ist kurz. Lade die App herunter, melde dich an, lass sie ein Modell herunterladen. Parakeet ist mit rund 600 MB das kleinste, oder ein Whisper-Modell, wenn du Sprachen oder Übersetzung willst. Wähle deine Taste oder behalte Command und Option. Dann öffne Mail, halte die Taste und sag einen Satz. Das ist das ganze Onboarding. Meine jüngere Tochter hat es geschafft, ohne mir eine einzige Rückfrage zu stellen – und das ist der einzige Usability-Test, dem ich voll vertraue. Wenn du die längere Schritt-für-Schritt-Anleitung mit Screenshots und allen drei Modellwegen willst, habe ich einen eigenen Leitfaden geschrieben: Sprache zu Text auf dem Mac.

Warum ich es auf dem Mac lokal halte

Hier ist meine eine entschiedene Meinung für diesen Artikel: Reines Cloud-Diktat ist ein Datenschutz-Desaster.

Die Gehaltstabelle deines Chefs, die E-Mail an die Schule deines Kindes, der Schriftsatz, den du im Zug entwirfst. Nichts davon sollte über die Server eines Anbieters laufen, bloß weil du mit deiner Stimme tippen wolltest. Dein Mac hat bereits ein Mikrofon und eine CPU. Für einen Absatz Diktat braucht er keinen Server dazwischen. Mit den lokalen Engines verlässt das Audio deinen Rechner nie. Das wäre meine Voreinstellung, und sie ist kostenlos.

Den Cloud-Modus gibt es für die Momente, in denen du wirklich die neuesten OpenAI-Modelle oder Antworten aus dem Web willst, auf deinem eigenen Schlüssel. Er ist die Notausgangstür, nicht der Haupteingang.

Wann MacWhisper, VoiceInk oder die Kommandozeile die bessere Wahl sind

Ich wäre ein schlechter Ratgeber, würde ich so tun, als gewänne eine App jeden Fall. Tut sie nicht. Hier ist, wohin ich dich woanders schicken würde.

Du transkribierst überwiegend Aufnahmen

Wenn dein Tag daraus besteht, Podcast-Folgen, Interview-Aufnahmen oder Meeting-Mitschnitte in ein Transkript zu füttern, willst du ein Datei-Transkriptions-Tool, keine Diktier-App. MacWhisper ist genau dafür gebaut: Datei reinziehen, Text rausbekommen, direkt auf dem Gerät. Nimm es. Wir machen keinen Datei-Upload. Wir tippen deine gesprochene Sprache.

Du willst roh, skriptbar, kostenlos – und du lebst im Terminal

Dann ist whisper.cpp die Antwort. Es ist MIT-lizenziert, für Apple Silicon optimiert, rein CPU-basiert, und du kannst es in alles einbinden. Wenn du der Typ bist, der gerne aus dem Quellcode baut, wirst du dort glücklicher als in jeder grafischen Oberfläche.

Du willst vollständig quelloffenes Diktat und bist auf Apple Silicon

VoiceInk ist GPL-3.0, du kannst jede Zeile lesen oder prüfen, und es fügt an der Cursorposition ein, so wie wir. Eine solide kostenlose Option. Wir sind eine verwaltete App, mit Konten, Verlauf, Cloud-BYOK und Windows-Unterstützung, und wir sind nicht quelloffen. Wenn Open Source also ein zwingendes Kriterium ist, dann ist das deine Entscheidung – und VoiceInk ist eine gute.

Du bist auf einem Intel-Mac

Unsere App läuft nicht. Das quelloffene whisper.cpp lässt sich auf Intel bauen und ausführen, und Apples eigenes integriertes Diktat ist für kurze Notizen kostenlos. Beides schlägt das Warten auf einen Apple-Silicon-Rechner, den du noch gar nicht gekauft hast.

Wenn du dir nur eine Sache merkst

Das Modell ist kostenlos und quelloffen. Die Entscheidung, auf die es ankommt, ist, was du darum herum baust: ein Terminal, eine grafische Datei-Transkription oder eine Taste, die deine gesprochene Sprache in das tippt, worauf du gerade schaust. Passe die Verpackung zur Aufgabe – und ignoriere auf dem Mac Python, es sei denn, du hast wirklich Spaß daran. Es gibt drei Sorten Menschen, die nach Whisper auf einem Mac suchen: die mit einem Ordner voller Aufnahmen, die, die nie wieder tippen wollen, und die, denen einfach der Name gefiel. Zwei davon sind im falschen Lager, bis sie bis hierher gelesen haben.

Den größten Teil dieses Artikels habe ich diktiert statt getippt, was sich passend anfühlte. Der eine Absatz, den ich von Hand tippte, hatte mehr Tippfehler.

Weiterführende Lektüre

Probier es auf deinem Mac

Lade Whisper by Remskill herunter, melde dich an und diktiere deinen ersten Satz auf deinem Mac. Die lokale Stufe ist kostenlos, und du kannst später entscheiden, ob du die Cloud überhaupt jemals brauchst.

Kostenlose lokale Transkription für immer. Keine Zahlungsmethode bei der Anmeldung. Nur Apple Silicon.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.