Von Denys Medvediev

Vergleich

Die beste Speech-to-Text-App für den Mac

Apple Dictation ist kostenlos und für kurze Notizen völlig in Ordnung. Sobald das Diktat länger oder technischer wird oder sauber in einer beliebigen App landen soll, brauchst du ein spezialisiertes Tool. So findest du das richtige für deinen Mac.

Zuletzt aktualisiert: Juni 2026

Schlankes Laptop, Pflanze und Schreibtischlampe auf einem Holztisch – ein ruhiger Arbeitsplatz zum Diktieren am Mac

Welche Speech-to-Text-App am besten zu deinem Mac passt, hängt von der Länge ab: Apple Dictation ist kostenlos und für kurze Notizen gut, bricht aber ab und tut sich mit technischem Text schwer. Für längere Texte in jeder App läuft ein Tool mit lokalem Modell wie Whisper by Remskill offline auf Apple Silicon, hält eine Push-to-Talk-Taste und fügt das Transkript an der Cursorposition ein.

Ein Dienstagnachmittag, meine jüngere Tochter, sieben Jahre alt, sitzt am Küchentisch und fragt, ob sie „mit dem Computer reden darf, statt zu tippen“. Ich habe es ihr einmal gezeigt: Tasten halten, sprechen, loslassen. Sie hat eine neunzig Wörter lange E-Mail an ihre Großmutter in der Ukraine geschrieben – ein verlorener Zahn, der Wechselkurs der Zahnfee, eine Tanzstunde – und nach der Vorführung keine einzige Frage mehr gestellt. Das ist die Messlatte für „das Beste“ auf einem Mac. Nicht die längste Funktionsliste. Sondern das, was eine Siebenjährige bedienen kann und das auch dann standhält, wenn du im Zug einen Schriftsatz diktierst.

Hier die langweilige Wahrheit, die die meisten Mac-Diktier-Übersichten auslassen: Apple gibt dir schon ein kostenloses Diktat, und für eine dreißig Wörter lange Nachricht ist es wirklich gut genug. Der Grund, warum du nach einer App suchst, ist, dass das kostenlose irgendwo jenseits kurzer Notizen an seine Grenzen stößt. In diesem Artikel geht es darum, wo diese Grenze liegt, welche Tools sie überschreiten und wie du das richtige für deinen ganz konkreten Mac auswählst. Ich habe die Support-Mails von Leuten gelesen, die am ersten Tag den falschen Weg eingeschlagen haben – also sage ich dir auch, wann du unsere App lieber überspringen solltest.

Die kurze Antwort: was du nutzen solltest und wann Apple Dictation reicht

Für die meisten Mac-Nutzer ist 2026 die Wahl eine Diktier-App mit lokalem Modell, mit einer Cloud-Option als Notausgang. Wenn du hauptsächlich kurze Nachrichten verschickst, kostet das eingebaute Apple Dictation nichts und funktioniert in jedem Textfeld. Sobald dein Diktat länger oder technischer wird oder in einer App landen soll, die Apple nicht sauber erreicht, brauchst du ein spezialisiertes Tool.

Das spezialisierte Tool, zu dem ich greifen würde, führt die Transkription auf deinem Rechner aus. Auf einem Mac mit Apple Silicon ist das schnell, privat und funktioniert auch im Flugzeug mit ausgeschaltetem WLAN. Whisper by Remskill betreibt zwei lokale Engines – die quelloffene Whisper-Familie und NVIDIAs Parakeet – vollständig auf dem Gerät, ohne Python, ohne Server dazwischen. Du hältst Command und Option zusammen, um aufzunehmen, lässt eine der beiden Tasten los, um zu stoppen, und der Text erscheint dort, wo dein Cursor steht. Wenn du für höchste Genauigkeit lieber die neuesten OpenAI-Modelle nutzt, gibt es einen Cloud-Modus, der deinen eigenen OpenAI-Schlüssel verwendet. Dieselbe Tastenkombination, dasselbe Overlay, ein Umschalter.

Zwei Absätze, und das ist die ganze Entscheidung. Der Rest dieses Artikels ist die Begründung dafür, die ehrlichen Grenzen und die Apps, die du kennen solltest, bevor du dich festlegst.

Wie ich ausgewählt habe, damit du mir bewusst widersprechen kannst. Ich habe vier Dinge gewichtet, in dieser Reihenfolge. Bleibt das Audio auf deinem Mac – denn Privatsphäre ist keine Funktion, die man nachträglich anschraubt. Fügt es den Text an der Cursorposition in jeder App ein, oder sperrt es deine Wörter in seinem eigenen Fenster ein. Kommt es mit langer und technischer Sprache zurecht, nicht nur mit kurzen Notizen. Und was kostet es im täglichen Einsatz. Ein Tool kann bei der reinen Genauigkeit verlieren und trotzdem gewinnen, wenn es die ersten beiden Punkte perfekt löst. Die meisten verlieren bei den ersten beiden, während sie über den vierten am lautesten reden. Ich bin der Typ Architekt, der die Vergleichstabelle zeichnet, bevor er eine einzige App installiert – und die Tabelle stimmt spätestens beim zweiten Download nicht mehr. Diese hier hat den Praxistest überstanden.

Warum Apple Dictation an seine Grenzen stößt

Dictation
Apple Dictation: das schwebende Mikrofon-Widget, eingebaut in macOS. Kostenlos und gut – bis dein Diktat lang wird.

Durch die Hälfte der Mac-Diktier-Artikel, die du findest, zieht sich ein Mythos: Apple Dictation stoppe nach sechzig Sekunden hart. Das stimmte einmal in älteren macOS-Versionen, in denen kontinuierliches Diktieren nicht standardmäßig aktiviert war. Apples aktuelle Dokumentation sagt das Gegenteil: Du kannst Text beliebiger Länge ohne Zeitlimit diktieren, und das Diktat stoppt erst nach dreißig Sekunden Stille von selbst. Die Sechzig-Sekunden-Grenze ist also nicht mehr die eigentliche Schranke.

Die echten Grenzen sind leiser. Die Genauigkeit fällt bei Fachbegriffen, Namen und akzentbehafteter Sprache ab – also genau dort, wo längere Arbeit stattfindet. Apple zählt über vierzig Sprach- und Regionalvarianten, trennt dabei aber Englisch (USA) von Englisch (UK), um dorthin zu kommen – die Schlagzeilenzahl ist also größer als die Zahl der eigenständigen Sprachen. Es gibt kein eigenes Vokabular, keine Anpassung an deinen Fachjargon, keine KI-Aufbereitung lockerer Sprache zu sauberem Text. Es ist ein gutes kostenloses Mikrofon, das tippt. Es ist kein Schreibwerkzeug.

Genau diese Lücke ist der ganze Grund, warum „Apple Dictation Alternative“ eine Suche ist, die Leute eingeben. Sie haben das kostenlose ausprobiert. Es hat sie bis zu kurzen Notizen gebracht und dann nicht mehr gereicht.

Lokal vs. Cloud auf einem Mac: Privatsphäre, Geschwindigkeit und die Genauigkeitslücke

Jede Mac-Diktier-App steht auf einer Seite einer Linie: Sie führt das Modell auf deinem Rechner aus, oder sie schickt dein Audio an einen Server. Diese Linie zählt mehr als das Marketing.

Local-first bedeutet, dass das Audio deinen Mac nie verlässt. Nach einem einmaligen Modell-Download funktioniert die Transkription offline: kein Internet, keine Kontoprüfung, nichts in den Logs eines Anbieters. Für die E-Mail an die Schule deines Kindes, die Gehaltstabelle, den Schriftsatz, den du gerade entwirfst – das ist die richtige Voreinstellung. Auf Apple Silicon ist es außerdem schnell, weil das Modell auf Hardware läuft, die untätig dasteht, während du sprichst. Wenn du zum ersten Mal im Flugzeug mit ausgeschaltetem WLAN einen Absatz diktierst und den Text erscheinen siehst, wird die Debatte Cloud gegen Lokal mit einem Schlag konkret.

Whisper
Die echte Whisper-App, live – klick in die Einstellungen und sieh dir die Oberflächen für Lokal und Cloud nebeneinander an.

Ein Hebel für die Genauigkeit, den fast niemand erwähnt, schlägt die Modellwahl: dein Mikrofon. Ein anständiges USB-Mikrofon bringt für die Transkriptionsgenauigkeit mehr als der Sprung von einem kleinen zu einem großen Modell. Wenn deine Wörter verstümmelt herauskommen, repariere den Eingang, bevor du die Engine beschuldigst. Ich habe einen ganzen Abend damit verbracht, Modelle zu tauschen, um etwas zu beheben, das sich am Ende als mein Laptop neben einer laufenden Spülmaschine herausstellte. Die langweilige Lösung ist meistens die richtige.

Cancel
Whispers Aufnahme-Overlay – ein kleines schwebendes Widget im App-Blau, während du sprichst. Kein Screenshot, sondern es liegt über jeder App.

Cloud bedeutet die neuesten Modelle und die beste reine Genauigkeit. OpenAIs Transkriptionsmodelle führen bei der Genauigkeit im echten Einsatz – darum verdient sich eine Cloud-Option ihren Platz für das schwierigste Audio. In Whispers Cloud-Modus bringst du deinen eigenen OpenAI-Schlüssel mit. Die Transkription läuft über gpt-4o-mini-transcribe oder gpt-4o-transcribe, und das Audio geht direkt von deinem Rechner zu OpenAI. Wir sind nie dazwischen und speichern in keinem der beiden Modi Audio oder Transkripte.

Ich habe gesehen, wie Cloud-für-alles schiefgeht. Ein Team, mit dem ich gearbeitet habe, ließ einen externen Entwickler einen internen Diktier-Prototyp auf einem Spitzenmodell bauen, der für jede Äußerung die API aufrief – mit einer Retry-Logik, die etwas zu eifrig war. Das Cloud-Kosten-Dashboard zeigte zum Quartalsende eine fünfstellige Rechnung, das meiste davon vom viermaligen Transkribieren derselben Standup-Aufnahmen. Die Schlussfolgerung des CFO war simpel: Vielleicht sollten wir keinen Server dafür bezahlen, Meetings zu transkribieren, zu denen es längst Notizen gibt. Auf einem Mac brauchst du den Server meistens nicht. Die Cloud ist der Notausgang, nicht die Voreinstellung.

Die Mac-Diktier-Apps, die man kennen sollte

Du bist nicht für eine einzige Option hergekommen, hier also die, die auftauchen, wenn Leute Mac-Diktier-Tools vergleichen (ja, einschließlich der beiden, die nach demselben Open-Source-Modell benannt sind und den Support-Posteingang lebendig halten). Einzeiler, ehrlich dort, wo die Lücken sind.

  • Apple Dictation: kostenlos, eingebaut, funktioniert in jedem Textfeld. Am besten für kurze Notizen; kein eigenes Vokabular, und die Genauigkeit lässt bei langer oder technischer Sprache nach.
  • Whisper by Remskill: zwei lokale Engines plus ein BYOK-Cloud-Modus, Push-to-Talk-Tastenkombination, fügt an der Cursorposition in jeder App ein, kostenlos für die gesamte lokale Pipeline.
  • Superwhisper: eine Whisper-basierte Mac-App, die offline funktioniert, mit über 100 Sprachen und Übersetzung ins Englische wirbt und nach einer kurzen Pro-Testphase eine kostenlose Stufe hat. Wenn du die Testphasen-Hürde und das Wortlimit abwägst, hier ist unsere kostenlose Superwhisper-Alternative.
  • MacWhisper: ein beliebter, nur für den Mac gedachter Wrapper, der Whisper-Modelle lokal ausführt, mit einer kostenlosen Version und einem kostenpflichtigen Pro, vertrieben über Gumroad.
  • Wispr Flow: eine Cloud-Voice-to-Text-App für Mac, Windows, iPhone und Android, die mit über 100 Sprachen samt automatischer Erkennung und KI-Auto-Editing lockerer Sprache wirbt. Cloud-basiert, nicht offline-first.
  • Dragon (Nuance): das alte Schwergewicht, aber Nuance hat das einzelne Dragon-Produkt für den Mac vor Jahren eingestellt – für neue Mac-Nutzer ist es also keine echte Option mehr.
  • Otter.ai: ein Tool für Meeting-Notizen, das Zoom, Teams und Google Meet beitritt; eine andere Kategorie als das Diktieren an der Cursorposition, mit einer kostenlosen Stufe, die auf 300 Minuten pro Monat begrenzt ist.

Hier ein Vergleich mit echten Spezifikationen, keine Wand aus „schnell“ und „einfach“.

AppLokal oder CloudSprachabdeckungFügt an der Cursorposition in jeder App einAm besten für
Apple DictationAuf dem Gerät auf Apple Siliconüber 40 RegionalvariantenJaKurze Notizen, kostenlos
Whisper by RemskillBeides (lokal als Standard, Cloud optional)99 bei mehrsprachigem Whisper; Parakeet 25; ca. 57 in der OpenAI-CloudJaLängere Texte, offline, jede App
SuperwhisperLokal (offline)über 100 angegeben, mit ÜbersetzungJaOffline-Whisper auf dem Mac
Wispr FlowCloudüber 100 angegeben, automatische ErkennungJaPlattformübergreifendes KI-Editing
Otter.aiCloudEnglisch-geführtNein (Meeting-Notizen)Meeting-Transkription

Eine Anmerkung zu diesen Sprachzahlen, denn die meisten Übersichten machen sie falsch. Whispers 99 Sprachen gelten nur für die mehrsprachigen Modelle; die rein englischen Builds können Englisch und sonst nichts. Parakeet deckt Englisch plus 24 europäische Sprachen ab, insgesamt fünfundzwanzig, und keine asiatischen Sprachen und keine Übersetzung ins Englische. OpenAIs Cloud-Transkription führt rund siebenundfünfzig Sprachen auf. „Unterstützt jede Sprache“ ist ein Marketingsatz, keine Spezifikation.

Das richtige Setup für deinen Mac auswählen

Die richtige Wahl hängt von zwei Dingen ab: deinem Mac und dem, was du diktierst. Die App wählt nicht für dich. Sie zeigt drei Wege, und du entscheidest.

Whisper
Die echte Whisper-App – klick in die Einstellungen und die Modellauswahl, um Parakeet, ein Whisper-Modell oder den Cloud-Modus zu wählen.

Wenn du einen Mac mit Apple Silicon hast, egal welcher M-Chip, hast du die ganze Speisekarte. Lokales Parakeet ist das schnellste und läuft fünf- bis zehnmal schneller als Whisper auf der CPU – und es reicht für alltägliches englisches Diktieren völlig aus. Lokales Whisper ist langsamer, unterstützt aber 99 Sprachen, Übersetzung ins Englische und eigenes Vokabular – also die Wahl, wenn du zwischen Sprachen wechselst oder Kontrolle brauchst. Der Cloud-Modus ist die Wahl, wenn du die neueste OpenAI-Genauigkeit willst und nichts dagegen hast, OpenAI über deinen eigenen Schlüssel direkt zu bezahlen.

Die Modellgröße ist der andere Hebel. Die lokale Whisper-Reihe reicht von einem rund 140 MB großen Base-Modell bis zu einem 3 GB großen Large v3, wobei Parakeet bei etwa 600 MB liegt. Auf einem Mac mit 8 GB RAM bleibst du bei Parakeet oder den kleineren Whisper-Modellen und lässt die mit über 1,5 GB weg. Auf einem Apple-Silicon-Mac mit 16 GB läuft alles. Wenn du einen älteren Intel-Mac hast, läuft der Cloud-Modus auf jeder Hardware, und die kleinen lokalen Modelle funktionieren dort, wo die großen ins Stocken geraten – auch wenn die Desktop-App auf Apple Silicon ihre Stärken voll ausspielt.

So legst du die Tastenkombination fest: Auf macOS ist die Voreinstellung, Command und Option zusammen als Push-to-Talk zu halten, und du kannst sie in den Einstellungen auf alles umlegen, was nicht mit Spotlight oder der System-Diktiertaste kollidiert. Wenn du die komplette Anleitung willst – unser Leitfaden zu Voice-to-Text auf dem Mac geht das Setup Schritt für Schritt durch, und der Leitfaden zu Offline-Speech-to-Text geht tiefer darauf ein, alles mit ausgeschaltetem Netzwerk zu betreiben.

Wann du unsere App überspringen und etwas anderes nutzen solltest

Ich sage den stillen Teil laut. Wenn du nur dreißig Wörter lange Nachrichten abschickst und ab und zu eine kurze Notiz, installiere gar nichts. Apple Dictation ist kostenlos, in deinem Mac eingebaut und funktioniert in jedem Textfeld. Wir werden den Download irgendwo jenseits des Punktes wert, an dem Apples Genauigkeit und das fehlende eigene Vokabular zu schmerzen beginnen: längere Texte, technischer Fachjargon, mehrsprachige Arbeit, Diktieren innerhalb von Apps, wo du sauberes Einfügen an der Cursorposition willst. Wenn du vor allem Meetings mit mehreren Sprechern samt Zusammenfassungen und Kalenderlinks festhalten musst, ist das Otters Aufgabe, nicht unsere; seine kostenlose Stufe gibt dir 300 Minuten pro Monat. Andere Kategorie. Nimm die richtige.

Preise

Whisper ist für jeden angemeldeten Nutzer über die gesamte lokale Pipeline kostenlos: beide lokalen Engines, alle Sprachen, KI-Verbesserung über Ollama, Verlauf, Voreinstellungen, eigene Tastenkombination, Hardware-Beschleunigung. Keine Zahlungsmethode bei der Registrierung. Was du bezahlst, ist Whisper Pro, das die Cloud-Oberfläche hinzufügt: OpenAI-Cloud-Transkription, Cloud-KI-Verbesserung und Sprach-Websuche über deinen eigenen OpenAI-Schlüssel. Die Tarifoptionen findest du auf der Preisseite, damit die Zahlen immer aktuell sind. Apple Dictation bleibt, fürs Protokoll, kostenlos. Das ist die Messlatte, die jedes kostenpflichtige Mac-Diktier-Tool übertreffen muss.

Zwei Tage nach der Vorführung am Küchentisch kam meine Tochter mit einer Beschwerde zurück: Die Tastenkombination funktionierte in ihrer Zeichen-App nicht. Sie wusste nicht, was ein Tastenkonflikt ist. Sie wusste nur, dass es aufhörte zu funktionieren. Genau das ist die ganze Aufgabe einer guten Mac-Diktier-App: nicht den Krieg um die Funktionszahl zu gewinnen, sondern im Akt des Schreibens zu verschwinden – und reparierbar zu sein, wenn es das nicht tut. Die beste für dich ist die, von der du vergisst, dass du sie benutzt.

Willst du es auf deinem Mac sehen?

Lade Whisper herunter, halte Command und Option und sieh zu, wie das Transkript an deiner Cursorposition in jeder App erscheint.

Kostenloses lokales Diktieren für jeden angemeldeten Nutzer. Pro fügt die Cloud-Funktionen in einer separaten Testphase hinzu.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Lektüre