Von Denys Medvediev

Vergleich

Alternative zur Google-Spracheingabe: überall diktieren

Die Google-Spracheingabe bleibt in Google Docs gefangen. Hier kommt der ehrliche Direktvergleich mit einer Desktop-Diktier-App, die dort tippt, wo der Cursor steht – und eine klare Antwort darauf, wann das kostenlose Bordmittel trotzdem die richtige Wahl ist.

Zuletzt aktualisiert: Juni 2026

Mikrofon und Laptop auf einem Holzschreibtisch bei warmem Licht – ein Diktier-Setup, das in jeder App funktioniert

Die beste Alternative zur Google-Spracheingabe ist eine Desktop-Diktier-App, die in jedem Textfeld tippt, nicht nur in Google Docs. Whisper by Remskill läuft auf Windows und Mac, transkribiert offline mit kostenlosen lokalen KI-Modellen, setzt die Satzzeichen automatisch und fügt den Text dort ein, wo der Cursor steht – in E-Mails, Slack, Word oder jedem Browser.

Dienstagmorgen, eine 80-Wörter-E-Mail an eine Lehrerin, fällig vor dem Schulweg. Ich hatte die Spracheingabe in Google Docs offen, diktierte drei saubere Absätze, klickte zu Gmail, um die eigentliche Antwort zu schreiben, und ertappte mich dabei, wie ich auf ein Eingabefenster einsprach, das nie zuhörte. Die Google-Spracheingabe hat eine Regel: Bleib im Dokument. Das Mikrofon wohnt im Menü „Tools“ von Docs, und es folgt dir nicht nach draußen.

Also diktierst du in einem Tab, kopierst, wechselst, fügst ein, korrigierst die Satzzeichen, die du laut auszusprechen vergessen hast, und sendest. Dieser kleine Staffellauf ist das ganze Argument für eine Alternative. Die Entscheidung auf dieser Seite ist klar: das kostenlose Werkzeug behalten, das in einer einzigen App lebt – oder zu einer Diktierfunktion wechseln, die deinem Cursor überallhin folgt.

Hier liegt die Lücke: Die Google-Spracheingabe tippt in Google-Docs-Dokumente und in die Sprechernotizen von Slides – und dein Schreibtag bleibt nicht dort. Währenddessen ist die Desktop-Diktierfunktion erwachsen geworden: Lokale KI-Modelle laufen heute auf einem ganz normalen Laptop, bringen deine Formulierungen unterwegs in Form und schicken dein Audio nirgendwohin.

Dieser Vergleich stellt die Google-Spracheingabe neben Whisper by Remskill, die Desktop-Diktier-App, die ich entwickle – entlang von fünf Achsen: wo sie tippen, Satzzeichen, Sprachen, Datenschutz und Offline-Verhalten. Am Ende weißt du, was zu deinem Schreibstil passt. Wenn die ehrliche Antwort „bleib bei Google“ lautet, sagt der Abschnitt weiter unten genau das, ohne Umschweife. Ich diktiere fast alles, was ich schreibe, auch die Support-Antworten – das kommt also aus dem täglichen Gebrauch, nicht von einer Feature-Seite.

Was die Google-Spracheingabe gut kann – und wo sie aufhört

Erst die Anerkennung. Die Google-Spracheingabe ist mit einem Google-Konto kostenlos, braucht keine Installation und funktioniert in den aktuellen Versionen von Chrome, Edge und Safari. In einem Docs-Dokument oder in Sprechernotizen und Untertiteln in Slides ist die Erkennung ordentlich und die Sprachliste lang. Wenn du alles in Docs entwirfst, verdient sie sich ihren Platz – und unsere Anleitung zur Google Docs-Spracheingabe erklärt die Einrichtung im Detail.

Das Spracheingabe-Panel von Google, zur Veranschaulichung nachgebaut – ein Mikrofonkästchen, das nur in Docs und Slides existiert.

Die Grenzen sind genauso konkret. Satzzeichen sind Handarbeit: Du sagst „Punkt“, „Komma“, „Fragezeichen“, „neuer Absatz“. Und nicht in jeder Sprache stehen Satzzeichen zur Verfügung. Die Befehle zum Bearbeiten und Formatieren funktionieren nur auf Englisch – und nur, wenn sowohl deine Kontosprache als auch die Dokumentsprache Englisch sind. (Sprechernotizen in Slides bekommen die Spracheingabe, aber gar keine Sprachbefehle. Ich weiß auch nicht, warum.)

Und die Grenze, mit der dieser Artikel begann: Die Funktion existiert in zwei Google-Oberflächen und sonst nirgends. Gmail, Slack, dein CRM, dein Code-Editor, ein Webformular – Stille. Nichts davon ist ein Fehler. Es ist eine kostenlose Funktion, die genau das tut, was ihre eigene Hilfeseite verspricht – nicht mehr. Die Frage ist, ob dein Schreiben in diese Schachtel passt. Und wenn sie mitten im Satz aufhört zuzuhören, liegt das meist am Mikrofon, nicht an dir – unsere Lösungen zur Google Docs-Spracheingabe decken die üblichen Ursachen ab.

Eine Spracheingabe-Alternative, die in jeder App funktioniert

Whisper setzt auf das genaue Gegenteil: Diktieren gehört zum Betriebssystem, nicht zu einer einzelnen Website. Du drückst eine Tastenkombination: Ctrl+Space unter Windows oder gedrückt gehaltenes Command+Option auf dem Mac als Push-to-talk. Du sprichst. Du lässt los. Der Text landet dort, wo dein Cursor steht: in einer E-Mail, einem Chatfenster, einer Tabellenzelle, einer Commit-Nachricht. Es gibt keinen Kopierschritt, weil es kein „Quelldokument“ zum Kopieren gibt.

Whisper
Die echte Whisper-App, live auf dieser Seite eingebettet – klick dich durch die Einstellungen; es ist das tatsächliche Desktop-Frontend, kein Screenshot.

Das Tempo-Argument ist einfache Rechnerei. Diktieren läuft mit rund 145 Wörtern pro Minute gegenüber etwa 40 beim Tippen – das ist ein Unterschied von etwa Faktor 3,6. Auf einem M1 MacBook Air mit dem kleinen englischen Modell beträgt der Abstand zwischen dem Loslassen der Taste und dem erscheinenden Text 1,4 Sekunden.

Unter der Haube wählst du einen von drei Wegen, und die App entscheidet das nicht für dich. Der Cloud-Modus verbindet sich mit OpenAI über deinen eigenen API-Schlüssel und nutzt gpt-4o-mini-transcribe oder gpt-4o-transcribe. Parakeet, NVIDIAs lokale Engine, läuft auf der CPU 5- bis 10-mal schneller als Whisper-Modelle und deckt Englisch plus 24 europäische Sprachen ab. Und die lokalen Open-Source-Whisper-Modelle reichen von einem 140 MB großen englischen Modell bis zum 3 GB großen Large v3. Die App gibt es für Windows und für Macs mit Apple Silicon.

Google-Spracheingabe vs. Whisper im direkten Vergleich

Die Kriterien, vor der Tabelle festgelegt: wo das Werkzeug tippt, worin es läuft, Satzzeichen, Sprachbefehle, Sprachabdeckung, Offline-Verhalten und die Preisstruktur. Das sind die sieben Dinge, die es für mich entschieden haben, als ich noch das Docs-Mikrofon nutzte. Die Google-Spalte stammt aus Googles eigener Hilfeseite; die Whisper-Spalte stammt aus dem Quellcode der App, den ich von hier aus einsehen kann.

Google-SpracheingabeWhisper
Wo es tipptDocs-Dokumente, Sprechernotizen und Untertitel in SlidesJedes Textfeld auf deinem Computer
Läuft inAktuellem Chrome, Edge, SafariDesktop-App, Windows + macOS (Apple Silicon)
SatzzeichenLaut ausgesprochen; nicht in jeder Sprache verfügbarVon der KI-Aufbereitung gesetzt
SprachbefehleNur Englisch, Konto- und Dokumentsprache beide EnglischSchlüsselwort „Hey whisper“ plus eigene Presets
SprachenLange Liste, mit sprachabhängigen Grenzen bei den Satzzeichen90+ bei den mehrsprachigen Whisper-Modellen, 25 bei Parakeet, reine .en-Builds für Englisch
OfflineBrowser-Funktion; Offline-Nutzung ist nicht dokumentiertLokaler Modus funktioniert ganz ohne Internet
PreisstrukturKostenlos mit einem Google-KontoLokaler Modus kostenlos; Cloud-Funktionen kostenpflichtig – Preise ansehen

Das Fazit deckt sich mit dem ersten Absatz: Whisper ist die Wahl, sobald dein Schreiben Google Docs verlässt. Die Google-Spracheingabe bleibt die richtige Antwort für alle, deren Schreiben das nie tut. Dieser Fall bekommt seinen eigenen Abschnitt weiter unten, und das meine ich ernst.

Spracheingabe online vs. Spracheingabe auf deinem Desktop

Hände tippen an einem aufgeräumten weißen Schreibtisch auf einem Laptop – der Browser-Workflow, den die Online-Spracheingabe ersetzt

„Spracheingabe online“ meint meistens eine Website, die du in einem Tab öffnest: eine kostenlose Seite mit einer Mikrofon-Schaltfläche, die in ein Textfeld transkribiert. Diese Tools setzen auf die Spracherkennungs-Engine des Browsers, und die Dokumentation der Web Speech API bei MDN sagt unverblümt, wie das funktioniert: „Ihr Audio wird zur Erkennungsverarbeitung an einen Webdienst gesendet, daher funktioniert es nicht offline.“ Dieselbe Seite benennt die beiden Kosten: Datenschutz, weil deine Sprache den Rechner verlässt, und Zuverlässigkeit, weil keine Verbindung keine Transkription bedeutet.

Für eine einmalige Notiz ist eine Online-Spracheingabeseite völlig in Ordnung. Die Steuer fällt bei der Wiederholung an: Jedes Diktat endet mit markieren, kopieren, wechseln, einfügen. Ich habe einmal eine Einkaufsliste in den falschen Tab diktiert und in eine Budgettabelle eingefügt. Etwa zehn Sekunden lang enthielten die Q3-Prognosen „Joghurt, die kleinen, nicht die großen“. Ein Desktop-Tool beseitigt diese ganze Sorte von Missgeschicken, weil der Text dort beginnt, wo er endet – an deinem Cursor. Und wenn das Browser-Mikrofon zickt, liegt die Lösung in den Browser-Einstellungen, was wiederum ein eigener Nachmittag ist. Wir haben die Lösungen für die Chrome-Diktierfunktion aufgeschrieben, nachdem genug Leute gefragt hatten.

Satzzeichen und Aufbereitung: die Korrektur-Steuer, die niemand mitzählt

Die nüchterne Wahrheit ist, dass die Transkription nie der langsame Teil war. Die Aufbereitung ist es. Bei der Google-Spracheingabe sprichst du deine Satzzeichen aus („Punkt“, „neuer Absatz“), was funktioniert, dich aber zu einem Menschen macht, der Kommas vorliest. Ich habe die Befehle für diesen Artikel getestet, und mein Testdokument enthielt am Ende elfmal das Wort „Komma“. Die Angewohnheit folgt dir auch nach Hause: Ich habe seitdem in einem echten Gespräch einen gesprochenen Satz mit „Punkt“ beendet.

Thinking...
Das Whisper-Overlay im Zustand „enhancing“ – der KI-Aufbereitungsschritt, der läuft, nachdem du die Tastenkombination loslässt.

Whisper schickt das Roh-Transkript stattdessen durch einen KI-Aufbereitungsschritt: Grammatik korrigiert, Füllwörter entfernt, Satzzeichen dorthin gesetzt, wo sie hingehören. Im lokalen Modus läuft das über Ollama; im Cloud-Modus nutzt es OpenAI-Modelle, mit gpt-5-mini als Standard-Aufbereiter. Beginne einen Satz mit „Hey whisper“, und die KI behandelt das Folgende als Anweisung statt als zu tippenden Text: „Hey whisper, mach diese Antwort höflich, aber bestimmt“ ist ein echter Arbeitsablauf, keine Demo. Der Unterschied im Gefühl lässt sich kaum überschätzen. Das eine Werkzeug verlangt, dass du die Formatierung aufführst. Das andere lässt dich wie ein Mensch reden und gibt dir etwas zurück, das du so abschicken würdest.

Datenschutz: wohin deine Stimme geht

Hier die Meinung, die ich verteidigen werde: Eine Diktierfunktion, die deine Stimme an einen Server schickt, den du nicht kontrollierst, ist ein Datenschutzproblem – und für manche Arbeit ein Ausschlusskriterium. Browserbasierte Spracheingabe funktioniert, indem sie Audio zur Verarbeitung nach außen sendet. Für eine Einkaufsliste ist das in Ordnung. Bei einem Vertragsentwurf, einer Patientennotiz oder der E-Mail über die Schulsituation deines Kindes ist das eine ganz andere Diskussion.

Die Kostenseite dieser Lektion habe ich aus nächster Nähe miterlebt. Ein Team, mit dem ich gearbeitet habe, ließ von einem Freelancer einen internen KI-Diktierprototyp bauen, der für jede Äußerung eine Cloud-API aufrief. Zum Quartalsende öffnete der Manager das Kosten-Dashboard: eine fünfstellige Rechnung, der größte Teil davon ein einzelnes Team, das Standup-Aufnahmen viermal transkribierte, weil die Retry-Logik zu übereifrig war. Der Freelancer schlug vor, den Prompt zu optimieren. Der CFO schlug vor, keinen Server dafür zu bezahlen, Meetings abzuhören, zu denen es schon Notizen gab. Beide hatten in irgendeiner Hinsicht recht.

Whispers lokaler Modus beendet die Frage, statt darüber zu streiten: Das Modell läuft auf deinem Rechner, nichts verlässt das Gerät, und es ist überhaupt kein Internet nötig. Gleiche Tastenkombination, gleicher Ablauf, null Audio unterwegs.

Wann du Whisper überspringst und bei Google bleibst

Wenn jedes Wort, das du diktierst, in einem Google Doc landet, bleib bei der Google-Spracheingabe. Sie kostet nichts, sie ist schon im Menü „Tools“, und innerhalb von Docs erledigt sie die Aufgabe – das ist eine harte Kombination, gegen die schwer zu argumentieren ist, und ich tue auch nicht so, als wäre es anders. Dasselbe gilt, wenn du zweimal im Monat diktierst: eine Desktop-App zu installieren, um zwei Kopier-Einfüge-Schritte zu sparen, ist überkonstruiert, und das sage ich aus professioneller Sicht. Whisper verdient sich seinen Platz, wenn dein Schreiben regelmäßig das Dokument verlässt (E-Mail, Chat, Formulare, Notizen) oder wenn dir Satzzeichen-per-KI, Offline-Nutzung oder das Behalten des Audios auf deinem Rechner wichtig sind. Bis dahin ist das kostenlose Bordmittel das richtige Werkzeug.

Lesenswerte Quellen

Diese Lehrerinnen-E-Mail vom Anfang der Seite wurde am Ende doch abgeschickt – direkt in Gmail diktiert, ohne Umweg über ein Doc, Satzzeichen inklusive, ohne dass ich ein Wort davon sagen musste. Der Tab mit Google Docs blieb geschlossen. Das ist der ganze Vergleich in einem Augenblick: Das kostenlose Werkzeug verlangt, dass dein Schreiben zu ihm kommt, und die Alternative geht dorthin, wo das Schreiben ohnehin schon ist. Wähl die Richtung, die zu deinem Tag passt.

Probier die Tastenkombination bei deiner nächsten E-Mail

Lade Whisper für Windows oder Mac herunter, drück einmal, sprich, und sieh zu, wie der Text dort landet, wo dein Cursor schon steht.

Der lokale Modus ist kostenlos, funktioniert offline und schickt niemals Audio irgendwohin.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.