Von Denys Medvediev

Spracheingabe · Ratgeber

Spracheingabe-App: was du auf jedem Gerät installieren solltest

Auf Android und iPhone nutzt du am besten die Diktierfunktion, die schon in der Tastatur steckt. Sie ist kostenlos und gut. Auf Windows und Mac taugen die mitgelieferten Werkzeuge für kurze Texte, sind beim ernsthaften Schreiben aber schnell am Ende. Eine Desktop-App zur Spracheingabe wie Whisper ergänzt einen globalen Hotkey, lokale Modelle für die Offline-Nutzung und Text, der in jeder App genau dort landet, wo du ihn brauchst.

Zuletzt aktualisiert: Juni 2026

Laptop und Smartphone nebeneinander auf einem Holzschreibtisch – die beiden Orte, an denen eine Spracheingabe-App leben kann

Eine Spracheingabe-App verwandelt Sprache in Text, genau dort, wo der Cursor steht. Auf dem Handy erledigt das die mitgelieferte Tastatur längst: Gboard auf Android, die Mikrofontaste auf der iPhone-Tastatur. Auf Windows- und Mac-Desktops bringen die eingebauten Werkzeuge mehr Einschränkungen mit – und genau hier verdient sich eine eigene Desktop-App wie Whisper by Remskill ihren Platz.

Such in irgendeinem App-Store nach "Spracheingabe-App", und du bekommst seitenweise Tastatur-Apps – jede ein Mikrofon-Knopf in neuem Anstrich. Die zugrunde liegenden Zahlen bewegen sich derweil nicht: Die meisten Menschen tippen rund 40 Wörter pro Minute und sprechen rund 145. Diese Lücke ist der ganze Grund, warum es diese Kategorie überhaupt gibt.

Ich habe selbst so eine App gebaut und mich letzte Woche trotzdem dabei ertappt, eine 400-Wörter-Mail mit den Daumen zu tippen. Gewohnheiten überleben ihre Gründe. Der Haken: Die richtige Antwort hängt davon ab, welches Gerät du gerade in der Hand hältst – und für eines davon kostet die richtige Antwort nichts und war von Anfang an vorinstalliert.

"Spracheingabe-App" beschreibt zwei völlig verschiedene Situationen unter einem Namen, und die meisten Übersichten sagen das nie dazu. Auf dem Handy ist Diktieren ein gelöstes Problem, das die App-Stores immer wieder neu verkaufen; auf dem Desktop, wo das lange Schreiben passiert, kommen die eingebauten Werkzeuge mit Bedingungen. Der vernünftige Weg, zu wählen, ist nach Gerät.

Am Ende dieser Seite weißt du, was du auf dem Handy lassen solltest, wo die eingebauten Desktop-Werkzeuge an ihre Grenzen stoßen und was du installieren solltest, wenn du sie hinter dir lässt. Ich baue beruflich eine Desktop-App zur Spracheingabe – und das Erste, was ich den Leuten sage, ist: Installier auf deinem Handy gar nichts.

Handys kommen längst mit einer Spracheingabe-App

Hände halten ein Smartphone, dessen eingebaute Tastatur das Diktieren bereits beherrscht

Die unspektakuläre Wahrheit: Die beste Spracheingabe-App für dein Handy ist die Tastatur, die schon dabei war. Auf Android macht es Gboard: Tippe in ein Textfeld, tippe oben auf der Tastatur aufs Mikrofon und sprich, sobald "Jetzt sprechen" erscheint. Satzzeichen kannst du laut aussprechen, etwa "Punkt", "Komma" und "neuer Absatz" – Google weist allerdings darauf hin, dass Satzzeichen und Sprache-zu-Text nicht in jeder Sprache verfügbar sind. Auf dem iPhone hat die Tastatur eine Mikrofontaste, die genau dasselbe leistet.

Das deckt Nachrichten, E-Mails, Suchfelder und Notizen ab – also fast alles, was man auf einem Handy schreibt. Ein typisches Handy-Diktat ist eine E-Mail-Antwort von 50–150 Wörtern, etwa 30 Sekunden Sprechen; das eingebaute Mikrofon schafft das ohne Murren. Die Drittanbieter-Tastatur-Apps, die die Store-Ergebnisse verstopfen, verpacken genau dieses Mikrofon in anderes Branding, manchmal mit einem Abo obendrauf. Bevor du eine installierst, probier den Knopf aus, den du längst hast. Das ist eine der seltenen Produktkategorien, in denen die kostenlose, vorinstallierte Option zugleich die vernünftige ist.

Eine ehrliche Offenlegung, denn genau hier würde ein Anbieter zu seiner Mobile-App überleiten: Wir haben keine. Whisper by Remskill ist eine Desktop-App für Windows und macOS, Punkt. Wenn dein Diktier-Leben auf dem Handy stattfindet, ist die eingebaute Tastatur meine Empfehlung – und du darfst diesen Tab mit meinem Segen schließen.

Auf Desktops stoßen die eingebauten Werkzeuge an ihre Grenzen

Beide Desktop-Betriebssysteme bringen eine Spracheingabe mit, und beide solltest du kennen, bevor du irgendetwas installierst. Unter Windows 11 drückst du Windows-Taste + H, und ein kleines Spracheingabe-Widget erscheint. Es braucht drei Dinge: eine Internetverbindung, ein funktionierendes Mikrofon und deinen Cursor in einem Textfeld. Es unterstützt mehr als 40 Sprachen und kann Satzzeichen für dich einfügen, wenn du diese Einstellung aktivierst. Die Internet-Voraussetzung ist die Grenze, die man sich merken muss. Win+H ist großartig – bis genau zu dem Moment, in dem das Hotel-WLAN streikt.

Spracheingabe

Hört zu…

Win + H
Eine vereinfachte Skizze des Windows-Spracheingabe-Widgets – das eingebaute Werkzeug hinter Win + H.

Auf dem Mac startest du das Diktieren über die Mikrofontaste in der Funktionszeile, ein Tastaturkürzel oder über Bearbeiten > Diktieren starten. Es gibt keine Längenbegrenzung, aber nach 30 Sekunden Stille hört es von selbst auf – was in der Praxis heißt, dass es genau dann abbricht, wenn du an die Decke starrst und nach dem richtigen Wort suchst. In unterstützten Sprachen setzt es Satzzeichen ungefragt, und Apple weist darauf hin, dass Diktieren nicht in allen Sprachen oder Regionen verfügbar ist.

Keines der beiden Werkzeuge ist schlecht, und beide reichen für einen Satz oder drei. Die Grenzen zeigen sich, sobald das Schreiben ernst wird. Ein eigenes Vokabular für deine Produktnamen und Kund:innen steht auf keiner der beiden Funktionslisten, und ebenso wenig eine KI-Bereinigung der "ähm, also"-Schicht, die jede gesprochene Sprache mit sich trägt. Auf dem Mac kannst du prüfen, ob das Diktieren auf dem Gerät läuft; unter Windows geht das Werkzeug in dem Moment aus, in dem du offline bist. Diese Grenzen sind der Grund, warum es Desktop-Apps zur Spracheingabe als eigene Kategorie gibt.

Was eine Desktop-App zur Spracheingabe wirklich können sollte

Mechanische Tastatur mit einer orangefarbenen Akzenttaste auf einem Holztisch

Der Mechanismus ist schnell beschrieben. Eine Desktop-App zur Spracheingabe sitzt im Hintergrund, lauscht auf einen globalen Hotkey, nimmt auf, solange du ihn hältst, schickt den Ton durch ein Spracherkennungs-Modell und fügt das Ergebnis dort ein, wo dein Cursor steht. Jeder Teil dieses Satzes ist etwas, das du vor der Installation prüfen solltest.

Der Hotkey ist wichtig, weil er das Diktieren zum Reflex macht statt zu einer Funktion, die man extra aufsucht. Der Teil "wo dein Cursor steht" ist wichtig, weil Schreiben in E-Mails, Slack, einem CRM, einem Code-Editor und einem Browser-Formular passiert; ein Werkzeug, das nur im eigenen Fenster tippt, ist ein Notizblock mit Mikrofon. Das Modell ist gleich doppelt wichtig: einmal für die Genauigkeit, einmal dafür, wohin dein Ton geht. Lokale Modelle laufen auf deinem Rechner und funktionieren offline. Cloud-Modelle senden den Ton an einen Server und transkribieren oft besser. Eine gute Desktop-App lässt dich je nach Situation wählen, statt für dich zu entscheiden.

Auch das Tempo gehört auf die Liste, und zwar in klaren Zahlen. Auf einem M1 MacBook Air mit einem kleinen lokalen englischen Modell braucht Whisper vom Loslassen der Taste bis zum eingefügten Text etwa 1,4 Sekunden; im Cloud-Modus über eine ordentliche Verbindung etwa 1,1 Sekunden. Eine Antwort in diesem Bereich hält das Diktieren in der "Reflex"-Kategorie. Wenn ein Werkzeug dich warten lässt, ein Fenster öffnen oder Text aus einem Panel kopieren lässt, frisst die Reibung den Geschwindigkeitsvorteil auf, für den du gekommen bist.

Hier ist meine einzige Meinung für diese Seite: Der beste Produktivitäts-Trick sind weniger Schritte, nicht schnellere Schritte. Die meisten Werkzeuge versuchen, das Tippen zu beschleunigen. Spracheingabe löscht es. Der Ablauf geht von "anhalten, hinsetzen, tippen" zu "sprechen, fertig" – und genau so schlägt Sprechen mit 145 Wörtern pro Minute das Tippen mit 40, ohne dass irgendjemand etwas Neues lernen muss. Eine App, die wieder Schritte hinzufügt, hat den Sinn ihrer eigenen Kategorie verfehlt.

Für eine ausführlichere Tour durch die Kategorie selbst – Engines, Genauigkeit, das Lokal-gegen-Cloud-Abwägen – haben wir einen eigenen Erklärtext zu Spracheingabe-Software. Diese Seite bleibt bei der engeren Frage: Was installiert man, je nach Gerät.

Wie Whisper die Spracheingabe auf Windows und Mac handhabt

Whisper by Remskill ist unsere Antwort auf die Desktop-Hälfte der Frage. Du hältst einen Hotkey (Ctrl+Space unter Windows, Command+Option auf dem Mac), sprichst, lässt los – und der Text landet dort, wo dein Cursor steht, in jeder App. Während du sprichst, schwebt ein kleines Overlay über dem Bildschirm, damit du siehst, dass zugehört wird.

Cancel
Das Whisper-Aufnahme-Overlay, live – das ist die ausgelieferte UI, animiert, kein Screenshot.

Unter der Haube wählst du zwischen drei Wegen, und die App wählt nicht für dich.

  • Lokales WhisperAuf Englisch optimierte und mehrsprachige Modellfamilien, vom rund 140 MB großen Base-Modell bis zum etwa 3 GB großen Large v3. Die mehrsprachige Familie deckt mehr als 90 Sprachen ab, inklusive automatischer Erkennung. Die rein englischen Modelle sind genau das – nur Englisch –, wähl also die mehrsprachige Familie, wenn du untertags die Sprache wechselst.
  • Lokales ParakeetLäuft auf der CPU 5–10× schneller als Whisper und deckt Englisch plus 24 europäische Sprachen ab. Die Überholspur für überwiegend englisches Diktieren.
  • Cloud (dein eigener OpenAI-Schlüssel)Verbindet sich mit deinem eigenen API-Schlüssel zu OpenAI und nutzt gpt-4o-mini-transcribe oder gpt-4o-transcribe für die Spracherkennung selbst und gpt-5-mini für die optionale KI-Bereinigung.

Alles Lokale ist kostenlos: Die Modelle laufen auf deinem Gerät, funktionieren offline, senden nirgendwohin etwas, und für die Anmeldung ist keine Karte nötig.

Es gibt noch einen Kniff, der sich zu kennen lohnt: ein KI-Schlüsselwort. Beginne eine Aufnahme mit "Hey whisper", und die App löst eine KI-Verarbeitung des transkribierten Texts aus, statt ihn unverändert einzufügen. Diktieren für die alltäglichen Sätze, ein Assistent für die Momente, in denen du den Text umgearbeitet haben willst. In beiden Fällen derselbe Hotkey.

Der Test, dem ich am meisten traue, war kein Benchmark. Ich gab Whisper meiner jüngeren Tochter, zeigte es ihr einmal (drücken, sprechen, loslassen, einfügen), und sie diktierte eine 90-Wörter-Mail an ihre Großmutter über einen verlorenen Zahn und den Umrechnungskurs der Zahnfee – keine Rückfragen. Zwei Tage später meldete sie, dass "der Hotkey in meiner Mal-App nicht funktioniert", und so lernte ich, dass normale Nutzer:innen nicht wissen, was ein Hotkey-Konflikt ist. Sie wissen nur, dass es nicht geht. Die Einstellung für den anpassbaren Hotkey ging noch in derselben Nacht raus. Wenn eine Siebenjährige die Schleife bedienen kann, ist die Schleife einfach genug.

Whisper
Die echte Whisper-Desktop-App, live eingebunden – klick dich durch die Einstellungen und die Modellauswahl.

Die eingebettete App oben ist das echte Desktop-Frontend, kein Screenshot; klick dich ruhig durch. Und um die Offenlegung zu wiederholen, denn Installationsabsicht verdient eine klare Antwort: Whisper läuft auf Windows und auf Macs mit Apple Silicon, und sonst nirgends.

Eine kurze Checkliste, bevor du irgendetwas installierst

Software zu installieren ist eine Verpflichtung, selbst wenn die Software kostenlos ist. Fünf Fragen klären das schneller als jede Test-Übersicht:

  • Auf welchem Gerät schreibst du wirklich? Meistens Handy: Behalt die eingebaute Tastatur-Diktierfunktion und gib nichts aus.
  • Tippt sie in jeder App? Achte auf einen globalen Hotkey, der am Cursor einfügt – nicht auf ein separates Fenster, aus dem du kopierst.
  • Funktioniert sie offline? Die Windows-Spracheingabe kann es nicht. Lokale Modelle schon. Wenn dein Schreiben Dinge enthält, die keinen Server besuchen sollten, steht diese Frage an erster Stelle.
  • Welche Sprachen, gezählt pro Engine? 40+ für die Windows-Spracheingabe, 90+ bei Whispers mehrsprachigen Modellen, 25 bei Parakeet, nur Englisch bei den .en-Modellen.
  • Hast du zuerst das Mikrofon in Ordnung gebracht? Ein USB-Mikrofon für $20 bringt für die Genauigkeit mehr als jedes Modell-Upgrade. Ich baue die Software, und trotzdem gewinnt das Mikrofon. Niemand in dieser Branche sagt das gern laut.

Wenn du wegen der Forschungs-Perspektive hier bist – Genauigkeitszahlen, wie die Engines abschneiden –, deckt der Erklärtext zur Sprache-zu-Text-App diese Seite ab. Die Tarife und was darin enthalten ist, stehen auf der Preisseite; die Kurzfassung lautet: Alles Lokale kostet nichts.

Wann du Whisper auslassen solltest

Wenn dein Diktieren auf dem Handy passiert, lass uns aus. Wir haben keine Mobile-App, und das Diktieren von Gboard oder der iPhone-Tastatur ist kostenlos und völlig ausreichend. Wenn du auf einem Mac am Tag einen Satz oder zwei schreibst, ist Apple Dictation eingebaut, startet über die Mikrofontaste und setzt für dich Satzzeichen.

Wenn du Meeting-Transkriptionen mit mehreren Sprecher:innen und Zusammenfassungen brauchst, ist das eine andere Produktkategorie als das Schreiben per Stimme, und du solltest dich stattdessen in dieser Kategorie umsehen. Und wenn du Linux oder einen Intel-Mac nutzt: Dort läuft Whisper nicht, also sind die eingebauten Werkzeuge und Browser-Tools deine ehrlichen Optionen.

Quellen

Vor zwanzig Jahren hieß Spracheingabe, deinem Computer Kalibrierungsskripte vorzulesen und zu hoffen. Heute passt die ehrliche Zusammenfassung in zwei Zeilen: Dein Handy macht es längst, und dein Desktop kann es mit einer einzigen Installation ordentlich. Das Mikrofon ist schon eine ganze Weile das schnellste Eingabegerät auf deinem Schreibtisch. Die meisten von uns haben die Taste nur noch nicht gedrückt.

Hol dir eine Spracheingabe-App auf deinen Desktop

Lade Whisper herunter, halt einen Hotkey, und sieh zu, wie der Text dort landet, wo dein Cursor steht.

Läuft auf Windows und Macs mit Apple Silicon. Alles Lokale ist kostenlos. Deine Tastatur ist noch da, wenn du sie brauchst.

Foto von Denys Medvediev

Denys Medvediev

Ich bin der, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.