Ratgeber
Software für Spracheingabe: kostenlose Bordmittel gegen kostenpflichtige Tools
Die beste Software für Spracheingabe steckt oft längst auf deinem Rechner. Hier erfährst du, welche du nutzen solltest und wann sich eine eigene App wirklich lohnt.
Zuletzt aktualisiert: Juni 2026

Software für Spracheingabe hört über ein Mikrofon zu und schreibt mit, was du sagst – sie verwandelt Sprache in bearbeitbaren Text mit rund 145 Wörtern pro Minute, gegenüber etwa 40 beim Tippen. Die guten Tools arbeiten systemweit, sodass die Wörter direkt am Cursor landen. Manche sind kostenlos und in Windows und Mac eingebaut; kostenpflichtige Apps ergänzen Offline-Modus und KI-Korrektur.
Sprich, und die Wörter landen an deinem Cursor
Beim ersten Mal fühlt es sich an wie ein kleiner Zaubertrick. Du hältst eine Taste, sprichst einen Satz, lässt los – und der Satz steht einfach da in deiner E-Mail. Keine Tastatur. Eine jüngere Verwandte von mir hat ihrer Großmutter einmal eine 90 Wörter lange Nachricht diktiert, bevor ich überhaupt erklärt hatte, was Diktieren ist. Das Sprechen war nie das Schwierige. Zwei Jahrzehnte lang war das Schwierige, dass die Software gut genug sein musste, um ihr zu vertrauen – und dieser Teil ist endlich gelöst.
In diesem Artikel geht es darum, welche Software für Spracheingabe deine Zeit wert ist – einschließlich der kostenlosen Optionen, die dir längst gehören.
Die meisten, die an der Tastatur festhängen, tun das aus Gewohnheit, nicht aus Notwendigkeit. Tippen ist ein erlernter Kompromiss, eine Art, Gedanken aus dem Kopf in eine Maschine zu bringen, die keine Ohren hat. Software für Spracheingabe macht diesen Kompromiss überflüssig. Die Frage war etwa ab 2022 nicht mehr, ob es funktioniert, sondern welche du nimmst – und ob du dafür zahlen musst.
Die ehrliche Antwort hängt von drei Dingen ab: wie lange du diktierst, ob es in jeder App funktionieren soll und ob es dir wichtig ist, dass deine Wörter nie deinen Laptop verlassen. Am Ende dieses Artikels weißt du, welcher Weg passt – und ich sage dir, wann die kostenlose Bordlösung schon alles ist, was du brauchst. Ich lese den Großteil der Support-Mails für diese App, und ein stetiger Teil davon kommt von Leuten, die für ein Tool bezahlt haben, obwohl das auf ihrem Rechner längst vorhandene den Job erledigt hätte. Ich habe also ein kleines Eigeninteresse daran, dir einen Kauf auszureden.
Was Software für Spracheingabe ist

Software für Spracheingabe ist ein Programm, das Audio von deinem Mikrofon aufnimmt und es mithilfe eines Spracherkennungsmodells in geschriebenen Text umwandelt. Der ältere Name ist Diktiersoftware. Der neuere Marketingname ist KI-Diktat, was meist dasselbe meint, nur mit einem Sprachmodell obendrauf, das Zeichensetzung und Ton korrigiert.
Es gibt drei Formen. Eingebautes Diktieren kommt mit deinem Betriebssystem: Windows-Spracheingabe, Apple Dictation. Browserbasierte Spracheingabe lebt in einer einzigen App, etwa der Spracheingabe in Google Docs. Und eigenständige Desktop-Apps installieren sich separat und funktionieren überall dort, wo du tippst. Die Form zählt mehr als die Marke. Ein Browser-Tool, das nur in Google Docs schreibt, ist für deine Slack-Nachrichten nutzlos, egal wie gut seine Genauigkeit ist. Die erste Frage zu jedem Tool ist nicht, wie genau es ist, sondern wo es dich tippen lässt. Genauigkeit ist bei den meisten inzwischen ein gelöstes Problem; Reichweite nicht.
Was ein ernsthaftes Werkzeug von einem Spielzeug trennt, ist, wo es einfügt. Eingebaute und eigenständige Desktop-Tools arbeiten systemweit: Drück das Tastenkürzel in einem beliebigen Textfeld, und der Text erscheint dort. Das ist der ganze Trick. Alles andere – Genauigkeit, Sprachen, KI-Korrektur – ist nur eine Verfeinerung auf der Frage, ob es dort tippt, wo du gerade hinschaust.
Ein zweites Merkmal trennt die Kategorien: was das Modell hören kann. Manche Tools beherrschen nur Englisch. Andere beherrschen Dutzende Sprachen und können mitten im Satz wechseln. Die rein englischen Modelle von Whisper unterstützen genau eine Sprache, während seine mehrsprachigen Varianten 99 abdecken. NVIDIAs Parakeet liegt mit 25 Sprachen in der Mitte – Englisch plus 24 europäische. Wenn du ohnehin nur auf Englisch schreibst, spielt das alles keine Rolle, und du solltest stattdessen nach Geschwindigkeit auswählen. Wenn du vor dem Mittagessen in zwei Sprachen entwirfst, zählt es sehr. Die meisten überschätzen, wie viele Sprachen sie brauchen, und unterschätzen, wie sehr ihnen die Latenz wichtig ist. Die Verzögerung zwischen dem Loslassen der Taste und dem Erscheinen des Textes spürst du jedes einzelne Mal.
Wenn du die systemweite Version lieber in Aktion siehst, als über die Kategorie zu lesen: Die Whisper-Seite zur Spracheingabe zeigt den Hotkey-halten-Ablauf auf Windows und Mac, kostenlose lokale Engines inklusive.
Wie es funktioniert (und warum die Genauigkeit endlich gut wurde)
Unter der Haube hat die Pipeline drei Schritte. Dein Mikrofon nimmt einen kurzen Audioclip auf. Ein Spracherkennungsmodell verwandelt dieses Audio in Text. Dann wird der Text eingefügt, manchmal nachdem ein Sprachmodell ihn aufgeräumt hat.
Der Genauigkeitssprung, den alle bemerkt haben, kam vom Modell in der Mitte. Das quelloffene Whisper-Modell von OpenAI hat verändert, was gut bedeutet. Es bewältigt Akzente, Hintergrundgeräusche und 99 Sprachen in seinen mehrsprachigen Varianten – ganz ohne Trainingsschritt. Genau das ist die stille Revolution. Du bringst moderner Software für Spracheingabe deine Stimme nicht bei. Du installierst sie und sprichst.
Ich bin alt genug, um mich zu erinnern, als das noch Science-Fiction war. Ende der 1990er ließ ein Verwandter Dragon NaturallySpeaking auf einem Windows-98-Rechner mit 64 MB RAM laufen. Die Einrichtung bedeutete, 45 Minuten lang eine Wortliste vorzulesen, damit die Software sich auf deine Stimme einstellen konnte. Dann funktionierte es, gerade so, bei vielleicht 70 % Genauigkeit, mit vier Sekunden Verzögerung pro Satz. Es dauerte fünfzehn Minuten, einen Absatz eines Weihnachtsbriefs zu diktieren. Das Headset flog durch den Raum. Das Headset überlebte; das Experiment nicht. Fünfundzwanzig Jahre später dauert dieselbe Aufgabe neunzig Sekunden und null Training. Die Hardware hat die Idee eingeholt.
Heute gibt es zwei Geschmacksrichtungen des mittleren Schritts. Lokale Verarbeitung lässt das Modell auf deinem eigenen Computer laufen, offline, sodass dein Audio die Maschine nie verlässt – so wie Offline-Sprache-zu-Text funktioniert. Cloud-Verarbeitung schickt das Audio an einen Server, was auf schwacher Hardware schneller sein kann, aber bedeutet, dass deine Wörter reisen. Was du willst, hängt davon ab, was du diktierst. Eine Einkaufsliste – egal. Der Vertrag deines Kunden – vielleicht nicht egal.
Der dritte Schritt, das Aufräumen, ist der Ort, an dem die KI im KI-Diktat lebt. Eine rohe Transkription liefert dir eine Wortwand ohne Absätze und mit dem gelegentlichen Äh. Ein Sprachmodell kann die Zeichensetzung korrigieren, die Füllwörter streichen und sogar einen von dir gewünschten Ton treffen. In Whisper by Remskill ist dieser Schritt optional und läuft lokal über Ollama, oder in der Cloud über deinen eigenen OpenAI-Schlüssel, wenn du Pro aktivierst. Du kannst ihn auch per Stimme auslösen: Sag den Aktivierungssatz – derzeit Hey whisper – und der Text wird an das Modell übergeben, statt roh eingefügt zu werden. Nichts davon ändert den Kerntrick. Es entscheidet nur, wie geschliffen die Wörter ankommen.
Die kostenlosen Optionen, die du schon hast: Windows-Spracheingabe, Apple Dictation, Google Docs
Bevor du für irgendetwas bezahlst, prüfe, was schon auf deinem Rechner ist. Drei kostenlose Bordmittel decken eine Menge ab.
Windows · Win + H
macOS · Dictation
Docs · Voice typing
Windows-Spracheingabe
Drück unter Windows 11 die Windows-Logo-Taste plus H in einem beliebigen Textfeld, und eine Spracheingabeleiste erscheint. Sie eignet sich gut für schnelle Nachrichten. Der Haken: Sie braucht eine Internetverbindung und ein funktionierendes Mikrofon, weil die Erkennung in der Cloud passiert. Sie unterstützt laut Microsofts Liste 43 Sprachen. Wenn du offline im Zug bist, hört sie auf zu funktionieren. Eine komplette Anleitung gibt es in unserem Ratgeber zu Sprache zu Text unter Windows.
Apple Dictation
Auf einem Mac schaltest du es in den Systemeinstellungen unter Tastatur, Diktat ein und startest es dann mit der Mikrofontaste oder deinem gewählten Kürzel. Die aktuelle Version transkribiert Text beliebiger Länge und stoppt erst nach 30 Sekunden Stille, nicht nach einer harten Zeitgrenze. Auf Apple Silicon kann sie deine Sprache auf dem Gerät verarbeiten. Für kurze Notizen ist sie kostenlos und völlig in Ordnung; die ausführlichere Einrichtung steht in Sprache zu Text auf dem Mac.
Google Docs Spracheingabe
Öffne ein Google Docs in Chrome, Edge oder Safari, klick auf Tools und dann auf Spracheingabe, und ein Mikrofonkasten erscheint. Sie unterstützt über 100 Sprachen und regionale Varianten. Die harte Grenze steht direkt im Namen: Sie schreibt nur innerhalb von Google Docs und Slides. Sie tippt nicht deine E-Mail, dein Slack oder deinen Code.
Die ehrliche Art, diese drei zu lesen: Sie sind echte Werkzeuge, keine Demos, und für einen großen Teil der Leute sind sie das Ende der Suche. Wo sie aufhören, ist vorhersehbar. Die Windows-Spracheingabe stirbt in dem Moment, in dem du das Signal verlierst. Die Google-Docs-Spracheingabe verlässt nie das Dokument. Apple Dictation ist hervorragend auf einem Mac und überall sonst abwesend. Wenn deine Arbeit in diese Grenzen passt, bist du fertig. Schließ diesen Tab und drück die Taste. Die kostenpflichtige Kategorie existiert für die Arbeit, die nicht passt: Diktieren den ganzen Tag, offline im Flugzeug, jede App statt einer einzigen, und Audio, das auf deiner eigenen Festplatte bleiben muss.
Die kostenpflichtigen Tools, die man kennen sollte (Dragon, Wispr Flow, Superwhisper, Voicy, Whisper by Remskill)
Wenn den kostenlosen Tools der Platz ausgeht – wenn du den ganzen Tag diktierst, einen Offline-Modus brauchst oder KI-Korrektur willst – öffnet sich die kostenpflichtige Kategorie. Hier sind die Namen, die man kennen sollte, mit je einer ehrlichen Zeile.
Wenn du lieber das ganze Feld der Reihe nach aufgereiht siehst, hier ist die beste Software für Spracheingabe im Ranking.
Ich habe diese nicht mit der Stoppuhr gegeneinander getestet, also tue ich auch nicht so. Ich habe die Namen unten nach drei Dingen ausgewählt: dokumentierte Plattformreichweite (funktioniert es dort, wo du tatsächlich tippst), dokumentierte Offline-Unterstützung (verlässt dein Audio die Maschine) und dokumentierte Sprachabdeckung. Die Tabelle enthält nur Fakten, die jeder Anbieter veröffentlicht; Geschwindigkeit und Genauigkeit habe ich weggelassen, weil es über alle hinweg keinen neutralen Benchmark gibt – und einen zu erfinden wäre genau das, wovon ich dich hier abbringen will.
| Tool | Plattform | Lokal / Cloud | Funktioniert offline | Preismodell | Sprachen | Am besten für |
|---|---|---|---|---|---|---|
| Windows-Spracheingabe | Windows 11 | Cloud | Nein | Kostenlos, eingebaut | 43 | Schnelle Nachrichten an einem verbundenen PC |
| Apple Dictation | macOS | Lokal auf Apple Silicon | Ja (Apple Silicon) | Kostenlos, eingebaut | Dutzende | Kurze Notizen auf einem Mac |
| Google Docs Spracheingabe | Browser | Cloud | Nein | Kostenlos, Browser-Funktion | 100+ | Schreiben nur innerhalb von Google Docs |
| Dragon by Nuance | Windows | Lokal | Ja | Kostenpflichtig, Einmallizenz | Auf Englisch ausgerichtet | Ganztägiges Diktieren unter Windows |
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Lokal oder Cloud (dein Schlüssel) | Ja (lokale Engines) | Lokal kostenlos, Pro für Cloud kostenpflichtig | 99 bei Whisper mehrsprachig | Systemweites Diktieren, offline, jede App |
Dragon by Nuance ist die alte Garde. Dragon Professional v16 wirbt mit Diktieren, das dreimal schneller als Tippen ist, mit bis zu 99 % Erkennungsgenauigkeit ab der ersten Nutzung, und es ist für Windows 11 optimiert. Diese 99 % sind Nuances eigene Zahl, kein neutraler Benchmark. Der Haken: Dragon Professional läuft nur unter Windows, es gibt keine aktuelle Mac-Desktop-Version.
Wispr Flow, Superwhisper und Voicy sind die neuere Welle der KI-Diktat-Apps. Sie verpacken ein Sprachmodell in eine aufgeräumte Oberfläche und ergänzen Ton- oder Formatierungskorrektur. Sie sind solide. Das Muster quer durch diese Kategorie ist meist dieselbe Architektur – ein Sprachmodell, eine Oberfläche und eine monatliche Rechnung – und bei der Rechnung unterscheiden sie sich am meisten. Wenn die Rechnung der schmerzhafte Teil ist, haben wir eine ehrliche Superwhisper-Alternative beschrieben, die die gesamte lokale Pipeline für immer kostenlos hält.
Whisper by Remskill, unsere App, ist ein Desktop-Tool für Windows und macOS auf Apple Silicon. Du drückst ein Tastenkürzel, sprichst, und der Text wird in jeder App am Cursor eingefügt. Das Standard-Tastenkürzel ist Ctrl+Space unter Windows und ein Command+Option-Push-to-Talk-Griff auf dem Mac – halte beide, lass eine los, um zu stoppen. Was du wählst, ist die Engine. Du wählst aus drei Wegen: lokales NVIDIA Parakeet (~600 MB, 5–10× schneller als Whisper auf der CPU, Englisch plus 24 europäische Sprachen); lokales Whisper (acht Modelle, 99 Sprachen bei den mehrsprachigen, Übersetzen ins Englische); oder Cloud-Modus, der deinen eigenen OpenAI-Schlüssel für gpt-4o-mini-transcribe oder gpt-4o-transcribe nutzt, ohne dass wir etwas abzweigen. Alle lokale Transkription läuft in reinem Rust, kein Python. Der vollständige Vergleich des breiteren Felds steht in unserer Übersicht der Transkriptionssoftware.
Hier kommt auch meine eine Meinung: Probier zuerst den lokalen Modus. Wenn dein Mac Apple Silicon ist oder dein PC aus den letzten vier Jahren stammt, brauchst du für das alltägliche Diktieren keine Cloud. Lokales Parakeet beginnt auf moderner Hardware in deutlich unter zwei Sekunden zu transkribieren, dein Audio verlässt nie den Laptop, und die Cloud ist die Notluke für den Moment, in dem du OpenAI-Genauigkeit oder Websuche willst – nicht der Standard. Greif zum Netzwerk, wenn du an eine Wand stößt, nicht vorher. Ich bin der Typ Architekt, der reflexhaft nach der größeren, schickeren Lösung greift und sich dann selbst wieder zurückredet. Local-First ist genau dieses Mich-selbst-Zurückreden, öffentlich, damit du dir den Teil sparst, in dem ich eine Woche verschwende.
Der praktische Grund ist die Hardware. Ein moderner Laptop hat bereits ein Mikrofon und einen Prozessor, der schnell genug ist, um ein Sprachmodell selbst auszuführen. Einen Absatz Audio an einen Server und zurück zu schicken – für eine Aufgabe, die deine Maschine offline in unter zwei Sekunden erledigt – ist eine Gewohnheit aus der Zeit, als Laptops zu langsam waren. Das sind sie nicht mehr. Die Cloud verdient ihren Platz bei den harten Fällen: ein lauter Raum, ein ungewöhnlicher Akzent, eine Anfrage, die eine live aus dem Web geholte Antwort in deine Antwort einfügen muss. Für den täglichen Fluss aus E-Mail, Notizen und Chat startet lokal schneller, ist standardmäßig privat und für angemeldete Nutzer kostenlos. Die Notluke ist da, wenn du sie brauchst; an den meisten Tagen wirst du sie nicht brauchen.
Wann du auf eine eigene App verzichtest und das Bordmittel nutzt
Hier kommt der Teil, den die meisten Beste-Software-Artikel überspringen. Wenn du kurze Nachrichten verschickst – eine SMS mit 30 Wörtern, eine schnelle Slack-Antwort –, ist das kostenlose Diktieren, das schon auf deinem Rechner steckt, alles, was du brauchst. Die Windows-Spracheingabe (Windows-Taste + H) und Apple Dictation sind kostenlos, sie sind eingebaut, und sie funktionieren. Installiere oder bezahle nichts, um einen einzigen Satz zu schreiben. Eine eigene App fängt an, sich zu lohnen, wenn du oft diktierst, sie offline im Flugzeug funktionieren soll, du sie in jeder App und nicht nur in einer willst, oder dir wichtig ist, dass deine Wörter auf deinem Gerät bleiben. Unterhalb dieser Schwelle ist die langweilige Wahrheit: Du besitzt das richtige Werkzeug bereits.
Was Whisper by Remskill kostet
Whisper by Remskill ist für jeden angemeldeten Nutzer kostenlos für die gesamte lokale Pipeline: lokales Whisper, Parakeet, Ollama-basierte KI-Korrektur, Verlauf, eigenes Tastenkürzel, Modell-Downloads – ohne dass für die Anmeldung eine Zahlungsmethode nötig ist. Whisper Pro ergänzt die Cloud-Oberfläche: OpenAI-Cloud-Transkription, Cloud-KI-Verbesserung und sprachgesteuerte Websuche über deinen eigenen OpenAI-Schlüssel. Der Cloud-Modus rechnet direkt über OpenAI ab; wir zweigen nichts ab. Die aktuellen Tarife und die Pro-Testphase findest du auf der Preisseite. Ich nenne dir hier keine Zahlen; das macht die Seite besser, als ein Absatz es kann.
Weiterführende Lektüre
Ein Verwandter von mir hat 1999 ein Headset durch den Raum geworfen, weil Diktieren eine 45-minütige Plackerei war, die Müll produzierte. Das Headset überlebte das Experiment. Fünfundzwanzig Jahre später ist die Plackerei verschwunden. Du drückst eine Taste und sprichst, und die Wörter erscheinen. Die einzige echte Entscheidung, die bleibt, ist die nach dem Werkzeug – und für viele Leute ist die richtige Antwort die, die schon auf ihrem Rechner sitzt, ausgeschaltet, und wartet. Meine eigenen Kinder werden nie wissen, dass es je schwer war, und genau das ist das Ziel, auch wenn es am Esstisch eine schlechtere Geschichte abgibt.
Probier zuerst das, was dir schon gehört
Wenn dir der Platz ausgeht, lade Whisper herunter und wähle die Engine, die zu deiner Arbeitsweise passt.
Kostenlos für angemeldete Nutzer für die gesamte lokale Pipeline. Keine Karte bei der Anmeldung.



