Von Denys Medvediev

Ratgeber

Software für Spracheingabe: kostenlose Bordmittel gegen kostenpflichtige Tools

Die beste Software für Spracheingabe steckt oft längst auf deinem Rechner. Hier erfährst du, welche du nutzen solltest und wann sich eine eigene App wirklich lohnt.

Zuletzt aktualisiert: Juni 2026

Schlanker Laptop und ein Glas Wasser auf einem hellen Büroschreibtisch, eingerichtet für freihändige Spracheingabe

Software für Spracheingabe hört über ein Mikrofon zu und schreibt mit, was du sagst – sie verwandelt Sprache in bearbeitbaren Text mit rund 145 Wörtern pro Minute, gegenüber etwa 40 beim Tippen. Die guten Tools arbeiten systemweit, sodass die Wörter direkt am Cursor landen. Manche sind kostenlos und in Windows und Mac eingebaut; kostenpflichtige Apps ergänzen Offline-Modus und KI-Korrektur.

Sprich, und die Wörter landen an deinem Cursor

Beim ersten Mal fühlt es sich an wie ein kleiner Zaubertrick. Du hältst eine Taste, sprichst einen Satz, lässt los – und der Satz steht einfach da in deiner E-Mail. Keine Tastatur. Eine jüngere Verwandte von mir hat ihrer Großmutter einmal eine 90 Wörter lange Nachricht diktiert, bevor ich überhaupt erklärt hatte, was Diktieren ist. Das Sprechen war nie das Schwierige. Zwei Jahrzehnte lang war das Schwierige, dass die Software gut genug sein musste, um ihr zu vertrauen – und dieser Teil ist endlich gelöst.

In diesem Artikel geht es darum, welche Software für Spracheingabe deine Zeit wert ist – einschließlich der kostenlosen Optionen, die dir längst gehören.

Pasted
Das Overlay von Whisper schließt ein Diktat ab – der Text wird am Cursor eingefügt.

Die meisten, die an der Tastatur festhängen, tun das aus Gewohnheit, nicht aus Notwendigkeit. Tippen ist ein erlernter Kompromiss, eine Art, Gedanken aus dem Kopf in eine Maschine zu bringen, die keine Ohren hat. Software für Spracheingabe macht diesen Kompromiss überflüssig. Die Frage war etwa ab 2022 nicht mehr, ob es funktioniert, sondern welche du nimmst – und ob du dafür zahlen musst.

Die ehrliche Antwort hängt von drei Dingen ab: wie lange du diktierst, ob es in jeder App funktionieren soll und ob es dir wichtig ist, dass deine Wörter nie deinen Laptop verlassen. Am Ende dieses Artikels weißt du, welcher Weg passt – und ich sage dir, wann die kostenlose Bordlösung schon alles ist, was du brauchst. Ich lese den Großteil der Support-Mails für diese App, und ein stetiger Teil davon kommt von Leuten, die für ein Tool bezahlt haben, obwohl das auf ihrem Rechner längst vorhandene den Job erledigt hätte. Ich habe also ein kleines Eigeninteresse daran, dir einen Kauf auszureden.

Was Software für Spracheingabe ist

Nahaufnahme einer digitalen Audio-Oberfläche mit einer lebendigen Schallwelle, die Sprache als Daten darstellt

Software für Spracheingabe ist ein Programm, das Audio von deinem Mikrofon aufnimmt und es mithilfe eines Spracherkennungsmodells in geschriebenen Text umwandelt. Der ältere Name ist Diktiersoftware. Der neuere Marketingname ist KI-Diktat, was meist dasselbe meint, nur mit einem Sprachmodell obendrauf, das Zeichensetzung und Ton korrigiert.

Es gibt drei Formen. Eingebautes Diktieren kommt mit deinem Betriebssystem: Windows-Spracheingabe, Apple Dictation. Browserbasierte Spracheingabe lebt in einer einzigen App, etwa der Spracheingabe in Google Docs. Und eigenständige Desktop-Apps installieren sich separat und funktionieren überall dort, wo du tippst. Die Form zählt mehr als die Marke. Ein Browser-Tool, das nur in Google Docs schreibt, ist für deine Slack-Nachrichten nutzlos, egal wie gut seine Genauigkeit ist. Die erste Frage zu jedem Tool ist nicht, wie genau es ist, sondern wo es dich tippen lässt. Genauigkeit ist bei den meisten inzwischen ein gelöstes Problem; Reichweite nicht.

Was ein ernsthaftes Werkzeug von einem Spielzeug trennt, ist, wo es einfügt. Eingebaute und eigenständige Desktop-Tools arbeiten systemweit: Drück das Tastenkürzel in einem beliebigen Textfeld, und der Text erscheint dort. Das ist der ganze Trick. Alles andere – Genauigkeit, Sprachen, KI-Korrektur – ist nur eine Verfeinerung auf der Frage, ob es dort tippt, wo du gerade hinschaust.

Ein zweites Merkmal trennt die Kategorien: was das Modell hören kann. Manche Tools beherrschen nur Englisch. Andere beherrschen Dutzende Sprachen und können mitten im Satz wechseln. Die rein englischen Modelle von Whisper unterstützen genau eine Sprache, während seine mehrsprachigen Varianten 99 abdecken. NVIDIAs Parakeet liegt mit 25 Sprachen in der Mitte – Englisch plus 24 europäische. Wenn du ohnehin nur auf Englisch schreibst, spielt das alles keine Rolle, und du solltest stattdessen nach Geschwindigkeit auswählen. Wenn du vor dem Mittagessen in zwei Sprachen entwirfst, zählt es sehr. Die meisten überschätzen, wie viele Sprachen sie brauchen, und unterschätzen, wie sehr ihnen die Latenz wichtig ist. Die Verzögerung zwischen dem Loslassen der Taste und dem Erscheinen des Textes spürst du jedes einzelne Mal.

Wenn du die systemweite Version lieber in Aktion siehst, als über die Kategorie zu lesen: Die Whisper-Seite zur Spracheingabe zeigt den Hotkey-halten-Ablauf auf Windows und Mac, kostenlose lokale Engines inklusive.

Wie es funktioniert (und warum die Genauigkeit endlich gut wurde)

Unter der Haube hat die Pipeline drei Schritte. Dein Mikrofon nimmt einen kurzen Audioclip auf. Ein Spracherkennungsmodell verwandelt dieses Audio in Text. Dann wird der Text eingefügt, manchmal nachdem ein Sprachmodell ihn aufgeräumt hat.

CancelTranscribing
Whisper mitten in der Transkription – das Sprachmodell verwandelt Audio in Text.

Der Genauigkeitssprung, den alle bemerkt haben, kam vom Modell in der Mitte. Das quelloffene Whisper-Modell von OpenAI hat verändert, was gut bedeutet. Es bewältigt Akzente, Hintergrundgeräusche und 99 Sprachen in seinen mehrsprachigen Varianten – ganz ohne Trainingsschritt. Genau das ist die stille Revolution. Du bringst moderner Software für Spracheingabe deine Stimme nicht bei. Du installierst sie und sprichst.

Ich bin alt genug, um mich zu erinnern, als das noch Science-Fiction war. Ende der 1990er ließ ein Verwandter Dragon NaturallySpeaking auf einem Windows-98-Rechner mit 64 MB RAM laufen. Die Einrichtung bedeutete, 45 Minuten lang eine Wortliste vorzulesen, damit die Software sich auf deine Stimme einstellen konnte. Dann funktionierte es, gerade so, bei vielleicht 70 % Genauigkeit, mit vier Sekunden Verzögerung pro Satz. Es dauerte fünfzehn Minuten, einen Absatz eines Weihnachtsbriefs zu diktieren. Das Headset flog durch den Raum. Das Headset überlebte; das Experiment nicht. Fünfundzwanzig Jahre später dauert dieselbe Aufgabe neunzig Sekunden und null Training. Die Hardware hat die Idee eingeholt.

Heute gibt es zwei Geschmacksrichtungen des mittleren Schritts. Lokale Verarbeitung lässt das Modell auf deinem eigenen Computer laufen, offline, sodass dein Audio die Maschine nie verlässt – so wie Offline-Sprache-zu-Text funktioniert. Cloud-Verarbeitung schickt das Audio an einen Server, was auf schwacher Hardware schneller sein kann, aber bedeutet, dass deine Wörter reisen. Was du willst, hängt davon ab, was du diktierst. Eine Einkaufsliste – egal. Der Vertrag deines Kunden – vielleicht nicht egal.

Der dritte Schritt, das Aufräumen, ist der Ort, an dem die KI im KI-Diktat lebt. Eine rohe Transkription liefert dir eine Wortwand ohne Absätze und mit dem gelegentlichen Äh. Ein Sprachmodell kann die Zeichensetzung korrigieren, die Füllwörter streichen und sogar einen von dir gewünschten Ton treffen. In Whisper by Remskill ist dieser Schritt optional und läuft lokal über Ollama, oder in der Cloud über deinen eigenen OpenAI-Schlüssel, wenn du Pro aktivierst. Du kannst ihn auch per Stimme auslösen: Sag den Aktivierungssatz – derzeit Hey whisper – und der Text wird an das Modell übergeben, statt roh eingefügt zu werden. Nichts davon ändert den Kerntrick. Es entscheidet nur, wie geschliffen die Wörter ankommen.

Die kostenlosen Optionen, die du schon hast: Windows-Spracheingabe, Apple Dictation, Google Docs

Bevor du für irgendetwas bezahlst, prüfe, was schon auf deinem Rechner ist. Drei kostenlose Bordmittel decken eine Menge ab.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
Das Diktieren, das schon auf deinem Computer steckt, in zwei Geschmacksrichtungen – keine Installation nötig.

Windows-Spracheingabe

Drück unter Windows 11 die Windows-Logo-Taste plus H in einem beliebigen Textfeld, und eine Spracheingabeleiste erscheint. Sie eignet sich gut für schnelle Nachrichten. Der Haken: Sie braucht eine Internetverbindung und ein funktionierendes Mikrofon, weil die Erkennung in der Cloud passiert. Sie unterstützt laut Microsofts Liste 43 Sprachen. Wenn du offline im Zug bist, hört sie auf zu funktionieren. Eine komplette Anleitung gibt es in unserem Ratgeber zu Sprache zu Text unter Windows.

Apple Dictation

Auf einem Mac schaltest du es in den Systemeinstellungen unter Tastatur, Diktat ein und startest es dann mit der Mikrofontaste oder deinem gewählten Kürzel. Die aktuelle Version transkribiert Text beliebiger Länge und stoppt erst nach 30 Sekunden Stille, nicht nach einer harten Zeitgrenze. Auf Apple Silicon kann sie deine Sprache auf dem Gerät verarbeiten. Für kurze Notizen ist sie kostenlos und völlig in Ordnung; die ausführlichere Einrichtung steht in Sprache zu Text auf dem Mac.

Google Docs Spracheingabe

Öffne ein Google Docs in Chrome, Edge oder Safari, klick auf Tools und dann auf Spracheingabe, und ein Mikrofonkasten erscheint. Sie unterstützt über 100 Sprachen und regionale Varianten. Die harte Grenze steht direkt im Namen: Sie schreibt nur innerhalb von Google Docs und Slides. Sie tippt nicht deine E-Mail, dein Slack oder deinen Code.

Die ehrliche Art, diese drei zu lesen: Sie sind echte Werkzeuge, keine Demos, und für einen großen Teil der Leute sind sie das Ende der Suche. Wo sie aufhören, ist vorhersehbar. Die Windows-Spracheingabe stirbt in dem Moment, in dem du das Signal verlierst. Die Google-Docs-Spracheingabe verlässt nie das Dokument. Apple Dictation ist hervorragend auf einem Mac und überall sonst abwesend. Wenn deine Arbeit in diese Grenzen passt, bist du fertig. Schließ diesen Tab und drück die Taste. Die kostenpflichtige Kategorie existiert für die Arbeit, die nicht passt: Diktieren den ganzen Tag, offline im Flugzeug, jede App statt einer einzigen, und Audio, das auf deiner eigenen Festplatte bleiben muss.

Wann du auf eine eigene App verzichtest und das Bordmittel nutzt

Hier kommt der Teil, den die meisten Beste-Software-Artikel überspringen. Wenn du kurze Nachrichten verschickst – eine SMS mit 30 Wörtern, eine schnelle Slack-Antwort –, ist das kostenlose Diktieren, das schon auf deinem Rechner steckt, alles, was du brauchst. Die Windows-Spracheingabe (Windows-Taste + H) und Apple Dictation sind kostenlos, sie sind eingebaut, und sie funktionieren. Installiere oder bezahle nichts, um einen einzigen Satz zu schreiben. Eine eigene App fängt an, sich zu lohnen, wenn du oft diktierst, sie offline im Flugzeug funktionieren soll, du sie in jeder App und nicht nur in einer willst, oder dir wichtig ist, dass deine Wörter auf deinem Gerät bleiben. Unterhalb dieser Schwelle ist die langweilige Wahrheit: Du besitzt das richtige Werkzeug bereits.

Was Whisper by Remskill kostet

Whisper by Remskill ist für jeden angemeldeten Nutzer kostenlos für die gesamte lokale Pipeline: lokales Whisper, Parakeet, Ollama-basierte KI-Korrektur, Verlauf, eigenes Tastenkürzel, Modell-Downloads – ohne dass für die Anmeldung eine Zahlungsmethode nötig ist. Whisper Pro ergänzt die Cloud-Oberfläche: OpenAI-Cloud-Transkription, Cloud-KI-Verbesserung und sprachgesteuerte Websuche über deinen eigenen OpenAI-Schlüssel. Der Cloud-Modus rechnet direkt über OpenAI ab; wir zweigen nichts ab. Die aktuellen Tarife und die Pro-Testphase findest du auf der Preisseite. Ich nenne dir hier keine Zahlen; das macht die Seite besser, als ein Absatz es kann.

Weiterführende Lektüre

Ein Verwandter von mir hat 1999 ein Headset durch den Raum geworfen, weil Diktieren eine 45-minütige Plackerei war, die Müll produzierte. Das Headset überlebte das Experiment. Fünfundzwanzig Jahre später ist die Plackerei verschwunden. Du drückst eine Taste und sprichst, und die Wörter erscheinen. Die einzige echte Entscheidung, die bleibt, ist die nach dem Werkzeug – und für viele Leute ist die richtige Antwort die, die schon auf ihrem Rechner sitzt, ausgeschaltet, und wartet. Meine eigenen Kinder werden nie wissen, dass es je schwer war, und genau das ist das Ziel, auch wenn es am Esstisch eine schlechtere Geschichte abgibt.

Probier zuerst das, was dir schon gehört

Wenn dir der Platz ausgeht, lade Whisper herunter und wähle die Engine, die zu deiner Arbeitsweise passt.

Kostenlos für angemeldete Nutzer für die gesamte lokale Pipeline. Keine Karte bei der Anmeldung.

Foto von Denys Medvediev

Denys Medvediev

Ich bin der, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.