Von Denys Medvediev

Anleitung

Spracheingabe unter Windows verwenden

Windows hat Spracheingabe bereits eingebaut. Drücke Windows-Taste + H in einem beliebigen Textfeld, warte auf "Ich höre zu" und fang einfach an zu sprechen. Du brauchst eine Internetverbindung und ein funktionierendes Mikrofon. Für intensiven, Offline- oder App-übergreifenden Einsatz macht ein eigenes Tool mit einem einzigen Hotkey dieselbe Arbeit – überall.

Zuletzt aktualisiert: Juni 2026

Ein Windows-Laptop und eine Tastatur auf einem Schreibtisch, bereit für die freihändige Spracheingabe

Um Spracheingabe unter Windows zu nutzen, platziere den Cursor in einem beliebigen Textfeld und drücke Windows-Taste + H. Die Spracheingabe-Leiste öffnet sich, zeigt "Ich höre zu" an und tippt das Gesprochene. Du benötigst ein funktionierendes Mikrofon, eine Internetverbindung und die Online-Spracherkennung, die du unter Einstellungen, Datenschutz & Sicherheit, Sprache aktivieren musst.

Die meisten wissen gar nicht, dass Windows für sie tippen kann. Die Funktion ist ab Windows 10 und 11 dabei, braucht keinen Einrichtungsassistenten und steckt hinter einem Tastenkürzel, das kaum jemand kennt: Windows-Taste + H. Cursor in ein Textfeld setzen, Windows-Taste halten, H drücken – und eine kleine Leiste öffnet sich oben auf dem Bildschirm und hört zu.

Das ist wirklich alles, und für kurze Texte funktioniert es prima. Der Haken ist das, was Microsoft klar benennt, aber die meisten Anleitungen übergehen: Windows-Spracheingabe schickt deine Sprache durch Microsofts Cloud und braucht daher eine Internetverbindung. Dieses eine Detail entscheidet, ob die eingebaute Funktion für dich reicht oder ob du etwas anderes willst. Ich schaue mir die eingebaute Variante ehrlich an – und sage dir dann, wo sie an ihre Grenzen stößt.

Hier ist das, was die meisten Anleitungen begraben. Windows-Spracheingabe ist eine echte, kostenlose, eingebaute Funktion, die in jedem Textfeld funktioniert, in das du klicken kannst – Browser, Word, eine Slack-Nachricht, die Suchleiste. Du installierst nichts. Das Kürzel ist Windows-Taste + H, und sobald du weißt, dass es existiert, wirst du es nutzen.

Die ehrliche Antwort besteht also aus zwei Teilen. Teil eins: Wie man die eingebaute Funktion aktiviert und gut einsetzt – das ist das, was die meisten tatsächlich brauchen. Teil zwei: Wo Win+H an seine Grenzen stößt – kein Internet, lange Diktate, Wörter die immer falsch erkannt werden – und was ein eigenes Tool jeweils besser macht. Ich erkläre beides, richte die Alternative in zwei Minuten ein und sage dir klar, wann Win+H schon ausreicht.

Was Windows-Spracheingabe wirklich ist

Eine Person spricht vor einem offenen Laptop – Sprechen statt Tippen

Windows-Spracheingabe ist eine eingebaute Funktion, mit der du Text durch Sprechen statt durch Tippen eingeben kannst. Sie ist ab Windows 10 und Windows 11 dabei, kostet nichts und funktioniert in jedem Textfeld, in das du einen Cursor setzen kannst. Microsofts eigene Beschreibung ist es wert, zitiert zu werden, weil sie die Grenzen absteckt: Spracheingabe "verwendet die Online-Spracherkennung, die von Azure Speech Services betrieben wird." Aus diesem einen Satz folgen drei Dinge.

Erstens: Sie braucht Internet. Deine Sprache wird an Microsofts Server geschickt und dort in Text umgewandelt – ohne Verbindung passiert nichts. Zweitens: Du brauchst ein funktionierendes Mikrofon – das eingebaute Laptop-Mikrofon reicht zum Anfang. Drittens: Da die Erkennung in der Cloud passiert, ist die Genauigkeit in der Regel gut, und deine CPU wird kaum belastet. Das sind die Kompromisse auf einen Blick: kostenlos und genau, aber nur online und nicht privat.

Viele verwechseln das mit der älteren Windows-Spracherkennung, dem neueren Voice Access oder der Diktierfunktion in einer einzelnen App. Wenn du einfach sprechen und zuschauen möchtest, wie Wörter in dem erscheinen, was du gerade schreibst, ist die Spracheingabe mit Windows-Taste + H das Richtige. Der nächste Abschnitt zeigt, wie es geht.

Mit Windows-Taste + H aktivieren

Es gibt keine App zu starten und keinen Assistenten durchzuklicken. Du setzt den Cursor dahin, wo die Wörter erscheinen sollen, und startest die Spracheingabe per Tastenkürzel. Hier ist die vollständige Abfolge – mit dem einen Einstellungsschritt, den du vielleicht brauchst.

Klicke in ein beliebiges Textfeld – ein Dokument, eine E-Mail, einen Chat, die Adressleiste – sodass der Cursor dort blinkt. Drücke Windows-Taste + H. Eine kleine Spracheingabe-Leiste erscheint oben auf dem Bildschirm. Warte, bis sie "Ich höre zu" anzeigt, bevor du sprichst – fängst du zu früh an, werden deine ersten Wörter abgeschnitten. Sprich normal, und der Text erscheint dort, wo dein Cursor ist. Drücke die Mikrofontaste in der Leiste oder das Kürzel erneut, um zu stoppen.

Wenn nichts passiert, gibt es meistens zwei Ursachen. Dein Mikrofon ist nicht eingestellt oder nicht erlaubt – Spracheingabe braucht ein funktionierendes Mikrofon. Oder die Online-Spracherkennung ist ausgeschaltet, was bedeutet, dass der Cloud-Teil der Funktion deaktiviert ist. Schalte sie ein unter Start, dann Einstellungen, dann Datenschutz & Sicherheit, dann Sprache, und setze die Online-Spracherkennung auf Ein. Wenn die Leiste sich öffnet, aber nie "Ich höre zu" erreicht, liegt es fast immer an der Internetverbindung, da die Erkennung auf Microsofts Servern stattfindet und nicht auf deinem Computer. (Wenn Win+H sich hartnäckiger verhält, habe ich einen separaten Artikel darüber geschrieben, warum Win+H aufhört zu funktionieren und wie du es wieder zum Laufen bringst.)

Der bessere Weg für intensiven Einsatz: ein Hotkey überall

Die eingebaute Funktion ist gut, bis du gegen eine ihrer Wände läufst – kein Internet im Zug, ein langes Diktat oder ein Wort, das immer falsch erkannt wird. Die Lösung ist ein systemweites Tool, das dieselbe Arbeit erledigt, aber auf deinem eigenen Computer läuft, ein kurzes Nachlaufen hat, damit dein letztes Wort nicht abgeschnitten wird, und in jeder App denselben Hotkey verwendet. Du brauchst einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und ein Konto. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos – ohne Zahlungsmethode bei der Registrierung. Hier ist die Abfolge.

Schritt 1 – Whisper installieren und anmelden.

Lade von der Download-Seite herunter, installiere es und erstelle ein kostenloses Konto. Keine Kreditkarte nötig. Die lokale Transkriptionspipeline öffnet sich sofort.

Du erkennst es daran, dass das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 – Transkriptionspfad wählen.

Die App wählt nicht für dich. Du bekommst drei Optionen: Cloud (OpenAI, eigener Schlüssel), Lokales Parakeet oder Lokales Whisper. Um das reine Online-Verhalten von Win+H durch etwas Offline-Taugliches zu ersetzen, wähle eine lokale Engine – mehr dazu weiter unten.

Du erkennst es daran, dass ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.

Schritt 3 – Hotkey bestätigen.

Unter Windows ist der Standard Ctrl+Space, gehalten als Push-to-Talk. Ändere ihn in den Einstellungen, wenn er mit einer anderen Funktion kollidiert. Anders als Win+H nimmt er so lange auf, wie du die Taste hältst.

Du erkennst es daran, dass eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 – Cursor irgendwo setzen und sprechen.

Klicke in ein Dokument, eine E-Mail oder ein Chat-Feld, halte den Hotkey, sag einen Satz, lass los. Das Transkript wird dort eingefügt, wo der Cursor ist – in der App, die gerade aktiv ist.

Du erkennst es daran, dass dein gesprochener Satz als Text im Textfeld steht.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Panels für Transkription und KI.

Das Langsame ist der einmalige Modell-Download, nicht die Einrichtung. Danach hört das Schreiben in jeder App auf, eine Tippaufgabe zu sein – und wird zu einer Sprechaufgabe. Und sie funktioniert weiterhin, wenn das WLAN abbricht.

Wenn du Sprache-zu-Text unter Windows 11 schon genutzt hast, ist das dieselbe Idee – aber mit einem Hotkey, der dich nicht automatisch abbricht.

Zeichensetzung: Befehle oder automatisch

Rohe Sprache kennt keine Kommas. Jedes Diktiertool löst das auf eine von zwei Arten, und die Windows-Spracheingabe bietet sogar beide. Es gibt automatische Zeichensetzung, die Kommas und Punkte selbst einfügt, je nachdem wie du sprichst – ein- und ausschalten über das Zahnrad-Symbol in der Spracheingabe-Leiste. Und es gibt gesprochene Befehle: Sag "Punkt", "Komma", "neue Zeile", "Anführungszeichen auf" und "Anführungszeichen zu", und es fügt das Zeichen statt der Wörter ein.

Das Zahnrad-Menü in der Leiste ist einen Blick wert. Neben der automatischen Zeichensetzung enthält es den Schimpfwortfilter und die Wahl des Standard-Mikrofons. Nichts davon ist versteckt – ein Klick von der Leiste, die sich mit Win+H öffnet. Während du sprichst, zeigt ein kleiner Indikator, dass die Funktion zuhört – dieselbe Idee, die jedes gute Diktiertool verwendet, damit du nie rätseln musst, ob es dich gehört hat:

Cancel
Ein Aufnahmeindikator: eine kleine Kapsel, die erscheint, während du sprichst, damit du weißt, dass das Tool zuhört.

Das Problem mit befehlsbasierter Zeichensetzung ist, dass du die Formatierung mitdiktieren musst – "Komma", "neue Zeile", "Punkt" – was für einen kurzen Text in Ordnung, aber über einen langen Absatz ermüdend ist. Automatische Zeichensetzung hilft, aber du bekommst immer noch ein wörtliches Transkript mit allem, was du gesagt hast – Ähs und Fehlstarts inklusive. Das in etwas Sendbares verwandeln ist ein eigener Schritt, und genau dort zieht ein spezialisiertes Tool davon. Mehr dazu weiter unten.

Lokal oder Cloud: die Wahl, die Win+H dir nicht lässt

Windows-Spracheingabe hat die Entscheidung lokal-oder-Cloud für dich getroffen: es ist Cloud, Punkt. Deine Sprache geht jedes Mal an Microsofts Server. Für eine Einkaufsliste ist das kein Problem, aber für eine Gehaltsnotiz in einer Tabelle oder eine Kunden-E-Mail, die du lieber nicht extern transkribiert hättest, schon. Ein eigenes Tool gibt dir die Wahl, die die eingebaute Funktion überspringt. Hier sind die Unterschiede zwischen den drei Pfaden – denn die App lässt dich wählen, und ich möchte, dass du gut wählst:

  • Lokales ParakeetNVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option – 5 bis 10 Mal schneller als Whisper auf der CPU. Unterstützt Englisch plus 24 weitere europäische Sprachen, 25 insgesamt. Keine Übersetzung ins Englische. Wenn du auf Englisch oder einer anderen europäischen Sprache diktierst und Geschwindigkeit willst, ohne dass etwas dein Gerät verlässt, ist das die schnelle Wahl.
  • Lokales WhisperLangsamer als Parakeet auf demselben Computer, aber die mehrsprachigen Versionen unterstützen 99 Sprachen und können ins Englische übersetzen. Die englischsprachigen Versionen sind nur für Englisch, nicht für 99. Wähle dies für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsarbeit, die Parakeet nicht kann. Das englische Standard-Modell ist rund 480 MB.
  • Cloud (OpenAI, eigener Schlüssel)Beste Genauigkeit und Webzugriff, mit deinem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet, wie Win+H – aber es ist dein Schlüssel und deine Entscheidung. Die Cloud-Funktion ist Teil von Whisper Pro.

Die nüchterne Wahrheit ist, dass für den alltäglichen Schreibbedarf eine lokale Engine mehr als ausreicht – und das ist das Eine, was Win+H nicht bieten kann. Beide lokalen Pfade laufen vollständig auf deinem Computer, ohne dass etwas an einen Server gesendet wird. Cloud macht Sinn, wenn du bei einer schwierigen Aufnahme höchste Genauigkeit willst oder das Modell mitten im Satz eine Tatsache aus dem Web holen soll. Fang lokal an und greife zur Cloud nur, wenn Lokal nicht mehr reicht.

Sauberere Ergebnisse ohne jedes Komma zu sagen

Sowohl Win+H als auch ein spezialisiertes Tool geben dir denselben Ausgangspunkt: einen Wust. Du sagst "okay also Deadline auf Freitag verschieben dem Kunden Bescheid geben und den Raum für zwei buchen" – und das ist die zeichenlose Wand, die jede Sprach-Engine dir hinhält. Win+H kann beim Sprechen Zeichen setzen oder gesprochene Befehle entgegennehmen. Keine der beiden Optionen entfernt die "Ähs" oder repariert einen Satz, den du mittendrin neu angefangen hast.

Genau da verdient sich ein KI-Durchlauf seinen Platz. Sag die Aktivierungsphrase "Hey whisper" und der transkribierte Text wird verbessert, bevor er landet – Füllwörter entfernt, Schachtelsätze getrennt, Groß-/Kleinschreibung korrigiert. Auf einem lokalen Modell läuft das über Ollama auf deinem Computer; im Cloud-Modus standardmäßig über gpt-5-mini. Du sprichst die unordentliche Version einmal und bekommst die Version zurück, die du tatsächlich abschicken würdest.

Thinking...
Roh

okay also deadline auf freitag verschieben dem kunden bescheid geben und den raum für zwei äh vor dem mittagessen buchen

Bereinigt

Okay, also die Deadline auf Freitag verschieben, dem Kunden Bescheid geben und den Raum für zwei vor dem Mittagessen buchen.

Dazu kommen die Wörter, die eine generische Engine immer wieder falsch erkennt – ein Produktname, der Nachname eines Kollegen, ein Fachbegriff. Win+H gibt dir keine Möglichkeit, es das beizubringen. Ein spezialisiertes Tool lässt dich eigenes Vokabular priorisieren, damit die Wörter, die du täglich verwendest, nicht mehr falsch zurückkommen. Es erfindet keine Formatierung, die du nicht verlangt hast – und wer verspricht, "sag Überschrift und watch it style itself", verkauft eine Demo, keinen Dienstag. Bringe die Wörter schnell und sauber per Stimme rüber; das Layout erledigst du mit den Tasten, die du sowieso kennst.

Genau dieser Sprech-dann-bereinigen-Ablauf ist der Grund, warum Leute wechseln – du kannst mit Stimme in jeder App schneller schreiben statt Kommas in eine eingebaute Leiste zu diktieren, die nur online funktioniert.

Wenn Win+H schon ausreicht

Ein aufgeklappter Laptop auf einer Küchentheke – für eine schnelle Alltagsnotiz

Manchmal ist das Kostenlose, das schon auf deinem Computer ist, die richtige Antwort – und das Gegenteil zu behaupten wäre unehrlich. Windows-Spracheingabe ist für einen großen Teil dessen, was die Leute brauchen, wirklich gut, und etwas Zusätzliches zu installieren wäre übertrieben.

Bleib bei Win+H, wenn du die meiste Zeit online bist, dein Diktat in kurzen Schüben kommt und es dir nichts ausmacht, dass deine Sprache durch Microsofts Cloud läuft. Eine zweizeilige Slack-Antwort, eine Suchanfrage, eine schnelle Notiz in einem Dokument – Windows-Taste + H drücken, auf "Ich höre zu" warten, sprechen, fertig. Kostenlos, eingebaut, Zeichensetzung automatisch. Für eine einzeilige Erinnerung werde ich dir nicht empfehlen, eine App zu installieren.

Greife zu einem eigenständigen, systemweiten Tool, wenn die eingebaute Funktion anfängt zu nerven: kein Internet im Flugzeug oder im Zug, lange Diktate, bei denen Push-to-Hold eine Leiste mit Zeitlimit schlägt, Privatsphäre bei Text, den du nicht von deinem Computer lassen möchtest, Wörter, die immer falsch erkannt werden, oder der Wunsch nach einem einzigen Hotkey, der in jedem Programm identisch funktioniert. Darunter gewinnt Win+H mit Preis und Null-Einrichtungsaufwand. Darüber ist der Unterschied real.

Wenn du noch entscheidest, auf welcher Seite dieser Linie du stehst, legt der ausführlichere Vergleich im Win+H-Alternativen-Guide genau dar, wohin jede Option passt – ohne Marketing-Gloss.

Windows hat Spracheingabe vor Jahren eingeführt und hinter einem Kürzel versteckt, das niemand laut ausspricht. Jetzt weißt du es: Windows-Taste + H, auf "Ich höre zu" warten, sprechen. Für die meisten schnellen Aufgaben ist das die vollständige Antwort – und sie ist kostenlos. An dem Tag, an dem du offline bist, etwas Längeres als eine SMS diktierst oder ein Wort immer wieder falsch zurückkommt, weißt du genau, gegen welche Wand du gelaufen bist – und welches Tool dich darüber bringt. Ich habe einen guten Teil davon per Stimme geschrieben, in einer App, der es egal ist, in welchem Textfeld mein Cursor steckt. Das Internet ist zweimal ausgefallen dabei. Das Diktat hat es nicht bemerkt.

Spracheingabe ausprobieren, die auch offline funktioniert

Hotkey halten, sprechen, loslassen. Das Transkript landet in dem Textfeld, in dem dein Cursor steckt – im Zug, im Flugzeug oder wenn das WLAN ausfällt.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte zum Starten nötig.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Links