Von Denys Medvediev

Tutorial

Sprache zu Text unter Windows 11

Windows-Taste + H auf einer Hardware-Tastatur drücken, den Cursor in ein beliebiges Textfeld setzen und lossprechen – die eingebaute Spracheingabe läuft online über Azure. Für die Offline-Diktierfunktion in jeder App installierst du ein spezielles Tool. Diese Anleitung richtet beides ein, von Anfang bis Ende.

Zuletzt aktualisiert: Juni 2026

Hände tippen auf einer Laptop-Tastatur, als Symbol dafür, dass Diktieren schneller ist als Tippen

Windows-Taste + H auf einer Hardware-Tastatur drücken, den Cursor in ein beliebiges Textfeld setzen und lossprechen. Die Wörter erscheinen an der Cursor-Position. Die eingebaute Spracheingabe nutzt Azure-Online-Spracherkennung und benötigt eine Internetverbindung. Für die Offline-Diktierfunktion in jeder App installierst du ein spezielles Tool. Diese Anleitung richtet beides ein, von Anfang bis Ende.

Meine ältere Tochter hat mich einmal gefragt, warum meine E-Mails so lange zum Schreiben brauchen. Die ehrliche Antwort: Ich tippe etwa 40 Wörter pro Minute und werde ungefähr alle neunzig Sekunden unterbrochen. Spracheingabe hat die Hälfte des Problems gelöst. Der Trick unter Windows 11 ist eine Tastenkombination, die die meisten nie finden: Windows-Taste + H gedrückt halten, und eine kleine Mikrofon-Leiste erscheint über dem Feld, in das du gerade schreibst.

Von dort aus sprichst du, und die Wörter landen an deinem Cursor. Meine Meinung, die ich unten verteidige: Für alles, was über eine kurze Notiz hinausgeht, würde ich nicht zu diesem eingebauten Tool greifen.

Es gibt zwei Wege, um Sprache-zu-Text unter Windows 11 zum Laufen zu bringen – der Unterschied liegt darin, wo die eigentliche Arbeit passiert. Weg 1 ist die eingebaute Spracheingabe: Sie schickt dein Audio an Microsofts Azure-Server, lässt es dort transkribieren und schickt den Text zurück. Für eine Teams-Nachricht ist das völlig in Ordnung – für eine Gehaltstabelle im Flugzeug ohne WLAN weniger.

Weg 2 ist eine Desktop-App, die die Transkription offline auf deinem eigenen Gerät erledigt – in jedem Fenster. Am Ende dieser Anleitung hast du beide Varianten laufen und weißt, für welche du dich entscheidest. Die meisten Support-Mails, die ich bekomme, kommen von jemandem, der am ersten Tag den falschen Weg gewählt hat. Ich bin derjenige, der sie liest.

Weg 1: Win+H drücken und lossprechen

Windows 11 · Win + H

Listening…
Die eingebaute Spracheingabe-Leiste von Windows 11: ein Mikrofon-Schaltfläche, ein Einstellungs-Zahnrad und die Beschriftung „Hört zu“.

Voraussetzungen: Windows 11, eine Internetverbindung, ein funktionierendes Mikrofon und der Cursor in einem Textfeld. Kein Download, kein Konto. Dauer: unter einer Minute.

1

Ein beliebiges Textfeld öffnen. Ein Word-Dokument, eine E-Mail, eine Browser-Suchleiste – überall, wo du tippen kannst.

2

Windows-Taste + H auf einer Hardware-Tastatur drücken. Eine kleine schwebende Leiste mit einem Mikrofon-Schaltfläche erscheint.

3

Auf die Beschriftung „Hört zu“ warten, dann sprechen. Deine Wörter erscheinen an der Cursor-Position.

4

„Nicht mehr zuhören“ sagen oder auf das Mikrofon tippen, um zu stoppen. Die Leiste schließt sich, und das Diktat bleibt an der Cursor-Position.

Erwartetes Ergebnis: Die Leiste zeigt „Hört zu“, und die Wörter, die du sprichst, erscheinen während des Sprechens am Cursor. Wenn du die automatische Zeichensetzung aktivierst (das Zahnrad-Symbol in der Leiste), fügt die App Kommas und Punkte basierend auf dem Gesagten hinzu.

Wenn nichts passiert: Die Spracheingabe verwendet Online-Spracherkennung über Azure und benötigt daher eine Internetverbindung, ein funktionierendes Mikrofon und einen Cursor innerhalb eines Textfelds. Keine Verbindung, keine Transkription. Die vollständige Fehlerbehebungsliste findest du zwei Abschnitte weiter unten.

Kommst du von einem älteren Tutorial, das über Windows-Spracherkennung spricht? Diese Funktion wurde im September 2024 durch Voice Access für Windows 11 22H2 und höher ersetzt. Das alte WSR-Steuerfeld existiert nur noch in älteren Windows-Versionen. Wenn eine Anleitung dir also sagt, du sollst einen Spracherkennungs-Assistenten öffnen, und du ihn nicht findest – die Anleitung ist veraltet, nicht dein PC.

Wann die eingebaute Spracheingabe ausreicht

Laptop und Notizbuch auf einem Holzschreibtisch – ein entspannter Arbeitsplatz, bei dem die eingebaute Diktierfunktion vollkommen genügt

Ich werde dich nicht dazu bringen, Software zu installieren, die du nicht brauchst. Für viele Aufgaben ist Win+H die richtige Antwort – und sie kostet nichts.

Nutze das eingebaute Tool, wenn das Diktat kurz ist, du eine Verbindung hast und der Einsatz gering ist. Eine Antwort an einen Kollegen bei Teams. Eine kurze Notiz in OneNote. Eine Suchanfrage, die du lieber sprichst als tippst. Es verarbeitet automatische Zeichensetzung und funktioniert in jedem Standard-Textfeld unter Windows 11. Für 30-Wort-Ausbrüche, bei denen du ohnehin online bist, wäre das Öffnen einer zweiten App langsamer als einfach zu reden.

Eine zweite eingebaute Funktion bringt viele durcheinander – lass mich das klarstellen. Voice Access ist nicht dasselbe wie Spracheingabe. Voice Access ermöglicht es dir, den gesamten PC per Sprache zu steuern und Text zu verfassen. Anders als Win+H läuft es nach einem einmaligen Sprachpaket-Download offline auf dem Gerät. Es benötigt Windows 11 Version 22H2 oder höher. Wenn du also vollständige Freisprechsteuerung des PCs brauchst (Klicken, Scrollen, Apps per Sprache öffnen), ist Voice Access das richtige eingebaute Tool – nicht die Spracheingabe. Verschiedene Aufgaben, verschiedene Werkzeuge.

Wo Win+H an Grenzen stößt (Offline, Genauigkeit, Sprachen)

Das eingebaute Tool hat drei echte Grenzen. Für eine kurze Notiz sind keine davon ein K.O.-Kriterium. Alle drei fangen an zu schmerzen, sobald du längere oder ernsthaftere Arbeit erledigst.

Offline

Spracheingabe benötigt das Internet, weil die Transkription auf Azure-Servern stattfindet – nicht auf deinem Laptop. Im Flugzeug, in einem Zug durch einen Tunnel oder in einem Gebäude, das WLAN schluckt, funktioniert sie nicht.

Genauigkeit

Microsoft veröffentlicht keine Genauigkeitszahl für die Spracheingabe, und es gibt keinen neutralen Benchmark, auf den ich mich verlassen würde. Was ich sagen kann: Ein Cloud-Modell mit instabiler Verbindung, ein eingebautes Laptop-Mikrofon und ein starker Akzent sind drei separate Wege zu einem Transkript, das du von Hand nachbearbeiten musst.

Sprachen

Die Spracheingabe unterstützt eine feste, von Microsoft verwaltete Liste von etwa vierzig Sprachen – du installierst jede einzeln, bevor du zu ihr wechseln kannst. Für die meisten ist das mehr als genug; für alle, die in einer Sprache arbeiten, die Microsoft nicht aufgenommen hat, ist es eine Wand.

Die drei echten Grenzen der eingebauten Spracheingabe: Offline, Genauigkeit und Sprachabdeckung.

Am meisten beschäftigt mich der Datenschutzaspekt. Dein Diktat – die E-Mail an die Schule deines Kindes, der Entwurf eines Vertrags, die halbfertige Idee, die du in einem Meeting nie laut aussprechen würdest – verlässt dein Gerät und landet auf einem Server. Für eine Teams-Nachricht, die fünf Minuten zu spät abgeschickt wird, ist das nichts. Für Dinge, die dir wichtig sind, lohnt es sich zu wissen, wohin das Audio geht.

Win+H funktioniert nicht? Die drei üblichen Verdächtigen

Wenn Win+H gar nichts macht, liegt es fast immer an einem von drei Dingen. Prüfe sie in dieser Reihenfolge – das entspricht der Häufigkeit, mit der jedes davon die Ursache ist.

1. Kein Internet oder kein funktionierendes Mikrofon.

Die Spracheingabe braucht eine Verbindung und ein Mikrofon, das Windows hören kann. Öffne Einstellungen, System, Sound und prüfe, ob dein Eingabegerät beim Sprechen Ausschlag zeigt.

Fix testen: Die Leiste sollte „Hört zu“ anzeigen, statt hängen zu bleiben.

2. Der Cursor befindet sich nicht in einem Textfeld.

Win+H reagiert nur, wenn dein Cursor in einem Feld liegt, in das du tippen kannst. Klicke zuerst in ein Word-Dokument oder einen E-Mail-Textkörper, dann drücke die Tastenkombination.

Fix testen: Die Mikrofon-Leiste erscheint sofort, wenn du die Tasten drückst.

3. Eine Funktionstasten-Ebene auf dem Laptop stiehlt das H.

Bei manchen Laptops belegen die obere Reihe oder Medientasten die Funktionen um, und ein Tastatur-Hilfsprogramm kann die Tastenkombination abfangen.

Fix testen: Öffne stattdessen die Mikrofon-Schaltfläche der Touch-Tastatur. Funktioniert das Diktieren dort, liegt das Problem bei der Hardware-Tastenkombination – weise die Taste im Tastatur-Hilfsprogramm deines Herstellers neu zu.

Die drei üblichen Verdächtigen der Reihe nach prüfen – das entspricht der Häufigkeit, mit der jeder einzelne die Ursache ist.

Wenn keiner dieser Schritte hilft, liegt das eigentliche Problem meist an einem Sprachpaket, das nicht vollständig installiert wurde, oder an einem Windows-Update, das gerade läuft. An diesem Punkt höre ich auf, mit dem eingebauten Tool zu kämpfen, und richte Weg 2 ein – etwas, das ich von Anfang bis Ende selbst kontrolliere. Wenn es danach weiter hakt, haben wir eine separate Anleitung für den Fall, dass die Spracheingabe unter Windows nicht funktioniert, mit der ausführlicheren Checkliste.

Weg 2: Eine dedizierte Diktiersoftware einrichten

Whisper ist die Desktop-App, die ich entwickle. Sie erledigt die drei Dinge, die Win+H nicht kann: Sie transkribiert offline auf deiner eigenen CPU, funktioniert über eine systemweite Tastenkombination in jeder Anwendung, und lässt dich die Engine für deine Hardware und Sprachen selbst wählen – statt auf ein fixes Cloud-Modell angewiesen zu sein. Hier ist die vollständige Einrichtung, von Anfang bis Ende.

Whisper
Die echte Whisper Desktop-App – klick dich durch die Bereiche Einstellungen, Transkription und KI.

Voraussetzungen: Windows 11, etwa 1 GB freier Speicher für ein mittelgroßes Modell, ein Mikrofon und ein kostenloses Konto (keine Zahlungsmethode zum Start erforderlich). Eine Verbindung brauchst du nur für den einmaligen Download; die Transkription danach läuft offline. Dauer: 5 bis 10 Minuten, davon die meiste Zeit der Modell-Download.

1

Whisper herunterladen und installieren. Den Installer von der Download-Seite holen und ausführen. Erwartetes Ergebnis: Die App öffnet sich mit ihrem Hauptfenster.

2

Anmelden. Das kostenlose Konto erstellen, wenn du dazu aufgefordert wirst; keine Kreditkarte erforderlich. Erwartetes Ergebnis: Du landest auf dem Hauptbildschirm mit verfügbaren Einstellungen.

3

Eine lokale Engine auswählen und das Modell herunterladen. Ein für deinen PC passendes Whisper-Modell auswählen oder Parakeet für die schnellste lokale Option. Erwartetes Ergebnis: Ein Fortschrittsbalken schließt sich ab, und das Modell wird als bereit angezeigt.

4

Die Tastenkombination bestätigen. Die Standard-Tastenkombination unter Windows ist Ctrl+Space: gedrückt halten, sprechen, loslassen. In den Einstellungen anpassen, falls sie mit etwas kollidiert.

5

In einer beliebigen App testen. In ein beliebiges Textfeld klicken (Browser, Code-Editor, Chat-Fenster), Ctrl+Space gedrückt halten, einen Satz sagen, loslassen. Der Text landet an deinem Cursor.

Erwartetes Ergebnis: Mit dem heruntergeladenen Modell hältst du Ctrl+Space in einer beliebigen Anwendung gedrückt, sprichst, lässt los – und deine Wörter werden ohne Internetverbindung (nach dem einmaligen Download) an den Cursor eingefügt. Das Sagen von „Hey Whisper“ löst einen KI-Korrekturschritt für den Text aus, bevor er landet – wenn du das aktiviert hast.

Wenn die Tastenkombination nicht richtig reagiert: In den Einstellungen neu belegen. Das habe ich auf die harte Tour gelernt. Die erste Version des Hotkey-Handlers hat den Aufnahme-Stopp-Callback unter Windows sechsmal pro echtem Tastendruck ausgelöst, weil das Windows-Eingabeframework bei Ctrl+Space Ghost-Release-Events in unvorhersehbaren Abständen erzeugt. Auf einem sauberen Rechner lief es – auf jedem Laptop mit einer zweiten aktivierten Spracheingabe brach es zusammen. Es brauchte Telemetrie, eine 50ms-Sperre, die nicht ausreichte, und schließlich ein 300ms-Debounce, das es tat. Das Urteil meiner Tochter gilt noch immer: Deshalb braucht Papas E-Mails so lange.

Bei der Sprachabdeckung verarbeitet die lokale Whisper-Engine mit ihren mehrsprachigen Modellen 99 Sprachen, während die .en-Versionen nur Englisch unterstützen und für diesen einen Zweck etwas schneller sind. Die Parakeet-Engine läuft 5 bis 10 Mal schneller als Whisper auf der CPU und deckt Englisch plus 24 europäische Sprachen ab (25 insgesamt), überspringt jedoch asiatische Sprachen und die Übersetzung ins Englische. Wenn Offline-First für dich entscheidend ist, erklärt unser ausführlicherer Leitfaden zur Offline-Spracherkennung die Engines detaillierter.

Win+H vs. Voice Access vs. dedizierte App

Drei Wege, Sprache in Text umzuwandeln unter Windows 11 – direkt nebeneinander. Die Tabelle zeigt nur das, was jedes Tool dokumentiert. Keine erfundenen Genauigkeits- oder Geschwindigkeitswerte.

ToolTypOffline nutzbarPreismodellSprachenAm besten für
Win+H SpracheingabeIn Windows 11 integriertNein (Azure online)Kostenlos mit Windowsca. 40, feste ListeKurze Online-Notizen in beliebigen Textfeldern
Voice AccessIn Windows 11 integriert (22H2+)Ja (auf dem Gerät)Kostenlos mit WindowsBegrenztes AngebotVollständige Freisprechsteuerung des PCs
Whisper (dedizierte App)Installation auf Windows + macOSJa (lokale CPU)Kostenlose lokale Stufe; kostenpflichtiges Cloud-Add-on99 bei mehrsprachigen Whisper-ModellenOffline-Diktat in jeder App

Wenn du nur schnell bei Teams antworten willst und online bist, gewinnt Weg 1 durch Einfachheit. Er ist bereits auf deinem PC. Sobald offline, App-übergreifende Abdeckung oder eine fehlende Sprache ins Spiel kommen, rechtfertigt Weg 2 die Installation.

Lokal vs. Cloud: welcher Whisper-Modus für deinen PC

Whisper läuft in zwei Modi, und die Wahl hängt von deiner Hardware und davon ab, ob du Web-Zugang möchtest.

Der lokale Modus erledigt alles auf deinem Gerät. Wähle ein Whisper-Modell, das zu deinem PC passt: Base ist etwa 140 MB und läuft auf fast allem, Small ist etwa 480 MB, Medium etwa 1,5 GB, und das mehrsprachige Large v3 ist etwa 3 GB für die beste Genauigkeit – wenn du genug RAM hast. Oder wähle Parakeet mit etwa 600 MB für die schnellste lokale Option, wenn du hauptsächlich auf Englisch oder europäischen Sprachen arbeitest. Nach dem Download wird keine Internetverbindung mehr benötigt.

Thinking...
Der KI-Korrekturschritt, den sowohl lokaler als auch Cloud-Modus teilen – er läuft, bevor der Text landet.

Der Cloud-Modus ist der Ausweg. Er verwendet deinen eigenen OpenAI-Schlüssel: Transkription über gpt-4o-mini-transcribe oder gpt-4o-transcribe sowie Web-Suche, wenn du eine aktuelle Antwort direkt an den Cursor eingefügt haben möchtest. Du bringst den Schlüssel mit; wir verdienen nichts daran.

Meine Meinung, hinter der ich stehe: Probier zuerst den lokalen Modus. Wenn dein Windows-PC aus den letzten vier Jahren stammt, brauchst du für den Alltag keine Cloud – und der lokale Modus behält dein Audio dort, wo es hingehört: auf deinem Gerät. Die Cloud ist der Rückfall für den Fall, dass du an eine Grenze stößt – nicht die Standardoption. Whisper ist für die gesamte lokale Pipeline kostenlos, sobald du dich anmeldest; keine Zahlungsmethode beim Start erforderlich. Die Cloud-Oberfläche ist die kostenpflichtige Pro-Stufe. Details gibt es auf der Preisseite. Für die vollständige lokale Schritt-für-Schritt-Anleitung, schau dir den Leitfaden für Sprache-zu-Text unter Windows an.

Wann du die dedizierte App überspringen solltest

Ich möchte lieber, dass du Win+H behältst, als dass du etwas installierst, das du nicht nutzen wirst. Verzichte auf eine dedizierte App und bleib bei der eingebauten Spracheingabe, wenn alles Folgende zutrifft:

  • Du diktierst kurze Ausbrüche, keine langen Dokumente.
  • Du bist immer online, wenn du diktierst.
  • Du arbeitest nur in einer Sprache, die Microsofts Spracheingabe bereits abdeckt.
  • Dein Audio ist unkritisch, und es ist dir egal, ob es das Gerät verlässt.

Win+H ist kostenlos, bereits installiert und genau für diesen Job gemacht. Die dedizierte App rechtfertigt sich, sobald du eine dieser Grenzen überschreitest – ein Flugzeug, ein Vertragsentwurf, eine Sprache, die Microsoft übersprungen hat, oder eine App, die kein Standard-Textfeld ist.

Ehrliche Preise

Whispers lokaler Modus ist für alle kostenlos, die sich anmelden: Whisper- und Parakeet-Transkription, KI-Verbesserung, Verlauf, Voreinstellungen, benutzerdefinierte Hörwörter, Hardware-Beschleunigung, Modell-Downloads und die globale Tastenkombination – alles, ohne dass eine Kreditkarte zum Start erforderlich ist. Whisper Pro ergänzt oben drauf die Cloud-Funktionen: OpenAI-Cloud-Transkription, Cloud-KI-Verbesserung und Sprach-Web-Suche. Die eingebaute Windows-Spracheingabe ist ebenfalls kostenlos, weil sie Teil von Windows ist. Die vollständige Planübersicht findest du auf der Preisseite. Ich würde lieber, dass du die genauen Zahlen dort nachliest, als einer Zahl in einem Blog-Beitrag zu vertrauen, die mit der Zeit veraltet.

Zwei Wege, eine Entscheidung. Wenn du online bist, die Notiz kurz ist und der Einsatz gering, drücke Windows-Taste + H und sprich – es ist kostenlos und bereits auf deinem PC. Sobald du es im Flugzeug brauchst, in jeder App, in einer Sprache, die Microsoft übersprungen hat, oder mit Audio, das auf deinem eigenen Gerät bleiben soll, richte stattdessen die dedizierte App ein. Ich habe diese Grenze irgendwann bei der dritten Meeting-Notiz überschritten, die ich einhändig diktiert habe, während ich Lunchboxen gemacht habe – seitdem habe ich keine lange E-Mail mehr getippt.

Offline auf deinem eigenen PC ausprobieren

Whisper herunterladen, Ctrl+Space gedrückt halten, sprechen, loslassen – deine Wörter werden in jeder App an den Cursor eingefügt, ohne dass das Internet dabei eine Rolle spielt.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte erforderlich. Wenn Win+H bereits alles erledigt, was du brauchst, behalte die Tastenkombination – sie ist eine gute.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Links