Von Denys Medvediev

Tutorial

Spracheingabe in Word: Win+H, Diktieren oder besser

Zwei eingebaute Wege, in Word zu diktieren, plus ein systemweites Upgrade. Wo jeder zu finden ist, wie man ihn einschaltet und wo Schluss ist.

Zuletzt aktualisiert: Juni 2026

Hände tippen ein Dokument auf einem Laptop, umgeben von Papieren – der Arbeitsablauf, den die Spracheingabe in Word ersetzt

Spracheingabe in Word funktioniert von Haus aus auf zwei Wegen: Drücken Sie Win+H, um die Windows-Spracheingabe in jedem Textfeld zu öffnen, oder klicken Sie auf die Schaltfläche „Diktieren“ auf Words Registerkarte „Start“. Beide brauchen eine Internetverbindung zum Transkribieren. Ein lokales Tool wie Whisper ergänzt Offline-Diktat, das in Word und jeder anderen App läuft.

Für einen Statusbericht mit 700 Wörtern habe ich letzten Monat 19 Minuten zum Tippen gebraucht und knapp unter 5, um ihn mit 145 Wörtern pro Minute zu diktieren. Gleiches Dokument, gleiches Word-Fenster, gleicher Autor. Verändert hat sich nur, auf welche Eingabe Microsofts berühmteste App gerade hörte. Word hat seit Jahren Ohren; die meisten haben einfach nie die zwei Schaltflächen gefunden, die sie einschalten. (Ich fand sie auf die peinliche Art, indem ich Win+H drückte, um einen Anruf stummzuschalten.)

Hier liegt das Problem: Word-Nutzer entdecken eines der beiden eingebauten Diktierwerkzeuge, halten es für das einzige und beurteilen die Spracheingabe nach dem, auf das sie zuerst stoßen. Aktuell liefert Windows 11 die Spracheingabe per Win+H aus, und Microsoft 365 liefert „Diktieren“ direkt in Word – das sind zwei verschiedene Werkzeuge mit verschiedenen Voraussetzungen. Dieser Leitfaden zeigt, wie Sie beide in Word einschalten, wo jedes an seine Grenze stößt und wie ein systemweites Tool abdeckt, was sie verpassen.

Am Ende läuft die Spracheingabe in Word bei Ihnen in unter einer Minute, plus ein Offline-Setup, falls Sie eines brauchen. Die meisten Diktat-Fragen in unserem Support-Postfach laufen auf „welches von beiden benutze ich eigentlich“ hinaus. Ich lese diese E-Mails, also kann ich das mit ruhigem Gewissen sagen.

Word hat zwei Wege zur Spracheingabe, nicht einen

Microsoft hat beide gebaut, und genau deshalb kann sie niemand auseinanderhalten. Die Windows-Spracheingabe ist Teil des Betriebssystems. Sie öffnet sich mit Win+H, schwebt über der gerade aktiven App und tippt überall dort, wo der Cursor steht. In Word funktioniert sie genauso wie in Editor oder einem Browserformular. „Diktieren“ ist Teil von Microsoft 365. Es sitzt auf Words Registerkarte „Start“, gibt es nur innerhalb der Office-Apps und setzt ein aktives Microsoft-365-Abo voraus.

Die nüchterne Wahrheit: Für einfaches Absatzdiktat in Word liefern beide nahezu identische Ergebnisse, denn beide leiten Ihr Audio durch Microsofts Online-Sprachdienste. Die Unterschiede, die zählen, sind Reichweite und Voraussetzungen. Win+H kommt mit Windows und begleitet Sie durch jede App. „Diktieren“ ist an Ihren Microsoft-365-Tarif gebunden und beherrscht Word-spezifische Kniffe wie Formatierungsbefehle. Wenn Sie ein Microsoft-365-Abo haben und den ganzen Tag in Word leben, fangen Sie mit „Diktieren“ an. Wenn Sie in Word, Outlook, Slack und einem Browser schreiben, fangen Sie mit Win+H an. Keines kostet extra über das hinaus, was Sie ohnehin schon haben.

Win+H: Spracheingabe, die in Windows wohnt, nicht in Word

Höre zu …
Die Spracheingabe-Pille von Windows 11 – eine vereinfachte Nachbildung von Microsofts Oberfläche, nicht die Whisper-App.

Was Sie vor Schritt 1 brauchen: einen Windows-11-PC (Windows 10 hat die ältere Diktierleiste auf derselben Tastenkombination), ein funktionierendes Mikrofon und eine Internetverbindung, denn die Windows-Spracheingabe transkribiert über Microsofts Online-Spracherkennung. Keine Verbindung, kein Tippen. Die Einrichtung dauert insgesamt unter einer Minute.

1. Öffnen Sie Ihr Dokument und klicken Sie dorthin, wo der Text hin soll

Die Spracheingabe braucht den Cursor in einem Textfeld; ist nichts ausgewählt, öffnet sich die Pille, aber nichts wird getippt.

Prüfen: Der Cursor blinkt in Ihrer Word-Seite.

2. Drücken Sie Win+H

Die Spracheingabe-Pille erscheint oben oder unten am Bildschirm.

Prüfen: Sie zeigt „Höre zu …“, bevor Sie zu sprechen anfangen.

3. Sprechen Sie in Phrasen, nicht in einzelnen Wörtern

Ganze Sätze kommen sauberer heraus als Wort-für-Wort-Diktat.

4. Schalten Sie die automatische Zeichensetzung ein

Klicken Sie auf das Zahnrad an der Pille und aktivieren Sie die automatische Zeichensetzung, oder sprechen Sie sie aus: „Punkt“, „Komma“, „Fragezeichen“.

Prüfen: Wenn Sie einen Satz beenden und eine Pause machen, entsteht ein Punkt, ohne dass Sie einen aussprechen.

5. Beenden Sie per Stimme oder mit derselben Tastenkombination

Sagen Sie „Zuhören beenden“ oder drücken Sie noch einmal Win+H.

Win+H nimmt auch Bearbeitungsbefehle entgegen: „Das löschen“, „Das auswählen“, „Eingabetaste drücken“. Sie funktionieren – mit der Geduld von jemandem, der über Hausaufgaben verhandelt: klare Treffer bei einfachen Anfragen, gelegentliche Überraschungen bei zusammengesetzten. Für längere Korrekturen bleiben Tastatur und Maus ungeschlagen. Wenn sich die Pille öffnet, aber nichts passiert, decken unsere Lösungen für „Win+H funktioniert nicht“ die üblichen Verdächtigen ab, und Microsofts Dokumentation zur Spracheingabe listet jeden Befehl und die über 40 unterstützten Sprachen.

Noch eine Feinheit: Auf Copilot+-PCs glättet eine Funktion namens fließendes Diktat Grammatik und Rechtschreibung beim Sprechen und schaltet sich in Passwortfeldern selbst ab.

Die Schaltfläche „Diktieren“, kurz erklärt

Start
Diktieren
Words Schaltfläche „Diktieren“ auf der Registerkarte „Start“ – eine vereinfachte Nachbildung von Microsofts Oberfläche.

„Diktieren“ ist die Mikrofon-Schaltfläche auf Words Registerkarte „Start“. Klicken Sie darauf, warten Sie, bis sie anzeigt, dass sie zuhört, und reden Sie. Es braucht ein Microsoft-365-Abo, ein Mikrofon und eine verlässliche Internetverbindung, und es läuft in Word für Windows, Mac, im Web und mobil. Auf einem Mac schaltet Option+F1 es um. Wenn Sie den ganzen Tag in Word auf einem Mac schreiben, sind „Diktieren“ plus diese eine Tastenkombination vielleicht alles an Spracheingabe, was Sie brauchen.

Sein Vorteil gegenüber Win+H ist das Word-Bewusstsein. Automatische Zeichensetzung ist in den meisten unterstützten Sprachen verfügbar (ein Schalter in den Einstellungen), und es versteht Formatierungsbefehle: „Das fett“, „Aufzählungsliste erstellen“, „Letztes Wort löschen“. Seine Schwäche ist die Reichweite. In dem Moment, in dem Sie Office verlassen, bleibt „Diktieren“ zurück. Diesen Abschnitt halte ich bewusst kurz. Wir haben einen ausführlichen Leitfaden zur eingebauten Diktierfunktion von Word, der jeden Befehl, jede Sprache und jede Einstellung abdeckt, und Microsofts Dokumentation zu „Diktieren“ ist die maßgebliche Referenz. Wenn „Diktieren“ ausgegraut ist oder fehlt, führt der Leitfaden zur Fehlerbehebung beim Word-Diktat durch die Lösungen.

Wo beide eingebauten Werkzeuge an eine Wand stoßen

In der Praxis tauchen drei Grenzen auf, geordnet danach, wie oft sie zubeißen.

Erstens funktioniert keines offline. Win+H transkribiert über Microsofts Online-Dienste; „Diktieren“ nennt eine verlässliche Internetverbindung als Voraussetzung. Im Zug, im Flugzeug, im Hotel-WLAN, das alle 40 Sekunden abbricht, verstummen beide. Unter uns: Diktat, das offline nicht funktionieren kann, ist auch eine Datenschutzentscheidung, die jemand anderes für Sie getroffen hat. Die E-Mail an die Schule Ihres Kindes, das Gehaltsgespräch, der juristische Entwurf – das alles läuft über die Server eines Anbieters, weil Sie mit Ihrer Stimme tippen wollten. Lokale Transkription schickt nichts irgendwohin, und bei manchen Dokumenten ist das keine Vorliebe, sondern die Bedingung.

Zweitens unterscheiden sich die Sprachgrenzen. Win+H unterstützt über 40 Sprachen. „Diktieren“ unterstützt etwa 15 Sprachen und regionale Varianten vollständig, dazu rund 25 weitere in der Vorschau mit geringerer Genauigkeit. Auf Ukrainisch zu diktieren oder mitten im Dokument die Sprache zu wechseln, wird schnell uneben.

Drittens die Reichweite. „Diktieren“ endet an den Grenzen von Office. Win+H ist überall, bleibt aber eine Windows-Funktion; ein Mac-Pendant gibt es nicht. Und ich habe nie eine Stelle gefunden, an der ich einem der beiden Werkzeuge die Projektnamen, Kundennamen oder den Produktjargon beibringen könnte, die ich jeden Tag benutze – „Remskill“ kommt als „rem skill“ an, egal wie oft ich es korrigiere.

Eine Tastenkombination, die in Word und überall sonst tippt

Ende der 1990er ließ ein Verwandter von mir Dragon NaturallySpeaking auf einem Windows-98-Desktop mit 64 MB RAM laufen. Das Anlernen kostete 45 Minuten Vorlesen von Kalibrierungstext, das Diktat kroch mit 4 Sekunden Verzögerung pro Satz, und ein Absatz eines Weihnachtsbriefs dauerte 15 Minuten. Das Headset flog quer durchs Zimmer. Das Headset überlebte; das Experiment nicht. Ich legte die Spracheingabe unter „Ideen, deren Zeit noch nicht gekommen ist“ ab und rührte die Akte zwanzig Jahre nicht an. Dieser Abschnitt ist die wieder geöffnete Akte.

Whisper ist eine Desktop-App, die eine einzige Tastenkombination über das gesamte System legt. Drücken Sie Ctrl+Space in Word (oder überall sonst, wo Sie tippen können), reden Sie, lassen Sie los, und der Text landet an Ihrem Cursor. Dieselbe Taste funktioniert in Outlook, Slack, einem Browser, einem Code-Editor. Es gibt keine Symbolleiste zu finden und keine Funktion pro App zu aktivieren – das ist der strukturelle Unterschied zu beiden eingebauten Werkzeugen.

Whisper
Die echte Whisper-App, live gerendert – klicken Sie sich durch die Einstellungen; genau das wird installiert.

Die Einrichtung dauert etwa zehn Minuten, das meiste davon ein Download:

1. Installieren Sie die App

Sie läuft unter Windows 10 oder neuer und macOS 11 oder neuer und wiegt etwa 25 MB.

Prüfen: Das Whisper-Fenster öffnet sich mit den Einstellungen.

2. Melden Sie sich an

Die lokale Pipeline – Modelle, Verlauf, Voreinstellungen, die Tastenkombination – braucht nur ein Konto.

3. Wählen Sie ein lokales Modell und laden Sie es herunter

Die Voreinstellung ist das mehrsprachige Small mit ~480 MB. Parakeet v3 mit ~600 MB läuft auf der CPU 5–10× schneller und deckt Englisch plus 24 europäische Sprachen ab; die Details stehen auf der NVIDIA Parakeet model card. Die Whisper-Modellfamilie reicht bis Large v3 mit ~3 GB und deckt über 90 Sprachen bei den mehrsprachigen Varianten ab (die rein englischen Builds sind genau das).

Prüfen: Das Modell wird in den Einstellungen als heruntergeladen angezeigt.

4. Setzen Sie den Cursor in Word, halten Sie Ctrl+Space, reden Sie, lassen Sie los

Die Transkription wird dort eingefügt, wo der Cursor steht.

Prüfen: Ihre Wörter stehen im Dokument, samt Zeichensetzung.

Cancel
Das schwebende Overlay während der Aufnahme – es folgt Ihnen in jede App.

Nach dem Modell-Download geschieht die Transkription auf Ihrem Rechner ohne jede Netzwerkaktivität; dasselbe Diktat funktioniert auf 11.000 Metern mit ausgeschaltetem WLAN. Die Genauigkeit im lokalen Modus liegt je nach Modellgröße meist zwischen 95 % und 99 %, und ein eigenes Vokabular bringt ihr die Namen bei, die die eingebauten Werkzeuge ständig verstümmeln. Es gibt auch einen Cloud-Modus, bei dem Sie Ihren eigenen OpenAI-Schlüssel für die neuesten Transkriptionsmodelle mitbringen, aber fürs Word-Diktat ist lokal die Hälfte, die ich nutze. Ich habe diesen Abschnitt in den Entwurf diktiert, während ein Wasserkocher mit einem Teebeutel verhandelte; der Abschnitt brauchte zwei Korrekturen, der Tee keine.

Wann die eingebauten Werkzeuge genügen

Homeoffice mit Tischmikrofon, Tastatur und Bildschirm – ein schlichtes Setup, bei dem das eingebaute Diktat seinen Job erledigt

Wenn Sie einmal pro Woche einen Absatz diktieren, am Schreibtisch mit gutem Internet, nur in Word und in einer der etwa 15 Sprachen, die „Diktieren“ vollständig unterstützt, sparen Sie sich Whisper. „Diktieren“ steckt schon in Ihrem Microsoft-365-Tarif und macht diesen Job gut. Dasselbe gilt für Win+H, wenn Ihr Diktat nie Windows verlässt und die über 40 unterstützten Sprachen Ihre abdecken: Es ist nur eine Tastenkombination entfernt und kostet nichts extra. Spracheingabe von Drittanbietern verdient ihren Platz erst, wenn Sie täglich diktieren, offline arbeiten, eigenes Vokabular brauchen oder ein Werkzeug über jede App hinweg wollen – nicht früher.

Fünfundzwanzig Jahre liegen zwischen dem geworfenen Dragon-Headset und einem Word-Dokument, das sich selbst tippt, während Sie Tee kochen. Die Werkzeuge haben aufgeholt. Was bleibt, ist die Wahl, welcher Zuhörer zu Ihrer Woche passt. Drücken Sie heute Win+H und diktieren Sie einen echten Absatz – ein Status-Update, eine Antwort, die Sie vor sich herschieben. Wenn es hält, haben Sie eine neue Standardeinstellung. Wenn Sie an die Offline-Wand oder die Vokabular-Grenze stoßen, wissen Sie, wo das Upgrade wohnt.

Probieren Sie denselben Absatz mit einer Tastenkombination

Laden Sie Whisper herunter, halten Sie Ctrl+Space in Word und sehen Sie zu, wie die Transkription an Ihrem Cursor landet.

Läuft unter Windows 10 oder neuer und macOS 11 oder neuer. Der lokale Modus läuft offline.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.