Von Denys Medvediev

Vergleich

Win+H Alternative

Win+H ist die Windows-Spracheingabe – kostenlos, eingebaut und gut für kurze Eingaben. Aber sie läuft in Microsofts Cloud, braucht Internet und kennt kein eigenes Vokabular. Die Alternative, die die meisten suchen, arbeitet offline, mit einem Hotkey zum Gedrückthalten und einem KI-Durchlauf, der den Text aufräumt.

Zuletzt aktualisiert: Juni 2026

Eine Windows-Tastatur auf einem dunklen Schreibtisch mit der Windows-Taste im Fokus, als Anspielung auf das Win+H-Tastenkürzel zur Spracheingabe

Die beste Win+H-Alternative ist ein systemweites Diktierwerkzeug, das offline läuft – etwa Whisper by Remskill. Win+H (die Windows-Spracheingabe) ist kostenlos und eingebaut, nutzt aber Microsofts Online-Spracherkennung und braucht Internet. Ein lokales Werkzeug transkribiert direkt auf dem Gerät, ergänzt eigenes Vokabular und verwendet einen Hotkey zum Gedrückthalten, der nicht von selbst aufhört.

Win+H ist das kostenlose Diktieren, das ohnehin schon auf deinem PC steckt – und für viele Leute reicht es ehrlich gesagt völlig. Du drückst Windows-Taste + H, irgendwo bei deinem Cursor taucht eine kleine Leiste auf, du sprichst, und es erscheint Text. Keine Installation, kein Konto, keine Kosten. Das will ich gleich zu Beginn klar sagen, denn das Internet ist voll von Seiten, die die eingebaute Lösung schlechtreden, damit sie dir etwas verkaufen können. Sie ist nicht schlecht. Sie ist okay.

Der Ärger fängt an, wenn aus „okay für kurze Eingaben“ ein „das mache ich den ganzen Tag“ wird. Die Spracheingabe schickt deine Stimme in Microsofts Cloud und braucht deshalb eine stabile Internetverbindung. Sie kennt kein eigenes Vokabular, lernt also nie deine Produktnamen oder die Nachnamen deiner Kollegen. Und das Tastenkürzel selbst gerät in Konflikte – jede Menge Apps haben Win+H oder die Tasten drumherum längst belegt. Wenn du an eine dieser Wände gestoßen bist, suchst du keine Reparatur. Du suchst eine Alternative.

Hier die nüchterne Wahrheit, die die meisten dieser Seiten überspringen. Win+H ist ein gutes kostenloses Werkzeug mit drei konkreten Grenzen: Es ist cloudbasiert, also bedeutet kein Internet kein Diktieren; es gibt keine Möglichkeit, ihm deinen Fachjargon beizubringen; und es ist eine Leiste zum Antippen, die zuhört, bis irgendetwas sie stoppt, statt einer Taste, die du beim Sprechen gedrückt hältst. Nichts davon ist ein Fehler. Es sind Designentscheidungen, und es sind die richtigen Entscheidungen für die Gelegenheitsnutzer, für die Microsoft es gebaut hat.

Die eigentliche Frage lautet also nicht „Wie mache ich Win+H besser“. Das kannst du meistens nicht – die Grenzen sind fest eingebaut. Die Frage lautet „Was setze ich stattdessen ein, wenn diese Grenzen anfangen wehzutun“, und die ehrliche Antwort hängt davon ab, ob du Offline-Privatsphäre willst, dein eigenes Vokabular, einen Hotkey, der dir nicht in die Quere kommt, oder einen KI-Durchlauf, der den endlosen Satzstrom aufräumt, bevor er ankommt. Ich gehe alles durch, richte in zwei Minuten eines ein und sage dir klar, wann Win+H trotzdem die richtige Wahl ist.

Was Win+H wirklich ist und für wen es gedacht ist

Eine Person nutzt einen Windows-Laptop am Schreibtisch, als Veranschaulichung der eingebauten Spracheingabe

Win+H ist das Tastenkürzel für die Windows-Spracheingabe. Drücke die Windows-Logo-Taste und H gleichzeitig auf jedem Windows-11-PC, eine Mikrofonleiste erscheint, und was du sagst, wird in das Textfeld getippt, in dem dein Cursor steht. Microsofts eigene Supportseite ist klar dazu, was dahintersteckt: „Die Spracheingabe verwendet die Online-Spracherkennung, die auf den Azure Speech-Diensten basiert.“ Sie funktioniert in rund 40 Sprachen, kann Satzzeichen automatisch einfügen, wenn du diese Einstellung aktivierst, und kostet nichts, weil sie mit Windows mitgeliefert wird.

Ehre, wem Ehre gebührt, denn fair zu sein ist hier wichtig. Für kurzes, gelegentliches Diktieren ist Win+H wirklich gut. Die Genauigkeit bei klarem Englisch ist solide. Die Einrichtung ist gleich null – kein Konto, kein Download, kein Modell, auf das man warten muss. Wenn du eine zweizeilige Teams-Nachricht oder eine schnelle Suchanfrage per Stimme abfeuern willst, drückst du ein Tastenkürzel und bist fertig. Für diese Aufgabe wäre es albern, für irgendetwas anderes zu zahlen, und das sage ich später noch einmal in klareren Worten.

Es richtet sich an die Person, die gelegentlich diktiert, nicht an die, die vom Diktieren lebt. Diese Einordnung erklärt jede Einschränkung, die folgt. Microsoft hat eine kostenlose, einfache, cloudgestützte Funktion für den durchschnittlichen Nutzer gebaut, der ab und zu reden statt tippen möchte. Es hat kein Profiwerkzeug gebaut, und das hat es nie behauptet. Der Bruch zeigt sich nur, wenn du ein Gelegenheitswerkzeug für eine schwere Aufgabe einsetzen willst.

Win+H ist außerdem nur eines von mehreren Tastenkürzeln – das Spracheingabe-Kürzel jedes Betriebssystems ist in einer Tabelle gesammelt.

Warum Leute nach einer Win+H-Alternative suchen

Drei Dinge treiben Leute zur Suche. Erstens die Internetpflicht. Microsofts Supportdokumentation sagt es unmissverständlich: „Um die Spracheingabe zu nutzen, müssen Sie mit dem Internet verbunden sein.“ Die Spracheingabe verarbeitet deine Stimme in der Cloud, nicht auf deinem Rechner, also funktioniert sie im Zug, im Flugzeug, in einem Funkloch oder in einem abgeschotteten Firmennetz schlicht nicht. Für jeden, der etwas diktiert, das er lieber nicht an einen Server schickt – eine Mail an einen Kunden, eine Patientennotiz, eine noch halbgare Idee zum Geschäft –, ist der Umweg über die Cloud das K.-o.-Kriterium, nicht die Geschwindigkeit.

Zweitens gibt es kein eigenes Vokabular. Win+H lernt nicht, dass dein Produkt „Remskill“ heißt und nicht „rem skill“, oder dass deine Kollegin „Siân“ ist und nicht „Shawn“. Jede Sitzung beginnt bei null. Drittens kollidiert das Tastenkürzel. Win+H ist ein globales Kürzel, und andere Apps greifen es oder die Tasten daneben ab, sodass aus dem schnellen Tastendruck ein Kampf darum wird, wer den Tastengriff besitzt. Eine Alternative behebt alle drei Punkte auf einmal: Sie läuft auf dem Gerät, nimmt eine eigene Wortliste an und lässt dich einen Hotkey wählen, an den sonst nichts geht.

Den letzten Punkt sieht man besser, als dass man ihn liest. Die Alternative, bei der die meisten landen, ist ein Hotkey zum Gedrückthalten: Du hältst eine Taste gedrückt, sprichst und lässt los, und der Text wird an deinem Cursor eingefügt. Er bleibt genau so lange aktiv, wie du hältst – kein automatischer Stopp nach einer Pause, keine Leiste zum Wegklicken. Eine kleine Kapsel erscheint, während du sprichst, damit du weißt, dass es zuhört:

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die erscheint, während du den Hotkey gedrückt hältst, damit du weißt, dass es zuhört.

Richte die Alternative in zwei Minuten ein

Die Alternative, die ich hier verwende, ist Whisper by Remskill, weil sie alle drei Win+H-Lücken schließt – offline, eigenes Vokabular, dein eigener Hotkey. Du brauchst einen PC mit Windows 10 oder neuer (es läuft auch auf dem Mac), ein funktionierendes Mikrofon und etwa zwei Minuten. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Anmeldung nach einer Zahlungsmethode gefragt wird. Hier ist der Ablauf.

Schritt 1 – Whisper installieren und anmelden.

Lade es von der Downloadseite herunter, installiere es und erstelle ein kostenloses Konto. Keine Karte. Die gesamte lokale Transkriptions-Pipeline steht sofort bereit.

Du weißt, dass es geklappt hat, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent anbietet, ein Modell auszuwählen.

Schritt 2 – Einen Transkriptionsweg wählen.

Die App entscheidet das nicht für dich. Du hast drei zur Wahl: Cloud (OpenAI, eigener Schlüssel), Local Parakeet oder Local Whisper. Um die Cloud-Grenze von Win+H zu schlagen, wähle einen lokalen Weg – mehr dazu zwei Abschnitte weiter unten.

Du weißt, dass es geklappt hat, wenn ein Modell den Download abschließt und als bereit angezeigt wird.

Schritt 3 – Einen Hotkey festlegen, den sonst nichts nutzt.

Unter Windows ist Ctrl+Space voreingestellt, gehalten als Push-to-Talk. Falls das mit etwas kollidiert, das du nutzt, ändere es in den Einstellungen – der ganze Grund, Win+H zu verlassen, ist ja, dass du diese Taste besitzen darfst, statt um sie zu kämpfen.

Du weißt, dass es geklappt hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.

Schritt 4 – Eigene Wörter hinzufügen, dann sprechen.

Trage deine Produktnamen, Nachnamen und Abkürzungen in die Hotwords-Liste ein, damit sie richtig geschrieben herauskommen. Setze dann deinen Cursor irgendwohin, halte den Hotkey, sag einen Satz und lass los.

Du weißt, dass es geklappt hat, wenn „Remskill“ als Remskill herauskommt und dein Satz im Textfeld steht.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Transcription- und AI-Panels.

Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, hört das Diktieren auf, eine Funktion zu sein, die du aufrufst, und wird zu einer Taste, die du hältst – in jeder App, online oder nicht.

Sprache-zu-Text unter Windows · auf dem Mac

Win+H gegen ein spezialisiertes Werkzeug, ehrlich

Fangen wir damit an, wo Win+H gewinnt, denn in zwei Dingen gewinnt es, und etwas anderes zu behaupten wäre unehrlich. Es ist kostenlos, Punkt – nie etwas zu kaufen. Und es ist schon installiert, also kein Download und kein Konto. Wenn dir diese beiden Dinge am wichtigsten sind, kann der Vergleich hier enden, und Win+H gewinnt. Ein spezialisiertes Werkzeug verlangt, dass du etwas installierst und dich anmeldest; Win+H verlangt gar nichts.

Jetzt der Rest der Tabelle. Beim Datenschutz ist Win+H reine Cloud – Microsofts Dokumentation zieht die Grenze selbst: Die Online-Spracherkennung „nutzt cloudbasierte Microsoft-Dienste“ und „Sprachdaten werden an Microsoft gesendet“, während die gerätebasierte Erkennung „Ihre Stimme lokal auf Ihrem Gerät verarbeitet“ und „keine Sprachdaten an Microsoft gesendet“ werden. Die Spracheingabe nutzt den Online-Weg. Eine lokale Alternative behält alles auf dem Rechner. Beim eigenen Vokabular hat Win+H keines; ein spezialisiertes Werkzeug nimmt eine Wortliste an. Beim Hotkey ist Win+H ein festes globales Kürzel, das zuhört, bis es unterbrochen wird; ein Werkzeug zum Gedrückthalten gibt dir eine Taste, die du wählst und hältst. Beim Aufräumen setzt Win+H live automatische Satzzeichen; ein spezialisiertes Werkzeug kann einen vollen KI-Durchlauf fahren, der Füllwörter und endlose Sätze behebt, nicht nur Kommas.

Und der automatische Stopp. Win+H ist darauf ausgelegt, eine Pause als „du bist fertig“ zu lesen und sich nach ein paar Sekunden Stille selbst abzuschalten – ein Verhalten, das ich gesondert untersucht habe unter warum das Windows-Diktieren ständig aufhört. Für kurze Nachrichten ist das in Ordnung. Beim lauten Nachdenken, wo du innehältst, um das richtige Wort zu finden, ist es zum Verzweifeln. Eine Taste zum Gedrückthalten umgeht das Ganze: Sie ist an, solange du hältst, und aus, sobald du loslässt, und Stille mittendrin ändert nichts. Also der ehrliche Punktestand: Win+H gewinnt bei kostenlos und vorinstalliert; die Alternative gewinnt bei offline, Vokabular, Hotkey-Kontrolle, Aufräumen und Nicht-Aufhören. Wähle die Zeile, die zu deinem Tag passt.

Lokal oder Cloud: welcher Modus Win+H ersetzt

Wenn der Grund, Win+H zu verlassen, die Internetpflicht oder der Datenschutz ist, lautet die Antwort lokaler Modus. Der ganze Reiz einer Alternative liegt darin, dass die Transkription auf deinem Rechner passiert, ohne dass etwas an einen Server geht – das Gegenteil des Cloud-Umwegs, der die Spracheingabe in dem Moment stoppt, in dem deine Verbindung wackelt. Wenn dein PC aus den letzten Jahren ist, bewältigt der lokale Modus das alltägliche Diktieren klaglos, und die Cloud wird zu einer Option, nach der du greifst, statt zu einer Abhängigkeit, an der du hängst.

So unterscheiden sich die drei Wege, denn die App lässt dich wählen, und ich hätte lieber, dass du gut wählst:

  • Local ParakeetNVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option – 5- bis 10-mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, 25 insgesamt. Keine Übersetzung ins Englische. Wenn du auf Englisch oder in einer anderen europäischen Sprache diktierst, ist das die schnelle, komplett offline laufende Wahl, die tut, was Win+H tut, nur ohne Cloud.
  • Local Whisperlangsamer als Parakeet auf demselben Rechner, aber die mehrsprachigen Builds decken 99 Sprachen ab und können ins Englische übersetzen. Die rein englischen Builds sind nur Englisch, nicht 99. Wähle dies für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsarbeit, die Parakeet nicht kann. Das englische Standardmodell ist rund 480 MB groß.
  • Cloud (OpenAI, BYOK)beste Genauigkeit und Webzugriff, mit deinem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Sie braucht Internet, so wie Win+H, also ist sie der einzige Weg, der deinen Rechner verlässt. Die Cloud-Funktion gehört zu Whisper Pro.

Die nüchterne Wahrheit ist: Für die Art Text, die Win+H heute bewältigt – E-Mails, Nachrichten, Notizen –, reicht jede der beiden lokalen Engines völlig, und beide laufen komplett offline. Das ist der größte praktische Unterschied zur eingebauten Lösung: keine Verbindung, funktioniert trotzdem. Die Cloud verdient ihren Platz, wenn du Spitzengenauigkeit bei einer schwierigen Aufnahme willst oder das Modell mitten im Satz eine Information aus dem Web ziehen soll. Wenn du hergekommen bist, um der Internetabhängigkeit zu entkommen, fang lokal an und behandle die Cloud als Notausgang, nicht als Standard.

Der KI-Durchlauf zum Aufräumen, den Win+H nicht macht

Rohes Diktat kommt als endloser Satzstrom heraus. Du sagst „okay also mail dem kunden wegen des remskill-rollouts schieb es auf donnerstag und frag wegen des budgets“, und das ist die satzzeichenlose Wand, die dir jede Sprach-Engine reicht. Win+H streut beim Sprechen Kommas und Punkte ein, was echt und nützlich ist. Was es nicht tut, ist das Chaos umzuschreiben – die „ähs“ herauszunehmen, die kaputte Grammatik zu reparieren, aus einem gesprochenen Geplapper etwas zu machen, das du tatsächlich verschicken würdest.

Genau diese Lücke füllt ein KI-Durchlauf. Sag den Aktivierungssatz „Hey whisper“, und der Text wird aufgewertet, bevor er ankommt: Füllwörter entfernt, endlose Sätze getrennt, deine eigenen Wörter richtig geschrieben, weil du sie dem Werkzeug beigebracht hast. Bei einem lokalen Modell läuft das über Ollama, sodass das Aufräumen ebenfalls auf deinem Rechner passiert; im Cloud-Modus ist es standardmäßig gpt-5-mini. Win+H gibt dir Satzzeichen. Das hier gibt dir einen fertigen Satz.

Thinking...
Roh

okay also mail dem kunden wegen des remskill-rollouts schieb es auf donnerstag und frag wegen des budgets äh vor dem call

Aufgeräumt

Okay, also mail dem Kunden wegen des Remskill-Rollouts, schieb es auf Donnerstag und frag wegen des Budgets vor dem Call.

Das eigene Vokabular ist der Teil, mit dem Win+H strukturell nicht mithalten kann. Weil die Alternative auf deinem Rechner mit deiner eigenen Wortliste transkribiert, weiß sie, dass „Remskill“ ein Produkt und „Siân“ ein Name ist, und sie bekommt sie jedes Mal richtig statt jedes zweite Mal. Für jeden, der den ganzen Tag dieselben Eigennamen diktiert – ein Vertriebler mit einem CRM voller Nachnamen, ein Entwickler, der immer dieselben Dienste benennt –, ist das der Unterschied zwischen Text, den du behältst, und Text, den du nachbessern musst. Win+H beginnt jede Sitzung als Fremder; ein Werkzeug mit Hotwords erinnert sich.

Genau dieser Ablauf aus erst sprechen, dann aufräumen ist der ganze Grund, warum die Stimme bei großen Mengen die Tastatur schlägt – du kannst mit deiner Stimme schneller tippen in jeder App, sodass aus einer langen Nachricht ein paar gesprochene Sätze werden statt eines Absatzes, den du mühsam von Hand zusammenhämmerst.

Wann Win+H alles ist, was du brauchst

Eine Person sitzt entspannt am Laptop und verschickt eine schnelle Nachricht, als Veranschaulichung des gelegentlichen eingebauten Diktierens

Ich würde lügen, wenn ich jedem rate, etwas zu installieren. Für einen echten Teil der Leute ist Win+H die richtige Antwort, und ein spezialisiertes Werkzeug wäre überdimensioniert. Wenn du gelegentlich diktierst – eine schnelle Nachricht, ein Suchfeld, eine kurze Notiz – und fast immer online bist, kostet die eingebaute Funktion nichts und funktioniert gut. Lade keine App herunter, um zu tun, was das Kürzel Windows-Taste + H längst kostenlos erledigt.

Konkret: Bleib bei Win+H, wenn du immer mit dem Internet verbunden bist und es dir egal ist, dass deine Stimme durch Microsofts Cloud läuft; wenn du in kurzen Schüben statt in langen Passagen diktierst, sodass der automatische Stopp bei Stille dich nie stört; wenn du nie brauchst, dass es eigene Namen oder Fachbegriffe richtig schreibt; und wenn das Win+H-Kürzel mit nichts kollidiert, das du nutzt. Das ist ein echtes Profil, kein Strohmann – es beschreibt eine Menge Gelegenheitsnutzer, und für sie fügt die Alternative Reibung hinzu, ohne Mehrwert zu bringen. Kostenlos und vorinstalliert ist eine starke Kombination, wenn die Grenzen dich nicht berühren.

Die Linie, die du überschreitest, ist die, an der die Grenzen anfangen, dich Zeit zu kosten. Greif zu einem offline laufenden, systemweiten Werkzeug, wenn du dort diktierst, wo es keinen Empfang gibt, wenn du willst, dass deine Worte auf deinem Rechner bleiben, wenn du es leid bist, dass dieselben Namen falsch herauskommen, oder wenn du einen Hotkey willst, den du hältst und der nie mitten im Gedanken aufhört. Unterhalb dieser Schwelle gewinnt Win+H bei Preis und null Einrichtung, und ich sage dir gern, es zu behalten.

Und wenn deine eigentliche Beschwerde über Win+H das ständige Abbrechen ist statt der Cloud, behandelt die reparatur-zuerst-Anleitung in warum das Windows-Diktieren ständig aufhört, was du tatsächlich stabilisieren kannst, bevor du dich überhaupt zum Wechsel entscheidest.

Weiterführende Lektüre

Win+H ist das seltene kostenlose Werkzeug, das wirklich gut ist, weshalb ich diesen ganzen Beitrag damit verbracht habe, mich zu weigern, es schlechtzumachen. Es macht eine Sache gut: kurzes, online, gelegentliches Diktieren, für umsonst. Die Alternative ist für die andere Aufgabe – die ganztägige, offline, mit-meinen-eigenen-Wörtern, Taste-halten-und-denken-Aufgabe. Ich habe den größten Teil dieses Vergleichs mit einem Hotkey diktiert, den ich selbst gewählt habe, in einem Flugzeug mit ausgeschaltetem WLAN, während Win+H dasaß und auf eine Verbindung wartete, die es nicht bekommen würde. Wähl das Werkzeug, das zu dem Flug passt, auf dem du bist.

Probier die Offline-Alternative zu Win+H

Halt einen Hotkey, den du gewählt hast, sprich, lass los. Der Text landet dort, wo dein Cursor steht – online oder offline, in jeder App.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte für den Start nötig.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.