Fehlerbehebung
Diktier-Software schreibt falsche Wörter? 5 Lösungen
Diktiersoftware schreibt falsche Wörter, wenn das Modell einen Laut falsch hört und rät. Fünf Ursachen – vier davon lassen sich in zehn Minuten beheben.
Zuletzt aktualisiert: Juni 2026

Diktiersoftware schreibt falsche Wörter, wenn das Sprachmodell einen Laut falsch hört und den Satz um seine Vermutung herum umschreibt. Die häufigsten Ursachen sind ein schwaches Mikrofon, Hintergrundgeräusche, ein Homophon, das das Modell nicht unterscheiden kann, eine falsche Spracheinstellung oder ein Name, den es noch nie gesehen hat. Zuerst das Audio verbessern, dann dem Tool das eigene Vokabular beibringen.
Du sagst „Deploy in die Staging-Umgebung.“ Der Bildschirm zeigt „Zerstöre das Stadion.“ Du korrigierst es. Nächster Satz, dasselbe. Nach der dritten Korrektur tippst du schneller, als du redest – damit ist der ganze Sinn verfehlt. Ich habe diese Endlosschleife bei einem Autor, einem Vertriebsmitarbeiter und meiner eigenen Mutter beobachtet. Sie hat die Diktierfunktion einmal ausprobiert und ist dann aus reiner Sturheit zum Zwei-Finger-Tippen zurückgekehrt. Die gute Nachricht: Fast jedes falsche Wort lässt sich auf eine von fünf Ursachen zurückführen – und vier davon kannst du in den nächsten zehn Minuten beheben.
Hier ist das, was einem niemand sagt. Die meisten Diktiertools sind nicht kaputt, wenn sie das tun. Sie raten – in Echtzeit, unter schlechten Bedingungen, ohne zu wissen, wie der Name deines Kollegen lautet oder dass „Kubernetes“ überhaupt ein Wort ist. Whispers lokaler Modus hat eine Einstellung, die das letzte Problem direkt löst – ein Feld für benutzerdefinierte Wörter, in dem du die Namen und Fachbegriffe eingibst, die es hören soll, damit es sie richtig schreibt statt etwas zu erfinden, das sich ähnlich anhört. Es ist kostenlos und funktioniert offline. Wir kommen gleich dazu. Aber die nüchterne Wahrheit ist: Das Mikrofon zählt mehr als die Software – also fangen wir dort an.
Deine Diktiersoftware ist nicht kaputt. Sie rät.

Spracherkennung hört keine Buchstaben. Sie hört Klänge und wettet auf die wahrscheinlichsten Wörter, die dieser Klang ergibt – und passt diese Wette an, wenn mehr Klang ankommt. Deshalb schreibt Diktiersoftware manchmal Text um, den du bereits gesagt hast. Sie hört ein Wort spät im Satz falsch, entscheidet, dass ein früheres Wort etwas anderes gewesen sein muss, damit die Grammatik stimmt, und ändert es still und leise.
„Saite“ und „Seite.“ „Lehrerin“ und „Leerzeichen.“ „Weise“ und „Waise.“ Das sind Homophones – Wörter, die identisch klingen – und kein noch so deutliches Sprechen hilft dagegen, denn Klarheit war nie das Problem. Das Modell muss aus dem Kontext raten, und manchmal liegt es falsch.
Dann gibt es Wörter, denen das Modell noch nie begegnet ist. Der Nachname deines Vorgesetzten. Ein Produktcode. „Remskill.“ Das Modell kann nicht buchstabieren, was es nicht kennt – es ersetzt es durch das nächste echte Wort, das es kennt. Das ist kein Fehler. Das ist eine Lücke im Vokabular, und es gibt dafür eine ganz konkrete Lösung, die wir weiter unten behandeln.
Dein Mikrofon ist der Hauptverdächtige

Bevor du die Software beschuldigst, schau dir an, womit du sie fütterst. Das eingebaute Mikrofon eines Laptops sitzt neben dem Lüfter, zeigt zur Decke und nimmt den Raum genauso auf wie deine Stimme. Schlechte Eingabe, falsche Ausgabe.
Das ist die eine Meinung, auf die ich den ganzen Artikel setze: „KI“ behebt schlechtes Audio nicht. Ein USB-Mikrofon für 20 Euro verbessert die Genauigkeit mehr als jedes Modell-Upgrade. Ich habe eine Woche damit verbracht, immer größere, langsamere Modelle zu laden, um meine eigenen Fehler zu beheben – bis mir auffiel, dass mein Laptop-Mikrofon auf den Lüfter gerichtet war. Das Mikrofon war die ganze Zeit das Problem. Ich entwickle diese Software beruflich. Investiere zuerst in Hardware. Das Modell ist der günstige Teil.
Der Verifikationstest: Diktiere dieselben drei Sätze mit dem eingebauten Mikrofon, dann mit einem Headset oder USB-Mikrofon. Wenn die Anzahl der Fehler sinkt, war das Mikrofon das Problem – und du bist fertig. Die meisten hören an dieser Stelle auf zu lesen, und das ist völlig in Ordnung.
Hintergrundgeräusche und Raumakustik

Eine Spülmaschine zwei Zimmer weiter. Das Telefongespräch eines Kollegen. Dieses Großraumbüro, in dem man jemanden von zehn Metern entfernt Chips essen hören kann. Das Modell kann deine Stimme nicht vom Lärm unterscheiden – es transkribiert das lauteste Geräusch, und manchmal gewinnen die Chips.
Googles KI-Übersicht zu genau diesem Problem nennt Hintergrundgeräusche als Hauptursache, direkt neben Akzenten und Homophonen. Die Lösung ist unspektakulär: Tür schließen, Lüfter ausschalten, weg vom offenen Fenster. Ein ruhiger Raum leistet mehr als ein cleverer Algorithmus.
Verifikation: Versuche dieselbe Diktatübung in einer ruhigen Umgebung im Vergleich zu deiner üblichen. Wenn die Fehler in der Stille abnehmen, war Lärm der Übeltäter. Wenn du keinen ruhigen Raum bekommen kannst, ist ein gerichtetes oder rauschunterdrückendes Mikrofon, das nur das aufnimmt, was direkt davor ist, der nächstbeste Schritt – und wir sind wieder bei der Hardware, in die das Geld ohnehin fließen sollte.
Falsche Sprache oder Akzentunverträglichkeit

Wenn deine Diktierfunktion auf automatische Erkennung eingestellt ist und du zwischen Sprachen wechselst, wendet das Modell Aufwand dafür auf, die Sprache zu identifizieren, bevor es die Wörter erkennt – und eine falsche Einschätzung der Sprache vergiftet alles danach. Lege die Sprache explizit fest, wenn möglich.
In Whisper geht das über Einstellungen, Transkription, Sprache. Wenn du deine gesprochene Sprache direkt auswählst, wird der Erkennungsschritt übersprungen, und das Modell erkennt deine Wörter genauer. Lasse die automatische Erkennung nur aktiv, wenn du innerhalb einer Sitzung wirklich zwischen Sprachen wechselst. Whispers mehrsprachige Modelle unterstützen 99 Sprachen mit automatischer Erkennung; die englischsprachigen Builds sind auf Englisch fixiert – genau das Richtige, wenn du nur Englisch sprichst.
Akzentunverträglichkeit ist das Pendant zu diesem Problem. Ein US-englisches Modell, das hauptsächlich mit US-amerikanischen Sprechern trainiert wurde, stolpert über einen starken regionalen Akzent. Wenn du die nächstgelegene regionale Variante einstellst, die dein Tool anbietet, und ein sauberes Signal lieferst, verringert sich die Lücke.
Beheben auf Windows, Mac und iPhone
Die eingebaute Diktierfunktion jeder Plattform hat ihre eigenen Eigenheiten und ihre eigenen Grenzen. Unter Windows öffnet die Spracheingabe mit der Windows-Taste und H, aber der Cursor muss in einem Textfeld stehen, und du brauchst eine Internetverbindung – das eingebaute Tool schickt dein Audio zur Transkription in die Cloud. Wenn es Unsinn tippt, überprüfe zuerst die Verbindung; die Apple-Supportforen für dasselbe Falsch-Wort-Problem nennen „Internetverbindung überprüfen“ ganz oben auf der Liste. (Für eine ausführlichere Anleitung siehe unseren Leitfaden zu Sprache zu Text funktioniert nicht unter Windows.)
Auf dem Mac aktiviere Diktat mit der Mikrofontaste in der Funktionstastenreihe, dem Diktat-Kürzel oder über Bearbeiten dann Diktat starten. Eine Sache lässt sich klarstellen: Das aktuelle macOS Diktat erlaubt es, Text beliebiger Länge zu diktieren ohne Zeitlimit – es stoppt nur nach etwa 30 Sekunden Stille, was Menschen fälschlicherweise für ein hartes Limit halten. Wenn die falschen Wörter anhalten, geht unser Mac-Leitfaden zur Fehlerbehebung bei Sprache zu Text Schritt für Schritt vor. Auf dem iPhone weisen die Apple-Foren auch auf das Deaktivieren der Vorschreibfunktion hin, die manchmal überschreibt, was die Diktierfunktion richtig erkannt hat.
Die härtere Grenze: Windows-Spracheingabe (Win+H) bietet keine Möglichkeit, benutzerdefinierte Wörter hinzuzufügen oder das Wörterbuch zu trainieren. Words separater Diktat-Bereich ermöglicht das Erstellen eines kleinen Diktier-Wörterbuchs, aber das Tool, das die meisten Menschen verwenden – Win+H – kann dein Vokabular überhaupt nicht erlernen. Das bringt uns zu der einen Lösung, die beim Falsch-Namen-Falsch-Fachbegriff-Problem wirklich etwas bewirkt.
Bring ihm deine Wörter bei: benutzerdefiniertes Vokabular
Das ist die Lösung, die die eingebauten Tools dir nicht geben können. Wenn du ein Whisper-Modell im lokalen Modus von Whisper verwendest, hast du ein Feld für benutzerdefinierte Wörter – eine kommagetrennte Liste von Namen, Produktbegriffen und Fachvokabular, die du erwartest, dass es sie hört. Du tippst „Kubernetes, PostgreSQL, Remskill, Max Mustermann,“ und die Transkription wird darauf ausgerichtet, diese korrekt zu buchstabieren, wenn sie in deiner Sprache auftauchen. Das findest du unter Einstellungen, Transkription, im kostenlosen lokalen Tarif – keine Karte, keine Cloud.
Ein Hinweis, der es wert ist zu kennen: Benutzerdefinierte Wörter ist eine Whisper-Modellfunktion. Parakeet, die schnellere lokale Option, akzeptiert keine benutzerdefinierten Wörter oder Hinweistexte – die eigene Beschreibung sagt das klipp und klar. Wenn es dir also wichtig ist, dem Tool dein Vokabular beizubringen, wähle ein Whisper-Modell, nicht Parakeet.
Ich habe gelernt, wie wichtig das ist, durch meine jüngere Tochter. Ich habe ihr die Diktierfunktion einmal gezeigt – drücken, reden, loslassen. Sie hat sofort eine 90-Wörter-E-Mail an ihre Oma über einen verlorenen Zahn und den Wechselkurs der Zahnfee geschrieben, ohne Nachfragen. Dann kam sie genervt zurück, weil der Name ihrer besten Freundin immer wieder falsch war. Sie wusste nicht, was eine Vokabularlücke ist. Sie wusste nur, dass der Name falsch war. Ich habe den Namen zu den benutzerdefinierten Wörtern hinzugefügt, und die Beschwerden hörten auf. Der Durchschnittsmensch möchte nicht verstehen, warum Diktiersoftware einen Namen falsch schreibt. Er möchte ein Feld, in das er den Namen eintippen kann. Dieses Feld ist der Kern dieses Abschnitts.
Ein zweiter Hebel, wenn du ihn möchtest: Whisper bietet eine Profileinstellung – Schnell, Ausgewogen oder Genau – die steuert, wie sorgfältig das Modell zuhört. Genau ist langsamer, erfasst aber mehr. Und ein größeres Modell aus den acht, die Whisper mitbringt, von Base mit etwa 140 MB bis zu Large v3 mit etwa 3 GB, tauscht Geschwindigkeit gegen Genauigkeit. Keines davon ist „die richtige Wahl“ für alle – es sind Regler, und das Falsch-Wort-Problem entscheidet, welchen du drehst. Wenn du nicht sicher bist, welches du laden sollst, legt unser Leitfaden zur Auswahl eines Whisper-Modells die Abwägungen dar.
Ein Korrekturschritt, der den Rest behebt
Selbst nachdem das Audio sauber und das Vokabular geladen ist, schleichen sich noch einige Restfehler ein. Whisper kann einen optionalen KI-Korrekturschritt auf dem rohen Transkript ausführen, bevor es an deinem Cursor landet – er behebt Grammatik, Zeichensetzung und Groß-/Kleinschreibung und streicht Füllwörter wie „ähm“ und „sozusagen“. Er läuft kostenlos auf deinem Gerät oder im Cloud-Modus mit OpenAI, wenn du deinen eigenen Schlüssel angegeben hast.
Das ist das Sicherheitsnetz, nicht der erste Schritt. Mikrofon verbessern, Raum beruhigen, Sprache einstellen, Vokabular beibringen – dann den Korrekturschritt aufräumen lassen, was noch übrig ist. KI-Textkorrekturen dazu zu bringen, ein vom Lüfter übertöntes eingebautes Mikrofon zu kompensieren, heißt, das falsche Problem mit dem teuren Tool zu lösen. Ich weiß das, weil ich den Korrekturschritt zuerst und die Sprachauswahl danach entwickelt habe – in genau der falschen Reihenfolge – und dann einen Monat lang meine eigene App benutzt habe und mich gefragt habe, warum. Für diejenigen, die feinere Kontrolle schätzen, geht unser Whisper-Prompting-Leitfaden tiefer auf die Gestaltung der Ausgabe ein.
Der Hotkey zum Aufnehmen ist Ctrl+Space unter Windows und Command+Option auf dem Mac, beide in den Einstellungen anpassbar, falls sie mit etwas kollidieren, das du bereits verwendest.
Wenn das eingebaute Tool nicht zu reparieren ist
Manchmal ist die Antwort keine Reparatur – sondern ein anderes Tool oder gar keines. Wenn du nur gelegentlich einen kurzen Text von 30 Wörtern eingibst, sind Apple Dictation und Windows-Spracheingabe kostenlos und bereits vorhanden, und perfekte Genauigkeit zu verfolgen ist übertrieben. Nutze, was schon da ist.
Aber es gibt eine echte Grenze. Windows-Spracheingabe braucht das Internet und kann kein Vokabular erlernen. Wenn das Falsch-Wort-Problem konkret darin besteht, dass das Tool Namen, Produktbegriffe oder Fachvokabular verstümmelt – und du diese Wörter nirgends hinzufügen kannst –, lässt sich das eingebaute Tool für deinen Anwendungsfall schlicht nicht reparieren. Das ist die Grenze, an der ein erlernbares, offline-fähiges Tool seinen Platz verdient. Und wenn du hauptsächlich Besprechungen mit mehreren Sprechern transkribierst, anstatt deinen eigenen Text zu diktieren, ist das eine völlig andere Kategorie – Meeting-Transkription, nicht Diktat. Biege eine Diktier-App nicht für eine Aufgabe zurecht, für die sie nicht gebaut wurde.
Wie genau sollte Diktiersoftware sein?
Erwartungen ehrlich setzen. Sauberes Audio, eine bekannte Sprache und ein geladenes Vokabular bringen dich dahin, wo Korrekturen die Ausnahme sind, nicht die Regel. Öffentliche Whisper-Benchmarks liegen bei einer Wortfehlerrate von etwa 3 % bei sauber gelesener Sprache mit dem englischen Medium-Modell. Im realen Betrieb – dein Akzent, dein Raum, dein Fachjargon – ist es höher. Das ist normal.
Das Ziel sind nicht null Fehler. Das Ziel ist weniger Fehler als Tippen in derselben Zeit produziert hätte – und diese Messlatte ist niedriger als die meisten denken. Diktieren mit 145 Wörtern pro Minute schlägt Tippen mit 40, selbst wenn du anhältst, um ein oder zwei Wörter zu korrigieren. Wenn du jedes zweite Wort korrigierst, ist noch etwas aus der obigen Liste kaputt. Wenn du jedes zehnte Wort korrigierst, hast du bereits gewonnen.
Wenn deine Diktiersoftware weiterhin falsche Wörter schreibt: Audio verbessern, Sprache einstellen und die Namen beibringen – dann lass sie das Tippen übernehmen, während du dich um etwas anderes kümmerst. Meine jüngere Tochter nennt es immer noch „den Sprechcomputer.“ Sie hat keine Ahnung, dass es ein Vokabularfeld, eine Sprachauswahl oder acht Modelle hinter dem Drücken-Reden-Loslassen gibt. Das ist die Version davon, die wirklich funktioniert – wenn die falschen Wörter aufhören und du das Tool überhaupt nicht mehr bemerkst.
Sollen deine Namen endlich richtig herauskommen?
Lade Whisper herunter, füge dein erstes benutzerdefiniertes Wort hinzu, und beobachte, wie die falschen Wörter bereits beim ersten Satz aufhören.



