Von Denys Medvediev

Leitfaden

Eigene Wörter zur Diktierfunktion hinzufügen

Diktiersoftware verhört Namen, Fachbegriffe und Markennamen, weil sie nicht im Vokabular enthalten sind. Die Lösung: Das Tool muss lernen. Windows hat ein Sprach-Wörterbuch, in das man Wörter einträgt. In Whisper lenkt eine Hotword-Liste ein lokales Modell gezielt auf deine Begriffe, damit sie korrekt transkribiert werden.

Zuletzt aktualisiert: Juni 2026

Aufgeschlagenes Wörterbuch auf einem Schreibtisch neben einer Tastatur – Symbol für Wörter und Vokabular

Um eigene Wörter zur Diktierfunktion hinzuzufügen, musst du dem Tool dein Vokabular beibringen. Unter Windows gibt es im Spracherkennung-Wörterbuch einen Assistenten „Neues Wort hinzufügen“. In Whisper by Remskill lenkt eine Hotword-Liste ein lokales Whisper-Modell auf Namen, Fachbegriffe und Markennamen. macOS Diktat selbst kennt keine Einstellung für eigene Wörter – die findet sich in der Sprachsteuerung.

Jede Diktiersoftware, die ich je genutzt habe, meistert alltägliches Deutsch problemlos – und verheddert sich dann genau bei dem Wort, das wirklich zählt. „Besprechung für Donnerstag einplanen“ klappt einwandfrei, aber aus meinem Kollegen Csaba wird „Tschuba“, mein Produkt wird zu „Projekt Alfa“ und „Kubernetes“ landet als „Kupfer-Nettis“. Die Wörter, an denen eine Transkriptions-Software scheitert, sind genau die, die man nicht mit lauterer Stimme retten kann – Namen, Fachbegriffe und Marken, auf die sie nie trainiert wurde.

Deshalb suchen Leute danach, wie man eigene Wörter zur Diktierfunktion hinzufügt – und erwarten eine übersichtliche Einstellungsseite. Die ehrliche Antwort: Es kommt auf das Tool an. Windows hat ein echtes, bearbeitbares Wörterbuch. macOS versteckt diese Funktion an einem Ort, den die meisten nie aufsuchen. Und ein lokales Whisper-Modell lässt sich per Hotword-Liste auf deine Begriffe einstimmen. Ich erkläre alle drei Wege, richte die Whisper-Variante ein und sage dir, wann die Bordmittel bereits ausreichen.

Hier ist der Teil, den die meisten Seiten überspringen. Eine Transkriptions-Software „buchstabiert“ ein Wort nicht wie du es tätest – sie rät, welche Wörter am wahrscheinlichsten zu den gehörten Lauten passen. „Csaba“ verliert gegen „Tschuba“, weil das Modell „Tschuba“-ähnliche Laute millionenfach gehört hat und den Namen deines Kollegen so gut wie nie. Ein eigenes Wort hinzuzufügen, lehrt das Modell keine neuen Buchstaben. Es verschiebt nur die Wette.

Diese Verschiebung funktioniert in jedem Tool anders. Windows speichert sie in einem Sprach-Wörterbuch, das du von Hand bearbeitest. Whispers lokale Modelle nehmen eine Hotword-Liste und gewichten deren Einträge während der Transkription höher. Und – das ist der Haken, über den viele stolpern – dieses Hotword-Biasing ist ausschließlich ein Feature der lokalen Whisper-Modelle. Parakeet kennt keine Hotwords, der Cloud-Pfad auch nicht. Ich werde klar benennen, was was ist, denn wer hier falsch abbiegt, verschwendet einen halben Nachmittag.

Warum Diktiersoftware Namen und Fachbegriffe verhört

Handgeschriebene Haftnotizen mit Namen und Begriffen an einer Wand – wie ein persönliches Glossar

Diktiersoftware ist eine Wettmaschine. Sie hört eine Abfolge von Lauten und wählt die Wörter, die am wahrscheinlichsten diesen Klang erzeugt haben – basierend auf Millionen von Trainingsstunden. Alltägliche Sprache gewinnt diese Wetten locker. Das Problem beginnt bei allem Seltenen: ein Kollege namens Csaba, ein internes Projekt namens Helios, ein Medikamentenname, eine Anwaltskanzlei, der eigene Nachname, wenn er im Deutschen ungebräuchlich ist.

Das Modell hat solche Wörter kaum gehört und greift deshalb zu einem ähnlich klingenden, häufigeren Begriff. „Helios“ wird zu „Healy us“. „Remskill“ landet als „Rem Skill“ oder „Rim Skill“. Man verbessert dieselben fünf Wörter jedes Mal aufs Neue – und genau diese Sisyphusarbeit bringt Menschen dazu, das Diktieren aufzugeben und wieder zur Tastatur zu greifen. Die Lösung ist nicht ein besseres Mikrofon oder langsameres Sprechen. Es geht darum, dem Tool vorab zu sagen, dass diese speziellen Begriffe im Spiel sind.

Genau das leistet ein eigenes Wort. In den meisten Tools lernst du damit keine Aussprache – du fügst das Wort der Liste der Begriffe hinzu, die die Software erwarten darf. Wenn die Laute mehrdeutig sind, gewinnt dann dein Begriff die Wette statt des geläufigen Worts, das bisher immer gewonnen hat. Die nüchterne Wahrheit: Eine kurze Liste von zehn bis fünfzehn Begriffen löst den größten Teil der Probleme für die meisten Menschen. Du musst kein ganzes Wörterbuch einpflegen. Nur die Handvoll Wörter, die immer wieder schiefgehen.

Die Bordmittel unter Windows und Mac

Fang mit dem an, was schon auf deinem Rechner ist – für manche ist das die vollständige Antwort. Unter Windows gibt es zwei separate Bordmittel, die eigene Wörter sehr unterschiedlich handhaben. Die Windows-Spracherkennung – die ältere Desktop-Funktion – hat ein echtes, bearbeitbares Sprach-Wörterbuch. Du öffnest die Spracherkennung, sagst oder klickst „Sprach-Wörterbuch öffnen“, wählst „Neues Wort hinzufügen“ und folgst dem Assistenten. Das Wort gehört jetzt zum Repertoire der Diktierfunktion. Das neuere Windows 11 Voice Access hat seine eigene Variante: den Befehl „Zum Vokabular hinzufügen“ (und eine Option im Hilfemenü), der die Erkennung auf hinzugefügte Wörter ausrichtet.

Die einfache Win+H-Spracheingabeleiste, die die meisten täglich nutzen, ist der Mittelweg. Sie lässt dich kein Wörterbuch direkt bearbeiten; stattdessen lernt sie aus deinen Korrekturen und deinen getippten Texten über die Zeit – nicht aus einer Liste, die du pflegst. Wer unter Windows heute eine handgepflegte Wortliste möchte, findet sie im Sprach-Wörterbuch der Spracherkennung oder im Voice Access-Vokabular – nicht in der Win+H-Leiste.

Cancel
Die Aufnahme-Einblendung: eine kleine Kapsel, die während des Sprechens erscheint und anzeigt, dass das Programm zuhört.

Bei macOS ist Vorsicht geboten, denn die naheliegende Funktion hat das nicht. Das Standard-macOS-Diktat – die Funktion, die du aufrufst, um in beliebige Textfelder zu sprechen – kennt keine Einstellung für eigene Wörter oder ein eigenes Vokabular. Gar keine. Was es gibt, ist ein separates Bedienungshilfenfeature namens Sprachsteuerung, das unter Systemeinstellungen → Bedienungshilfen → Sprachsteuerung ein Vokabular-Panel hat. Dort kannst du bis zu 1.000 Begriffe eintragen und sogar aufnehmen, wie jeder ausgesprochen wird. Das ist solide und funktioniert gut – aber es ist ein anderes Tool als das Diktat, das die meisten Mac-Nutzer meinen. Wenn eine Seite behauptet „Füge einfach eigene Wörter in macOS Diktat hinzu”, vermischt sie stillschweigend beides.

Eigene Wörter in Whisper einrichten (Windows oder Mac)

Wenn du einen einheitlichen Weg zum Hinzufügen eigener Wörter suchst, der auf Windows und Mac gleich funktioniert, ist ein spezialisiertes Tool genau das Richtige. Du brauchst einen Mac mit Apple Silicon oder einen PC mit Windows 10 oder neuer, ein funktionierendes Mikrofon und ein lokales Whisper-Modell – Hotwords sind ein Feature der lokalen Whisper-Modelle, also braucht dieser Weg genau das Modell, nicht Parakeet und nicht die Cloud. Die gesamte lokale Pipeline ist für jeden eingeloggten Account kostenlos, ohne Zahlungsmittel bei der Registrierung. So geht’s.

Schritt 1 — Whisper installieren und anmelden.

Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte. Die lokale Transkriptions-Pipeline steht sofort bereit.

Es hat geklappt, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent die Modellauswahl anbietet.

Schritt 2 — Ein lokales Whisper-Modell wählen.

Die App bietet drei Pfade an: Cloud, Local Parakeet, Local Whisper. Für eigene Wörter wähle Local Whisper, denn die Hotword-Liste funktioniert mit Whisper-Modellen. Parakeet ist schneller, kennt aber keine Hotwords; die Cloud kennt sie ebenfalls nicht.

Es hat geklappt, wenn ein Whisper-Modell den Download abschließt und als bereit angezeigt wird.

Schritt 3 — Begriffe zur Hotword-Liste hinzufügen.

In den Einstellungen des Whisper-Modells trägst du die Namen, Fachbegriffe und Marken ein, die immer wieder falsch erkannt werden – einen Begriff pro Eintrag. Halte die Liste kurz und präzise: die Wörter, die wirklich Probleme machen, nicht dein gesamtes Glossar.

Es hat geklappt, wenn deine gespeicherten Begriffe in der Liste erscheinen und zwischen Aufnahmen erhalten bleiben.

Schritt 4 — Diktieren und schwierige Wörter prüfen.

Cursor in ein beliebiges Textfeld setzen, Hotkey halten, einen Satz sprechen, der einen deiner Begriffe enthält, und loslassen. Das Transkript wird an der Cursor-Position eingefügt – mit deinem Wort in der Schreibweise, die du gespeichert hast.

Es hat geklappt, wenn der Begriff, der früher falsch herauskam, jetzt korrekt erscheint.

Whisper
Die echte Whisper-Desktop-App auf dem Einstellungsbildschirm, mit geöffneten Panels für Transkription und KI.

Ich würde die erste Liste bewusst klein halten. Füge die fünf oder sechs Wörter hinzu, die diese Woche am meisten gestört haben, diktiere einen Tag lang und ergänze erst dann mehr, wenn etwas anderes hakt. Eine Hotword-Liste mit zweihundert Einträgen kann das Modell beginnen, in eine falsche Richtung zu drängen. Kurz und präzise schlägt lang und hoffnungsvoll.

Sprache-zu-Text unter Windows · auf dem Mac

Was eine Hotword-Liste wirklich bewirkt

Eine Hotword-Liste ist eine Sammlung von Begriffen, die du dem Modell vor der Transkription übergibst, damit es sie erwartet. Im Kern ist es dieselbe Idee wie das Windows-Sprach-Wörterbuch, nur anders verdrahtet: Statt eines Eintrags in einem gespeicherten Wörterbuch reisen die Wörter mit jeder Aufnahme als Gewichtung mit. Wenn das Audio zwischen deinem Begriff und einem ähnlich klingenden Alltagswort mehrdeutig ist, kippt die Gewichtung die Entscheidung zugunsten deines Begriffs. „Csaba“ hört auf, gegen „Tschuba“ zu verlieren, weil du dem Modell gesagt hast, dass Csaba ein Wort ist, das hier vorkommt.

Zwei ehrliche Grenzen sind es wert, klar benannt zu werden. Erstens: Hotwords verschieben die Wahrscheinlichkeit, sie erzwingen nicht – ein Begriff, der überhaupt nicht nach dem klingt, was du gesagt hast, wird trotzdem nicht erscheinen, und ein sehr kurzes oder ungewöhnliches Wort kann immer noch durchrutschen. Zweitens – und hier irren viele: Hotwords sind ein Feature der lokalen Whisper-Modelle. Parakeet, die schnelle lokale Engine, kennt keine Hotword-Liste. Der Cloud-Pfad legt ebenfalls keine offen. Wenn eigene Wörter der Grund sind, warum du hier bist, ist das lokale Whisper-Modell der einzige Weg.

Die lokalen Whisper-Modelle bieten außerdem mehr Feinabstimmung als die meisten Bordmittel – Dinge wie Beam-Größe und eigenes Vokabular, die eine durchschnittliche Diktiersoftware nicht preisgibt. Für ein paar Namen brauchst du das alles nicht. Aber es ist da, wenn du von „fünf Wörter reparieren“ zu „ganztags medizinische Fachterminologie transkribieren“ wechselst – ein echter Grund, warum manche Whisper gegenüber der schnelleren Parakeet-Engine vorziehen. Wenn du die lokalen Modelle gegeneinander abwägst, welches Whisper-Modell sich eignet erklärt die Abwägungen.

Lokal oder Cloud, wenn eigene Wörter das Ziel sind

Die App lässt dich einen Pfad wählen – und bei eigenen Wörtern ist die Wahl wichtiger als üblich, weil nur einer der drei eine Hotword-Liste kennt. Hier ist die ehrliche Übersicht, damit du die Wahl mit offenen Augen triffst und die Einschränkung nicht erst entdeckst, nachdem du die falsche Engine installiert hast.

Die drei Pfade und was jeder für dein Vokabular tut:

  • Local ParakeetNVIDIAs TDT-Engine, rund 600 MB, die schnellste lokale Option – 5 bis 10 Mal schneller als Whisper auf der CPU. Englisch plus 24 weitere europäische Sprachen, 25 insgesamt. Keine Übersetzung ins Englische, und das Entscheidende hier: keine Hotwords. Ideal für schnelles alltägliches Englisch-Diktat, falsche Wahl, wenn eigene Wörter der Grund sind.
  • Local WhisperLangsamer als Parakeet auf demselben Gerät, aber dieser Pfad hat die Hotword-Liste und die eigene Vokabular-Steuerung. Die mehrsprachigen Varianten decken 99 Sprachen ab und können ins Englische übersetzen; die reinen Englisch-Varianten sind nur für Englisch. Das Standard-Englisch-Modell ist rund 480 MB. Wenn du Namen und Fachbegriffe korrekt transkribiert brauchst, ist das der richtige Weg.
  • Cloud (OpenAI, BYOK)Beste allgemeine Genauigkeit und Web-Zugang, mit deinem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Seltene Wörter werden oft durch schiere Leistungsstärke korrekt erkannt, aber eine Hotword-Liste gibt es nicht. Benötigt Internetzugang. Der Cloud-Bereich ist Teil von Whisper Pro.

Die Faustregel ist einfach. Wenn eigene Wörter dein Hauptproblem sind und du eine Liste kontrollieren möchtest, nimm ein lokales Whisper-Modell. Wenn du überwiegend alltägliches Englisch sprichst und rohe Geschwindigkeit willst, ist Parakeet der bessere tägliche Begleiter – nur keine Hotword-Box erwarten. Die Cloud ist der Ausweg, wenn du maximale Genauigkeit bei einer schwierigen Aufnahme willst und es nichts ausmacht, dass sie das Gerät verlässt. Wenn du die lokale Einrichtung insgesamt abwägst, Whisper lokal betreiben und das Parakeet-Modell decken beide Engines ausführlich ab.

Nachträgliche Korrekturen für alles, was durchrutscht

Kein Setup für eigene Wörter fängt alles auf, und rohes Diktat landet immer als eine Art Endlosfluss. Du sagst „treffen csaba wegen helios rollout äh als projekt alpha markieren“, und selbst mit aktiven Hotwords gehören Interpunktion und Füllwörter noch zu deiner Aufgabe. Hier teilt sich die Arbeit in zwei Hälften: Hotwords korrigieren die Schreibung schwieriger Wörter, ein Bereinigungsdurchgang korrigiert die Form der Sätze.

Windows-Spracheingabe fügt beim Sprechen Interpunktion ein, und macOS Diktat verarbeitet einfache Interpunktion, wenn du „Komma“ oder „Punkt“ sagst. Für tiefgründigere Bereinigung – „Ähs“ entfernen, Endlossätze aufbrechen, einen gesprochenen Absatz in etwas verwandeln, das man wirklich abschicken würde – kann Whisper einen KI-Durchgang ausführen. Sag die Aktivierungsphrase „Hey whisper“ und der Text wird verbessert, bevor er landet. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist gpt-5-mini der Standard. Der Bereinigungsdurchgang lässt die Schreibung deiner eigenen Wörter unberührt und korrigiert alles drum herum.

Thinking...
Roh

treffen csaba wegen helios rollout äh als projekt alpha markieren vor dem standup donnerstag

Bereinigt

Treffen Sie Csaba wegen des Helios-Rollouts, markieren Sie es als Projekt Alpha, vor dem Standup am Donnerstag.

Für Wörter, die trotz Hotword-Liste und Bereinigungsdurchgang noch durchrutschen, gilt der alte Bewährte: einmal manuell korrigieren, und unter Windows in das Sprach-Wörterbuch eintragen, damit es beim nächsten Mal kein Problem mehr ist. Eine gelegentliche Handkorrektur ist keine Niederlage. Das Ziel ist kein Tool, das nie irrt; es ist ein Tool, das dieselben fünf Wörter einmal falsch macht statt vierzig Mal. Eigene Wörter lösen den Großteil; eine schnelle Korrektur erledigt den Rest.

Dieser Sprech-und-bereinigen-Rhythmus lohnt sich überall anzugewöhnen, denn wenn er einmal sitzt, kann man sauber unter Windows diktieren – in jede App, die man öffnet, nicht nur in die eine, die man ursprünglich reparieren wollte.

Wann die Bordmittel reichen

Eine einzelne Haftnotiz auf einem aufgeräumten Schreibtisch – Symbol für eine einfache, ausreichende Lösung

Manchmal braucht man überhaupt kein spezialisiertes Tool, und das zu bestreiten wäre unehrlich. Wenn das Problem mit eigenen Wörtern klein ist – ein paar Namen unter Windows, die man einmal einträgt und dann vergisst – erledigt das Sprach-Wörterbuch der Windows-Spracherkennung genau das, kostenlos. Wörter eintragen, weitermachen. Etwas Zusätzliches dafür zu installieren, wäre übertrieben.

Auf dem Mac ist die Lage ehrlich gesagt gemischter und es lohnt sich, klar darüber zu sein. Standard-macOS-Diktat hat keine Wortliste für eigene Begriffe. Wenn das alles ist, was du nutzt, sind deine eingebauten Möglichkeiten zum Hinzufügen von Begriffen wirklich begrenzt. Das Vokabular-Panel der Sprachsteuerung erledigt die Aufgabe und fasst bis zu 1.000 Begriffe – aber es ist ein Bedienungshilfen-Feature, das du eigens dafür einschalten würdest. Das ist in Ordnung, wenn du damit vertraut bist; ein Umweg, wenn nicht. Auf dem Mac ist der Kompromiss also real: mit den Fehlern des Diktats leben, die Sprachsteuerung erlernen oder ein Tool mit eigener Hotword-Liste nutzen.

Greife zu einem dedizierten, systemweiten Tool, wenn die Bordmittel schmerzen: eine lange Liste von Namen und Fachbegriffen, dieselben eigenen Wörter auf Windows und Mac, Offline-Datenschutz oder der Wunsch nach einem Hotkey und einem Vokabular, das in jeder App gleich funktioniert. Unterhalb dieser Schwelle nutze, was kostenlos ist. Ich werde dir nicht empfehlen, Software zu installieren, um dem Computer einen einzigen Nachnamen beizubringen.

Dieselbe Abwägung zeigt sich, wenn dein Diktat hauptsächlich auf dem Mac stattfindet – die Grenzen der Bordmittel und die ehrlichen Alternativen in Sprache-zu-Text auf dem Mac sind die ausführlichere Version dieses Abschnitts.

Eigene Wörter hinzuzufügen ist das unscheinbarste Feature der Diktierfunktion – und das, das entscheidet, ob man dabei bleibt. Die fünf Wörter, die immer wieder schiefgehen, in eine Liste aufnehmen – das Sprach-Wörterbuch unter Windows, eine Hotword-Liste in Whisper – und die tägliche Reibung verschwindet still und leise. Ich habe meinen eigenen Nachnamen vor zwei Jahren in eine Hotword-Liste eingetragen und seitdem nicht mehr erlebt, dass ihn eine Transkriptions-Software zerhäckt. Das ist eine niedrige Messlatte – und genau die Art von Messlatte, die ich vor dem ersten Kaffee übersprungen haben möchte.

Bring ihm die Wörter bei, die es immer wieder verpasst

Trage deine Namen, Fachbegriffe und Marken in die Hotword-Liste eines lokalen Whisper-Modells ein und fang an zu diktieren. Die Begriffe, die früher verstümmelt wurden, erscheinen nun in der Schreibweise, die du gespeichert hast – in jeder App, die du öffnest.

Lokaler Modus kostenlos für jeden eingeloggten Account. Keine Karte für den Start erforderlich.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterführende Quellen