Erklärer
Sprache zu Text lokal, auf dem Gerät
Private Sprache-zu-Text-Erkennung bedeutet: Deine Stimme wird direkt auf deinem Gerät transkribiert, ohne dass etwas auf einen Server hochgeladen wird. Lokale Whisper- und Parakeet-Modelle laufen vollständig offline. Cloud-Diktierdienste hingegen senden deine Audiodaten zur Verarbeitung weg.
Zuletzt aktualisiert: Juni 2026

Private Spracherkennung bedeutet: Die Transkription läuft auf dem eigenen Gerät, sodass die aufgezeichnete Stimme das Gerät nie verlässt. Lokale Engines wie Whisper und Parakeet arbeiten vollständig offline, ohne dass etwas an einen Server gesendet wird. Cloud-Diktierdienste laden die Audiodaten zur Verarbeitung hoch. Wer maximalen Datenschutz will, wählt ein lokales, offline-fähiges Tool.
Jedes Diktiertool nennt sich privat. Die meisten sind es nicht. Das Wort wird gedehnt, bis es "wir verschlüsseln den Upload" oder "wir löschen ihn nach 30 Tagen" bedeutet — was trotzdem heißt: Deine Stimme hat dein Gerät verlassen, lag auf einem fremden Server und wurde von einem Computer transkribiert, der dir nicht gehört. Das ist eine Datenschutzerklärung, kein Datenschutz. Es gibt eine echte, enge Definition des Begriffs — und die ist es wert, sie zu kennen, bevor du einem Tool die E-Mail an deinen Anwalt diktierst.
Die ehrliche Definition ist einfach: Private Sprache-zu-Text-Erkennung bedeutet, dass das Audio auf deinem Gerät in Text umgewandelt wird und nichts irgendwohin gesendet wird. Kein Upload, kein Server, kein Internet nötig. Diese Variante existiert, sie ist für die lokale Pipeline kostenlos und läuft auf dem Laptop, den du bereits besitzt. Der Haken — und ich sage es direkt — ist, dass sich dieses Versprechen ändert, sobald du dich für einen Cloud-Modus für bessere Genauigkeit entscheidest. Diese Grenze werde ich klar aufzeigen.
Hier ist, was unter dem Marketing begraben liegt. "Privat" ist kein Gefühl, sondern eine Frage mit einer einzigen Antwort: Verlässt das Audio das Gerät oder nicht. Wenn es das Gerät verlässt, kann es grundsätzlich jemand anderes hören. Wenn nicht, kann niemand es hören. Alles andere — Verschlüsselung, Aufbewahrungsfristen, Compliance-Zertifikate — ist Schadensbegrenzung für den Fall, dass es das Gerät doch verlässt.
Die eigentliche Frage lautet also nicht "ist dieses Tool privat". Sie lautet: "Wird meine Stimme auf meinem Gerät oder auf dem eines anderen transkribiert." Lokale Whisper- und Parakeet-Modelle machen es auf deinem, offline, mit dem Modell in deinem eigenen RAM. Cloud-Diktierdienste machen es auf ihrem. Dieser Leitfaden erklärt, was dieser Unterschied dir wirklich bringt, wie du die lokale Variante in zwei Minuten einrichtest und die eine ehrliche Ausnahme, bei der das Senden von Audio in die Cloud ein vernünftiger Tausch ist.
Was "privat" bei Sprache zu Text wirklich bedeutet

Private Spracherkennung bedeutet genau eine Sache: Deine aufgezeichnete Stimme wird auf deinem eigenen Gerät in Text umgewandelt, und das Audio verlässt es nie. Kein Upload auf einen Server, keine Hin- und Rückfahrt über das Internet, kein Dritter im Spiel. Die Transkription findet in deinem eigenen Arbeitsspeicher und auf deiner CPU statt — so wie die Rechtschreibprüfung funktioniert — und dann ist das Audio weg. Das ist die gesamte Definition, und die meisten Tools, die das Wort "privat" verwenden, erfüllen sie nicht.
Was üblicherweise als "privat" verkauft wird, ist die Cloud-Version mit einem besseren Schloss an der Tür. Das Audio reist trotzdem zu den Servern eines Anbieters zur Transkription; der Anbieter verspricht nur, es während der Übertragung zu verschlüsseln und irgendwann zu löschen. Das ist ehrlich gesagt besser als nichts, und für viele Menschen reicht es. Aber es ist nicht dasselbe wie ein Audio, das das Gerät nie verlässt. Ein Löschversprechen ist ein Versprechen. Verarbeitung auf dem Gerät ist eine Tatsache — es gibt nichts zu löschen, weil nichts gesendet wurde. Wenn Datenschutz wirklich wichtig ist — ein Gehaltsdetail, eine medizinische Notiz, ein Entwurf, der nie indiziert werden soll — macht dieser Unterschied zwischen Versprechen und Tatsache alles aus.
Dass Transkription auf dem Gerät heute überhaupt möglich ist, liegt daran, dass die Modelle kleiner und die Laptops schneller geworden sind. Vor einigen Jahren brauchte man noch ein Rechenzentrum für gute Spracherkennung — deshalb wanderte alles in die Cloud. Heute läuft ein offenes Whisper-Modell lokal auf einem Mittelklasse-Laptop, und Parakeet läuft noch schneller. Die Cloud war ein Workaround für Hardware, die dich heute nicht mehr einschränkt. Private Spracherkennung ist keine Premium-Funktion, für die du extra zahlst — es ist der Standard, der praktisch geworden ist. Der Rest dieses Leitfadens zeigt, wie du ihn nutzt.
Warum die meisten Cloud-Diktierdienste nicht privat sind
Wenn du in einem Cloud-Diktiertool eine Taste drückst, passiert unter der Haube Folgendes: Dein Mikrofon nimmt einige Sekunden Audio auf, diese Audiodatei wird über das Internet an einen Server gesendet, ein Modell auf diesem Server transkribiert sie, und der Text kommt zurück auf deinen Bildschirm. Das alles kann kaum eine Sekunde dauern, weshalb es sich unsichtbar anfühlt. Aber deine Stimme — die eigentliche Aufnahme, nicht nur die Wörter — hat eine Reise zu einem Gerät gemacht, das du nicht kontrollierst, und wieder zurück.
Windows-Spracheingabe ist das deutlichste Beispiel, weil die meisten sie bereits haben. Drücke Windows-Taste + H und eine kleine Leiste öffnet sich, die dein Gesprochenes in das aktive Feld tippt. Sie funktioniert gut. Sie ist auch ein Cloud-Dienst — Microsofts Online-Spracherkennung — weshalb sie eine Internetverbindung braucht und im Flugzeug aufhört zu funktionieren. Dein Audio geht zu Microsofts Servern, um zu Text zu werden. Das Gleiche gilt für die meisten "KI-Diktier"-Apps, die heute ausgeliefert werden: Der clevere Teil läuft auf fremder Hardware, und eine stille monatliche Rechnung ist der Preis dafür. Ein lokales Tool zeigt eine kleine Kapsel, während es zuhört, und das Audio, das es aufnimmt, verlässt den Laptop nie:
Ich sage nicht, dass Cloud-Transkription böse ist — ich werde sie später für die Fälle verteidigen, in denen sie ihren Platz verdient. Ich sage, dass das Marketing-Wort "privat" meistens das Schloss am Upload beschreibt, nicht das Fehlen eines Uploads. Cloud-only-Diktierdienste sind ein Datenschutzdesaster, das darauf wartet, transkribiert zu werden — und am härtesten trifft es die, die die Rechnung nicht sehen. Ich habe einmal erlebt, wie ein Team in einem einzigen Quartal eine fünfstellige Cloud-KI-Rechnung angehäuft hat, größtenteils durch einen "Smart Retry"-Bug, der dieselben Standup-Aufnahmen viermal gesendet hat. Als der CFO beim Quartalsreview das Dashboard öffnete, wurde es sehr still im Raum. Niemand hatte entschieden, all dieses Audio auf einen Server zu senden. Das Tool tat es einfach — jedes Mal, weil es so funktionierte.
Wie lokale Spracherkennung Datenschutz gewährleistet
Die private Variante läuft vollständig auf deinem Gerät. Du drückst einen Hotkey, sprichst, lässt los — und ein Modell, das bereits in deinem RAM geladen ist, wandelt das Audio in Text um und fügt ihn an deiner Cursor-Position ein. Kein Internet, kein Server, nichts wird gesendet. Du brauchst einen Mac mit Apple Silicon oder einen Windows-10-oder-neueren PC, ein funktionierendes Mikrofon und ein paar Minuten. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Registrierung eine Zahlungsmethode verlangt wird. Hier ist die Abfolge.
Schritt 1 — Whisper installieren und anmelden.
Von der Download-Seite herunterladen, installieren und ein kostenloses Konto erstellen. Keine Kreditkarte. Die gesamte lokale Transkriptionspipeline ist sofort offline verfügbar.
Du weißt, dass es funktioniert hat, wenn das Tray-Icon der App erscheint und der Setup-Assistent die Modellauswahl anbietet.
Schritt 2 — Lokale Transkription auswählen.
Die App wählt nicht für dich. Für privates, offline-fähiges Diktieren wähle Local Parakeet oder Local Whisper — beide laufen auf deinem Gerät. Die dritte Option, Cloud, lädt Audio hoch — lass sie aus, wenn Datenschutz das Ziel ist.
Du weißt, dass es funktioniert hat, wenn ein lokales Modell den Download abgeschlossen hat und als bereit angezeigt wird.
Schritt 3 — Hotkey bestätigen.
Windows nutzt standardmäßig Ctrl+Space, Mac Command+Option als Push-to-Talk. Auf dem Mac die Barrierefreiheitsberechtigung erteilen, wenn sie angefordert wird; ohne sie kann das Einfügen an der Cursor-Position keine anderen Apps erreichen.
Du weißt, dass es funktioniert hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 — Netzwerkkabel herausziehen und trotzdem sprechen.
Das ist der Datenschutztest. WLAN ausschalten, Cursor in ein beliebiges Textfeld setzen, Hotkey halten, einen Satz sagen, loslassen. Das Transkript erscheint trotzdem, weil das Modell lokal lief.
Du weißt, dass es funktioniert hat, wenn Diktieren auch ohne Internet funktioniert.
Der langsame Teil ist der einmalige Modell-Download, der natürlich das Internet braucht. Danach geht das Audio im lokalen Modus nie mehr online. Der Kabel-herausziehen-Test in Schritt vier ist kein Trick — er ist der einzige Beweis, der zählt. Wenn Diktieren mit ausgeschaltetem Netz weiterhin funktioniert, wird das Audio auf deinem Gerät transkribiert, Punkt. Wenn es aufhört, ging es irgendwohin. Dieser einzige Test durchleuchtet jeden "privat"-Anspruch auf jeder Marketing-Seite.
Auch die KI-Bereinigung kann auf deinem Gerät bleiben
Hier ist der Teil, den die meisten Menschen nicht wissen, dass sie danach fragen sollten. Rohes Diktat kommt als Fließtext heraus — keine Zeichensetzung, gelegentliche "ähm"s, Sätze, die sich hinziehen. Die Lösung ist ein KI-Durchlauf, der den Text in etwas verwandelt, das man tatsächlich behalten würde. Und genau hier rufen viele "private" lokale Tools leise nach Hause: Sie transkribieren auf dem Gerät, schicken das unordentliche Transkript dann aber zur Bereinigung an ein Cloud-Modell. Das Audio blieb privat; die Wörter nicht.
Whisper erledigt die Bereinigung ebenfalls lokal — über Ollama, einen kostenlosen lokalen Modell-Runner, der auf deinem Gerät unter localhost läuft und das Internet nie berührt. Sag das Aktivierungswort "Hey whisper", und der Text wird verbessert, bevor er an deiner Cursor-Position landet — der gesamte Vorgang findet innerhalb deines Laptops statt. Die Kette bleibt also ungebrochen: Deine Stimme wird auf deinem Gerät zu Text, und dieser Text wird auf deinem Gerät bereinigt. Nichts an dem Satz — nicht das Audio, nicht der Entwurf, nicht die bereinigte Version — verlässt je das Gerät.
Das ist das Detail, das ich bei jedem Tool prüfen würde, das sich privat nennt. Es ist leicht, die Transkription lokal zu halten und die Verbesserung heimlich in die Cloud zu schicken, weil die Verbesserung der Teil ist, der ein großes Modell braucht — und große Modelle sind verlockend zu mieten. Die nüchterne Wahrheit ist, dass ein lokales Modell über Ollama für den täglichen Gebrauch mehr als ausreicht, um Zeichensetzung zu korrigieren und Füllwörter zu entfernen. Ein Cloud-Modell braucht man nur, wenn man etwas wirklich Schwierigeres verlangt — und das sollte eine bewusste Entscheidung sein, keine, die das Tool im Hintergrund für dich trifft.
Lokal oder Cloud: Welcher Modus für einen privaten Workflow
Für alles, was du privat nennen würdest, fange lokal an. Wenn dein Mac Apple Silicon hat oder dein PC aus den letzten Jahren stammt, bewältigen die lokalen Engines das alltägliche Diktieren problemlos, und die Cloud wird zum Notausgang statt zum Standard. Die App lässt dich bewusst einen Pfad wählen — kein aufgezwungener Standard — hier sind die Unterschiede der drei Optionen, mit Datenschutz klar im Blick:
Die Wahl hängt davon ab, wo das Audio verarbeitet wird und was du von der Transkription brauchst.
- Local Parakeet — NVIDIAs TDT-Engine, etwa 600 MB, und die schnellste lokale Option — 5 bis 10-mal schneller als Whisper auf der CPU. Unterstützt Englisch plus 24 weitere europäische Sprachen, insgesamt 25. Keine Übersetzung ins Englische. Vollständig auf dem Gerät, nichts wird hochgeladen. Die schnelle private Wahl, wenn du Englisch oder eine andere europäische Sprache sprichst.
- Local Whisper — Langsamer als Parakeet auf demselben Gerät, aber die mehrsprachigen Builds unterstützen 99 Sprachen und können ins Englische übersetzen. Die englischsprachigen Builds sind ausschließlich für Englisch, nicht für 99 Sprachen. Ebenfalls vollständig auf dem Gerät. Wähle dies für Chinesisch, Japanisch, Koreanisch oder Übersetzungsaufgaben, die Parakeet nicht kann. Das Standard-Englischmodell ist etwa 480 MB groß.
- Cloud (OpenAI, BYOK) — Beste Genauigkeit und Web-Zugriff, mit deinem eigenen OpenAI-Schlüssel, der direkt von OpenAI abgerechnet wird. Transkription standardmäßig über gpt-4o-mini-transcribe. Das ist der einzige Pfad, der dein Audio hochlädt — es verlässt dein Gerät, um OpenAI zu erreichen. Er ist opt-in, Teil von Whisper Pro und standardmäßig deaktiviert.
Die Linie ist klar: Die beiden lokalen Pfade sind konstruktionsbedingt privat — das Audio wird auf deinem Gerät transkribiert und es gibt nichts, das verloren gehen könnte. Der Cloud-Pfad ist es nicht, und wir täuschen nichts vor. Er sendet dein Audio an OpenAI, unter deinem eigenen Schlüssel, weil das der einzige Weg ist, OpenAIs Genauigkeit und Live-Web-Zugriff zu erhalten. Wenn dein Mac M-Serie ist oder dein PC aktuell ist, fang mit dem lokalen Modus an und greife erst dann auf die Cloud zurück, wenn der lokale Modus wirklich nicht ausreicht. Cloud ist die Ausnahme, die du wählst, nicht der Standard, den du erbst.
Was deinen Laptop wirklich verlässt — in jedem Modus
Seien wir konkret bezüglich der Daten, denn "privat" ist bedeutungslos, ohne zu benennen, was übertragen wird. Im lokalen Modus lautet die Antwort: nichts — nicht das Audio, nicht das Transkript, nicht die bereinigte Version. Die Aufnahme wird in deinem RAM verarbeitet, die Bereinigung läuft über Ollama auf deinem Gerät, und das Einzige, das sich je bewegt hat, waren die Wörter vom Modell in dein Textfeld. Du kannst es mit dem deaktivierten Netzwerk überprüfen.
Wenn die KI-Bereinigung läuft, zeigt die Einblendung einen Verbesserungsstatus, während das lokale Modell den Fließtext in etwas Lesbares umwandelt. Hier ist die Art der Transformation — oben das rohe Diktat, darunter der bereinigte Text — alles passiert auf deinem Gerät, wenn du im lokalen Modus bist:
okay also schick die q3 zahlen an marcus vor dem board call und markier den margenrückgang ähm aber cc nicht die ganze finanzliste
Okay, also schick die Q3-Zahlen an Marcus vor dem Board-Call und markiere den Margenrückgang — aber setz die ganze Finanzliste nicht auf CC.
Im Cloud-Modus sieht die ehrliche Bestandsaufnahme anders aus, und du solltest das wissen, bevor du den Schalter umlegst. Dein Audio wird unter deinem eigenen API-Schlüssel an OpenAIs Transkriptions-Endpunkt hochgeladen, um dort in Text umgewandelt zu werden. Wenn du auch Cloud-KI-Verbesserung nutzt, geht das Transkript an ein GPT-Modell; wenn du die Websuche verwendest, geht auch eine Anfrage hinaus. Nichts davon läuft über Remskill — es ist eine direkte Verbindung von deinem Gerät zu OpenAI über deinen Schlüssel — aber es verlässt dein Gerät, was das Einzige ist, das definiert, ob etwas privat ist. Der Satz über die Q3-Zahlen und Marcus ist genau die Art von Sache, den ich lokal halten würde. Ein Rezept, das ich zum Spaß diktiere, interessiert mich ehrlich gesagt nicht.
Dieser Ablauf aus Sprechen und Bereinigen funktioniert in jeder App — sobald er eingerichtet ist, kannst du mit deiner Stimme schneller tippen in deinem Editor, deiner E-Mail und deinem Terminal — privat, ohne dass im lokalen Modus etwas den Laptop verlässt.
Wann das Senden von Audio in die Cloud ein fairer Tausch ist

Ich würde lügen, wenn ich sagen würde, dass lokal immer die Antwort ist. Manchmal ist die Cloud die richtige Wahl, und so zu tun, als wäre das nicht so, um eine Datenschutz-Agenda voranzutreiben, wäre dieselbe Marketing-Unehrlichkeit, über die ich gerade sechs Abschnitte lang geklagt habe. Der Tausch ist real: Du gibst die Garantie auf, dass nichts dein Gerät verlässt, und bekommst dafür die beste verfügbare Transkriptionsgenauigkeit plus Live-Web-Zugriff mit demselben Hotkey.
Greife auf den Cloud-Modus zurück, wenn der Inhalt nicht sensibel, aber die Genauigkeit wichtig ist. Ein Podcast-Transkript, ein öffentlicher Blog-Entwurf, eine Einkaufsliste, eine schwierige Aufnahme mit starkem Akzent oder in einem lauten Raum, wo das lokale Modell stolpert — nichts davon muss auf deinem Gerät bleiben, und OpenAIs Modelle werden es sauberer machen. Du nutzt deinen eigenen API-Schlüssel, sodass das Audio direkt zu OpenAI geht und die Kosten pro Minute bei dir landen, ohne Aufschlag eines Mittelsmanns. Für nicht-sensible Arbeit, bei der Qualität das ist, wofür du zahlst, ist das ein vernünftiger Tausch. Der Fehler ist nicht, Cloud zu nutzen — er besteht darin, Cloud standardmäßig für alles zu nutzen, einschließlich der Dinge, die man nie auf einem Server haben möchte.
Und für wirklich kurze Texte: Überspringe das spezialisierte Tool ganz. Wenn du einen 30-Wörter-Text diktierst, sind Windows-Taste + H oder macOS Diktieren kostenlos und bereits installiert — wobei Windows-Spracheingabe selbst ein Cloud-Dienst ist, also nicht die private, sondern die bequeme Option. Auf Apple Silicon kann macOS Diktieren allgemeinen Text auf dem Gerät verarbeiten, was es zur einzigen eingebauten Lösung macht, die für kurze Textschnipsel wirklich privat ist. Unter 200 Wörtern empfehle ich nicht, etwas zu installieren. Das spezialisierte Tool verdient seinen Platz, wenn Notizen lang werden, wenn du offline-Datenschutz unter Windows möchtest oder wenn du einen Hotkey willst, der überall gleich funktioniert.
Wenn du ein Tool hauptsächlich für die Datenschutzgarantie auswählst, lebt die tiefere Version dieses Arguments im Leitfaden zu Offline-Spracherkennung der erläutert, wie man alles mit deaktiviertem Netzwerk betreibt.
"Privat" ist das am meisten überstrapazierte Wort in dieser Kategorie und das am einfachsten zu testende: Netzwerk trennen und schauen, ob es noch funktioniert. Lokale Whisper- und Parakeet-Modelle bestehen diesen Test, weil das Audio das Gerät nie verlässt — und die KI-Bereinigung besteht ihn auch, weil Ollama direkt daneben läuft. Cloud-Modus scheitert bewusst daran, weil er OpenAIs Genauigkeit mietet — und das ist für die richtige Aufgabe ein fairer Tausch. Ich habe den Großteil dieses Leitfadens mit ausgeschaltetem WLAN diktiert, was entweder eine starke Produkt-Demo ist oder ein Zeichen, dass ich mehr an die frische Luft sollte. Beides kann wahr sein.
Privat diktieren — ab sofort
Wähle ein lokales Modell, trenn das Netzwerk und sprich. Das Transkript landet an deiner Cursor-Position — und deine Stimme hat den Laptop nie verlassen.
Lokaler Modus kostenlos für jedes angemeldete Konto. Keine Kreditkarte zum Starten erforderlich.



