Von Denys Medvediev

Tutorial

Sprache zu Text in Evernote: live vs. aufgenommen

Evernote hat keine eigene Live-Diktierfunktion. Am Desktop tippt für dich macOS Dictation oder die Windows-Spracheingabe; am Handy ist es das Mikrofon der Tastatur. Evernotes eigenes AI Transcribe verarbeitet aufgenommenes Audio im Nachhinein. Dieser Leitfaden trennt diese beiden Wege sauber voneinander.

Zuletzt aktualisiert: Juni 2026

Aufgeschlagenes Notizbuch und Stift neben einem Laptop auf einem Holzschreibtisch, ein Arbeitsplatz zum Diktieren in Evernote

Sprache zu Text in Evernote funktioniert auf zwei verschiedene Arten, und die meisten Anleitungen werfen beide durcheinander. Evernote hat keine eigene Live-Diktierfunktion – am Desktop tippt macOS Dictation oder die Windows-Spracheingabe, und am Handy ist es das Mikrofon der Tastatur. Evernotes eigenes AI Transcribe verarbeitet aufgenommenes Audio im Nachhinein.

Ich habe einmal zwanzig Minuten damit verbracht, den "Evernote-Diktierknopf" zu suchen, bevor ich akzeptiert habe, dass es ihn nicht gibt. Es gibt keine versteckte Einstellung. Das Mikrofon, das du am Desktop antippst, gehört zu deinem Betriebssystem, und Evernote ist nur das Textfeld, auf das es zeigt. Das ist kein Vorwurf an Evernote. Es ist eine Notiz-App, keine Sprach-Engine. Aber es bedeutet, dass das Live-Diktiererlebnis, das du eigentlich willst – sprechen, zusehen, wie Wörter erscheinen, weitermachen – komplett davon abhängt, was dein Betriebssystem dir gibt. Und am Desktop ist das ein Stop-and-go-Spiel.

Deshalb teilt dieser Leitfaden die Frage in zwei. Wenn du live in eine Notiz diktieren willst, während du denkst, ist das der eine Weg: das Betriebssystem oder ein systemweites Tool wie Whisper, das auf einen Hotkey hört und an deinem Cursor einfügt. Wenn du bereits eine aufgenommene Besprechung oder Sprachnotiz hast und sie verschriftlichen willst, ist das Evernotes eigenes AI Transcribe – und darin ist es wirklich gut. Die meiste Verwirrung im Netz entsteht, weil beides als dieselbe Funktion behandelt wird. Ist es aber nicht.

Evernotes Sprachsituation, ehrlich gesagt

Mikrofon und Laptop auf einem Schreibtisch zum Aufnehmen von Audio, als Kontrast zwischen angehängtem Audio und Live-Diktat

Hier die nüchterne Wahrheit. Evernote liefert keine eigene, immer aktive Live-Diktier-Engine. Sogar Evernotes eigene Hilfetexte verweisen dich auf dein Gerät: Aktiviere die Spracherkennung deines Systems und nutze dann das Mikrofon. Das ist das Betriebssystem, das die Arbeit macht.

Am Desktop bedeutet "Sprache zu Text in Evernote" eines von zwei Betriebssystem-Tools. Auf einem Mac ist es macOS Dictation, das in kurzen Schüben transkribiert – es stoppt nach einer Phase der Stille, und du startest es neu, sodass Diktieren über längere Strecken zu einer Abfolge von Starts und Stopps wird. Unter Windows ist es die Spracheingabe (Win+H) oder Voice Access, kostenlos und vorinstalliert, das direkt in das aktive Evernote-Feld tippt.

Auf dem Handy ist es noch einfacher, als die Leute denken. Die "Evernote-Spracherkennung", die du auf einem iPhone oder Android siehst, ist das Diktier-Mikrofon deiner Tastatur – das Mikrofon der iOS-Tastatur oder von Gboard. Evernote ist das Textfeld; die Tastatur erledigt die Transkription.

Und dann gibt es den Teil, der tatsächlich von Evernote selbst kommt: Audioaufnahme plus AI Transcribe. Der verdient einen eigenen Abschnitt, denn ihn verwechseln die Leute am häufigsten mit Live-Diktat.

Was Evernote dir wirklich bietet: aufnehmen, dann transkribieren

Evernote hat tatsächlich eine echte Audiofunktion. Im Editor einer Notiz kannst du auf Einfügen (+) > Audioaufnahme tippen, das Seitenleisten-Menü "..." nutzen oder den Slash-Befehl /audio eingeben. Du kannst gleichzeitig tippen und aufnehmen; Pausieren, Fortsetzen und Stoppen speichert den Clip als Anhang in der Notiz.

Sobald der Clip gespeichert ist, erscheint ein Transkribieren-Button, und Evernote AI Transcribe legt eine schriftliche Abschrift in die Notiz. Es wandelt auch hochgeladene Audio-, Video- und Bilddateien in Text um. Die Grenze liegt bei 100 MB oder 60 Minuten pro Aufnahme.

Lies diese Abfolge noch einmal, denn darum geht es. Du nimmst einen Anhang auf, dann transkribierst du ihn. Das ist erst aufnehmen, dann transkribieren. Das ist nicht dasselbe, wie wenn Wörter an deinem Cursor erscheinen, während du sprichst. Beides ist nützlich. Sie lösen verschiedene Probleme. Ein aufgenommenes Interview braucht AI Transcribe. Eine Notiz, die du gerade jetzt verfasst, braucht Live-Diktat.

Die Lücke ist also das Live-Diktat am Cursor auf dem Desktop – das, was das Betriebssystem nur im Stop-and-go macht und Evernote gar nicht. Genau diese Lücke füllt ein systemweiter Hotkey.

Mit einem Hotkey in jede Evernote-Notiz diktieren

Cancel
Das Aufnahme-Overlay: eine kleine Kapsel, die erscheint, während du sprichst, damit du weißt, dass Whisper zuhört.

Hier kommt Whisper ins Spiel. Whisper ist eine Desktop-App für Windows und macOS, die das Diktieren hinter einen einzigen globalen Hotkey legt. Taste halten, sprechen, loslassen – und der Text landet an deinem Cursor, in welchem Feld auch immer du gerade hineingeklickt hast.

Der Standard-Hotkey ist Ctrl+Space unter Windows und Command+Option auf macOS – halte ihn wie eine Push-to-Talk-Taste, lass los zum Stoppen. Weil es auf Betriebssystem-Ebene arbeitet, fügt es genauso in die Evernote-Desktop-App ein wie in Slack, Gmail oder deinen Editor: ein Hotkey, jede App, keine Einrichtung pro App. Whisper ist eine native Desktop-App, keine Browser-Erweiterung, also diktiert es in die Evernote-Desktop-App, nicht nur in Evernote in einem Browser-Tab.

Eine ehrliche Einschränkung. Whisper fügt in das eine aktive Feld ein, immer nur ein Feld auf einmal – den Notiztitel oder den Notiztext, je nachdem, wo dein Cursor sitzt. Es füllt nicht ein ganzes Notiz-Layout auf einen Schlag. Du klickst dorthin, wo die Wörter hinsollen, dann sprichst du. Mehr ist es nicht.

Der Lunchbox-Test hat mich von meinem eigenen Tool überzeugt – ein etwas seltsamer Satz zum Tippen. Ein Dienstagabend, ich mache Brotdosen für zwei Kinder, und die Schule hat eine Einverständniserklärung geschickt, die bis acht beantwortet werden musste. Ich habe einhändig den Laptop gegriffen, zwischen zwei Gurkenscheiben den Hotkey gedrückt und die Antwort direkt hineindiktiert – inklusive der Stelle, an der ich innehielt, um zu fragen, wie der Name der Lehrerin geschrieben wird, und der Stelle, an der das jüngere Kind wissen wollte, warum der Mond manchmal nicht da ist. Die Notiz wurde geschrieben. Die Brotdosen wurden gemacht. Genau das hat früher fünfzehn Minuten einhändiges Tippen gekostet.

Du musst mir den Ablauf nicht einfach glauben. Die Einbettung unten ist die echte Desktop-App. Wähle eine Sprache, schau dir die Einstellungen an, sieh genau, was du nach der Installation bekommst – keine Anmeldung, kein Screenshot von etwas, das vielleicht nicht zum ausgelieferten Produkt passt.

Whisper
Die echte Whisper-Desktop-App – wähle eine Sprache, schau dir die Einstellungen an, sieh genau, was du nach der Installation bekommst.

Es unterstützt über 90 Sprachen, sowohl im lokalen als auch im Cloud-Modus, wobei die mehrsprachige Modellreihe mit Auto-Erkennung 99-plus erreicht (die englischsprachigen Modellvarianten beherrschen genau eine Sprache – Englisch – und sonst nichts). Für die meisten Menschen, die Notizen in Evernote diktieren, ist die Sprachzahl nicht der ausschlaggebende Faktor. Auch Evernotes Betriebssystem-Diktat und AI Transcribe beherrschen viele Sprachen. Der Unterschied, auf den es ankommt, ist: live, systemweit und auf dem Gerät.

Das Diktat automatisch aufräumen

Thinking...

Rohe Sprache hat Füllwörter. "Ähm", Neuanfänge, die Stelle, an der du versehentlich "Komma" laut ausgesprochen hast. Whisper kann optional einen KI-Aufräumdurchgang über die Rohabschrift laufen lassen, sodass das, was in deiner Notiz landet, wie geschriebener Text liest und nicht wie eine Mitschrift deines Denkens.

Im kostenlosen lokalen Setup läuft dieser Aufräumdurchgang auf deinem eigenen Rechner. In Pro läuft er über deinen eigenen Cloud-API-Schlüssel, was außerdem Web-Antworten hinzufügt. So oder so ist er optional – schalte ihn aus, und du bekommst die wortgetreue Abschrift. Ich lasse ihn bei E-Mails an und bei Zitaten, die ich wortwörtlich brauche, aus.

Offline und privat: deine Notizen bleiben auf deinem Laptop

Laptop mit einem Schloss-Sicherheitssymbol auf einem Tisch, illustriert private Transkription auf dem Gerät

Hier ist die eine Meinung, für die ich eine Fahne aufstelle: Reines Cloud-Diktat ist eine Datenschutzkatastrophe, die nur darauf wartet, transkribiert zu werden. Deine Gehaltstabelle, die E-Mail an die Schule deines Kindes, die Mandantennotiz, die du gerade entwirfst – nichts davon sollte durch die Logs eines Anbieters laufen, nur weil du mit deiner Stimme tippen wolltest.

Whispers lokaler Modus läuft vollständig offline. Während der Transkription wird kein Internet benötigt; das Audio verlässt den Rechner nie. Das Einzige, was eine Verbindung braucht, ist der einmalige Modell-Download, irgendwo zwischen 140 MB und 3 GB, je nachdem, welches Modell du wählst. Danach wird jedes Wort, das du in eine Evernote-Notiz diktierst, auf deiner eigenen CPU verarbeitet, ohne jegliche Netzwerkaktivität.

Das ist der strukturelle Gegensatz zu Evernote AI Transcribe und den Cloud-Transkriptionstools zu diesem Thema – sie schicken dein Audio an einen Server, um es als Text zurückzubekommen. Für einen Podcast, den du ohnehin veröffentlichst, in Ordnung. Für deine Besprechungsnotizen würde ich es lokal halten. Wenn du das umfassendere Argument für schnelles Diktieren auf dem Gerät willst, habe ich es in wie du mit deiner Stimme schneller tippst ausgeführt.

Die lokale Pipeline ist für angemeldete Nutzer kostenlos, ohne Kreditkarte bei der Anmeldung. Die Cloud-Funktionen stecken hinter Whisper Pro – du kannst die Optionen auf der Preisseite vergleichen, statt eine Zahl von mir an dieser Stelle zu übernehmen.

Wann du Whisper überspringst und Evernotes AI Transcribe nutzt

Aufgeschlagenes Notizbuch mit Stift neben einem Laptop und einer Tasse in gemütlicher Umgebung, Abwägen der eingebauten Notiz-Werkzeuge

Bei einer verbreiteten Aufgabe würde ich Whisper überspringen. Wenn du tatsächlich eine Aufnahme hast – eine Besprechung, die du mitgeschnitten hast, eine Sprachnotiz, eine Vorlesung, die du mit dem Handy aufgenommen hast – und sie verschriftlichen willst, nutze Evernotes eigenes AI Transcribe. Du nimmst den Clip in die Notiz auf (oder lädst eine Datei hoch), tippst auf Transkribieren, und Evernote legt den Text hinein. Es verarbeitet Audio bis 100 MB oder 60 Minuten pro Aufnahme. Das ist das richtige Werkzeug für aufnehmen-dann-transkribieren, und es lebt in der App, die du ohnehin schon nutzt.

Die Aufteilung ist klar. Aufgenommenes Audio, das du im Nachhinein verschriftlichen willst, innerhalb von Evernote → AI Transcribe. Live-Wörter, die erscheinen, während du eine Notiz verfasst, offline, kostenlos, mit einem Hotkey über jede App hinweg → Whisper. Wenn dein Bedarf wirklich der erste ist, installiere kein zweites Tool. Evernote hat dich bereits abgedeckt.

Evernote versteckt keine Diktier-Engine vor dir. Am Desktop erledigt dein Betriebssystem den Live-Teil in Stop-and-go-Schüben, am Handy macht es deine Tastatur, und AI Transcribe übernimmt die Aufnahmen, die du bereits gemacht hast. Was nichts Natives sauber abdeckt, ist Live-, Offline-, Ein-Hotkey-Diktat in die Notiz, die du gerade jetzt schreibst. Das ist die Lücke. Ich habe ein Tool dafür gebaut, ich diktiere damit Einverständniserklärungen zwischen zwei Gurkenscheiben, und es funktioniert auch in jeder anderen App. Sieh dir an, wie Whisper funktioniert, oder lade es herunter und diktiere deine nächste Notiz, statt sie zu tippen. Für benachbarte Apps deckt derselbe Ansatz Sprache zu Text in OneNote, Obsidian-Diktat und Spracheingabe auf einem Mac ab.

Diktiere deine nächste Evernote-Notiz

Klick in die Notiz, halte die Taste, sprich, lass los. Die Abschrift landet dort, wo dein Cursor ist – in Evernote und in jeder anderen App genauso.

Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Kreditkarte zum Loslegen nötig.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.