Anleitung
Sprache zu Text in Roam Research
Roam Research hat keine eingebaute Diktierfunktion. Die Lösung ist ein systemweites Werkzeug: Du drückst eine Tastenkombination, sprichst, und der Text wird an deiner Cursorposition in jeden beliebigen Roam-Block eingefügt. Auch die Diktierfunktion deines Betriebssystems funktioniert — für kurze Notizen.
Zuletzt aktualisiert: Juni 2026

Sprache zu Text in Roam Research funktioniert über ein systemweites Werkzeug, nicht über Roam selbst. Roam Research hat keine eingebaute Diktierfunktion. Die Lösung ist ein Werkzeug wie Whisper: Du drückst eine Tastenkombination, sprichst, und der Text wird an der Cursorposition in jeden beliebigen Roam-Block eingefügt. Auch die Diktierfunktion des Betriebssystems funktioniert — für kurze Notizen.
Ich führe in Roam eine Seite mit Tagesnotizen, weil das vernetzte Denken tatsächlich verändert hat, wie ich Ideen festhalte — jeder Block ist ein Knoten, jede [[page]] ein Faden, an dem ich später wieder ziehen kann. Das Einzige, was ich mir immer gewünscht habe: einen Gedanken in einen Block zu sprechen, statt ihn zu tippen. Ich habe nach der Einstellung gesucht. Es gibt keine Einstellung. Roam hat keinen Mikrofon-Knopf, und nach gründlichem Suchen bin ich mir sicher, dass es mir auch keinen vorenthält.
Leute suchen nach „voice to text in Roam Research“, finden in der App nichts und nehmen an, sie hätten einen Schalter übersehen. Haben sie nicht. Der Schalter wurde nie gebaut. Die gute Nachricht: Die Lösung dauert etwa zwei Minuten, läuft auf Wunsch vollständig offline und funktioniert ganz nebenbei auch in jeder anderen App, die du öffnest.
Hier ist das, was die meisten Seiten, die um dieses Stichwort herumtanzen, nicht klar aussprechen. Ein Roam-Block ist einfach ein Textfeld, genau wie Gmail oder eine Suchleiste. Ein Diktat, das an deiner Cursorposition eingefügt wird, kümmert sich nicht darum, in welcher App der Cursor gerade steht.
Die eigentliche Frage lautet also nicht „Wie aktiviere ich die Spracheingabe in Roam?“. Es gibt keinen Schalter. Die Frage lautet „Welches Diktierwerkzeug lasse ich auf Roam laufen?“, und die Antwort hängt davon ab, ob du kostenlos-und-eingebaut willst oder eine einzige Offline-Tastenkombination, die sich überall gleich verhält. Ich gehe alles durch, richte in zwei Minuten eines ein und sage dir, wann du auf den eigenständigen Weg verzichten kannst.
Hat Roam Research eine eingebaute Diktierfunktion?

Nein. Roam Research hat keine eingebaute Sprache-zu-Text-, Diktier- oder Spracheingabefunktion, um per Stimme in einen Block zu schreiben. Es gibt keinen Mikrofon-Knopf an einem Block, keinen Sprachbefehl, keine versteckte Einstellung. Roam nimmt getippte Eingaben entgegen. Wenn du die Menüs nach einem Diktier-Schalter durchforstet hast, kannst du aufhören. Es gibt ihn nicht.
Was es gibt, ist eine Handvoll Roam-Depot-Erweiterungen und ein Live AI Assistant mit „speech“ in der Beschreibung — und genau hier verlaufen sich die Leute. Diese transkribieren eine bereits aufgenommene Audiodatei — ein Meeting, ein Interview, einen Clip, den du mit /upload hochgeladen hast — im Nachhinein in Text, meist über die OpenAI-Whisper-API mit deinem eigenen Schlüssel. Sie sind nützlich, aber sie sind kein Live-Diktat. Du kannst nicht deinen Cursor in die heutige Tagesnotiz setzen, sprechen und zusehen, wie Wörter erscheinen. Sie verarbeiten eine Aufnahme; sie tippen nicht für dich, während du denkst. Beides zu verwechseln kostet einen Nachmittag, und diesen Nachmittag würde ich dir gerne ersparen.
Die mobile Sache ist ein eigenes Thema und einen Satz wert, damit du sie nicht auf dem falschen Gerät verfolgst: Es gibt begleitende Erfassungs-Apps, die vom Smartphone aus eine Sprache-zu-Text-Notiz in deinen Graphen schicken — aber das ist eine Smartphone-Funktion, und auf dem Handy würdest du ohnehin einfach das Mikrofon der Tastatur nutzen. Auf dem Desktop-Graphen, in dem die meisten tatsächlich arbeiten, brauchst du ein Werkzeug, das auf Roam aufsetzt. Es gibt ein paar ehrliche Kategorien, und der Rest dieser Anleitung behandelt sie.
Tastenkombination drücken, sprechen, der Text landet im Block
Das ist der ganze Mechanismus, und er ist langweilig im besten Sinne. Du drückst eine Tastenkombination, sprichst, lässt los, und der Text wird an deiner Cursorposition eingefügt — in welches Textfeld auch immer den Fokus hat. Whisper hält nach dem Loslassen kurz nach, damit dein letztes Wort nicht abgeschnitten wird. Weil es an der Cursorposition des Betriebssystems einfügt, ist ein Roam-Block einfach „irgendein Textfeld“. Die Browser-App oder ein Desktop-Wrapper — gleiches Verhalten; es gibt keinen Unterschied, den Roam überhaupt bemerken könnte.
Das ist der Teil, den die Landingpages überkomplizieren. Es gibt keine Erweiterung, die du in Roam installieren musst, kein API-Token zum Einfügen, keinen Sync-Job zum Beaufsichtigen. Dein Cursor steht in einem Block, du sprichst, die Wörter erscheinen im Block. Eine kleine Kapsel taucht auf, während du sprichst, damit du weißt, dass es zuhört:
Die Tastenkombination ist das Einzige, das du von Anfang an richtig einstellen solltest. Unter Windows ist es Ctrl+Space; auf dem Mac Command+Option, ein reines Modifikator-Push-to-Talk, das du beim Sprechen gedrückt hältst. Beide lassen sich in den Einstellungen ändern, falls sie mit etwas kollidieren, das du bereits nutzt. (Meine jüngere Tochter sagte mir mal, eine Tastenkombination „funktioniere nicht“ in ihrer Mal-App. Es war ein Konflikt, kein Fehler — so habe ich gelernt, dass die meisten Menschen keine Ahnung haben, was ein Tastenkonflikt überhaupt ist. Also ist heute jede Tastenkombination anpassbar.) Wenn du jemals das Diktieren auf dem Mac eingerichtet hast, ist das dasselbe Muskelgedächtnis, nur auf eine andere App gerichtet.
In zwei Minuten eingerichtet (Windows oder Mac)
Du brauchst einen Mac mit Apple Silicon oder einen Windows-10-oder-neuer-PC, ein funktionierendes Mikrofon und Roam im Browser geöffnet. Die gesamte lokale Pipeline ist für jedes angemeldete Konto kostenlos, ohne dass bei der Anmeldung eine Zahlungsmethode verlangt wird. Hier ist der Ablauf.
Schritt 1 — Whisper installieren und anmelden.
Lade es von der Download-Seite herunter, installiere es und erstelle ein kostenloses Konto. Keine Karte. Die gesamte lokale Transkriptions-Pipeline steht sofort bereit.
Du erkennst, dass es geklappt hat, wenn das Tray-Symbol der App erscheint und der Einrichtungsassistent dir die Auswahl eines Modells anbietet.
Schritt 2 — Einen Transkriptionsweg wählen.
Die App entscheidet nicht für dich. Du hast drei Optionen: Cloud (OpenAI, eigener Schlüssel), lokales Parakeet oder lokales Whisper. Für private Tagesnotizen fang lokal an — mehr dazu zwei Abschnitte weiter unten.
Du erkennst, dass es geklappt hat, wenn ein Modell fertig heruntergeladen ist und als bereit angezeigt wird.
Schritt 3 — Deine Tastenkombination bestätigen.
Windows verwendet standardmäßig Ctrl+Space, der Mac Command+Option als Push-to-Talk gehalten. Erteile auf dem Mac die Bedienungshilfen-Berechtigung, wenn du danach gefragt wirst; ohne sie kann das Einfügen an der Cursorposition deinen Browser nicht erreichen.
Du erkennst, dass es geklappt hat, wenn eine Testaufnahme in ein beliebiges Textfeld eingefügt wird.
Schritt 4 — Setze deinen Cursor in einen Roam-Block und sprich.
Öffne deinen Graphen, klicke in einen Block, halte die Tastenkombination, sprich einen Satz, lass los. Der Text erscheint dort, wo der Cursor steht, im Block.
Du erkennst, dass es geklappt hat, wenn dein gesprochener Satz als Text im Roam-Block steht.
Der langsame Teil ist der Modell-Download, nicht die Einrichtung. Alles andere sind die vier Schritte oben. Sobald es läuft, ist das Festhalten eines Gedankens in deinem Graphen keine Tipp-Aufgabe mehr, sondern eine Sprech-Aufgabe.
Eine Roam-Erweiterung vs. eine systemweite Tastenkombination
Die meisten Seiten, die für dieses Stichwort ranken, verweisen dich auf eine Roam-Depot-Erweiterung — den Live AI Assistant, den Otter-Importer, irgendetwas mit „speech“ im Namen. Das sind brauchbare Werkzeuge, mit einem strukturellen Haken gemeinsam. Sie transkribieren Audio, das du bereits aufgenommen hast — eine Meeting-Datei, eine Otter-Sitzung, einen in einen Block hochgeladenen Clip — nicht Live-Sprache in den Block, den du gerade bearbeitest. Du nimmst auf, dann transkribierst du, dann räumst du das Ergebnis auf. Das ist ein Transkriptions-Workflow, kein Diktat. Sie lösen „Ich habe eine Stunde Audio“, nicht „Ich will diesen Satz in meine Tagesnotiz sprechen“.
Eine systemweite Tastenkombination umgeht das vollständig. Sie fügt an der Cursorposition des Betriebssystems ein, egal welches Fenster ihn besitzt, sodass dieselbe Taste, die einen Roam-Block füllt, auch dein Gmail-Verfassen-Feld, eine Slack-Nachricht und eine Commit-Nachricht füllt. Ein Werkzeug, jedes Textfeld, unter Windows und Mac. Du lernst nichts neu, wenn du die App wechselst, und nichts muss wissen, dass es Roam ist — der Cursor übernimmt die Integration.
Wenn du vor allem Aufnahmen zu transkribieren hast — Anrufe, Vorlesungen, bereits erfasste Sprachnotizen — ist eine Depot-Erweiterung, die Whisper auf die Datei anwendet, die richtige Form und einen Blick wert. In dem Moment, in dem du eigentlich laut in einen frischen Block hineindenken willst, live, gewinnt der systemweite Weg. Ich würde zur einen Tastenkombination greifen, weil ich rund vierzigmal pro Stunde die App wechsle und nicht vierzig verschiedene Diktier-Knöpfe im Kopf behalten möchte.
Lokal oder Cloud: welcher Modus für einen privaten Graphen
Für Roam probiere zuerst den lokalen Modus. Ein Graph füllt sich mit dem ungefilterten Zeug — einer halbgaren Idee, einer Meeting-Zusammenfassung, einem Tagebucheintrag, den du nie auf dem Server eines anderen haben wolltest. Wenn du zweimal überlegen würdest, bevor du einen Block öffentlich machst, würdest du wahrscheinlich auch zweimal überlegen, deine Stimme durch eine Cloud zu leiten, um ihn zu schreiben. Wenn dein Mac Apple Silicon hat oder dein PC aus den letzten Jahren stammt, bewältigt das lokale Modell das alltägliche Diktieren klaglos, und die Cloud wird zum Notausgang statt zum Standard.
So unterscheiden sich die drei Wege, denn die App lässt dich wählen, und ich möchte lieber, dass du gut wählst:
- Lokales Parakeet — NVIDIAs TDT-Engine, rund 600 MB, und die schnellste lokale Option — 5- bis 10-mal schneller als Whisper auf der CPU. Deckt Englisch plus 24 weitere europäische Sprachen ab, 25 insgesamt. Keine Übersetzung ins Englische. Wenn du auf Englisch oder einer anderen europäischen Sprache Tagebuch führst, ist das die schnelle, vollständig offline laufende Wahl.
- Lokales Whisper — langsamer als Parakeet auf derselben Maschine, aber die mehrsprachigen Versionen decken 99 Sprachen ab und können ins Englische übersetzen. Die rein englischen Versionen sind rein englisch, nicht 99. Wähle das für Chinesisch, Japanisch, Koreanisch oder jede Übersetzungsarbeit, die Parakeet nicht leisten kann. Das englische Standardmodell ist rund 480 MB groß.
- Cloud (OpenAI, eigener Schlüssel) — beste Genauigkeit und Web-Zugriff, mit deinem eigenen OpenAI-Schlüssel, direkt von OpenAI abgerechnet. Die Transkription läuft standardmäßig über gpt-4o-mini-transcribe. Braucht Internet und ist daher der eine Weg, der deine Maschine verlässt. Die Cloud-Oberfläche gehört zu Whisper Pro.
Die langweilige Wahrheit ist, dass für die Art von Text, die die meisten Menschen in Roam ablegen, lokal völlig ausreicht. Beide lokalen Engines laufen vollständig auf deiner Maschine, nichts wird an einen Server geschickt. Die Cloud verdient ihren Platz, wenn du erstklassige Genauigkeit bei einer schwierigen Aufnahme willst oder das Modell mitten im Satz einen Fakt aus dem Web ziehen soll. Für die Gewohnheit der Tagesnotizen fang lokal an und greife nur dann zur Cloud, wenn lokal dich etwas vermissen lässt.
Satzzeichen, Blöcke und Roam-Syntax per Stimme
Rohes Diktat kommt als endloser Wortschwall heraus. Du sagst „okay also überarbeite das Architektur-Dokument tagge es Project Alpha und erinnere mich Donnerstag“, und das ist die satzzeichenlose Wand, die dir jede Sprach-Engine reicht. Das Aufräumen ist der Punkt, an dem sich die Wege trennen.
Windows-Spracheingabe fügt Satzzeichen beim Sprechen hinzu, und macOS-Diktat setzt grundlegende Satzzeichen, wenn du „Komma“ oder „Punkt“ sagst. Für gründlicheres Aufräumen — die „Ähs“ entfernen, die Wortschwälle ordnen, einen gesprochenen Absatz in etwas verwandeln, das du tatsächlich in deinem Graphen behalten würdest — kann Whisper einen KI-Durchlauf machen. Sag die Aktivierungsphrase „Hey whisper“, und der Text wird verbessert, bevor er landet. Bei einem lokalen Modell läuft das über Ollama; im Cloud-Modus ist es standardmäßig gpt-5-mini.
okay also überarbeite das architektur-dokument tagge es project alpha und erinnere mich donnerstag äh vor dem standup
Okay, also überarbeite das Architektur-Dokument, tagge es Project Alpha und erinnere mich Donnerstag vor dem Standup.
Für Roams eigene Struktur — verschachtelte Blöcke, die #tag- und [[page]]-Links, TODO-Markierungen — lautet die ehrliche Antwort: Die Stimme bringt dir den Text, und Roams eigene Syntax bringt dir die Struktur. Diktiere den Satz, dann tippe das Tab, um den Block einzurücken, das # für ein Tag oder das [[ für einen Seitenlink, so wie du es immer tust. Kein Diktierwerkzeug zaubert Roams Gliederungssyntax auf Kommando herbei; wer dir „sag Doppelklammer Project Alpha und sieh zu, wie es verlinkt“ verspricht, verkauft dir eine Demo, keinen Dienstag. Bring die Wörter schnell per Stimme zu Papier, forme die Blöcke mit den Tasten, die du längst kennst.
Genau dieser Sprich-dann-Aufräumen-Ablauf zahlt sich weit über deinen Graphen hinaus aus — du kannst mit der einen Tastenkombination auch sauberen Text in jede App diktieren, sodass aus einem langen Block ein paar gesprochene Sätze werden statt eines Absatzes, den du abtippst.
Wann du für Roam Research auf ein Diktierwerkzeug verzichten kannst

Manchmal ist das richtige Werkzeug das kostenlose, das bereits auf deiner Maschine ist, und etwas anderes zu behaupten wäre unehrlich. Wenn du nur kurze Erfassungen in Roam ablegst — eine schnelle Tagesnotiz-Zeile, eine Erinnerung aus zwei Wörtern — deckt dein Betriebssystem das umsonst ab.
Unter Windows drückst du Windows-Taste + H, und die eingebaute Spracheingabe-Leiste öffnet sich dort, wo dein Cursor steht — ein Roam-Block eingeschlossen. Sie setzt von selbst Satzzeichen und ist für kurze Schübe völlig in Ordnung. Der Haken: Sie läuft über Microsofts Server und braucht eine Internetverbindung, ist also keine Offline-Option — was hier mehr ins Gewicht fällt als üblich, wenn dein Graph voller halbprivater Gedanken steckt. Auf dem Mac lässt dich das Diktat überall sprechen, wo du tippen kannst, eingerichtet in den Systemeinstellungen unter Tastatur, und auf Apple Silicon kann allgemeiner Text auf dem Gerät verarbeitet werden. Und wenn du tatsächlich aufgenommenes Audio hast — einen Anruf, eine Vorlesung — passt eine Roam-Depot-Erweiterung, die die Datei transkribiert, besser als jedes Live-Diktierwerkzeug.
Greif zu einem eigenständigen, systemweiten Werkzeug, wenn die eingebauten anfangen wehzutun: lange Notizen, mehrsprachige Arbeit, Offline-Privatsphäre unter Windows oder der Wunsch nach einer Tastenkombination, die sich in Roam, deiner E-Mail und deinem Editor gleich verhält. Unterhalb dieser Schwelle nimm, was kostenlos ist. Ich werde dir nicht sagen, du sollst für eine einzeilige Erinnerung eine App installieren.
Dieselbe Abwägung taucht auf, wenn du auch anderswo Notizen führst — die Logik beim Diktieren in Obsidian ist identisch, denn auch dort ist der Cursor, nicht ein Plug-in, die eigentliche Integration.
Weiterführende Lektüre
Roam hat nie einen Mikrofon-Knopf ausgeliefert, und nachdem ich das geschrieben habe, bin ich ziemlich sicher, dass es das nie tun wird. Es muss nicht, denn der Cursor ist die Integration. Sprich in den Block, bekomme Text, forme ihn mit dem [[ und #, das du längst kennst. Ich habe den Großteil dieser Anleitung in ein Textfeld diktiert, das nicht Roam war, mit einem Werkzeug, dem es egal ist, welches Feld es ist, und dann das Ganze in meinen eigenen Graphen eingefügt. Das ist der ganze Trick.
Probier es in deinem nächsten Roam-Block aus
Halte die Tastenkombination, sprich, lass los. Der Text landet in dem Block, in dem dein Cursor steht — und in jeder anderen App ebenso.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte für den Start nötig.



