Guide
Röst till text i Roam Research
Roam Research har ingen inbyggd diktering. Lösningen är ett systemövergripande verktyg: tryck på ett kortkommando, tala, så klistras texten in vid markören i vilket Roam-block som helst. Operativsystemets egen diktering fungerar också, för korta anteckningar.
Senast uppdaterad: juni 2026

Röst till text i Roam Research fungerar via ett systemövergripande verktyg, inte Roam självt. Roam Research har ingen inbyggd diktering. Lösningen är ett verktyg som Whisper: tryck på ett kortkommando, tala, så klistras texten in vid markören i vilket Roam-block som helst. Operativsystemets egen diktering fungerar också, för korta anteckningar.
Jag har en sida med dagliga anteckningar i Roam eftersom det här med länkat tänkande faktiskt förändrade hur jag håller fast vid idéer — varje block är en nod, varje [[sida]] är en tråd jag kan dra i senare. Det enda jag alltid önskade var att kunna tala in en tanke i ett block i stället för att skriva den. Jag letade efter inställningen. Det finns ingen inställning. Roam har ingen mikrofonknapp, och efter en hel del grävande är jag säker på att den inte gömmer någon för mig.
Folk söker efter "röst till text i Roam Research", hittar ingenting i appen och antar att de missat en omkopplare. Det gjorde de inte. Omkopplaren byggdes aldrig. Det goda är att lösningen tar ungefär två minuter, körs helt offline om du vill, och fungerar i varenda annan app du öppnar på köpet.
Här är det som de flesta sidor som dansar runt det här sökordet inte säger rakt ut. Ett Roam-block är bara en textruta, precis som Gmail eller ett sökfält. Diktering som klistrar in vid markören bryr sig inte om vilken app markören befinner sig i.
Så den verkliga frågan är inte "hur slår jag på röstinmatning i Roam". Det finns ingen knapp. Frågan är "vilket dikteringsverktyg kör jag ovanpå Roam", och svaret beror på om du vill ha gratis-och-inbyggt, eller ett offline-kortkommando som beter sig likadant överallt. Jag går igenom allt, ställer in ett på två minuter och säger till när du ska hoppa över den dedikerade vägen.
Har Roam Research inbyggd diktering?

Nej. Roam Research har ingen inbyggd tal-till-text, diktering eller röstinmatning för att skriva in i ett block med rösten. Det finns ingen mikrofonknapp på ett block, inget röstkommando, ingen dold inställning. Roam tar emot inskriven text. Om du har finkammat menyerna efter en dikteringsomkopplare kan du sluta. Den finns inte där.
Det som däremot finns är en handfull Roam Depot-tillägg och en Live AI Assistant med ordet "speech" i beskrivningen, och det är här folk blir vilseledda. De transkriberar en ljudfil du redan spelat in — ett möte, en intervju, ett klipp du laddade upp med /upload — till text i efterhand, oftast genom att anropa OpenAI Whisper API med din egen nyckel. De är användbara, men de är inte diktering i realtid. Du kan inte sätta markören i dagens dagliga anteckning, tala, och se orden dyka upp. De bearbetar en inspelning; de skriver inte åt dig medan du tänker. Att blanda ihop de två kostar en eftermiddag, och jag vill hellre att du slipper den eftermiddagen.
Det mobila läget är en sak för sig, och värt en mening så att du inte jagar det på fel enhet: det finns följeslagar-appar för infångning som skickar en tal-till-text-anteckning till din graf från en telefon, men det är en telefonfunktion, och på en telefon skulle du ändå bara använda tangentbordets mikrofon. På den skrivbordsgraf där de flesta faktiskt lever behöver du ett verktyg som sitter ovanpå Roam. Det finns ett par ärliga kategorier, och resten av den här guiden täcker dem.
Tryck på ett kortkommando, tala, texten landar i blocket
Det här är hela mekaniken, och den är trist på bästa möjliga sätt. Du trycker på ett kortkommando, du talar, du släpper, och texten klistras in vid markören, i vilket textfält som än har fokus. Whisper håller kvar en kort svans efter att du släppt tangenten, så att ditt sista ord inte kapas. Eftersom den klistrar in vid OS-markören är ett Roam-block bara "vilken textruta som helst". Webbappen eller en skrivbordsförpackning, samma beteende — det finns ingen skillnad som Roam ens kan upptäcka.
Det är den delen som landningssidorna gör onödigt krånglig. Det finns inget tillägg att installera i Roam, ingen API-token att klistra in, inget synkningsjobb att passa. Markören är i ett block, du talar, orden dyker upp i blocket. En liten kapsel visas medan du talar så att du vet att den lyssnar:
Kortkommandot är det enda som är värt att få rätt från början. På Windows är det Ctrl+Space; på Mac är det Command+Option, en push-to-talk med enbart modifierare som du håller nere medan du talar. Båda går att ändra i Inställningar om de krockar med något du redan använder. (Min yngre dotter sa en gång att ett kortkommando "inte fungerade" i hennes ritapp. Det var en krock, inte ett fel, och så lärde jag mig att den genomsnittliga personen inte har en aning om vad en kortkommandokrock ens är. Så nu går varje kortkommando att anpassa.) Om du någonsin har ställt in diktering på Mac är det samma muskelminne riktat mot en annan app.
Ställ in det på två minuter (Windows eller Mac)
Du behöver en Mac med Apple Silicon eller en Windows-dator med Windows 10 eller nyare, en fungerande mikrofon, och Roam öppet i din webbläsare. Hela den lokala kedjan är gratis för alla inloggade konton, utan att någon betalningsmetod efterfrågas vid registreringen. Här är ordningen.
Steg 1 — Installera Whisper och logga in.
Ladda ner från nedladdningssidan, installera, och skapa ett gratiskonto. Inget kort. Hela den lokala transkriberingskedjan öppnar direkt.
Du vet att det fungerade när appens ikon i aktivitetsfältet dyker upp och installationsguiden erbjuder sig att välja en modell.
Steg 2 — Välj en transkriberingsväg.
Appen väljer inte åt dig. Du får tre: Cloud (OpenAI, ta med din egen nyckel), Local Parakeet, eller Local Whisper. För privata dagliga anteckningar, börja lokalt — mer om det två avsnitt längre ner.
Du vet att det fungerade när en modell är färdignedladdad och visas som klar.
Steg 3 — Bekräfta ditt kortkommando.
Windows har Ctrl+Space som standard, Mac har Command+Option hållet som push-to-talk. På Mac, bevilja behörigheten Hjälpmedel när du blir tillfrågad; utan den kan inklistringen vid markören inte nå din webbläsare.
Du vet att det fungerade när en testinspelning klistras in i vilket textfält som helst.
Steg 4 — Sätt markören i ett Roam-block och tala.
Öppna din graf, klicka in i ett block, håll nere kortkommandot, säg en mening, släpp. Texten dyker upp där markören är, i blocket.
Du vet att det fungerade när din talade mening sitter i Roam-blocket som text.
Det långsamma är modellnedladdningen, inte installationen. Allt annat är de fyra stegen ovan. När det väl är igång slutar handlingen att fånga en tanke i din graf att vara en skrivuppgift och blir en taluppgift.
Ett Roam-tillägg jämfört med ett systemövergripande kortkommando
De flesta sidor som rankar för det här sökordet pekar dig mot ett Roam Depot-tillägg — Live AI Assistant, Otter-importeraren, något med "speech" i namnet. Det är fina verktyg, med en gemensam strukturell hake. De transkriberar ljud du redan spelat in — en mötesfil, en Otter-session, ett klipp uppladdat i ett block — inte tal i realtid in i blocket du redigerar just nu. Du spelar in, sedan transkriberar du, sedan städar du upp resultatet. Det är ett transkriberingsflöde, inte diktering. De löser "jag har en timme ljud" snarare än "jag vill tala in den här meningen i min dagliga anteckning".
Ett systemövergripande kortkommando kringgår det helt. Det klistrar in vid OS-markören oavsett vilket fönster som äger den, så samma tangent som fyller ett Roam-block fyller också din Gmail-skrivruta, ett Slack-meddelande och ett commit-meddelande. Ett verktyg, varje textfält, på både Windows och Mac. Du behöver inte lära om något när du byter app, och inget behöver veta att det är Roam — markören sköter integrationen.
Om du mest har inspelningar att transkribera — samtal, föreläsningar, röstmemon du redan fångat — är ett Depot-tillägg som anropar Whisper på filen rätt form, och värt en titt. I samma stund som det du faktiskt vill är att tänka högt in i ett färskt block, live, vinner den systemövergripande vägen. Jag skulle själv ta det enda kortkommandot eftersom jag byter app ungefär fyrtio gånger i timmen och inte vill ha fyrtio olika dikteringsknappar att komma ihåg.
Lokalt eller moln: vilket läge för en privat graf
För Roam, prova lokalt läge först. En graf fylls med det ofiltrerade — en halvfärdig idé, en mötessammanfattning, en dagboksanteckning du aldrig skulle vilja ha på någon annans server. Om du skulle tveka innan du la upp ett block offentligt skulle du nog tveka innan du dirigerar din röst genom ett moln för att skriva det. Om din Mac har Apple Silicon eller din dator är från de senaste åren klarar lokalt vardagsdiktering utan att klaga, och molnet blir nödutgången i stället för standardvalet.
Så här skiljer sig de tre vägarna, eftersom appen tvingar dig att välja och jag vill hellre att du väljer väl:
- Local Parakeet — NVIDIA:s TDT-motor, runt 600 MB, och det snabbaste lokala alternativet — 5 till 10 gånger snabbare än Whisper på CPU. Täcker engelska plus 24 andra europeiska språk, 25 totalt. Ingen översättning till engelska. Om du för dagbok på engelska eller ett annat europeiskt språk är det här det snabba, helt offline-valet.
- Local Whisper — långsammare än Parakeet på samma maskin, men de flerspråkiga byggena täcker 99 språk och kan översätta till engelska. De engelska byggena är enbart engelska, inte 99. Välj det här för kinesiska, japanska, koreanska eller allt översättningsarbete, vilket Parakeet inte klarar. Standardmodellen för engelska är runt 480 MB.
- Cloud (OpenAI, BYOK) — bäst noggrannhet och webbåtkomst, med din egen OpenAI-nyckel debiterad direkt av OpenAI. Transkriberingen körs på gpt-4o-mini-transcribe som standard. Behöver internet, så det är den enda vägen som lämnar din maskin. Cloud-ytan är en del av Whisper Pro.
Den tråkiga sanningen är att för den sortens text som de flesta lägger i Roam räcker lokalt gott och väl. Båda lokala motorerna körs helt på din maskin utan att något skickas till en server. Molnet förtjänar sin plats när du vill ha toppnoggrannhet på en svår inspelning eller behöver att modellen drar ett faktum från webben mitt i en mening. För en vana med dagliga anteckningar, börja lokalt och sträck dig efter molnet bara när lokalt lämnar dig önskande mer.
Skiljetecken, block och Roam-syntax med rösten
Rå diktering kommer ut som en enda lång mening. Du säger "okej så granska arkitekturdokumentet tagga det project alpha och påminn mig på torsdag", och det är den oskiljetecknade muren som vilken talmotor som helst räcker dig. Att städa upp den är där vägarna går isär.
Windows Voice Typing lägger till skiljetecken medan du talar, och macOS Dictation hanterar grundläggande skiljetecken när du säger "komma" eller "punkt". För tyngre städning — att rensa bort "öh", fixa de långa meningarna, förvandla ett talat stycke till något du faktiskt skulle behålla i din graf — kan Whisper köra en AI-genomgång. Säg aktiveringsfrasen "Hey whisper" så förbättras texten innan den landar. På en lokal modell går det genom Ollama; i molnläge är det gpt-5-mini som standard.
okej så granska arkitekturdokumentet tagga det project alpha och påminn mig på torsdag öh innan standup
Okej, så granska arkitekturdokumentet, tagga det Project Alpha, och påminn mig på torsdag innan standup.
För Roams egen struktur — nästlade block, #tag- och [[sida]]-länkar, TODO-markörer — är det ärliga svaret att rösten ger dig texten och Roams egen syntax ger dig strukturen. Diktera meningen, skriv sedan Tab för att indentera blocket, # för en tag, eller [[ för en sidlänk på samma sätt som du alltid gör. Inget dikteringsverktyg trollar fram Roams dispositionssyntax på kommando; den som lovar "säg dubbel-hakparentes project alpha och se den länka" säljer dig en demo, inte en tisdag. Få ner orden snabbt med rösten, forma blocken med de tangenter du redan kan.
Samma tala-sen-städa-flöde lönar sig långt bortom din graf — du kan också diktera ren prosa i vilken app som helst med det enda kortkommandot, så att ett långt block blir några talade meningar i stället för ett stycke du skriver ut.
När du ska hoppa över ett dikteringsverktyg för Roam Research

Ibland är det rätta verktyget det gratis som redan finns på din maskin, och att låtsas något annat vore oärligt. Om du bara släpper korta anteckningar i Roam — en snabb rad i den dagliga anteckningen, en påminnelse på två ord — täcker ditt operativsystem det utan kostnad.
På Windows trycker du på Windows-tangenten + H så öppnas det inbyggda röstinmatningsfältet där markören är, ett Roam-block inräknat. Det sätter skiljetecken på egen hand och duger för korta utbrott. Haken: det går via Microsofts servrar och behöver en internetanslutning, så det är inget offline-alternativ, vilket spelar större roll än vanligt när din graf är full av halvprivat tänkande. På Mac låter Dictation dig tala för att mata in text varhelst du kan skriva, ställs in i Systeminställningar under Tangentbord, och på Apple Silicon kan allmän text bearbetas på enheten. Och om det du verkligen har är inspelat ljud — ett samtal, en föreläsning — passar ett Roam Depot-tillägg som transkriberar filen bättre än något dikteringsverktyg i realtid.
Sträck dig efter ett dedikerat, systemövergripande verktyg när de inbyggda börjar svida: långa anteckningar, flerspråkigt arbete, offline-integritet på Windows, eller att vilja ha ett kortkommando som beter sig likadant i Roam, din e-post och din editor. Under den ribban, använd det som är gratis. Jag tänker inte säga åt dig att installera en app för en enradspåminnelse.
Samma avvägning dyker upp om du också för anteckningar någon annanstans — logiken i att diktera in i Obsidian är identisk, för även där är det markören, inte ett plugin, som är den verkliga integrationen.
Vidare läsning
Roam levererade aldrig en mikrofonknapp, och efter att ha skrivit det här är jag ganska säker på att den aldrig kommer att göra det. Den behöver inte, för markören är integrationen. Tala in i blocket, få text, forma den med [[ och # som du redan kan. Jag dikterade det mesta av den här guiden in i en textruta som inte var Roam, med ett verktyg som inte bryr sig om vilken ruta det är, och klistrade sedan in alltihop i min egen graf. Det är hela tricket.
Prova det i ditt nästa Roam-block
Håll nere kortkommandot, tala, släpp. Texten landar i vilket block din markör än är i — och i varenda annan app också.
Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att börja.



