Av Denys Medvediev

Jämförelse

Lokalt vs molnet transkribering

Lokal transkribering kör talmodellen på din egen dator, vilket innebär att ljudet aldrig lämnar enheten, fungerar offline och kostar ingenting per minut. Molntranskribering skickar ditt ljud till en server med de senaste modellerna, vilket är snabbare på svagare hårdvara och kan lägga till live-webbsökning – men ljudet lämnar din dator och du betalar per användning.

Senast uppdaterad: juni 2026

Ett modernt serverrum badat i blått ljus, som symboliserar molnsidan av valet mellan lokal och molnbaserad transkribering

Lokal transkribering håller ditt ljud på enheten, fungerar offline och har ingen kostnad per minut efter att modellen laddats ned en gång. Molntranskribering kör leverantörens senaste modell och kan söka på webben, men kräver en anslutning och debiteras per användning. Vår app erbjuder båda bakom ett och samma reglage, så du byter läge efter behov i stället för att låsa dig vid ett val för alltid.

Det är hela avvägningen i två korta stycken. Allt nedanför är detaljerna bakom den.

Jag kan skriva det här utan att ta parti, eftersom vår app erbjuder båda alternativen. Den lokala pipeline kör åtta Whisper-modeller plus NVIDIAs Parakeet, allt i ren Rust på din CPU, och det är gratis för alla inloggade användare – inget kort krävs. Molnytan är OpenAI-transkribering med din egen API-nyckel, tillgänglig som Pro-tillägget. Samma snabbtangent, samma overlay, ett reglage. Så när jag säger att lokalt är rätt för de flesta beror det inte på att vi bara säljer lokalt. Det är vad siffrorna säger.

Lokalt innebär att modellen bor på din disk

Lokal transkribering laddar ned en talmodell en gång och kör den sedan på din processor. Ingen uppladdning, ingen server, ingen kontakt med ett konto under en inspelning. Drag ur nätverkskabeln – den fungerar ändå.

Vår app gör detta i ren Rust via ett bibliotek som heter transcribe-rs, utan Python-körmiljö. Du väljer bland åtta Whisper-modeller, från Base på ungefär 140 MB upp till Large v3 på runt 3 GB, eller NVIDIAs Parakeet på ungefär 600 MB – fem till tio gånger snabbare än Whisper på en CPU. Inget GPU krävs. Modellen läses in i RAM, din röst går in, text kommer ut och ingenting i den processen rör internet.

Nedladdningen är den enda tröskeln som finns. En 3 GB-modell är en riktig nedladdning på hotell-wifi, och en laptop från 2018 klarar en liten modell bra men kvävs av den stora. Men efter den första nedladdningen finns det ingen kostnad per minut och ingen server i loopen. Vill du ha en djupare genomgång av det här har jag skrivit ett helt inlägg om att köra det helt offline. Se offline tal till text på datorn.

Molnet innebär att ditt ljud gör en resa

Molntranskribering spelar in ditt ljud, skickar det till en leverantörs server och servern skickar tillbaka text. Du hyr någon annans hårdvara och deras senaste modell.

I vår app innebär molnläge att du tar med din egen OpenAI-nyckel. Transkribering körs på gpt-4o-mini-transcribe eller den mer noggranna gpt-4o-transcribe, och du kan lägga till AI-redigering och live-webbsökning via samma nyckel. Du anger din egen OpenAI-nyckel och betalar direkt till OpenAI. Vi tar ingen andel och lägger inte på något påslag. Det finns ingen stor modell att ladda ned. Det fungerar lika bra på en fem år gammal netbook som på en ny arbetsstation, eftersom arbetet sker på servern – och det kan svara på en fråga genom att söka på webben, vilket en lokal modell helt enkelt inte kan.

Kostnaden ligger i öppen dag. Ditt ljud lämnar din dator. Du behöver en aktiv anslutning. Och du betalar per minut – bråkdelar av en cent, men det adderas och det är mätt.

Den ärliga jämförelsen

Inga priser i den här tabellen med avsikt. Se vår prissida för de faktiska siffrorna. Det här handlar om formen på varje val.

Hur lokal och molnbaserad transkribering jämförs när det gäller integritet, offlineanvändning, kostnad, hastighet, modellens aktualitet och webbåtkomst
Vad du bryr dig omLokal transkriberingMolntranskribering
IntegritetLjud lämnar aldrig din datorLjud skickas till en leverantörs server
Fungerar offlineJa, efter den engångsvisa modellnedladdningenNej, kräver en aktiv anslutning
KostnadsmodellIngen kostnad per minut efter nedladdningenMätt, du betalar per använd minut
Hastigheten beror påDin egen CPU och modellens storlekLeverantörens hårdvara och din anslutning
Modellens aktualitetDen modell du laddade ned, uppdateras när du väljerAlltid leverantörens senaste modell
Live-webbåtkomstNejJa, molnet kan söka och svara

Läs det uppifrån och ned och mönstret är tydligt. Lokalt byter komfort mot integritet, offlineanvändning och en fast kostnad. Molnet byter integritet och mätning mot den senaste modellen och en webbanslutning. Inget är bättre. De är bra på olika saker.

När molnet är det bättre valet

Jag tänker inte låtsas att lokalt vinner varje gång. Det finns verkliga situationer där jag skulle välja molnet.

Om din hårdvara är gammal eller RAM-fattig är molnet det snällare alternativet. En laptop från 2017 med 8 GB RAM kommer att brottas med en stor lokal modell, medan molnet gör det tunga lyftet på annan plats och din dator bara hanterar mikrofonen. Om du behöver absolut toppkvalitet på svår ljudinspelning – kraftiga accenter, överlappande talare eller teknisk jargong – tenderar de senaste värdbaserade modellerna att ligga ett snäpp över vad du kan köra hemma. Och om du vill diktera en fråga och få ett webbaserat svar inklistrat vid markören behövs molnet, utan undantag. En lokal modell har inget internet att söka på.

Tråden som förbinder dessa: molnet är nödutgången för svag hårdvara, toppkvalitet och live-webbåtkomst.

När lokalt är det bättre valet

För de flesta, i de flesta situationer, är lokalt det jag skulle börja med.

Om det du dikterar är privat – ett löneark, ett mejl till barnets skola, ett juridiskt utkast – bör det inte hamna i en leverantörs loggar för att du ville skriva med rösten. Lokalt håller det ljudet på din dator, punkt. Om du jobbar på flygplan, tåg eller på kaféer med opålitligt wifi bryr sig lokalt inte om du har signal. Och om du dikterar mycket spelar den fasta kostnaden roll.

Här är åsikten jag faktiskt vågar stå för: testa lokalt först och behandla molnet som nödutgången, inte som standard. Om din Mac är Apple Silicon eller din PC är från de senaste fyra åren hanterar lokalt vardagsdiktering med 95 % till 99 % noggrannhet utan en server i loopen. Fall tillbaka på molnet när du stöter på en vägg – om det är svag hårdvara, de svåraste ljudinspelningarna eller ett behov av webbsökning. De flesta stöter aldrig på den väggen.

Jag har en anledning till att vara lite nervös inför molnet som standard. Ett team jag jobbade med lät en konsult bygga en intern molnbaserad AI-dikteringsprototyp som anropade API:et för varje yttrande. En smart återförsöksloop transkriberade samma standup-inspelningar fyra gånger om. Chefen öppnade kostnadspanelen i slutet av kvartalet och hittade en femsifffrig nota. Konsultens lösning var att optimera prompten. Ekonomichefens lösning var att sluta betala för att transkribera möten som redan hade anteckningar. Mätt moln är bra tills något loopar. Lokalt har ingen mätare som kan rusa iväg.

Båda lägena finns i en och samma app

Whisper
Liveappen Whisper by Remskill, som visar reglaget för lokalt och molnläge bredvid modellväljaren. Det här är det riktiga gränssnittet, inte en skärmdump.

Uppdelningen ovan är verklig, men det är inte en vägkorsning du fastnar i för evigt. I vår app sitter båda lägena bakom samma snabbtangent och samma inspelningsoverlay, och reglaget är ett enda switch. Diktera ett privat mejl lokalt på morgonen, växla till molnet för att faktakolla ett påstående med webbsökning på eftermiddagen, växla tillbaka. Du installerar om ingenting. Du väljer ingen väg för livet.

Pasted
Post-dikteringsoverlayen som visas oavsett om du transkriberade lokalt eller i molnet.

Det är den del som lokal-kontra-moln-diskussionen tenderar att missa. Det är inget religionskrig. Det är två verktyg i samma låda och det rätta beror på meningen du är på väg att säga. Vill du se en jämförelse av de lokala motorerna mot varandra – hastighet kontra språkstöd – är det ett eget inlägg: Whisper vs Parakeet. Och om du väger oss mot en specifik konkurrent går superwhisper-jämförelsen igenom en i detalj.

Om du bara ska minnas en sak

Lokalt för integritet, offline och fast kostnad. Molnet för den senaste modellen, svag hårdvara och webbåtkomst. Testa lokalt först och behåll molnet som nödutgång. Det bästa är att du inte behöver välja för evigt: ett reglage, båda lägena, det som passar meningen du är på väg att säga.

Testa det på båda sätten

De lokala motorerna är gratis för alla inloggade användare, och du kan lägga till molnytan när du faktiskt behöver den. Ladda ned appen, diktera ett privat mejl lokalt, och växla sedan om reglaget för att se vad molnet förändrar för dig.

Gratis lokal transkribering för alltid. Inget betalningsmedel vid registrering.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår support-mejl, troligen dikterar svaren.

Vidare läsning