Förklaring
Så kör du Whisper lokalt
Det finns två ärliga sätt att köra Whisper på din egen dator: utvecklarvägen via Python och kommandoraden, eller ett skrivbordsprogram som gör det åt dig utan terminal. Båda håller ditt ljud på din dator. Här går vi igenom båda, och när du ska välja vilket.
Senast uppdaterad: juni 2026

Att köra Whisper lokalt betyder att du transkriberar ljud på din egen dator i stället för på en molnserver. Det finns två vägar: installera OpenAIs öppna Whisper med Python, pip och ffmpeg och kör det från kommandoraden, eller använd ett skrivbordsprogram som Whisper by Remskill som inkluderar modellerna och dikterar vid din markör utan terminal. Båda håller ljudet på enheten.
Whisper är OpenAIs öppna tal-till-text-modell, utgiven under MIT-licensen, och anledningen till att "köra Whisper lokalt" söks så flitigt är att det faktiskt fungerar på din egen hårdvara utan kostnad. Ingen API-nyckel, ingen minuttaxa, inget ljud som lämnar din dator. Det är genuint bra, och det officiella projektet på GitHub ger dig allt.
Kruxet är vad "köra det" egentligen innebär. Den officiella vägen är ett kommandoradsverktyg. Du installerar Python, kör `pip install openai-whisper`, installerar ffmpeg och pekar en terminal mot en ljudfil. Det är perfekt om du har en mapp med inspelningar att batchbearbeta. Det är mindre perfekt om det du egentligen ville var att diktera i din e-post och se orden dyka upp. Det är två olika uppgifter, och jag tar upp båda ärligt.
Här är vägskälet som de flesta sidor hoppar över. "Kör Whisper lokalt" kan betyda två helt olika saker beroende på vem som frågar. En utvecklare menar: få modellen på disk och transkribera filer från ett skript. En skribent eller säljare menar: sluta skriva och låt min röst bli text i vilket program som helst.
Så den verkliga frågan är inte bara "hur installerar jag Whisper". Det är "vilket lokalt Whisper är det jag vill ha — CLI för batchjobb och skript, eller en snabbtangent som dikterar vid min markör?" Det första är det officiella OpenAI-projektet och det är bra på det det gör. Det andra är ett skrivbordsprogram som kör samma typ av modeller utan kommandorad. Jag sätter upp båda, visar hårdvarumatten och berättar rakt ut när terminalen är det bättre valet.
Vad "köra Whisper lokalt" faktiskt innebär

Att köra Whisper lokalt betyder att transkriptionen sker på din dators egen processor, inte på en server någonstans. Du matar in ljud, modellen omvandlar det till text och ingenting lämnar maskinen. Det är poängen. Din chefs löneuppställning uppläst högt, mejlet till barnets skola, ett inspelat kundsamtal — inget av det hamnar i en leverantörs loggar för att du ville skriva med rösten. Lokalt först, annars ger jag mig inte in på det alls — jag återkommer till den åsikten längre ned.
Whisper i sig är bara modellen. OpenAI tränade den och släppte vikterna under MIT-licensen, vilket är anledningen till att vem som helst kan ladda ner och köra den utan att betala. Det finns flera modellstorlekar, från en liten med 39 miljoner parametrar upp till en stor med 1,55 miljarder, och du väljer utifrån hur mycket precision du behöver kontra hur mycket din hårdvara klarar av. Modellen är densamma oavsett om du kör den från en terminal eller inuti ett program. Det som skiljer sig är omslaget runt den.
Och omslaget är hela frågan. Det finns två stycken, båda legitima. Det officiella OpenAI-kommandoradsverktyget: gratis, skriptbart, Python-baserat, byggt för att transkribera filer. Och skrivbordsprogram som läser in samma typ av modell bakom ett vanligt fönster, så du trycker på en tangent och pratar i stället för att skriva ett kommando. Den ointressanta sanningen är att de flesta som söker på det här nyckelordet vill ha ett av dessa två men inte vet vilket ännu. De nästa två avsnitten är exakt de två vägarna.
Utvecklarvägen: Python, pip och ffmpeg
Om du är bekväm i en terminal är det officiella projektet det renaste svaret, och det är genuint gratis. Du behöver tre saker på din dator: Python (projektet riktar sig mot 3.8 till 3.11), själva Whisper-paketet och ffmpeg, som är ljudverktyget Whisper förlitar sig på för att läsa dina filer. Installationen är två kommandon. `pip install -U openai-whisper` hämtar paketet och dess PyTorch-beroende. Sedan ffmpeg, vilket beror på ditt operativsystem — `brew install ffmpeg` på Mac, `choco install ffmpeg` eller `scoop install ffmpeg` på Windows, `sudo apt install ffmpeg` på Ubuntu.
När det väl är installerat kör du det mot en fil. `whisper audio.mp3 --model turbo` transkriberar inspelningen och skriver ut texten. Lägg till `--language Japanese` för att hoppa över automatisk språkidentifiering, eller `--task translate` för att få en icke-engelsk inspelning att komma ut på engelska. Det är kärnan i det. Det är ett verktyg med fil in och text ut, och det är bra på exakt det. Peka det mot en mapp med röstanteckningar över natten och det jobbar sig igenom varje en utan att du behöver titta.
Hårdvaruverkligheten är där förväntningarna möter en vägg. De officiella modellstorlekarna är tiny (39M parametrar), base (74M), small (244M), medium (769M), large (1,55B) och turbo (809M). Det VRAM var och en kräver berättar den verkliga historien: ungefär 1 GB för tiny, runt 2 GB för small, ungefär 5 GB för medium och drygt 10 GB för large-modellen. Dessa siffror gäller för ett GPU. Du kan köra de mindre modellerna på en CPU, men ett dedikerat GPU är det som gör de större hanterliga. Jag ritade upp ett elegant "kör bara large på min laptop"-upplägg en gång och såg sedan hur det kröp fram på integrerat grafikkort. Ritningen är alltid fel vid andra genomkörningen. CPU:n slutar till slut; large-modellen på en tunn laptop är ingen plan för en vanlig tisdag.
Vägen utan terminal: kör Whisper i ett skrivbordsprogram
Om du aldrig vill se en kommandoprompt är det här den andra ärliga vägen. Whisper by Remskill är ett skrivbordsprogram för Windows 10 eller senare och Apple Silicon-Macar som kör Whisper lokalt åt dig — modellerna laddas ned inuti programmet, ingen pip, inget ffmpeg, ingen Python. Det kör även Parakeet, en andra lokal motor som jag återkommer till. Hela den lokala pipelinen är gratis för alla inloggade konton, och inget betalningssätt krävs vid registreringen. Så här ser flödet ut.
Steg 1 — Installera Whisper och logga in.
Ladda ned från nedladdningssidan, installera och skapa ett gratis konto. Inget kort. Den lokala transkriptionspipelinen öppnas direkt.
Du vet att det fungerade när programmets systemfältsikon visas och installationsguiden erbjuder dig att välja en modell.
Steg 2 — Välj en transkriptionsväg och ladda ned en modell.
Programmet väljer inte åt dig. Du får tre alternativ: Cloud (OpenAI, med din egen nyckel), Local Parakeet eller Local Whisper. För att köra saker på din egen dator väljer du en av de två lokala motorerna och låter modellen laddas ned i programmet.
Du vet att det fungerade när modellen har laddats ned och visas som redo.
Steg 3 — Bekräfta din snabbtangent.
Windows använder som standard Ctrl+Space, Mac använder Command+Option hållt som tryck-för-att-tala. På Mac beviljar du Hjälpmedel-behörigheten när du uppmanas; utan den kan inklistringskommandot vid markören inte nå andra program.
Du vet att det fungerade när en testinspelning klistras in i ett valfritt textfält.
Steg 4 — Placera markören var som helst och prata.
Klicka i ett textfält — ett mejl, ett dokument, en chatt — håll ned snabbtangenten, säg en mening, släpp. Transkriptet visas där markören är.
Du vet att det fungerade när din talade mening ligger i textfältet som text.
Det långsamma momentet är modellnedladdningen, precis som vid CLI-vägen — vikterna är vikterna. Allt annat är de fyra stegen ovan. Skillnaden är att det inte finns någon terminal mellan dig och modellen, och i stället för fil-in-text-ut får du en snabbtangent som dikterar var din markör råkar befinna sig. Samma Whisper under huven, ett annat jobb ovanpå.
Vilken modell och vilken hårdvara du behöver
Båda vägarna ber dig välja en modell, och valet handlar om samma avvägning: större modeller är noggrannare och långsammare, mindre är snabbare och lättare. I det officiella CLI vill large-modellen ha ungefär 10 GB VRAM och small-modellen ungefär 2 GB, så ditt grafikkort sätter taket. I skrivbordsprogrammet delas Whisper-modellerna upp i enbart-engelska och flerspråkiga, med standardmodellen för engelska på ungefär 480 MB på disk och den största flerspråkiga på ungefär 3 GB. De flerspråkiga versionerna täcker 99 språk och kan översätta till engelska; enbart-engelska-versionerna är just enbart engelska.
Programmets andra lokala motor är värd att känna till, eftersom den kringgår hårdvaruproblemet för många. Parakeet är NVIDIAs TDT-modell, ungefär 600 MB, och den kör 5 till 10 gånger snabbare än Whisper på en CPU. Den täcker engelska plus 24 andra europeiska språk, 25 totalt, utan möjlighet att översätta till engelska. Om du mest pratar engelska och inte har ett kraftfullt GPU är Parakeet det snabba lokala valet. Behöver du kinesiska, japanska, koreanska eller översättning är det Whispers flerspråkiga territorium och Parakeet kan inte dit. Medan du pratar visas en liten kapsel som bekräftar att programmet lyssnar:
Det bästa du kan göra för noggrannheten är inte en större modell. En USB-mikrofon för 200 kronor gör mer för din transkription än att hoppa två modellstorlekar — rent ljud in slår en tyngre modell matad med laptopmiksmos. Lägg pengarna på mikrofonen först, oroa dig för modellen sedan. Det är det enda hårdvådsrådet jag sätter på pränt och ställer upp bakom.
Lokalt eller moln: vilket läge för vilket jobb
Om din dator är Apple Silicon eller din PC är från de senaste åren, prova lokalt först. Molnet är nödutgången, inte standardvalet. Men skrivbordsprogrammet tvingar dig att välja bland tre vägar och jag vill hellre att du väljer rätt, så här är skillnaderna.
Så här skiljer sig de tre vägarna åt, eftersom programmet tvingar dig att välja:
- Local Parakeet — NVIDIAs TDT-motor, ungefär 600 MB, och det snabbaste lokala alternativet — 5 till 10 gånger snabbare än Whisper på CPU. Täcker engelska plus 24 andra europeiska språk, 25 totalt. Ingen översättning till engelska. Om du dikterar på engelska eller ett annat europeiskt språk och vill ha fart utan GPU är det här det helt offline-vänliga valet.
- Local Whisper — långsammare än Parakeet på samma dator, men de flerspråkiga versionerna täcker 99 språk och kan översätta till engelska. Enbart-engelska-versionerna är just enbart engelska, inte 99. Välj det här för kinesiska, japanska, koreanska eller valfritt översättningsarbete, vilket Parakeet inte klarar. Standardmodellen för engelska är ungefär 480 MB; den största flerspråkiga är ungefär 3 GB.
- Cloud (OpenAI, BYOK) — bäst noggrannhet och webbtillgång, med din egen OpenAI-nyckel fakturerad direkt av OpenAI. Transkription körs på gpt-4o-mini-transcribe som standard. Det kräver internet, så det är den enda vägen som lämnar din dator. Cloud-ytan ingår i Whisper Pro.
Den ointressanta sanningen är att lokalt räcker mer än väl för vardagsdiktering, och båda lokala motorerna kör helt på din dator utan att något skickas till en server. Molnet tjänar sin plats när du vill ha toppklass-noggrannhet på en svår inspelning, eller när du behöver att modellen ska dra ett faktum från webben mitt i en mening. Oavsett vilken väg du tog för att köra Whisper lokalt — CLI eller programmet — är integritethistorien densamma: ljudet stannar kvar. Om det är anledningen till att du är här, offline tal-till-text går djupare på det.
Noggrannhet, interpunktion och att städa upp råtranskriptet
Oavsett vad som kör Whisper kommer rå-diktation ut som en lång mening utan avbrott. Du säger "okej så transkribera standup-inspelningen och skicka sedan sammanfattningen till teamet före lunch" och det är den opunkterade textväggen som varje talmotor ger dig. Det officiella CLI ger dig den texten och stannar där — städningen är ditt jobb, i ett skript eller för hand. Det är bra för batchtranskription där du ändå ska bearbeta utdata senare.
Skrivbordsprogrammet kan göra städpasset åt dig innan texten landar. Säg aktiveringsfrasen "Hey whisper" och ett AI-pass tar bort utfyllnadsord, fixar de långa meningarna och lägger till interpunktion. På en lokal modell körs det via Ollama på din dator; i molnläge är det gpt-5-mini som standard. Skillnaden mellan rått och rensat är skillnaden mellan ett transkript du måste redigera och ett du kan skicka:
okej så transkribera standup-inspelningen och skicka sedan sammanfattningen till teamet före lunch eh och cc:a chefen
Okej, transkribera standup-inspelningen och skicka sedan sammanfattningen till teamet före lunch, och CC:a chefen.
Noggrannheten i sig är mest en fråga om modell och mikrofon, och mikrofonen har jag redan tagit upp. På modellsidan är de större flerspråkiga Whisper-versionerna starka över 99 språk, och molnläget lägger till OpenAIs förstklassiga transkription om en inspelning är genuint svår. Men för rent ljud och normalt tal är till och med de mindre modellerna solida, och att jaga den största modellen på svag hårdvara ger dig långsammare utdata för en noggrannhet du troligen inte kommer märka. Matcha modellen till uppgiften, inte till specifikationsbladets skrytpoäng.
Om ditt huvudmål är att prata i stället för att skriva hela dagen är samma tala-sedan-städa-flöde det som låter dig omvandla röst till text på Windows utan att någonsin öppna en terminal, vilket är poängen med vägen utan CLI.
När kommandoraden är rätt val

Ibland är terminalen genuint det bättre verktyget, och att låtsas annat för att sälja ett program vore ohederligt. Det officiella OpenAI CLI är gratis, MIT-licensierat och byggt för ett jobb som skrivbordsprogrammet inte gör: transkribera filer, i bulk, från ett skript. Om det är ditt jobb hoppar du över programmet.
Nå för kommandoraden när du har en mapp med inspelningar att batchbearbeta över natten, när du vill ha Whisper inuti en större Python-pipeline eller en server du kontrollerar, när du behöver en specifik modellflagga som GUI:t inte exponerar, eller när du helt enkelt redan lever i terminalen och inte vill ha ytterligare ett fönster öppet. Det är också rätt val på Linux, som skrivbordsprogrammet inte stödjer. CLI körs var Python och ffmpeg körs. Inget av det är en känga mot programmet — det är bara en annan form av problem.
Nå för skrivbordsprogrammet när uppgiften är diktering, inte filhantering: du vill prata in i ditt mejl, dina dokument, din chatt och se orden dyka upp vid markören med en tangent. CLI:t kan inte klistra in vid din markör i ett annat program; det var aldrig dess jobb. Så den ärliga uppdelningen är — filer och skript, använd terminalen; att prata i stället för att skriva, använd programmet. De flesta vet omedelbart vilken sida de är på, när de väl har klarat ut vilket de ville ha.
Samma logik med lokal enhet och utan moln gäller om du sätter upp det här på en Mac — genomgången i röst till text på Mac täcker Apple Silicon-sidan, inklusive den Hjälpmedel-behörighet som snabbtangenten behöver.
Whisper som kör på din egen dator är ett av de bättre erbjudandena i programvaruvärlden just nu — en modell som OpenAI gav bort, samma som stora molntjänster tyst förlitar sig på, liggande på din disk utan kostnad. Det enda verkliga beslutet är vilket omslag som passar din vardag. Jag kör CLI när jag har filer att tugga igenom, och programmet de övriga 95% av tiden, för att jag byter program ungefär fyrtio gånger i timmen och inte vill skriva ett kommando för var och en. Jag dikterade det mesta av den här guiden med en snabbtangent, i en textruta som inte var en terminal, med modellen som körde på samma laptop hela tiden.
Kör Whisper lokalt utan terminalen
Håll ned snabbtangenten, prata, släpp. Modellen kör på din dator och transkriptet landar där din markör är — ingen Python, ingen pip, inget ffmpeg.
Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att komma igång.



