Forklaring
Sådan kører du Whisper lokalt
Der er to ærlige måder at køre Whisper på din egen maskine: udviklerstien via Python og kommandolinjen, eller en desktop-app der gør det for dig uden terminal. Begge beholder din lyd på din computer. Her gennemgår vi begge, og hvornår du skal vælge hvilken.
Sidst opdateret: juni 2026

At køre Whisper lokalt betyder, at lyden transskriberes på din egen maskine i stedet for en server i skyen. Der er to veje: installer OpenAIs open source Whisper med Python, pip og ffmpeg og kør det fra kommandolinjen, eller brug en desktop-app som Whisper by Remskill, der samler modellerne og dikterer ved din cursor uden terminal. Begge beholder lyden på enheden.
Whisper er OpenAIs open source tale-til-tekst-model, udgivet under MIT-licensen, og grunden til at "how to run Whisper locally" søges så meget, er at den faktisk kører på din egen hardware gratis. Ingen API-nøgle, ingen minutpris, ingen lyd der forlader din bærbare. Det er et oprigtigt godt tilbud, og det officielle projekt på GitHub giver dig det hele.
Fangsten er, hvad "køre det" egentlig betyder. Den officielle vej er et kommandolinjeværktøj. Du installerer Python, du kører `pip install openai-whisper`, du installerer ffmpeg, og du peger en terminal på en lydfil. Det er perfekt, hvis du har en mappe med optagelser, der skal behandles i bulk. Det er knap så perfekt, hvis det du egentlig ville, var at tale ind i din e-mail og se ordene dukke op. Det er to vidt forskellige jobs, og jeg gennemgår begge ærligt.
Her er den skillevej, som de fleste sider sejler forbi. "Kør Whisper lokalt" kan betyde to helt forskellige ting afhængigt af, hvem der spørger. En udvikler mener: få modellen på disk og transskriber filer fra et script. En skribent eller sælger mener: stop med at taste og lad min stemme blive til tekst i den app, jeg nu er i.
Så det rigtige spørgsmål er ikke bare "hvordan installerer jeg Whisper." Det er: "hvilken lokal Whisper er det, jeg er ude efter — CLI'en til batchjobs og scripting, eller en genvejstast der dikterer ved min cursor." Den første er det officielle OpenAI-projekt, og det er godt til præcis det. Den anden er en desktop-app, der kører den samme modeltype uden kommandolinje. Jeg sætter begge op, viser dig hardwaren i tal og siger ligeud, hvornår terminalen er det bedre valg.
Hvad "at køre Whisper lokalt" faktisk betyder

At køre Whisper lokalt betyder, at transskriptionen sker på din computers egen processor — ikke på en server et sted ude i verden. Du sender lyd ind, modellen omdanner den til tekst, og intet forlader maskinen. Det er den store fordel. Chefens lønregneark læst højt, e-mailen til dit barns skole, et optaget kundeopkald — intet af det rammer en leverandørs logger, fordi du ville taste med stemmen. Lokalt-først eller lad være, for mit vedkommende, og jeg markerer den holdning med et tal længere nede.
Whisper er bare modellen. OpenAI trænede den og udgav vægtene under MIT-licensen, og det er derfor alle kan downloade og køre den uden at betale. Der er flere modelstørrelser, fra en lille med 39 millioner parametre til en stor med 1,55 milliarder, og du vælger efter, hvor meget nøjagtighed du har brug for kontra, hvad din hardware kan klare. Modellen er den samme, hvad enten du kører den fra en terminal eller inde i en app. Det der ændrer sig, er hvad der er oven på den.
Og det er præcis spørgsmålet: hvad er der oven på. Der findes to indpakninger, begge legitime. Det officielle OpenAI-kommandolinjeværktøj: gratis, scriptbart, Python-baseret, bygget til at transskribere filer. Og desktop-apps, der indlæser den samme type model bag et normalt vindue, så du trykker på en tast og taler i stedet for at skrive en kommando. Den kedelige sandhed er, at de fleste, der søger på dette, vil have en af de to og endnu ikke ved hvilken. De næste to afsnit er præcis disse to veje.
Udviklerstien: Python, pip og ffmpeg
Hvis du er fortrolig med en terminal, er det officielle projekt det reneste svar, og det er oprigtigt gratis. Du skal bruge tre ting på din maskine: Python (projektet understøtter 3.8 til 3.11), Whisper-pakken selv og ffmpeg, som er det lydværktøj Whisper bruger til at læse dine filer. Installationen er to kommandoer. `pip install -U openai-whisper` henter pakken og dens PyTorch-afhængighed. Derefter ffmpeg, afhængigt af dit OS — `brew install ffmpeg` på Mac, `choco install ffmpeg` eller `scoop install ffmpeg` på Windows, `sudo apt install ffmpeg` på Ubuntu.
Når det er installeret, kører du det mod en fil. `whisper audio.mp3 --model turbo` transskriberer optagelsen og skriver teksten ud. Tilføj `--language Japanese` for at springe automatisk sprogogdkendelse over, eller `--task translate` for at få en ikke-engelsk optagelse ud som engelsk. Det er kernen. Det er et fil-ind, tekst-ud-værktøj, og det er godt til præcis det. Peg det mod en mappe med stemmememoer hen over natten, og det arbejder sig igennem dem alle uden, at du behøver at holde øje.
Hardwarevikeligheder er stedet, hvor forventninger møder en mur. De officielle modelstørrelser er tiny (39M parametre), base (74M), small (244M), medium (769M), large (1,55B) og turbo (809M). Den VRAM, de hver kræver, fortæller den sande historie: ca. 1 GB til tiny, ca. 2 GB til small, ca. 5 GB til medium og ca. 10 GB til large. Disse tal er skrevet til en GPU. Du kan køre de mindre modeller på en CPU, men et dedikeret grafikkort er det, der gør de store modeller holdbare. Jeg skitserede engang en ren "bare kør large på min bærbare"-opsætning og så den derefter kravle på integreret grafik. Tegningen er altid forkert ved anden commit. CPU'en klarer det til sidst; large-modellen på en tynd bærbar er ikke en tirsdag-eftermiddag-plan.
Stien uden terminal: kør Whisper i en desktop-app
Hvis du aldrig vil se en kommandoprompt, er dette den anden ærlige vej. Whisper by Remskill er en desktop-app til Windows 10 eller nyere og Apple Silicon-Macs, der kører Whisper lokalt for dig — modellerne downloades inde i appen, ingen pip, ingen ffmpeg, ingen Python. Den kører også Parakeet, en anden lokal motor, som jeg vender tilbage til. Hele den lokale pipeline er gratis for enhver logget ind konto, uden at der bedes om betalingsmetode ved tilmelding. Her er forløbet.
Trin 1 — Installer Whisper og log ind.
Download fra downloadsiden, installer og opret en gratis konto. Intet kort. Den lokale transskriptionspipeline åbner med det samme.
Du ved, at det virkede, når appens tray-ikon vises og installationsguiden tilbyder at vælge en model.
Trin 2 — Vælg en transskriptionssti og download en model.
Appen vælger ikke for dig. Du får tre: Cloud (OpenAI, brug din egen nøgle), Local Parakeet eller Local Whisper. For at køre tingene på din egen maskine vælger du en af de to lokale motorer og lader modellen downloade i appen.
Du ved, at det virkede, når modellen er færdig med at downloade og vises som klar.
Trin 3 — Bekræft din genvejstast.
Windows bruger som standard Ctrl+Space, Mac bruger Command+Option holdt nede som push-to-talk. På Mac giver du Tilgængelighed-tilladelse, når du bliver bedt om det; uden den kan indsæt-ved-cursor ikke nå andre apps.
Du ved, at det virkede, når en testoptagelse indsættes i et vilkårligt tekstfelt.
Trin 4 — Placer din cursor et vilkårligt sted og tal.
Klik i et tekstfelt — en e-mail, et dokument, et chatfelt — hold genvejstasten nede, sig en sætning, slip. Transskriptionen vises, der hvor cursoren er.
Du ved, at det virkede, når din talte sætning står i tekstfeltet som tekst.
Den langsomme del er model-downloadet, ligesom med CLI-stien — vægtene er vægtene. Alt andet er de fire trin ovenfor. Forskellen er, at der ikke er nogen terminal imellem dig og modellen, og i stedet for fil-ind-tekst-ud får du en genvejstast, der dikterer præcis, der hvor din cursor er. Samme Whisper underneden, forskelligt job ovenpå.
Hvilken model og hvilken hardware du har brug for
Begge veje beder dig om at vælge en model, og valget afhænger af den samme afvejning: større modeller er mere præcise og langsommere, mindre er hurtigere og lettere. På den officielle CLI kræver large-modellen ca. 10 GB VRAM og small ca. 2 GB, så dit grafikkort sætter grænsen. I desktop-appen opdeles Whisper-modellerne i kun-engelsk og flersprogede, med standardmodellen for engelsk på ca. 480 MB på disk og den største flersprogede på ca. 3 GB. De flersprogede builds dækker 99 sprog og kan oversætte til engelsk; de kun-engelske builds er kun engelsk.
Appens anden lokale motor er værd at kende til her, for den omgår hardwareproblemet for mange. Parakeet er NVIDIAs TDT-model på ca. 600 MB og kører 5 til 10 gange hurtigere end Whisper på en CPU. Den dækker engelsk plus 24 andre europæiske sprog, 25 i alt, uden oversættelse til engelsk. Hvis du primært taler engelsk og ikke har et kraftigt grafikkort, er Parakeet det hurtige lokale valg. Har du brug for kinesisk, japansk, koreansk eller oversættelse, er det Whispers flersprogede område — og Parakeet kan ikke følge med derover. Mens du taler, viser en lille kapsel, at den lytter:
Det bedste enkelt-ting, du kan gøre for nøjagtighed, er slet ikke en større model. En USB-mikrofon til 150 kr. gør mere for din transskription end at hoppe to modelstørrelser op — ren lyd ind slår en tungere model, der fodres med rod fra bærbar-mikrofonen. Brug pengene på mikrofonen først, og bekymr dig om modellen bagefter. Det er det ene stykke hardware-råd, jeg er villig til at skrive under på.
Lokal eller sky: hvilken tilstand til hvilket job
Hvis din maskine er Apple Silicon, eller din PC er fra de seneste par år, så prøv lokalt først. Sky er redningslugen, ikke standarden. Men desktop-appen beder dig vælge mellem tre stier, og jeg vil hellere have, at du vælger rigtigt, så her er forskellen.
Her er hvordan de tre stier adskiller sig, for appen lader dig vælge:
- Local Parakeet — NVIDIAs TDT-motor på ca. 600 MB og den hurtigste lokale mulighed — 5 til 10 gange hurtigere end Whisper på CPU. Dækker engelsk plus 24 andre europæiske sprog, 25 i alt. Ingen oversættelse til engelsk. Hvis du dikterer på engelsk eller et andet europæisk sprog og vil have fart uden GPU, er dette det fuldt offline-valg.
- Local Whisper — langsommere end Parakeet på samme maskine, men de flersprogede builds dækker 99 sprog og kan oversætte til engelsk. De kun-engelske builds er kun engelsk, ikke 99. Vælg dette til kinesisk, japansk, koreansk eller ethvert oversættelsesarbejde, som Parakeet ikke kan. Standardmodellen for engelsk er ca. 480 MB; den største flersprogede er ca. 3 GB.
- Cloud (OpenAI, BYOK) — bedste nøjagtighed og webadgang, med din egen OpenAI-nøgle faktureret direkte af OpenAI. Transskription kører som standard på gpt-4o-mini-transcribe. Den kræver internet, så det er den eneste sti, der forlader din maskine. Cloud-overfladen er en del af Whisper Pro.
Den kedelige sandhed er, at til hverdagsdiktering er lokalt rigeligt, og begge lokale motorer kører fuldt ud på din maskine uden at sende noget til en server. Sky fortjener sin plads, når du vil have toptier-nøjagtighed på en svær optagelse, eller du har brug for, at modellen henter en kendsgerning fra nettet midt i en sætning. Uanset hvilken vej du tog for at køre Whisper lokalt — CLI'en eller appen — er privatlivshistorien den samme: lyden bliver, hvor den er. Hvis det at forblive offline er hele grunden til, at du er her, offline tale-til-tekst går dybere ned i det.
Nøjagtighed, tegnsætning og oprydning i rå transskription
Uanset hvad der kører Whisper, kommer rå diktering ud som en sammenkørt strøm. Du siger "okay så transskriber standup-optagelsen og send derefter opsummeringen til teamet inden frokost", og det er den utegnsatte mur, ethvert talegenkendelsesprogram afleverer til dig. Den officielle CLI giver dig den tekst og stopper der — oprydning er dit job, i et script eller i hånden. Det er fint til batch-transskription, hvor du alligevel behandler outputtet bagefter.
Desktop-appen kan klare oprydningspasket for dig, inden teksten lander. Sig aktiveringsfrasen "Hey whisper", og et AI-pas fjerner fyldord, retter de sammenkørte sætninger og tilføjer tegnsætning. Lokalt kører det via Ollama på din maskine; i skytilstand er det som standard gpt-5-mini. Forskellen mellem rå og renset er forskellen på en transskription, du skal redigere, og en du kan sende:
okay så transskriber standup-optagelsen og send derefter opsummeringen til teamet inden frokost øhm og cc manageren
Okay, så transskriber standup-optagelsen, send derefter opsummeringen til teamet inden frokost, og CC manageren.
Nøjagtighed handler primært om model og mikrofon, og mikrofonen har jeg allerede nævnt. På modelsiden er de større flersprogede Whisper-builds stærke på tværs af 99 sprog, og skytilstand tilføjer OpenAIs topklasse-transskription, hvis en optagelse er virkelig svær. Men til ren lyd og normal tale er selv de små modeller solide, og at jagte den største model på svag hardware giver dig langsommere output for en nøjagtighed, du sandsynligvis ikke ville bemærke. Match modellen til jobbet, ikke til specifikationssidernes skrydetal.
Hvis dit primære mål er at tale i stedet for at taste hele dagen, er det samme tal-og-rens-forløb det, der lader dig omdanne stemme til tekst på Windows uden nogensinde at åbne en terminal, hvilket er pointen med stien uden CLI.
Hvornår kommandolinjen er det rigtige valg

Nogle gange er terminalen virkelig det bedre værktøj, og at lade som om noget andet blot for at sælge dig en app ville være uærligt. Den officielle OpenAI CLI er gratis, MIT-licenseret og bygget til et job, desktop-appen ikke gør: transskribering af filer, i bulk, fra et script. Er det dit job, så spring appen over.
Grib kommandolinjen, når du har en mappe med optagelser, der skal batchbehandles hen over natten, når du vil have Whisper inde i en større Python-pipeline eller en server, du styrer, når du har brug for et bestemt model-flag, som GUI'en ikke eksponerer, eller når du simpelthen allerede lever i terminalen og ikke vil have endnu et vindue åbent. Det er også det rigtige valg på Linux, som desktop-appen ikke understøtter. CLI'en kører overalt, hvor Python og ffmpeg gør det. Intet af det er kritik af appen — det er bare en anderledes form for problem.
Grib desktop-appen, når jobbet er diktering og ikke filbehandling: du vil tale ind i din e-mail, dine dokumenter, din chat og have ordene til at dukke op ved cursoren med én tast. CLI'en kan ikke indsætte ved cursoren i et andet program; det var aldrig dens job. Så den ærlige opdeling er — filer og scripting, brug terminalen; tale i stedet for at taste, brug appen. De fleste, når de er klar over hvad de egentlig ville, ved med det samme, hvilken side de er på.
Den samme på-enheden, ingen-sky-logik gælder, hvis du sætter dette op på en Mac — gennemgangen i stemme til tekst på Mac dækker Apple Silicon-siden, herunder Tilgængelighed-tilladelsen, som genvejstasten kræver.
Whisper kørende på din egen maskine er en af de bedre deals i software lige nu — en model OpenAI gav væk, den samme som store sky-værktøjer stille og roligt kalder, liggende på din disk for ingenting. Den eneste reelle beslutning er, hvilken indpakning der passer til din dag. Jeg bruger CLI'en, når jeg har filer at tygge igennem, og appen de andre 95% af tiden, fordi jeg skifter programmer ca. fyrre gange i timen og ikke vil skrive en kommando for hver gang. Jeg dikterede størstedelen af denne guide med en genvejstast, ind i et tekstfelt der ikke var en terminal, med modellen kørende på den samme bærbare hele vejen igennem.
Kør Whisper lokalt uden terminalen
Hold genvejstasten nede, tal, slip. Modellen kører på din maskine, og transskriptionen lander, der hvor din cursor er — ingen Python, ingen pip, ingen ffmpeg.
Gratis lokal tilstand for enhver logget ind konto. Intet kort kræves for at starte.



