Av Denys Medvediev

Forklaring

Slik kjører du Whisper lokalt

Det finnes to ærlige måter å kjøre Whisper på din egen maskin: utviklerveien via Python og kommandolinjen, eller en skrivebordsapp som gjør det for deg uten terminal. Begge holder lyden på maskinen din. Her går vi gjennom begge, og når du bør velge hvilken.

Sist oppdatert: juni 2026

En bærbar PC på et mørkt skrivebord med kodelinjer i et terminalvindu, som vekker assosiasjoner til oppsett fra kommandolinjen

Å kjøre Whisper lokalt betyr å transkribere lyd på din egen maskin i stedet for på en skyserver. Det er to veier: installer OpenAIs åpne Whisper med Python, pip og ffmpeg og kjør det fra kommandolinjen, eller bruk en skrivebordsapp som Whisper by Remskill som bunter modellene og dikterer ved markøren din uten terminal. Begge holder lyden på enheten.

Whisper er OpenAIs åpne tale-til-tekst-modell, utgitt under MIT-lisensen, og grunnen til at «kjøre Whisper lokalt» søkes så mye er at den faktisk kjører på din egen maskinvare gratis. Ingen API-nøkkel, ingen betaling per minutt, ingen lyd som forlater laptopen din. Det er en genuint god deal, og det offisielle prosjektet på GitHub gir deg hele pakken.

Haken er hva «kjøre det» betyr. Den offisielle veien er et kommandolinjeverktøy. Du installerer Python, kjører `pip install openai-whisper`, installerer ffmpeg og peker en terminal mot en lydfil. Det er perfekt hvis du har en mappe med opptak du vil behandle i bulk. Det er mindre perfekt hvis du egentlig bare ville snakke inn i e-posten din og få ordene til å dukke opp. Det er to forskjellige jobber, og jeg tar for meg begge på en ærlig måte.

Her er veiskillet de fleste artikler hopper bukk over. «Kjøre Whisper lokalt» kan bety to helt forskjellige ting avhengig av hvem som spør. En utvikler mener: få modellen på disk og transkribere filer fra et skript. En skribent eller selger mener: slutt å taste og la stemmen min bli til tekst i hvilken som helst app.

Så det egentlige spørsmålet er ikke bare «hvordan installerer jeg Whisper». Det er «hvilken lokal Whisper er det jeg er ute etter — CLI-en for batchjobber og skripting, eller en hurtigtast som dikterer ved markøren min». Den første er det offisielle OpenAI-prosjektet og det er utmerket til det det gjør. Den andre er en skrivebordsapp som kjører den samme modellserien uten kommandolinje. Jeg setter opp begge, viser deg maskinvare-regnestykket og sier deg rett ut når terminalen er det bedre valget.

Hva «kjøre Whisper lokalt» faktisk betyr

En person som jobber på en bærbar PC ved et skrivebord, som representerer behandling på enheten fremfor i skyen

Å kjøre Whisper lokalt betyr at transkripsjonen skjer på din egen prosessor, ikke på en server et sted. Du mater den med lyd, modellen gjør det om til tekst, og ingenting forlater maskinen. Det er appellen. Sjefsens lønnsregneark lest høyt, e-posten til barnets skole, et innspilt kundeanrop — ingen av delene berører en leverandørs logger fordi du ville skrive med stemmen din. Lokal-first eller ikke i det hele tatt, slik jeg ser det, og jeg merker den meningen med et tall lenger ned.

Whisper er bare modellen. OpenAI trente den og ga ut vektene under MIT-lisensen, og det er derfor alle kan laste den ned og kjøre den uten å betale. Det finnes flere modellstørrelser, fra en liten med 39 millioner parametre til en stor med 1,55 milliarder, og du velger basert på hvor mye nøyaktighet du trenger kontra hva maskinvaren din tåler. Modellen er den samme enten du kjører den fra en terminal eller inne i en app. Det som endrer seg er omslaget rundt den.

Og omslaget er hele spørsmålet. To av dem finnes, begge legitime. Det offisielle OpenAI-kommandolinjeverktøyet: gratis, skriptbart, Python-basert, bygget for å transkribere filer. Og skrivebordsapper som laster den samme typen modell bak et vanlig vindu, slik at du trykker en tast og snakker i stedet for å skrive en kommando. Den kjedelige sannheten er at de fleste som søker etter dette nøkkelordet ønsker seg ett av de to og vet ennå ikke hvilket. De neste to delene handler om akkurat disse to veiene.

Utviklerveien: Python, pip og ffmpeg

Hvis du er komfortabel i en terminal, er det offisielle prosjektet det ryddigste svaret, og det er genuint gratis. Du trenger tre ting på maskinen din: Python (prosjektet støtter 3.8 til 3.11), selve Whisper-pakken og ffmpeg, som er lydverktøyet Whisper bruker til å lese filene dine. Installasjonen er to kommandoer. `pip install -U openai-whisper` henter pakken og dens PyTorch-avhengighet. Deretter ffmpeg, som avhenger av OS-et ditt — `brew install ffmpeg` på Mac, `choco install ffmpeg` eller `scoop install ffmpeg` på Windows, `sudo apt install ffmpeg` på Ubuntu.

Når det er installert, kjører du det mot en fil. `whisper audio.mp3 --model turbo` transkriberer opptaket og skriver teksten ut. Legg til `--language Japanese` for å hoppe over automatisk gjenkjenning, eller `--task translate` for å få et ikke-engelsk opptak ut som engelsk. Det er kjernen i det. Det er et verktøy for fil inn, tekst ut, og det er godt til nettopp det. Pek det mot en mappe med talememoer over natten, og det vil jobbe seg gjennom alle sammen uten at du trenger å se på.

Maskinvarevirkeligheten er der forventningene møter en vegg. De offisielle modellstørrelsene er tiny (39M parametre), base (74M), small (244M), medium (769M), large (1,55B) og turbo (809M). VRAM-behovet for hver enkelt forteller deg den virkelige historien: omtrent 1 GB for tiny, rundt 2 GB for small, rundt 5 GB for medium og omtrent 10 GB for large-modellen. Disse tallene gjelder for GPU. Du kan kjøre de mindre modellene på CPU, men et frittstående GPU-kort er det som gjør de større modellene utholdelige. Jeg tegnet opp et fint «bare kjør large på laptopen min»-oppsett en gang, og så på det krype avgårde på integrert grafikk. Diagrammet er alltid feil etter andre endring. CPU-en klarer det til slutt; large-modellen på en tynn laptop er ikke en tirsdag-ettermiddag-plan.

Veien uten terminal: kjør Whisper i en skrivebordsapp

Hvis du aldri vil se et kommandoprompt, er dette den andre ærlige veien. Whisper by Remskill er en skrivebordsapp for Windows 10 eller nyere og Apple Silicon Mac-er som kjører Whisper lokalt for deg — modellene lastes ned inne i appen, ingen pip, ingen ffmpeg, ingen Python. Den kjører også Parakeet, en annen lokal motor jeg kommer tilbake til. Hele den lokale pipeline er gratis for alle innloggede kontoer, uten at det spørres om betalingsinformasjon ved registrering. Her er fremgangsmåten.

Steg 1 — Installer Whisper og logg inn.

Last ned fra nedlastingssiden, installer og opprett en gratis konto. Ingen kortopplysninger. Den lokale transkripsjonspipelinen åpnes med en gang.

Du vet at det fungerte når appens systemstatusikon vises og oppsettveiviseren tilbyr å velge en modell.

Steg 2 — Velg transkripsjonsvei og last ned en modell.

Appen velger ikke for deg. Du får tre valg: Cloud (OpenAI, ta med din egen nøkkel), Local Parakeet eller Local Whisper. For å kjøre ting på din egen maskin, velg én av de to lokale motorene og la modellen laste ned inne i appen.

Du vet at det fungerte når modellen er ferdig nedlastet og vises som klar.

Steg 3 — Bekreft hurtigtasten din.

Windows bruker som standard Ctrl+Space, Mac bruker Command+Option holdt nede som trykk-for-å-snakke. På Mac, gi tilgangstillatelse når du blir bedt om det; uten den kan ikke lim-ved-markøren nå andre apper.

Du vet at det fungerte når et testopptak limes inn i et hvilket som helst tekstfelt.

Steg 4 — Sett markøren et sted og snakk.

Klikk inn i et hvilket som helst tekstfelt — en e-post, et dokument, en chat-boks — hold hurtigtasten, si en setning, slipp. Transkripsjonen vises der markøren er.

Du vet at det fungerte når den talte setningen din vises i tekstfeltet som tekst.

Whisper
Den ekte Whisper-skrivebordsappen på innstillingsskjermen, med Transcription- og AI-panelene åpne.

Den trege delen er modellnedlastingen, det samme som ved CLI-veien — vektene er vektene. Alt annet er de fire stegene ovenfor. Forskjellen er at det ikke er noen terminal mellom deg og modellen, og i stedet for fil-inn-tekst-ut får du en hurtigtast som dikterer uansett hvor markøren din er. Samme Whisper under panseret, annen jobb på toppen.

Hvilken modell og hvilken maskinvare du trenger

Begge veiene ber deg velge en modell, og valget handler om den samme avveiningen: større modeller er mer nøyaktige og tregere, mindre er raskere og lettere. I den offisielle CLI-en vil large-modellen ha omtrent 10 GB VRAM og small omtrent 2 GB, så grafikkortet setter taket. I skrivebordsappen er Whisper-modellene delt inn i kun-engelsk og flerspråklige, med standardmodellen for engelsk på rundt 480 MB på disk og den største flerspråklige på rundt 3 GB. De flerspråklige bygger dekker 99 språk og kan oversette til engelsk; de engelskspesifikke bygger er kun for engelsk.

Appens andre lokale motor er verdt å kjenne til her, fordi den omgår maskinvareproblemet for mange. Parakeet er NVIDIAs TDT-modell, på rundt 600 MB, og den kjører 5 til 10 ganger raskere enn Whisper på CPU. Den dekker engelsk pluss 24 andre europeiske språk, 25 totalt, uten oversettelse til engelsk. Hvis du for det meste snakker engelsk og ikke har et kraftig GPU, er Parakeet det raske lokale valget. Hvis du trenger kinesisk, japansk, koreansk eller oversettelse, er det Whispers flerspråklige territorium og Parakeet kommer ikke dit. Mens du snakker vises en liten kapsel som viser at den lytter:

Cancel
Opptaksoverlegget: en liten kapsel som vises mens du snakker, slik at du vet at appen lytter.

Det beste du kan gjøre for nøyaktigheten er slett ikke en større modell. En USB-mikrofon til $20 gjør mer for transkripsjonen din enn å hoppe opp to modellstørrelser — ren lyd inn slår en tyngre modell matet med laptop-mikrofon-grøt. Bruk penger på mikrofonen først, bekymre deg for modellen etterpå. Det er det eneste maskinvarerådet jeg vil sette på paper og stå inne for.

Lokalt eller sky: hvilken modus for hvilken jobb

Hvis maskinen din er Apple Silicon eller PC-en er fra de siste årene, prøv lokalt først. Skyen er nødutgangen, ikke standarden. Men skrivebordsappen lar deg velge mellom tre veier, og jeg vil heller at du velger godt, så her er hva som skiller dem.

Her er hva som skiller de tre veiene, siden appen ber deg velge:

  • Local ParakeetNVIDIAs TDT-motor, på rundt 600 MB, og det raskeste lokale alternativet — 5 til 10 ganger raskere enn Whisper på CPU. Dekker engelsk pluss 24 andre europeiske språk, 25 totalt. Ingen oversettelse til engelsk. Hvis du dikterer på engelsk eller et annet europeisk språk og vil ha hastighet uten GPU, er dette det fullt frakoblede valget.
  • Local WhisperTregere enn Parakeet på samme maskin, men de flerspråklige bygger dekker 99 språk og kan oversette til engelsk. De engelskspesifikke bygger er kun engelsk, ikke 99. Velg dette for kinesisk, japansk, koreansk eller oversettelsesarbeid, som Parakeet ikke kan gjøre. Standard engelskmodell er på rundt 480 MB; den største flerspråklige er på rundt 3 GB.
  • Cloud (OpenAI, BYOK)best nøyaktighet og webtilgang, ved hjelp av din egen OpenAI-nøkkel fakturert direkte av OpenAI. Transkripsjon kjøres på gpt-4o-mini-transcribe som standard. Det krever internett, så det er den eneste veien som forlater maskinen din. Cloud-overflaten er en del av Whisper Pro.

Den kjedelige sannheten er at for hverdagsdiktering er lokalt mer enn nok, og begge lokale motorer kjører fullt ut på maskinen din uten at noe sendes til en server. Skyen fortjener sin plass når du vil ha toppnøyaktighet på et vanskelig opptak, eller du trenger at modellen henter et faktum fra nettet midt i en setning. Uansett hvilken vei du valgte for å kjøre Whisper lokalt — CLI-en eller appen — er personvern-historien den samme: lyden blir der den er. Hvis det å være frakoblet er hele grunnen til at du er her, går frakoblet tale-til-tekst dypere inn i det.

Nøyaktighet, tegnsetting og opprydding av råtranskripsjonen

Uansett hva som kjører Whisper, kommer rå diktering ut som en eneste lang løpetekst. Du sier «okay så transkriber standup-opptaket og send deretter sammendraget til teamet før lunsj», og det er den tegnsettingsløse veggen enhver talegjenkjenningsmotor gir deg. Den offisielle CLI-en gir deg den teksten og stopper der — opprydding er din jobb, i et skript eller for hånd. Det er greit for batch-transkripsjon der du behandler utdataene etterpå likevel.

Skrivebordsappen kan gjøre oppryddingsrunden for deg før teksten lander. Si aktiveringsfrasen «Hey whisper» og et AI-pass fjerner fyllordene, fikser løpeteksten og legger til tegnsetting. På en lokal modell kjøres dette gjennom Ollama på maskinen din; i sky-modus er det gpt-5-mini som standard. Forskjellen mellom rå og ryddet er forskjellen mellom et transskript du må redigere og ett du kan sende:

Thinking...

okay så transkriber standup-opptaket og send deretter sammendraget til teamet før lunsj um og cc manageren

Ryddet

Okay, transkriber standup-opptaket, og send deretter sammendraget til teamet før lunsj, og CC manageren.

Nøyaktigheten i seg selv handler mest om modell og mikrofon, og mikrofonen har jeg allerede dekket. På modellsiden er de større flerspråklige Whisper-bygger sterke på tvers av 99 språk, og sky-modus legger til OpenAIs toppklasse-transkripsjon hvis et opptak er genuint vanskelig. Men for ren lyd og normal tale er selv de små modellene solide, og det å jage den største modellen på svak maskinvare gir deg tregere utdata for nøyaktighet du sannsynligvis ikke vil legge merke til. Match modellen til jobben, ikke til spesifikasjonsarket.

Hvis hovedmålet ditt er å snakke i stedet for å taste hele dagen, er den samme snakk-deretter-rydd-flyten det som lar deg gjøre om stemme til tekst på Windows uten noen gang å åpne en terminal, og det er poenget med veien uten CLI.

Når kommandolinjen er det riktige valget

To veier som skiller seg, som illustrerer valget mellom kommandolinjen og en skrivebordsapp

Noen ganger er terminalen genuint det bedre verktøyet, og å late som noe annet for å selge deg en app ville vært uærlig. Den offisielle OpenAI CLI-en er gratis, MIT-lisensiert og bygget for en jobb skrivebordsappen ikke gjør: transkribere filer, i bulk, fra et skript. Hvis det er jobben din, hopp over appen.

Bruk kommandolinjen når du har en mappe med opptak som skal behandles over natten, når du vil ha Whisper inne i en større Python-pipeline eller en server du kontrollerer, når du trenger et spesifikt modellflagg som GUI-en ikke eksponerer, eller når du rett og slett allerede lever i terminalen og ikke vil ha et annet vindu åpent. Det er også det riktige valget på Linux, som skrivebordsappen ikke støtter. CLI-en kjører overalt der Python og ffmpeg gjør det. Ingen av disse er kritikk av appen — det er bare en annerledes form på problemet.

Bruk skrivebordsappen når jobben er diktering, ikke filbehandling: du vil snakke inn i e-posten din, dokumentene dine, chatten din og få ordene til å dukke opp ved markøren med én tast. CLI-en kan ikke lime inn ved markøren din i et annet program; det var aldri jobben dens. Så det ærlige skillet er — filer og skripting, bruk terminalen; snakke i stedet for å taste, bruk appen. De fleste, når de er klare på hvilket de ville ha, vet umiddelbart hvilken side de er på.

Den samme logikken med på enheten, ingen sky gjelder hvis du setter opp dette på en Mac — gjennomgangen i tale til tekst på Mac dekker Apple Silicon-siden, inkludert tilgangstillatelsen hurtigtasten trenger.

Whisper kjørende på din egen maskin er en av de bedre dealene i programvareverdenen akkurat nå — en modell OpenAI ga bort, den samme som store skyverktøy stille og rolig kaller på, liggende på disken din uten kostnad. Den eneste reelle avgjørelsen er hvilket omslag som passer dagen din. Jeg bruker CLI-en når jeg har filer å tygge gjennom, og appen de andre 95 % av tiden, fordi jeg bytter programmer omtrent førti ganger i timen og ikke vil skrive en kommando for hver gang. Jeg dikterte det meste av denne guiden med en hurtigtast, inn i en tekstboks som ikke var en terminal, med modellen kjørende på den samme laptopen hele veien.

Kjør Whisper lokalt uten terminal

Hold hurtigtasten, snakk, slipp. Modellen kjøres på maskinen din og transkripsjonen lander der markøren din er — ingen Python, ingen pip, ingen ffmpeg.

Gratis lokal modus for alle innloggede kontoer. Ingen kortopplysninger nødvendig for å starte.

Bilde av Denys Medvediev

Denys Medvediev

Jeg er den som leser støtte-e-posten vår, mest sannsynlig ved å diktere svarene.

Videre lesning