Veiledning
OpenAI Whisper for Windows
OpenAI Whisper er en gratis tale-til-tekst-modell med åpen kildekode under MIT-lisensen. På Windows kjøres den vanligvis gjennom Python og kommandolinjen for å transkribere lydfiler. Whisper by Remskill pakker disse modellene inn i en skrivebordsapp, slik at du i stedet kan diktere direkte inn i hvilken som helst app.
Sist oppdatert: juni 2026

OpenAI Whisper er en gratis tale-til-tekst-modell med åpen kildekode, utgitt under MIT-lisensen. På Windows kjøres den vanligvis gjennom Python og kommandolinjen, og transkriberer lydfilene du peker den mot. Whisper by Remskill pakker disse modellene inn i en skrivebordsapp, slik at du i stedet kan diktere direkte inn i hvilken som helst app.
OpenAI Whisper er en gratis modell med åpen kildekode. På en ny Windows-maskin krever den offisielle versjonen Python, ffmpeg og kommandolinjen for å transkribere filer. Har du en fil, klarer gratis GUI-verktøy som Buzz eller Whisper Desktop jobben. Vil du snakke og se ordene dine lande ved markøren i hvilken som helst app, pakker Whisper by Remskill de samme modellene inn med ingenting å bygge og et gratis lokalt nivå.
Hva folk mener med «OpenAI Whisper for Windows»
Den kjedelige sannheten er at «OpenAI Whisper» er to forskjellige ting som bærer det samme navnet, og søkeresultatene blander dem sammen daglig.
Det første er modellen. Whisper er en talegjenkjenningsmodell som OpenAI har gjort åpen under MIT-lisensen, så både koden og de trente vektene er gratis å laste ned og bruke. Den kommer i seks størrelser (tiny, base, small, medium, large og turbo), hvorav fire har en engelsk-bare-variant, som bytter hastighet mot nøyaktighet. Den er flerspråklig, og den kan oversette tale til engelsk med ett enkelt flagg. Det er virkelig imponerende, og det er virkelig gratis.
Det andre er måten du faktisk kjører den på. Den offisielle Whisper er en Python-pakke. Du installerer den med pip, du installerer kommandolinjeverktøyet ffmpeg ved siden av, og så mater du den med en lydfil fra en terminal. Hvis «terminal», «pip» og «ffmpeg» allerede høres ut som en lørdag du ikke hadde planlagt, har du funnet hullet hele denne artikkelen handler om. Kommandolinjen er verktøyet du bruker til å skrive kommandoer til datamaskinen i stedet for å klikke. De fleste på Windows har aldri åpnet den med vilje.
Så når noen skriver «OpenAI Whisper for Windows» inn i Google, vil de vanligvis ha ett av to svar. Enten: hvordan får jeg denne gratis modellen til å transkribere filene mine uten en grad i informatikk? Eller: jeg vil bare snakke og se ordene mine dukke opp, kan denne tingen gjøre det? Det er forskjellige behov, og de trenger forskjellige verktøy. Jeg skal svare på begge, og jeg skal være ærlig om hvilket verktøy som vinner hvert av dem.
Den gratis modellen er flott. Oppsettet er haken.
Her er delen produktsidene hopper over. Whisper modellen koster ingenting. Whisper opplevelsen koster deg en ettermiddag på en ny Windows-maskin.
For å kjøre den offisielle OpenAI Whisper installerer du Python, så installerer du Whisper-pakken, så installerer du ffmpeg og sørger for at Windows finner den, så åpner du en terminal og kjører en kommando for hver fil. Ingenting av dette er vanskelig for en utvikler. Alt av det er en mur for alle andre: forfatteren, advokaten, studenten, selgeren, min egen mor, som gikk med på å prøve diktering på tredje demo og som ville ha gått med på nøyaktig null demoer som involverte uttrykket «legg ffmpeg til PATH-en din».
Det finnes vennligere inngangsporter, og de er verdt å kjenne til. Whisper.cpp er en ren C/C++-port av den samme modellen: MIT-lisensiert, rask og kun CPU, helt uten Python. Men du må fortsatt bygge den fra kildekoden eller kjøre den fra kommandolinjen. Det er et vakkert stykke ingeniørarbeid rettet rett mot folk som liker kompilatorer. Resten av denne artikkelen er for dem som ikke gjør det.
Når du heller vil ha kommandolinje-Whisper (eller en filtranskriberer)
Jeg skal sende deg et annet sted nå, for dette er den ærlige delen.
Hvis det du faktisk har er en lydfil (et innspilt intervju, en podkastepisode, en Teams-samtale du lagret, et talememo), er appen vår feil verktøy, og jeg vil heller fortelle deg det enn å selge deg noe som ikke passer. Vi driver med live diktering: du snakker, og ordene lander ved markøren din. Vi tar ikke en eksisterende fil og transkriberer den. Annen jobb.
For den jobben er tre gratis verktøy virkelig gode, og de er laget nøyaktig for det:
- Buzz transkriberer og oversetter lydfiler offline, drevet av OpenAIs Whisper, MIT-lisensiert, og det kjører på Windows. Vil du ha et ekte vindu med knapper i stedet for en terminal, start her.
- Whisper Desktop (Const-me) er en Windows GUI-app. Du pakker den ut, kjører WhisperDesktop.exe, peker den mot en fil, og den transkriberer ved hjelp av GPU-en din via DirectCompute. Den er MPL-2.0-lisensiert og rask på et anstendig grafikkort.
- whisper.cpp er det slanke alternativet hvis du er komfortabel på kommandolinjen og vil ha rå hastighet uten Python.
Det er ikke meg som er diplomatisk for syns skyld. Å sende deg til riktig verktøy når det ikke er vårt, er hele grunnen til at du bør tro på resten av dette. Har du en fil, bruk Buzz. Har du en mikrofon og en setning i hodet, les videre.
Hva Whisper by Remskill faktisk gjør på Windows
Vi tok de samme Whisper-modellene med åpen kildekode, pluss en ekstra motor, og pakket dem inn i en Windows-app, slik at det er ingenting å bygge og ingenting å skrive inn i en terminal.
Du installerer én app, omtrent 25 MB. Du logger inn. Du trykker på hurtigtasten, som er Ctrl + Space som standard og fullt omdefinerbar. Du snakker. Du slipper. Teksten dukker opp ved markøren din i hvilken som helst app du allerede var i: Word, Outlook, nettleseren, Slack, en kodeeditor, søkefeltet. Ingen fil, ingen terminal, ingen GPU nødvendig; all lokal transkripsjon kjører på CPU-en din.
Under panseret velger du mellom tre veier, fordi vi ikke velger en modell for deg:
- Lokal Whisper (8 modeller) er Whisper med åpen kildekode du kom hit for, ferdig pakket og klar. Engelsk-optimalisert fra Base (~140 MB) opp til Medium (~1,5 GB), pluss flerspråklige bygg opp til Large v3 (~3 GB). De flerspråklige byggene dekker 99 språk og kan oversette til engelsk.
- Parakeet (NVIDIA TDT, ~600 MB) er en egen motor, 5 til 10 ganger raskere enn Whisper på CPU, som dekker engelsk pluss 24 andre europeiske språk. Ingen oversettelse til engelsk. Velg den hvis du vil ha hastighet og stort sett jobber på engelsk.
- Sky (OpenAI, BYOK) lar deg ta med din egen OpenAI-nøkkel for topp nøyaktighet og nettsøk; vi tar ingen andel. Dette er den ene Pro-funksjonen.
Den lokale rørledningen (hver Whisper-modell, Parakeet, AI-opprydding via Ollama, historikk, forhåndsinnstillinger, egendefinert hurtigtast, modellnedlastinger) er gratis for enhver innlogget bruker, uten kort ved registrering. Sky-veien er det betalte Pro-nivået; du finner tallene på prissiden.
Hvorfor en ekte Windows-dikteringsapp er vanskeligere enn pip install
Her er tingen ingen advarer deg om når de sier «bare pakk Whisper inn i et grensesnitt».
Modellen er den enkle delen. Å få en hurtigtast til å oppføre seg på Windows er det ikke. Den første versjonen av hurtigtast-håndtereren vår utløste stopp-opptak-tilbakekallet seks ganger for ett ekte tastetrykk. Det fungerte perfekt på en Mac. Det fungerte perfekt på en ren Windows-installasjon. Det falt sammen på ekte kundemaskiner, de med en inndatametode for språk aktivert, som på Windows genererer falske Ctrl + Space-slipphendelser på uforutsigbare tidspunkter. Det tok dager med telemetri, så en debounce på 50 ms som ikke var nok, så en debounce på 300 ms som endelig var det. Jeg lærte mer om Windows' rammeverk for inndatametoder enn noe menneske burde, og jeg har en mastergrad. Min eldste datters dom, da jeg forklarte det: «det er derfor pappas e-poster tar en evighet».
Det er forskjellen mellom en modell og et produkt. Den gratis Whisper gir deg en transkripsjon av en fil. En dikteringsapp må overleve det ekte Windows-skrivebordet, i ekte apper, mens du gjør noe annet. Modellen ser aldri den kampen. Vi gjør det, og vi tapte den i omtrent en uke først.
Når det innebygde Windows-verktøyet er alt du trenger
Fortell folk når de ikke bør kjøpe tingen din, så tror de deg kanskje på resten. Så: hvis du bare dikterer et og annet kort notat, trenger du kanskje ikke noe av dette. Windows 11 har et innebygd verktøy for taleskriving som du åpner med Win + H. Det er gratis og helt greit for et par linjer, selv om det sender lyden din til Microsofts talegjenkjenning på nett i stedet for å kjøre på maskinen din. For et raskt Teams-svar er det mer enn nok.
Vi begynner å være verdt installasjonen rundt det punktet der du skriver ekte tekst (lange e-poster, notater, forelesningssammendrag, kodekommentarer, markedsføringsvarianter) og du vil at den skal bli værende på maskinen din, på 99 språk, med den samme hurtigtasten overalt. Hvis dagen din er tolinjers chatter, er du ferdig. Hvis dagen din er skriving, behold appen.
Videre lesing
OpenAI Whisper er en gratis modell med åpen kildekode, og på Windows krever den vanligvis Python, ffmpeg og en terminal for å transkribere filer. Har du en fil, gjør Buzz eller Whisper Desktop jobben gratis med et ekte vindu. Hvis det du faktisk vil er å snakke og se ordene dine lande ved markøren i hvilken som helst app, uten bygging, uten kommandolinje, og kjøre lokalt på CPU-en din, er det det vi har laget.
For den lengre gjennomgangen av gratis-mot-betalt-landskapet, se tale til tekst på Windows. For å velge mellom våre to lokale motorer, se Whisper vs Parakeet.
Dikter din første setning på omtrent ett minutt
Last ned Whisper by Remskill for Windows, logg inn uten kort, trykk Ctrl + Space, og snakk. Den lokale rørledningen er gratis så lenge du bruker den.
Gratis lokal transkripsjon for alltid. Ingen betalingsmetode ved registrering. Sky-nivået er den eneste betalte funksjonen.



