Guide
OpenAI Whisper för Windows
OpenAI Whisper är en gratis, öppen modell för tal-till-text under MIT-licensen. På Windows körs den normalt via Python och kommandoraden för att transkribera ljudfiler. Whisper by Remskill paketerar dessa modeller i en skrivbordsapp så att du i stället kan diktera direkt i vilken app som helst.
Senast uppdaterad: juni 2026

OpenAI Whisper är en gratis, öppen modell för tal-till-text som släppts under MIT-licensen. På Windows körs den normalt via Python och kommandoraden och transkriberar de ljudfiler du pekar den mot. Whisper by Remskill paketerar dessa modeller i en skrivbordsapp så att du i stället kan diktera direkt i vilken app som helst.
OpenAI Whisper är en gratis, öppen modell. På en ny Windows-dator vill den officiella versionen ha Python, ffmpeg och kommandoraden för att transkribera filer. Har du redan en fil klarar gratis grafiska verktyg som Buzz eller Whisper Desktop jobbet. Vill du i stället tala och se orden dyka upp vid markören i vilken app som helst, så paketerar Whisper by Remskill samma modeller utan något att bygga och med en gratis lokal nivå.
Vad folk menar med "OpenAI Whisper för Windows"
Den tråkiga sanningen är att "OpenAI Whisper" är två olika saker som bär samma namn, och sökresultaten blandar ihop dem varje dag.
Den första saken är modellen. Whisper är en taligenkänningsmodell som OpenAI öppnade källkoden för under MIT-licensen, så både koden och de tränade vikterna är gratis att ladda ner och använda. Den finns i sex storlekar (tiny, base, small, medium, large och turbo), varav fyra har en engelskspråkig variant, där du byter hastighet mot träffsäkerhet. Den är flerspråkig och kan översätta tal till engelska med en enda flagga. Det är genuint imponerande, och det är genuint gratis.
Den andra saken är sättet du faktiskt kör den på. Det officiella Whisper är ett Python-paket. Du installerar det med pip, du installerar kommandoradsverktyget ffmpeg bredvid, och sedan matar du det med en ljudfil från en terminal. Om "terminal", "pip" och "ffmpeg" redan låter som en lördag du inte hade planerat, då har du hittat den lucka hela den här artikeln handlar om. Kommandoraden är verktyget du använder för att skriva kommandon till datorn i stället för att klicka. De flesta på Windows har aldrig öppnat den med flit.
Så när någon skriver "OpenAI Whisper för Windows" i Google vill de oftast ha ett av två svar. Antingen: hur får jag den här gratismodellen att transkribera mina filer utan en examen i datavetenskap? Eller: jag vill bara tala och se mina ord dyka upp, kan den här grejen göra det? Det är olika behov, och de kräver olika verktyg. Jag ska svara på båda, och jag ska vara ärlig om vilket verktyg som vinner varje gång.
Gratismodellen är fantastisk. Installationen är haken.
Här är delen som produktsidorna hoppar över. Whisper som modell kostar ingenting. Whisper som upplevelse, på en ny Windows-dator, kostar dig en eftermiddag.
För att köra det officiella OpenAI Whisper installerar du Python, sedan installerar du Whisper-paketet, sedan installerar du ffmpeg och ser till att Windows kan hitta det, sedan öppnar du en terminal och kör ett kommando för varje fil. Inget av det här är svårt för en utvecklare. Allt av det är en mur för alla andra: skribenten, juristen, studenten, säljaren, min egen mamma, som gick med på att prova diktering vid tredje demonstrationen och som skulle ha gått med på exakt noll demonstrationer som innehöll frasen "lägg till ffmpeg i din PATH".
Det finns vänligare ingångar, och de är värda att känna till. Whisper.cpp är en ren C/C++-port av samma modell: MIT-licensierad, snabb och enbart CPU, helt utan Python. Men du bygger den fortfarande från källkod eller kör den från kommandoraden. Det är ett vackert stycke ingenjörskonst riktat rakt mot folk som gillar kompilatorer. Resten av den här artikeln är för dem som inte gör det.
När du vill ha kommandorads-Whisper i stället (eller en filtranskriberare)
Jag tänker skicka dig någon annanstans nu, för det här är den ärliga delen.
Om det du faktiskt har är en ljudfil (en inspelad intervju, ett poddavsnitt, ett Teams-samtal du sparat, ett röstmemo) då är vår app fel verktyg, och jag säger hellre det än säljer dig något som inte passar. Vi gör livediktering: du talar, orden landar vid din markör. Vi tar inte en befintlig fil och transkriberar den. Ett annat jobb.
För det jobbet är tre gratisverktyg riktigt bra, och de är byggda exakt för det:
- Buzz transkriberar och översätter ljudfiler offline, drivet av OpenAI:s Whisper, MIT-licensierat, och det körs på Windows. Vill du ha ett riktigt fönster med knappar i stället för en terminal, börja här.
- Whisper Desktop (Const-me) är en grafisk Windows-app. Du packar upp den, kör WhisperDesktop.exe, pekar den mot en fil, och den transkriberar med hjälp av din GPU via DirectCompute. Den är MPL-2.0-licensierad och snabb på ett hyfsat grafikkort.
- whisper.cpp är det smala alternativet om du känner dig bekväm vid kommandoraden och vill ha ren hastighet utan Python.
Det här är inte mig som är diplomatisk för sakens skull. Att skicka dig till rätt verktyg när det inte är vårt är hela anledningen till att du ska tro på resten. Har du en fil, använd Buzz. Har du en mikrofon och en mening i huvudet, fortsätt läsa.
Vad Whisper by Remskill faktiskt gör på Windows
Vi tog samma öppna Whisper-modeller, plus en andra motor, och packade in dem i en Windows-app så att det inte finns något att bygga och inget att skriva i en terminal.
Du installerar en app, omkring 25 MB. Du loggar in. Du trycker på snabbtangenten, som är Ctrl + Space som standard och fullt ombyggbar. Du talar. Du släpper. Texten dyker upp vid din markör i vilken app du redan befann dig i: Word, Outlook, webbläsaren, Slack, en kodredigerare, sökrutan. Ingen fil, ingen terminal, ingen GPU krävs; all lokal transkribering körs på din CPU.
Under huven väljer du mellan tre vägar, för vi väljer ingen modell åt dig:
- Lokal Whisper (8 modeller) är den öppna Whisper du kom hit för, paketerad och redo. Engelskoptimerad från Base (~140 MB) upp till Medium (~1,5 GB), plus flerspråkiga byggen upp till Large v3 (~3 GB). De flerspråkiga byggena täcker 99 språk och kan översätta till engelska.
- Parakeet (NVIDIA TDT, ~600 MB) är en separat motor, 5 till 10 gånger snabbare än Whisper på CPU, som täcker engelska plus 24 andra europeiska språk. Ingen översättning till engelska. Välj den om du vill ha hastighet och mestadels arbetar på engelska.
- Moln (OpenAI, BYOK) låter dig ta med din egen OpenAI-nyckel för toppträffsäkerhet och webbsökning; vi tar ingen andel. Det här är den enda Pro-funktionen.
Den lokala pipelinen (varje Whisper-modell, Parakeet, AI-städning via Ollama, historik, förinställningar, egen snabbtangent, modellnedladdningar) är gratis för alla inloggade användare, utan kort vid registreringen. Molnvägen är den betalda Pro-nivån; du ser siffrorna på prissidan.
Varför en riktig dikteringsapp för Windows är svårare än pip install
Här är grejen som ingen varnar dig för när de säger "slå bara in Whisper i ett gränssnitt".
Modellen är den enkla delen. Att få en snabbtangent att bete sig på Windows är det inte. Den första versionen av vår snabbtangentshanterare utlöste stopp-inspelnings-återanropet sex gånger för ett enda verkligt tangenttryck. Det fungerade perfekt på en Mac. Det fungerade perfekt på en ren Windows-installation. Det föll samman på riktiga kunddatorer, de med en inmatningsmetod för språk aktiverad, vilket på Windows genererar spöklika Ctrl + Space-släpphändelser vid oförutsägbara ögonblick. Det tog dagar av telemetri, sedan en 50 ms-debounce som inte räckte, sedan en 300 ms-debounce som äntligen gjorde det. Jag lärde mig mer om Windows ramverk för inmatningsmetoder än någon människa borde, och jag har en masterexamen. Min äldsta dotters dom, när jag förklarade det: "det är därför pappas mejl tar en evighet".
Det är skillnaden mellan en modell och en produkt. Det gratis Whisper ger dig en transkribering av en fil. En dikteringsapp måste överleva det riktiga Windows-skrivbordet, i riktiga appar, medan du gör något annat. Modellen ser aldrig den kampen. Det gör vi, och vi förlorade den under ungefär en vecka först.
När det inbyggda Windows-verktyget är allt du behöver
Berätta för folk när de inte ska köpa din grej, och de kanske tror på dig om resten. Så: om du bara dikterar en kort anteckning då och då behöver du kanske inget av det här. Windows 11 har ett inbyggt verktyg för rösttypning som du öppnar med Win + H. Det är gratis och fungerar fint för ett par rader, även om det skickar ditt ljud till Microsofts taligenkänning online i stället för att köra på din maskin. För ett snabbt Teams-svar räcker det gott och väl.
Vi börjar bli värda installationen ungefär vid den punkt där du skriver riktig text (långa mejl, promemorior, föreläsningssammanfattningar, kodkommentarer, marknadsföringsvarianter) och du vill att den ska stanna på din maskin, på 99 språk, med samma snabbtangent överallt. Om din dag är tvåradiga chattar är du klar. Om din dag är skrivande, behåll appen.
Vidare läsning
OpenAI Whisper är en gratis, öppen modell, och på Windows vill den normalt ha Python, ffmpeg och en terminal för att transkribera filer. Har du en fil gör Buzz eller Whisper Desktop det gratis med ett riktigt fönster. Om det du faktiskt vill är att tala och se dina ord landa vid markören i vilken app som helst, utan bygge, utan kommandorad, körandes lokalt på din CPU — så är det det vi gjorde.
För en längre genomgång av landskapet gratis kontra betalt, se tal till text på Windows. För att välja mellan våra två lokala motorer, se Whisper vs Parakeet.
Diktera din första mening på ungefär en minut
Ladda ner Whisper by Remskill för Windows, logga in utan kort, tryck på Ctrl + Space och tala. Den lokala pipelinen är gratis så länge du använder den.
Gratis lokal transkribering för alltid. Inget betalningssätt vid registrering. Molnnivån är den enda betalda funktionen.



