Av Denys Medvediev

Förklaring

Vilken Whisper-modell ska jag välja

Det finns ingen enda rätt Whisper-modell — den rätta beror på om du bryr dig mest om hastighet, träffsäkerhet, språk eller diskutrymme. Den här guiden kopplar varje modell som ingår till ett användningsfall så att du kan välja på ungefär en minut, och berättar när du bör hoppa över Whisper till förmån för Parakeet i stället.

Senast uppdaterad: juni 2026

Flera märkta vippomkopplare på en mörk panel, som antyder ett val mellan olika alternativ

Den bästa Whisper-modellen beror på uppgiften: välj en liten engelsk modell för vardaglig diktering på engelska, en flerspråkig modell för andra språk, den stora modellen för högsta träffsäkerhet, eller Turbo för hastighet nära den stora modellens kvalitet. För övervägande engelska och hög hastighet slår Parakeet Whisper. Appen visar alla och låter användaren välja.

Jag får den här frågan oftare än någon annan, oftast formulerad som "jag laddade ner appen, vilken modell ska jag välja nu." Det är en rimlig fråga, och det ärliga första svaret är att det inte finns någon modell som vinner överlag. Det finns en modell som vinner för din dator, ditt språk, och hur mycket du bryr dig om att vänta en extra halvsekund. Så appen väljer inte åt dig. Den visar dig alternativen och håller sig ur vägen.

Det låter som en undanflykt tills du ser spannet. Den minsta engelska modellen är runt 140 MB och kör på en laptop från 2016. Den bästa flerspråkiga är runt 3 GB och vill ha 16 GB RAM. Mellan de två ligger sex andra val plus en separat motor som heter Parakeet. Väljer du fel får du antingen vänta för länge eller transkribera på fel språk. Väljer du rätt glömmer du att modellen finns, vilket är hela poängen.

Här är synsättet som får hela listan att klicka på plats. Varje modell är en avvägning mellan fyra saker: hastighet, träffsäkerhet, hur många språk den kan, och hur mycket disk och RAM den slukar. Du kan inte maxa alla fyra. En 3 GB-modell är mer träffsäker och kan fler språk, men den är långsammare och får inte plats på en dator med 8 GB. En 140 MB-modell är omedelbar men klarar bara engelska, och bara sådär.

Så den verkliga frågan är inte "vilken modell är bäst." Den är "vilken avvägning vill jag ha." När du väl vet om du är en som bara dikterar på engelska på en blygsam laptop, en översättare som jobbar över nio språk, eller någon som bara vill ha det snabbaste lokala alternativet som finns, faller valet ut av sig självt. Jag går igenom de engelska modellerna, de flerspråkiga, var Parakeet slår dem alla, och enradsrekommendationen om du inte orkar läsa resten.

Börja med en fråga: vad bryr du dig mest om?

En väderbiten vägvisare av trä med pilar som pekar åt flera håll mot en klar himmel

Innan något modellnamn alls, svara på en fråga: vilket av dessa betyder mest för dig just nu — hastighet, träffsäkerhet, språktäckning eller diskutrymme? Du får bara välja en sak som prioritet, eftersom modellerna avväger mot varandra. De flesta som plågas av det här har inte bestämt vad de optimerar för, och det är därför listan ser förlamande ut. Det är den inte. Det är fyra korta svar som bär åtta namn.

Vill du ha hastighet och pratar engelska hamnar du på en liten engelsk modell eller, mer troligt, på Parakeet. Behöver du ett annat språk än engelska är du i den flerspråkiga familjen vare sig du vill eller inte. Vill du ha den mest träffsäkra transkription du kan få lokalt och har RAM för det, då är det den stora modellen. Och är diskutrymmet knappt är den minsta modellen din vän och 3 GB-modellen helt utesluten. Det är hela beslutsträdet, och resten av guiden fyller bara i namnen.

En sak appen gör med flit: den tvingar aldrig på dig ett standardval. Det finns ingen "rekommenderad"-stämpel som petar dig mot modellen som råkar få oss att se bra ut i ett benchmark. Du ser Cloud, du ser Parakeet, du ser de åtta Whisper-modellerna uppdelade i enbart engelska och flerspråkiga, och du väljer. Om du har ställt in tal till text på Windows eller på Mac förut är det samma skärm, fast riktad mot en annan fråga.

De engelska modellerna, från liten laptop till topp-träffsäkerhet

Om du bara någonsin dikterar på engelska är de engelska modellerna det effektiva valet — de släpper det flerspråkiga maskineriet och lägger den budgeten på engelska i stället. Det finns fyra, och de ställer upp sig snyggt från "gammal laptop" till "bästa engelska du kan köra lokalt." Du trycker på snabbtangenten, talar, släpper, och transkriptionen klistras in vid markören oavsett vilken du valde; den enda skillnaden är hastighet och hur ofta den träffar ett knepigt ord. En liten kapsel dyker upp medan du pratar så att du vet att den lyssnar:

Cancel
Inspelningsöverlägget: en liten kapsel som dyker upp medan du talar, så att du vet att Whisper lyssnar.

Den minsta är Base, runt 140 MB. Det är den att välja på en laptop från 2016 eller en dator med 8 GB där du vill ha diktering som bara fungerar utan att du behöver tänka på RAM. Ovanför ligger Small på runt 480 MB, det balanserade engelska alternativet — långsammare än Parakeet, men den stöder översätt-till-engelska och styrning med nyckelord, vilket Parakeet inte gör. Sedan Medium på runt 1,5 GB, som vill ha 16 GB RAM och ger dig den högsta träffsäkerheten för ren engelska i familjen. (I ett publikt benchmark landar den engelska medium-modellen runt 3 % ordfelfrekvens på rent ljud; Small ligger närmare 5 %. Verkliga siffror beror långt mer på din mikrofon än på vilken av dessa du väljer.)

Den fjärde förvirrar folk, så låt mig vara tydlig med den. Turbo, som är distil-large-v3-modellen, är också runt 1,5 GB och beskrivs som 6× snabbare än den stora modellen med 99 % av dess träffsäkerhet. Det låter som en gratislunch, och för engelska är det nästan det — det är valet när du vill ha nära-bästa engelsk träffsäkerhet utan hastighetspriset från den fulla stora modellen. Haken är etiketten "enbart engelska": de här fyra kan engelska och bara engelska. I samma stund du behöver ett andra språk har du lämnat den här familjen helt, vilket är nästa avsnitt.

De flerspråkiga modellerna, för de övriga 98 språken

I samma stund ditt ljud inte är engelska vill du ha en flerspråkig modell. Whispers flerspråkiga byggen täcker 99 språk med automatisk igenkänning, och de är den enda lokala vägen som kan översätta tal till engelska medan den transkriberar. De engelska modellerna kan inte det, och inte Parakeet heller. Så om du dikterar på ukrainska, skriver en anteckning på japanska, eller vill att en spansk inspelning ska komma ut som engelsk text, är den här familjen svaret, punkt slut.

Det finns fyra här också, och de speglar de engelska storlekarna. Small, runt 480 MB, är den snabba flerspråkiga utgångspunkten — den övergripande standardmodell appen levereras med, eftersom det är den säkraste första gissningen när ingen ännu vet vilket språk du har. Medium, runt 1,5 GB, byter hastighet mot märkbart bättre kvalitet. Large v3, runt 3 GB, är den bästa träffsäkerhet du kan få lokalt och rätt val för professionellt flerspråkigt arbete, förutsatt att du har 16 GB RAM att mata den med. Och Large v3 Turbo, runt 1,62 GB, är det snabba flerspråkiga skiktet — det mesta av den stora modellens kvalitet på en bråkdel av väntan.

Ett ord om språkantalet, eftersom den marknadsföringssäkra siffran och den verkliga skiljer sig beroende på vad du menar. De flerspråkiga modellerna täcker verkligen 99 språk; de engelska modellerna täcker exakt ett. Om du mest talar engelska och då och då stöter på ett andra europeiskt språk har du ett snabbare alternativ än något av dessa, och det är Parakeet — vilket är nästa sak att förstå, eftersom det är modellen folk oftast väljer av misstag eller hoppar över av misstag.

När Parakeet slår Whisper, och när den inte gör det

En löpare i rörelseoskärpa på en bana, som antyder hastighet och ett försprång

Parakeet är ingen Whisper-modell alls — det är NVIDIAs TDT-motor, runt 600 MB, och det är det snabbaste lokala alternativet appen levererar, beskrivet som 5 till 10 gånger snabbare än Whisper på CPU. Om du har en äldre eller laptop-klassad CPU utan extra GPU är det hastighetsglappet skillnaden mellan diktering som känns omedelbar och diktering som får dig att vänta. För vardagligt engelskt arbete är Parakeet den jag griper efter först.

Den täcker engelska plus 24 andra europeiska språk — 25 totalt — så för många europeiska användare räcker det gott. Det den medvetet inte gör är Whisper-grejerna: ingen översätt-till-engelska, ingen styrning med nyckelord, ingen prompt för anpassat ordförråd. Om ditt arbete är enspråkigt engelskt (eller ett av de 24 europeiska språken) och du bara vill ha det snabbt, då vinner Parakeet och frågan är avgjord. Det finns mer om den i genomgången av Parakeet-modellen om du vill ha hela bilden.

Whisper vinner i samma stund du kliver utanför den boxen. Behöver du kinesiska, japanska eller koreanska? Flerspråkig Whisper, eftersom Parakeet inte talar dem. Behöver du översätta en inspelning till engelska? Whisper flerspråkig, den enda lokala vägen som gör det. Vill du styra modellen mot en lista med produktnamn eller fackjargong så att den slutar förvanska dem? Whisper, via nyckelord. Tumregeln: Parakeet för engelsk hastighet, Whisper för språk, översättning och kontroll. Appen levererar båda eftersom ingen av dem är rätt svar för alla.

Storlek, hastighet och träffsäkerhet: hur avvägningen faktiskt fungerar

Det hjälper att se de tre krafterna sida vid sida, eftersom varje modell bara är en annan punkt på samma triangel. Större filer är mer träffsäkra och långsammare; mindre filer är snabbare och lättare på RAM; och specialmotorerna böjer kurvan. Här är den ärliga versionen av varje kraft, eftersom appen får dig att välja och jag hellre vill att du väljer med vetskap om priset.

Tre sätt att läsa uppställningen, beroende på vad som klämmer:

  • Om hastighet är problemetgrip efter Parakeet först — runt 600 MB och 5 till 10 gånger snabbare än Whisper på CPU. På en dator utan GPU är inget lokalt i närheten för vardaglig engelska. Priset är ingen översätt-till-engelska och inga nyckelord.
  • Om träffsäkerhet eller språk är problemetgå större i Whisper-familjen. Large v3 på runt 3 GB är den bästa lokala träffsäkerheten och täcker 99 språk, men den vill ha 16 GB RAM. Turbo-varianterna ger dig det mesta av den kvaliteten med mycket mindre väntan. Small och Medium är den vettiga mellanvägen.
  • Om diskutrymme eller RAM är problemethåll dig liten (Base på runt 140 MB), eller hoppa över lokalt helt och använd Cloud-läge, som kör på vilken hårdvara som helst eftersom det bara är ett nätverksanrop till OpenAI med din egen nyckel. Cloud ingår i Whisper Pro och kräver internet.

Den tråkiga sanningen är att för de flesta, på en någorlunda ny dator, är skillnaden mellan de medelstora modellerna mindre än skillnaden din mikrofon gör. En USB-mikrofon för 20 dollar gör mer för träffsäkerheten än att hoppa från Small till Large — de publika Whisper-benchmarken bekräftar det, och jag har sett det utspela sig på mitt eget skrivbord mer än en gång. Så plåga dig inte över Medium kontra Large dag ett. Välj något som passar din RAM, börja diktera, och uppgradera modellen senare om ett ord ständigt kommer ut fel. Modellen du faktiskt behåller är den som är snabb nog att du glömmer att den finns.

Prova en, byt sedan med två klick om den är fel

Här är delen som tar bort pressen från hela beslutet: du gifter dig inte med modellen du väljer först. Att byta är två klick i Inställningar, och den enda verkliga kostnaden är nedladdningen av den modell du går över till. Så rätt strategi är inte att research i en timme — det är att göra en rimlig första gissning, diktera med den en dag, och byta om den irriterar dig. Hela den lokala pipelinen är gratis för alla inloggade konton, utan att någon betalningsmetod efterfrågas vid registrering, så att prova några modeller kostar dig ingenting utom diskutrymme.

Steg 1 — Öppna Inställningar och hitta panelen Transkription.

Det är där modellistan bor, uppdelad i enbart engelska och flerspråkiga, med Parakeet och Cloud bredvid. Inget är förvalt som "det bästa."

Du vet att du är på rätt plats när du ser modellistan med storlekar bredvid varje namn.

Steg 2 — Gör din första gissning från avsnittet ovan.

Engelska och vill ha hastighet: Parakeet. Engelska och vill ha träffsäkerhet: Small eller Medium engelska. Andra språk: en flerspråkig modell. Knappt med RAM: Base.

Du vet att det funkade när modellen har laddats ner färdigt och visas som redo.

Steg 3 — Diktera med den en dag.

Använd den på riktigt arbete, inte en testmening. Du lär dig mer av en eftermiddag med verkliga anteckningar än av något benchmark-diagram.

Du vet att det är rätt modell när du slutar märka den och bara talar.

Steg 4 — Byt om den är fel.

För långsam, välj något mindre eller Parakeet. Saknar ett språk eller förvanskar ord, gå flerspråkig eller större. Två klick, en nedladdning, klart.

Du vet att det funkade när den nya modellen laddas in och din nästa inspelning använder den.

Whisper
Den riktiga Whisper-skrivbordsappen på inställningsskärmen, med panelen Transkription där du väljer och byter modeller.

Folk behandlar det här som en enkelriktad dörr, och det är det inte. Den första modellen jag någonsin körde var inte den jag behöll; jag började på en flerspråkig modell av gammal vana, insåg att jag dikterade på engelska hela dagarna, och bytte till Parakeet för hastigheten. Tog två klick och en nedladdning på en kaffes tid. Behandla ditt första val som ett utkast.

Den snabba rekommendationen, om du hoppade till slutet

Om du inte läser något annat, här är den. Engelska, vill ha det snabbt, blygsam dator: Parakeet. Engelska, vill ha bästa lokala träffsäkerhet: den engelska Medium-modellen, eller Turbo om du vill ha den träffsäkerheten utan väntan. Ett annat språk, eller du behöver översättning: en flerspråkig modell — Small till att börja med, Large v3 om träffsäkerhet betyder mycket och du har 16 GB RAM. Knappt med disk eller RAM: Base. Vill ha toppträffsäkerhet med webbåtkomst och du har inget emot att använda din egen OpenAI-nyckel: Cloud. Det är hela kartan.

Vilken du än väljer kommer det råa transkriptet ut som en sammanhängande röra, och det gäller varje talmotor, inte bara vår. Du säger "okej så sätt mötesmodellen till medium och påminn mig om att testa den stora senare," och det är den oskiljetecknade vägg du får tillbaka. Whisper kan köra en AI-städning som fixar skiljetecknen och rensar utfyllnadsorden innan texten landar — säg aktiveringsfrasen "Hey whisper" så snyggar den till det först. På en lokal modell körs det via Ollama; i cloud-läge är det gpt-5-mini som standard.

Thinking...
Förbättringsöverlägget: ett valfritt AI-pass städar skiljetecken och utfyllnad innan texten landar.
Rått

okej så sätt mötesmodellen till medium och påminn mig om att testa den stora senare öh kanske parakeet för de snabba grejerna

Städat

Okej, så sätt mötesmodellen till Medium och påminn mig om att testa den stora senare — kanske Parakeet för de snabba grejerna.

En ärlig brasklapp som hör hemma i slutet av varje "vilken modell"-guide: om allt du någonsin gör är att slänga in en anteckning på 30 ord i ett textfält behöver du kanske inte välja någon modell alls. På Windows öppnas den inbyggda Voice Typing-raden med Windows-tangent + H var än din markör är — den sätter skiljetecken själv och är gratis, fast den går via Microsofts servrar och kräver internet. På en Mac gör Dictation i Systeminställningar samma sak, och på Apple Silicon kan allmän text bearbetas på enheten. Under tröskeln där träffsäkerhet och längd börjar göra ont, använd det som redan finns på din dator. Vi börjar vara värda nedladdningen när du gör riktig volym, vill ha integritet offline, eller behöver ett språk och en kontroll som de inbyggda inte erbjuder. Jag tänker inte be dig installera en app för att diktera en inköpslista.

Den "bästa" Whisper-modellen är den du slutar tänka på. Välj avvägningen du bryr dig om, gör en första gissning, och byt med två klick om den irriterar dig. Jag har levererat system där arkitekturdiagrammet var fel redan vid andra committen, så jag har en sund respekt för "prova bara och justera." Ditt modellval har lägre insats än så, och är mycket lättare att ångra. Börja någonstans. Nedladdningen är den långsamma delen; beslutet borde inte vara det.

Välj en modell och börja prata

Gör en första gissning, diktera en dag, byt med två klick om den är fel. Appen visar dig varje alternativ och låter dig välja.

Gratis lokalt läge för alla inloggade konton. Inget kort krävs för att börja.

Foto av Denys Medvediev

Denys Medvediev

Jag är den som läser vår supportmejl, troligast genom att diktera svaren.

Vidare läsning