Af Denys Medvediev

Forklaring

Hvilken Whisper-model skal jeg bruge

Der findes ikke én rigtig Whisper-model — den rigtige afhænger af, om du går mest op i hastighed, præcision, sprog eller diskplads. Denne guide kobler hver leveret model til et brugsscenarie, så du kan vælge på cirka et minut, og fortæller dig, hvornår du i stedet bør droppe Whisper til fordel for Parakeet.

Sidst opdateret: juni 2026

Flere mærkede vippekontakter på et mørkt panel, der antyder et valg mellem muligheder

Den bedste Whisper-model afhænger af opgaven: vælg en lille engelsk model til daglig engelsk diktering, en flersproget model til andre sprog, den store model til topnøjagtighed, eller Turbo for hastighed tæt på den store models kvalitet. Til overvejende engelsk hastighed slår Parakeet Whisper. Appen viser dem alle og lader brugeren vælge.

Jeg får dette spørgsmål oftere end noget andet, som regel formuleret som "jeg har hentet appen, hvilken model vælger jeg så." Det er et rimeligt spørgsmål, og det ærlige første svar er, at der ikke findes én model, der vinder. Der findes en model, der vinder til netop din maskine, dit sprog, og hvor meget det betyder for dig at vente et halvt sekund ekstra. Derfor vælger appen ikke for dig. Den viser dig mulighederne og holder sig ude af vejen.

Det lyder som en undskyldning, indtil du ser spændet. Den mindste engelske model fylder omkring 140 MB og kører på en bærbar fra 2016. Den bedste flersprogede fylder omkring 3 GB og vil have 16 GB RAM. Mellem de to ligger seks andre valg plus en separat motor ved navn Parakeet. Vælg forkert, og du venter enten for længe eller transskriberer på det forkerte sprog. Vælg rigtigt, og du glemmer, at modellen findes — hvilket er målet.

Her er den ramme, der får hele listen til at give mening. Hver model er et kompromis mellem fire ting: hastighed, præcision, hvor mange sprog den kan, og hvor meget disk og RAM den sluger. Du kan ikke maksimere alle fire. En 3 GB-model er mere præcis og kan flere sprog, men den er langsommere og passer ikke på en 8 GB-maskine. En 140 MB-model er øjeblikkelig, men kan kun engelsk, og kun til en vis grad.

Så det egentlige spørgsmål er ikke "hvilken model er bedst." Det er "hvilket kompromis vil jeg have." Når du først ved, om du er en ren engelsk-dikterende på en beskeden bærbar, en oversætter, der arbejder på tværs af ni sprog, eller en, der bare vil have den hurtigste lokale løsning, der findes, så giver valget sig selv. Jeg gennemgår de rene engelske modeller, de flersprogede, hvor Parakeet slår dem alle, og en-linjes anbefalingen, hvis du ikke gider læse resten.

Start med ét spørgsmål: hvad betyder mest for dig?

En forvitret vejviser af træ med pile, der peger i flere retninger mod en klar himmel

Før noget modelnavn, svar på ét spørgsmål: hvad af dette betyder mest for dig lige nu — hastighed, præcision, sprogdækning eller diskplads? Du må kun vælge én som prioritet, fordi modellerne går på kompromis med hinanden. De fleste, der pines af dette, har ikke besluttet, hvad de optimerer for, og derfor virker listen lammende. Det er den ikke. Det er fire korte svar forklædt som otte navne.

Vil du have hastighed, og taler du engelsk, ender du på en lille engelsk model eller, mere sandsynligt, på Parakeet. Har du brug for et andet sprog end engelsk, er du i den flersprogede familie, hvad enten du kan lide det eller ej. Vil du have den mest præcise transskription, du kan få lokalt, og har du RAM til det, er det den store model. Og er diskpladsen knap, er den mindste model din ven, og 3 GB-modellen er ude af billedet. Det er hele beslutningstræet, og resten af denne guide udfylder bare navnene.

Én ting gør appen med vilje: den tvinger aldrig en standard ned over dig. Der er ikke noget "anbefalet"-mærke, der skubber dig mod den model, som tilfældigvis får os til at se godt ud i en benchmark. Du ser Cloud, du ser Parakeet, du ser de otte Whisper-modeller delt op i rent engelske og flersprogede, og du vælger. Hvis du tidligere har sat tale-til-tekst op på Windows eller på Mac, er dette den samme skærm rettet mod et andet spørgsmål.

De rene engelske modeller, fra lillebitte bærbar til topnøjagtighed

Hvis du kun nogensinde dikterer på engelsk, er de rene engelske modeller det effektive valg — de dropper det flersprogede maskineri og bruger det budget på engelsk i stedet. Der er fire, og de stiller sig pænt op fra "gammel bærbar" til "det bedste engelsk, du kan køre lokalt." Du trykker på genvejstasten, taler, slipper, og transskriptionen indsættes ved din markør, uanset hvilken du valgte; den eneste forskel er hastighed, og hvor ofte den rammer et drilsk ord. En lille kapsel dukker op, mens du taler, så du ved, den lytter:

Cancel
Optagelses-overlayet: en lille kapsel, der dukker op, mens du taler, så du ved, Whisper lytter.

Den mindste er Base på omkring 140 MB. Det er den, du vælger på en bærbar fra 2016 eller en 8 GB-maskine, hvor du vil have diktering, der bare virker, uden at tænke på RAM. Over den ligger Small på omkring 480 MB, det balancerede engelske valg — langsommere end Parakeet, men den understøtter oversæt-til-engelsk og hotword-biasing, hvilket Parakeet ikke gør. Så Medium på omkring 1,5 GB, som vil have 16 GB RAM og giver dig den højeste rene engelske nøjagtighed i familien. (I en offentlig benchmark lander den engelske medium-model omkring 3 % ordfejlsrate på rent lydmateriale; Small ligger nærmere 5 %. De reelle tal afhænger langt mere af din mikrofon end af, hvilken af disse du vælger.)

Den fjerde forvirrer folk, så lad mig være helt klar omkring den. Turbo, som er distil-large-v3-modellen, fylder også omkring 1,5 GB og beskrives som 6× hurtigere end den store model med 99 % af dens nøjagtighed. Det lyder som en gratis frokost, og for engelsk er det næsten det — det er valget, når du vil have næsten-bedste engelsk nøjagtighed uden hastighedsstraffen fra den fulde store model. Hagen er mærkatet "kun engelsk": disse fire kan engelsk og kun engelsk. I det øjeblik du har brug for et andet sprog, har du forladt denne familie helt — det er næste afsnit.

De flersprogede modeller, til de andre 98 sprog

I det øjeblik dit lydmateriale ikke er engelsk, vil du have en flersproget model. Whispers flersprogede udgaver dækker 99 sprog med automatisk genkendelse, og de er den eneste lokale vej, der kan oversætte tale til engelsk, mens den transskriberer. Det kan de rene engelske modeller ikke, og det kan Parakeet heller ikke. Så hvis du dikterer på ukrainsk, skriver en note på japansk eller vil have en spansk optagelse ud som engelsk tekst, er denne familie svaret, punktum.

Der er også fire her, og de spejler de engelske størrelser. Small på omkring 480 MB er den hurtige flersprogede basis — den overordnede standardmodel, appen leveres med, fordi det er det sikreste første gæt, når ingen endnu kender dit sprog. Medium på omkring 1,5 GB bytter hastighed for mærkbart bedre kvalitet. Large v3 på omkring 3 GB er den bedste nøjagtighed, du kan få lokalt, og det rigtige valg til professionelt flersproget arbejde, forudsat du har 16 GB RAM at fodre den med. Og Large v3 Turbo på omkring 1,62 GB er det hurtige flersprogede niveau — det meste af den store models kvalitet på en brøkdel af ventetiden.

Et ord om sprogantallet, for det marketing-sikre tal og det reelle adskiller sig alt efter, hvad du mener. De flersprogede modeller dækker reelt 99 sprog; de rene engelske dækker præcis ét. Hvis du mest taler engelsk og en gang imellem rammer et andet europæisk sprog, har du en hurtigere mulighed end nogen af disse, og det er Parakeet — som er det næste, du skal forstå, for det er den model, folk oftest enten vælger ved en fejl eller springer over ved en fejl.

Hvornår Parakeet slår Whisper, og hvornår den ikke gør

En løber i bevægelsessløring på en bane, der antyder hastighed og et forspring

Parakeet er overhovedet ikke en Whisper-model — det er NVIDIAs TDT-motor på omkring 600 MB, og det er den hurtigste lokale mulighed, appen leveres med, beskrevet som 5 til 10 gange hurtigere end Whisper på CPU. Hvis du har en ældre CPU eller en af bærbar-klassen uden ledig GPU, er det hastighedsforspring forskellen mellem diktering, der føles øjeblikkelig, og diktering, der får dig til at vente. Til dagligt engelsk arbejde er Parakeet den, jeg griber efter først.

Den dækker engelsk plus 24 andre europæiske sprog — 25 i alt — så for mange europæiske brugere er det rigeligt. Det, den bevidst ikke gør, er det rene Whisper-stof: ingen oversæt-til-engelsk, ingen hotword-biasing, ingen prompt med specialordforråd. Hvis dit arbejde er ensproget engelsk (eller et af de 24 europæiske sprog), og du bare vil have det hurtigt, vinder Parakeet, og spørgsmålet er afgjort. Der er mere om den i gennemgangen af Parakeet-modellen, hvis du vil have hele billedet.

Whisper vinder i det øjeblik, du træder uden for den boks. Brug for kinesisk, japansk eller koreansk? Flersproget Whisper, for Parakeet taler dem ikke. Brug for at oversætte en optagelse til engelsk? Whisper flersproget, den eneste lokale vej, der gør det. Vil du bias modellen mod en liste af produktnavne eller fagudtryk, så den holder op med at forvride dem? Whisper, via hotwords. Tommelfingerreglen: Parakeet til engelsk hastighed, Whisper til sprog, oversættelse og kontrol. Appen leverer begge, fordi ingen af dem er det rigtige svar for alle.

Størrelse, hastighed og nøjagtighed: sådan fungerer kompromisset reelt

Det hjælper at se de tre kræfter side om side, for hver model er bare et andet punkt på den samme trekant. Større filer er mere præcise og langsommere; mindre filer er hurtigere og lettere på RAM; og de specielle motorer bøjer kurven. Her er den ærlige version af hver kraft, eftersom appen får dig til at vælge, og jeg vil hellere have, at du vælger med kendskab til prisen.

Tre måder at læse opstillingen på, alt efter hvor skoen trykker:

  • Hvis hastighed er problemetgrib efter Parakeet først — omkring 600 MB og 5 til 10 gange hurtigere end Whisper på CPU. På en maskine uden GPU er der ikke noget lokalt, der kommer i nærheden til dagligt engelsk. Prisen er ingen oversæt-til-engelsk og ingen hotwords.
  • Hvis nøjagtighed eller sprog er problemetgå større i Whisper-familien. Large v3 på omkring 3 GB er den bedste lokale nøjagtighed og dækker 99 sprog, men den vil have 16 GB RAM. Turbo-varianterne giver dig det meste af den kvalitet med langt mindre venten. Small og Medium er den fornuftige mellemvej.
  • Hvis diskplads eller RAM er problemetbliv lille (Base på omkring 140 MB), eller drop det lokale helt og brug Cloud-tilstand, som kører på enhver hardware, fordi det bare er et netværkskald til OpenAI med din egen nøgle. Cloud er en del af Whisper Pro og kræver internet.

Den kedelige sandhed er, at for de fleste, på en nyere maskine, er forskellen mellem mellemstørrelse-modellerne mindre end den forskel, din mikrofon gør. En USB-mikrofon til $20 gør mere for nøjagtigheden end at springe fra Small til Large — de offentlige Whisper-benchmarks bakker det op, og jeg har set det udspille sig på mit eget skrivebord mere end én gang. Så pin dig ikke over Medium kontra Large på dag ét. Vælg noget, der passer til din RAM, kom i gang med at diktere, og opgrader modellen senere, hvis et ord bliver ved med at komme forkert ud. Den model, du faktisk beholder, er den, der er hurtig nok til, at du glemmer, den er der.

Prøv en, og skift så med to klik, hvis den er forkert

Her er den del, der tager presset af hele beslutningen: du gifter dig ikke med den model, du vælger først. At skifte er to klik i Indstillinger, og den eneste reelle pris er download af den model, du går over til. Så den rigtige strategi er ikke at researche i en time — det er at lave et fornuftigt første gæt, diktere med det en dag, og skifte, hvis det irriterer dig. Hele den lokale pipeline er gratis for enhver konto, der er logget ind, uden at der bliver bedt om en betalingsmetode ved tilmelding, så det koster dig intet andet end diskplads at prøve et par modeller.

Trin 1 — Åbn Indstillinger og find panelet Transskription.

Det er der, modellisten bor, delt op i rent engelske og flersprogede, med Parakeet og Cloud ved siden af. Intet er forvalgt som "det bedste."

Du ved, du er det rigtige sted, når du ser modellisten med størrelser ved siden af hvert navn.

Trin 2 — Lav dit første gæt ud fra afsnittet ovenfor.

Engelsk og vil have hastighed: Parakeet. Engelsk og vil have nøjagtighed: Small eller Medium English. Andre sprog: en flersproget model. Knap på RAM: Base.

Du ved, det virkede, når modellen er færdig med at downloade og vises som klar.

Trin 3 — Dikter med den en dag.

Brug den på rigtigt arbejde, ikke en testsætning. Du lærer mere af én eftermiddag med rigtige noter end af nogen benchmark-graf.

Du ved, det er den rigtige model, når du holder op med at lægge mærke til den og bare taler.

Trin 4 — Skift, hvis den er forkert.

For langsom, vælg noget mindre eller Parakeet. Mangler et sprog eller forvrider ord, gå flersproget eller større. To klik, ét download, færdig.

Du ved, det virkede, når den nye model er indlæst, og din næste optagelse bruger den.

Whisper
Den rigtige Whisper-desktopapp på indstillingsskærmen, med panelet Transskription, hvor du vælger og skifter model.

Folk behandler det her som en envejsdør, og det er det ikke. Den første model, jeg nogensinde kørte, var ikke den, jeg beholdt; jeg startede på en flersproget model af vane, indså, at jeg dikterede på engelsk hele dagen, og gik over til Parakeet for hastigheden. Det tog to klik og et download, der varede en kop kaffe. Behandl dit første valg som et udkast.

Den hurtige anbefaling, hvis du sprang til slutningen

Hvis du ikke læser andet, så er det her det. Engelsk, vil have det hurtigt, beskeden maskine: Parakeet. Engelsk, vil have den bedste lokale nøjagtighed: Medium English-modellen, eller Turbo hvis du vil have den nøjagtighed uden ventetiden. Et andet sprog, eller du har brug for oversættelse: en flersproget model — Small til at starte med, Large v3 hvis nøjagtighed betyder noget, og du har 16 GB RAM. Knap på disk eller RAM: Base. Vil have topkvalitets nøjagtighed med webadgang, og du er okay med at bruge din egen OpenAI-nøgle: Cloud. Det er hele kortet.

Uanset hvad du vælger, kommer den rå transskription ud som ét langt løb, og det gælder enhver talemotor, ikke kun vores. Du siger "okay så sæt mødemodellen til medium og mind mig om at teste den store senere," og det er den uden tegnsætning, du får tilbage. Whisper kan køre en AI-oprydning, der retter tegnsætningen og fjerner fyldordene, før teksten lander — sig aktiveringssætningen "Hey whisper," og den rydder op først. På en lokal model kører det gennem Ollama; i cloud-tilstand er det gpt-5-mini som standard.

Thinking...
Forbedrings-overlayet: en valgfri AI-gennemgang rydder op i tegnsætning og fyldord, før teksten lander.

okay så sæt mødemodellen til medium og mind mig om at teste den store senere øh måske parakeet til de hurtige ting

Renset

Okay, så sæt mødemodellen til Medium og mind mig om at teste den store senere — måske Parakeet til de hurtige ting.

Et ærligt forbehold, der hører hjemme i slutningen af enhver "hvilken model"-guide: hvis alt, hvad du nogensinde gør, er at smide en note på 30 ord ind i et tekstfelt, har du måske slet ikke brug for at vælge en model. På Windows åbner den indbyggede Voice Typing-bjælke med Windows-tasten + H, hvor end din markør er — den sætter selv tegn og er gratis, men den går gennem Microsofts servere og kræver internet. På en Mac gør Dictation i Systemindstillinger det samme, og på Apple Silicon kan generel tekst behandles på enheden. Under tærsklen, hvor nøjagtighed og længde begynder at gøre ondt, så brug det, der allerede er på din maskine. Vi begynder at være downloadet værd, når du laver rigtig volumen, vil have offline privatliv, eller har brug for et sprog og en kontrol, de indbyggede ikke tilbyder. Jeg vil ikke bede dig om at installere en app for at diktere en indkøbsliste.

Den "bedste" Whisper-model er den, du holder op med at tænke på. Vælg det kompromis, du går op i, lav et første gæt, og skift med to klik, hvis det irriterer dig. Jeg har leveret systemer, hvor arkitekturdiagrammet var forkert allerede ved anden commit, så jeg har en sund respekt for "prøv det bare, og juster." Dit modelvalg har lavere indsats end det og er meget lettere at fortryde. Begynd et sted. Downloadet er den langsomme del; selve beslutningen burde ikke være det.

Vælg en model og begynd at tale

Lav et første gæt, dikter en dag, skift med to klik, hvis det er forkert. Appen viser dig alle muligheder og lader dig vælge.

Gratis lokal tilstand for enhver konto, der er logget ind. Intet kort kræves for at komme i gang.

Foto af Denys Medvediev

Denys Medvediev

Jeg er ham, der læser vores supportmail, højst sandsynligt ved at diktere svarene.

Videre læsning