Door Denys Medvediev

Uitleg

Welk Whisper-model moet ik gebruiken

Er is niet één juist Whisper-model — het juiste hangt ervan af waar jij het meest om geeft: snelheid, nauwkeurigheid, taal of schijfruimte. Deze gids koppelt elk meegeleverd model aan een gebruikssituatie, zodat je in ongeveer een minuut kiest, en vertelt je wanneer je Whisper beter kunt overslaan voor Parakeet.

Laatst bijgewerkt: juni 2026

Meerdere gelabelde tuimelschakelaars op een donker paneel, die een keuze tussen opties oproepen

Het beste Whisper-model hangt af van de taak: kies een klein Engels model voor dagelijkse Engelse dictaten, een meertalig model voor andere talen, het grote model voor topnauwkeurigheid, of Turbo voor snelheid die dicht bij de kwaliteit van het grote model komt. Voor vooral Engelse snelheid verslaat Parakeet Whisper. De app toont ze allemaal en laat de gebruiker kiezen.

Deze vraag krijg ik vaker dan welke andere ook, meestal verwoord als "ik heb de app gedownload, en welk model kies ik nu." Het is een terechte vraag, en het eerlijke eerste antwoord is dat er niet één model is dat wint. Er is een model dat wint voor jouw machine, jouw taal, en hoeveel het je uitmaakt om een halve seconde langer te wachten. Daarom kiest de app niet voor jou. Hij toont je de opties en gaat verder uit de weg.

Dat klinkt als een dooddoener totdat je de spreiding ziet. Het kleinste Engelse model is ongeveer 140 MB en draait op een laptop uit 2016. Het beste meertalige model is ongeveer 3 GB en wil 16 GB RAM. Tussen die twee leven nog zes andere keuzes plus een aparte engine genaamd Parakeet. Kies je verkeerd, dan wacht je óf te lang óf transcribeer je in de verkeerde taal. Kies je goed, dan vergeet je dat het model bestaat, en dat is het doel.

Hier is het kader waardoor de hele lijst op zijn plek valt. Elk model is een afweging tussen vier dingen: snelheid, nauwkeurigheid, hoeveel talen het kent, en hoeveel schijf en RAM het opslokt. Je kunt niet alle vier maximaliseren. Een model van 3 GB is nauwkeuriger en kent meer talen, maar het is trager en past niet op een machine met 8 GB. Een model van 140 MB is direct, maar doet alleen Engels en dat ook maar tot op zekere hoogte.

Dus de echte vraag is niet "welk model is het beste." Het is "welke afweging wil ik." Zodra je weet of je een Engels-only dicteerder op een bescheiden laptop bent, een vertaler die over negen talen werkt, of iemand die gewoon de snelste lokale optie wil die bestaat, rolt de keuze er vanzelf uit. Ik loop de Engels-only modellen langs, de meertalige, waar Parakeet ze allemaal verslaat, en de aanbeveling van één regel als je de rest niet wilt lezen.

Begin met één vraag: waar geef je het meest om?

Een verweerde houten wegwijzer met pijlen die in verschillende richtingen wijzen tegen een heldere lucht

Vóór welke modelnaam dan ook, beantwoord één vraag: wat is op dit moment het belangrijkst voor je — snelheid, nauwkeurigheid, taaldekking of schijfruimte? Je mag er maar één als prioriteit kiezen, want de modellen wegen tegen elkaar op. De meeste mensen die hierover piekeren, hebben niet beslist waarvoor ze optimaliseren, en daarom lijkt de lijst verlammend. Dat is hij niet. Het zijn vier korte antwoorden die acht namen dragen.

Wil je snelheid en spreek je Engels, dan kom je uit op een klein Engels model of, waarschijnlijker, op Parakeet. Heb je een andere taal dan Engels nodig, dan zit je in de meertalige familie, of je dat nu leuk vindt of niet. Wil je de meest nauwkeurige transcriptie die je lokaal kunt krijgen en heb je er het RAM voor, dan is dat het grote model. En is schijfruimte krap, dan is het kleinste model je vriend en valt die van 3 GB af. Dat is de hele beslisboom, en de rest van deze gids vult alleen de namen in.

Eén ding doet de app met opzet: hij dringt je nooit een standaard op. Er is geen "aanbevolen"-badge die je naar het model duwt dat ons toevallig goed laat scoren in een benchmark. Je ziet Cloud, je ziet Parakeet, je ziet de acht Whisper-modellen opgesplitst in Engels-only en meertalig, en jij kiest. Als je eerder spraak-naar-tekst op Windows of op Mac hebt ingesteld, is dit hetzelfde scherm, gericht op een andere vraag.

De Engels-only modellen, van minilaptop tot topnauwkeurigheid

Als je alleen ooit in het Engels dicteert, zijn de Engels-only modellen de efficiënte keuze — ze laten de meertalige machinerie vallen en besteden dat budget aan Engels. Er zijn er vier, en ze staan netjes op een rij van "oude laptop" tot "het beste Engels dat je lokaal kunt draaien." Je drukt op de sneltoets, spreekt, laat los, en de transcriptie plakt op je cursor, ongeacht welk model je koos; het enige verschil is snelheid en hoe vaak het een lastig woord raakt. Een klein capsuletje verschijnt terwijl je praat, zodat je weet dat het luistert:

Cancel
De opname-overlay: een klein capsuletje dat verschijnt terwijl je spreekt, zodat je weet dat Whisper luistert.

De kleinste is Base, ongeveer 140 MB. Dat is degene die je kiest op een laptop uit 2016 of een machine met 8 GB waar je dictaten wilt die gewoon werken zonder over RAM na te denken. Daarboven zit Small met ongeveer 480 MB, de gebalanceerde Engelse optie — trager dan Parakeet, maar het ondersteunt vertalen-naar-Engels en hotword-biasing, wat Parakeet niet doet. Dan Medium met ongeveer 1,5 GB, dat 16 GB RAM wil en je de hoogste eenvoudig-Engelse nauwkeurigheid in de familie geeft. (In een openbare benchmark komt het medium Engelse model rond de 3% woordfoutpercentage op schone audio; Small zit dichter bij 5%. Cijfers in de praktijk hangen veel meer af van je microfoon dan van welke van deze je kiest.)

De vierde verwart mensen, dus laat ik er duidelijk over zijn. Turbo, dat het distil-large-v3-model is, is ook ongeveer 1,5 GB en wordt omschreven als 6× sneller dan het grote model met 99% van zijn nauwkeurigheid. Dat klinkt als een gratis lunch, en voor Engels is het dat bijna — het is de keuze als je bijna-beste Engelse nauwkeurigheid wilt zonder de snelheidsstraf van het volledige grote model. De adder onder het gras is het label "Engels-only": deze vier kennen Engels en alleen Engels. Op het moment dat je een tweede taal nodig hebt, heb je deze familie helemaal verlaten, en dat is de volgende sectie.

De meertalige modellen, voor de andere 98 talen

Op het moment dat je audio geen Engels is, wil je een meertalig model. De meertalige builds van Whisper dekken 99 talen met automatische detectie, en ze zijn het enige lokale pad dat spraak naar Engels kan vertalen terwijl het transcribeert. De Engels-only modellen kunnen dat niet, en Parakeet ook niet. Dus als je in het Oekraïens dicteert, een notitie in het Japans opstelt, of wilt dat een Spaanse opname als Engelse tekst uitkomt, is deze familie het antwoord, punt uit.

Er zijn er hier ook vier, en ze spiegelen de Engels-only maten. Small, ongeveer 480 MB, is de snelle meertalige basis — het algemene standaardmodel waarmee de app wordt geleverd, omdat het de veiligste eerste gok is wanneer nog niemand jouw taal kent. Medium, ongeveer 1,5 GB, ruilt snelheid in voor merkbaar betere kwaliteit. Large v3, met ongeveer 3 GB, is de beste nauwkeurigheid die je lokaal kunt krijgen en de juiste keuze voor professioneel meertalig werk, mits je 16 GB RAM hebt om het te voeden. En Large v3 Turbo, ongeveer 1,62 GB, is de snelle meertalige laag — bijna alle kwaliteit van het grote model voor een fractie van de wachttijd.

Een woordje over het aantal talen, want het marketing-veilige getal en het echte verschillen, afhankelijk van wat je bedoelt. De meertalige modellen dekken echt 99 talen; de Engels-only modellen dekken er precies één. Spreek je voornamelijk Engels en stuit je af en toe op een tweede Europese taal, dan heb je een snellere optie dan al deze, en dat is Parakeet — wat het volgende is om te begrijpen, want het is het model dat mensen het vaakst per ongeluk kiezen of per ongeluk overslaan.

Wanneer Parakeet Whisper verslaat, en wanneer niet

Een hardloper in bewegingsonscherpte op een baan, wat snelheid en een voorsprong suggereert

Parakeet is helemaal geen Whisper-model — het is NVIDIA's TDT-engine, ongeveer 600 MB, en het is de snelste lokale optie waarmee de app wordt geleverd, omschreven als 5 tot 10 keer sneller dan Whisper op CPU. Heb je een oudere of laptop-achtige CPU zonder vrije GPU, dan is dat snelheidsverschil het verschil tussen dictaten die direct aanvoelen en dictaten die je laten wachten. Voor dagelijks Engels werk is Parakeet degene waar ik als eerste naar grijp.

Het dekt Engels plus 24 andere Europese talen — 25 in totaal — dus voor veel Europese gebruikers is het ruim voldoende. Wat het bewust niet doet, is het Whisper-only spul: geen vertalen-naar-Engels, geen hotword-biasing, geen prompt voor aangepast vocabulaire. Is je werk eentalig Engels (of een van die 24 Europese talen) en wil je het gewoon snel, dan wint Parakeet en is de vraag beslecht. Er staat meer over in de Parakeet-modeluitsplitsing als je het volledige plaatje wilt.

Whisper wint op het moment dat je buiten dat hokje stapt. Chinees, Japans of Koreaans nodig? Meertalige Whisper, want Parakeet spreekt ze niet. Een opname naar het Engels vertalen? Whisper meertalig, het enige lokale pad dat het doet. Wil je het model sturen naar een lijst met productnamen of jargon zodat het ze niet meer verhaspelt? Whisper, via hotwords. De vuistregel: Parakeet voor Engelse snelheid, Whisper voor talen, vertaling en controle. De app levert beide omdat geen van beide voor iedereen het juiste antwoord is.

Grootte, snelheid en nauwkeurigheid: hoe de afweging echt werkt

Het helpt om de drie krachten naast elkaar te zien, want elk model is gewoon een ander punt op dezelfde driehoek. Grotere bestanden zijn nauwkeuriger en trager; kleinere bestanden zijn sneller en lichter voor het RAM; en de speciale engines buigen de curve. Hier is de eerlijke versie van elke kracht, want de app laat je kiezen en ik wil liever dat je kiest in de wetenschap van de kosten.

Drie manieren om de rij te lezen, afhankelijk van waar de schoen wringt:

  • Als snelheid het probleem isgrijp eerst naar Parakeet — ongeveer 600 MB en 5 tot 10 keer sneller dan Whisper op CPU. Op een machine zonder GPU evenaart niets lokaals het voor dagelijks Engels. De kosten zijn geen vertalen-naar-Engels en geen hotwords.
  • Als nauwkeurigheid of taal het probleem isga groter in de Whisper-familie. Large v3 met ongeveer 3 GB is de beste lokale nauwkeurigheid en dekt 99 talen, maar het wil 16 GB RAM. Turbo-varianten geven je bijna die kwaliteit met veel minder wachten. Small en Medium zijn het verstandige midden.
  • Als schijfruimte of RAM het probleem isblijf klein (Base met ongeveer 140 MB), of sla lokaal helemaal over en gebruik de Cloud-modus, die op elke hardware draait omdat het slechts een netwerkoproep naar OpenAI is met je eigen sleutel. Cloud is onderdeel van Whisper Pro en heeft internet nodig.

De saaie waarheid is dat voor de meeste mensen, op een recente machine, het verschil tussen de middelgrote modellen kleiner is dan het verschil dat je microfoon maakt. Een usb-microfoon van $20 doet meer voor de nauwkeurigheid dan de sprong van Small naar Large — de openbare Whisper-benchmarks bevestigen dit, en ik heb het meer dan eens op mijn eigen bureau zien gebeuren. Dus pieker op dag één niet over Medium versus Large. Kies iets dat in je RAM past, begin met dicteren, en upgrade het model later als een woord steeds verkeerd uitkomt. Het model dat je echt zult houden, is het model dat snel genoeg is dat je vergeet dat het er is.

Probeer er één, en wissel in twee klikken als hij niet klopt

Hier is het deel dat de druk van de hele beslissing haalt: je gaat geen huwelijk aan met het model dat je als eerste kiest. Wisselen is twee klikken in Instellingen, en de enige echte kosten zijn de download voor het model waar je naartoe gaat. Dus de juiste strategie is niet om een uur lang onderzoek te doen — het is om een redelijke eerste gok te maken, er een dag mee te dicteren, en te wisselen als hij je irriteert. De hele lokale pijplijn is gratis voor elk ingelogd account, zonder dat er bij aanmelding om een betaalmethode wordt gevraagd, dus een paar modellen uitproberen kost je niets behalve schijfruimte.

Stap 1 — Open Instellingen en vind het Transcriptie-paneel.

Daar staat de modellijst, opgesplitst in Engels-only en meertalig, met Parakeet en Cloud ernaast. Niets is vooraf geselecteerd als "de beste."

Je weet dat je op de juiste plek bent als je de modellijst ziet met de groottes naast elke naam.

Stap 2 — Maak je eerste gok op basis van de sectie hierboven.

Engels en je wilt snelheid: Parakeet. Engels en je wilt nauwkeurigheid: Small of Medium English. Andere talen: een meertalig model. Krap aan RAM: Base.

Je weet dat het gelukt is als het model klaar is met downloaden en als gereed wordt getoond.

Stap 3 — Dicteer er een dag mee.

Gebruik het op echt werk, niet op een testzin. Je leert meer van één middag echte notities dan van welke benchmarkgrafiek dan ook.

Je weet dat het het juiste model is als je het niet meer opmerkt en gewoon praat.

Stap 4 — Wissel als het niet klopt.

Te traag, kies iets kleiners of Parakeet. Mist een taal of verhaspelt woorden, ga meertalig of groter. Twee klikken, één download, klaar.

Je weet dat het gelukt is als het nieuwe model laadt en je volgende opname het gebruikt.

Whisper
De echte Whisper-desktopapp op het instellingenscherm, met het Transcriptie-paneel waar je modellen kiest en wisselt.

Mensen behandelen dit als een deur die maar één kant op gaat, en dat is het niet. Het eerste model dat ik ooit draaide, was niet het model dat ik hield; ik begon uit gewoonte met een meertalig model, besefte dat ik de hele dag in het Engels dicteerde, en ging over op Parakeet voor de snelheid. Kostte twee klikken en een download ter waarde van een kop koffie. Behandel je eerste keuze als een concept.

De snelle aanbeveling, als je naar het einde sprong

Lees je niets anders, dan komt hier het belangrijkste. Engels, je wilt het snel, bescheiden machine: Parakeet. Engels, je wilt de beste lokale nauwkeurigheid: het Medium Engelse model, of Turbo als je die nauwkeurigheid wilt zonder het wachten. Een andere taal, of je hebt vertaling nodig: een meertalig model — Small om mee te beginnen, Large v3 als nauwkeurigheid telt en je 16 GB RAM hebt. Krap op schijf of RAM: Base. Wil je topnauwkeurigheid met webtoegang en vind je het prima om je eigen OpenAI-sleutel te gebruiken: Cloud. Dat is de hele kaart.

Welke je ook kiest, de ruwe transcriptie komt eruit als één aaneengesloten lap tekst, en dat geldt voor elke spraakengine, niet alleen de onze. Je zegt "oké zet het meeting-model op medium en herinner me eraan om het grote later te testen," en dat is de ongeïnterpungeerde muur die je terugkrijgt. Whisper kan een AI-opschoningsslag draaien om de interpunctie te repareren en de stopwoorden te schrappen voordat de tekst landt — zeg de activeringszin "Hey whisper" en het maakt het eerst netjes. Op een lokaal model loopt dat via Ollama; in de cloudmodus is het standaard gpt-5-mini.

Thinking...
De verbeter-overlay: een optionele AI-slag schoont interpunctie en stopwoorden op voordat de tekst landt.
Ruw

oké zet het meeting-model op medium en herinner me eraan om het grote later te testen eh misschien parakeet voor het snelle werk

Opgeschoond

Oké, zet het meeting-model op Medium en herinner me eraan om het grote later te testen — misschien Parakeet voor het snelle werk.

Eén eerlijke kanttekening die thuishoort aan het einde van elke "welk model"-gids: als alles wat je ooit doet het droppen van een notitie van 30 woorden in een tekstveld is, hoef je misschien helemaal geen model te kiezen. Op Windows opent de ingebouwde Voice Typing-balk met Windows-toets + H waar je cursor ook staat — hij plaatst zelf interpunctie en is gratis, al loopt hij via Microsofts servers en heeft hij internet nodig. Op een Mac doet Dictation in Systeeminstellingen hetzelfde, en op Apple Silicon kan algemene tekst op het apparaat zelf worden verwerkt. Onder de drempel waar nauwkeurigheid en lengte pijn beginnen te doen, gebruik wat al op je machine staat. Wij beginnen de download waard te worden wanneer je echt volume draait, offline privacy wilt, of een taal en controle nodig hebt die de ingebouwde tools niet bieden. Ik ga je niet vertellen een app te installeren om een boodschappenlijstje te dicteren.

Het "beste" Whisper-model is het model waar je niet meer over nadenkt. Kies de afweging waar jij om geeft, maak een eerste gok, en wissel in twee klikken als hij je irriteert. Ik heb systemen uitgeleverd waar het architectuurdiagram bij de tweede commit al fout was, dus ik heb een gezond respect voor "probeer het gewoon en stel bij." Je modelkeuze staat lager op het spel dan dat, en is een stuk makkelijker terug te draaien. Begin ergens. De download is het trage deel; het beslissen zou dat niet moeten zijn.

Kies een model en begin met praten

Maak een eerste gok, dicteer een dag, wissel in twee klikken als hij niet klopt. De app toont je elke optie en laat jou kiezen.

Gratis lokale modus voor elk ingelogd account. Geen kaart nodig om te starten.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze support-mail leest, hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen