Uitleg
Hoe je Whisper lokaal draait
Er zijn twee eerlijke manieren om Whisper op je eigen machine te draaien: de ontwikkelaarsroute via Python en de commandoregel, of een desktopapp die het voor je regelt zonder terminal. Beide houden je audio op je computer. Dit artikel legt beide uit, met wanneer je wat kiest.
Laatst bijgewerkt: juni 2026

Whisper lokaal draaien betekent audio transcriberen op je eigen machine in plaats van op een cloudserver. Er zijn twee routes: installeer OpenAI's open-source Whisper met Python, pip en ffmpeg en draai het vanuit de commandoregel, of gebruik een desktopapp zoals Whisper by Remskill die de modellen inbouwt en dicteert op je cursor zonder terminal. Beide houden audio op het apparaat.
Whisper is OpenAI's open-source spraak-naar-tekst-model, uitgebracht onder de MIT-licentie. De reden dat "Whisper lokaal draaien" zo vaak wordt gezocht, is dat het gratis op je eigen hardware werkt. Geen API-sleutel, geen rekening per minuut, geen audio die je laptop verlaat. Dat is een écht goede deal, en het officiële project op GitHub geeft je het hele pakket.
De adder onder het gras zit in wat "draaien" betekent. De officiële route is een commandoregelgereedschap. Je installeert Python, doet `pip install openai-whisper`, installeert ffmpeg en wijst een terminal naar een audiobestand. Perfect als je een map vol opnames in bulk wilt verwerken. Minder perfect als je eigenlijk gewoon wilt inspreken in je e-mail en de woorden wilt zien verschijnen. Dat zijn twee heel verschillende klussen, en ik behandel ze allebei eerlijk.
Hier zit de splitsing die de meeste pagina's overslaan. "Whisper lokaal draaien" kan twee heel verschillende dingen betekenen, afhankelijk van wie het vraagt. Een ontwikkelaar bedoelt: het model op schijf zetten en bestanden transcriberen vanuit een script. Een schrijver of verkoper bedoelt: stoppen met typen en mijn stem laten omzetten naar tekst in welke app ik ook gebruik.
De echte vraag is dus niet alleen "hoe installeer ik Whisper." Het is: "welke lokale Whisper wil ik — de CLI voor batchverwerking en scripts, of een sneltoets die op mijn cursor dicteert?" De eerste is het officiële OpenAI-project en het is uitstekend in wat het doet. De tweede is een desktopapp die dezelfde modelreeks draait zonder commandoregel. Ik stel beide in, laat je de hardwarevereisten zien en zeg je ronduit wanneer de terminal de betere keuze is.
Wat "Whisper lokaal draaien" eigenlijk betekent

Whisper lokaal draaien betekent dat de transcriptie plaatsvindt op de eigen processor van je computer, niet op een server ergens anders. Je geeft het audio mee, het model zet het om naar tekst en er verlaat niets de machine. Dat is de aantrekkingskracht. Het salarisoverzicht van je baas dat je hardop voorleest, de e-mail naar de school van je kind, een opgenomen klantgesprek — niets daarvan belandt in de logs van een leverancier, omdat je gewoon met je stem wilt typen. Lokaal-eerst of helemaal niet, wat mij betreft, en ik laat dat oordeel verderop bevestigen met een getal.
Whisper zelf is gewoon het model. OpenAI heeft het getraind en de gewichten uitgebracht onder de MIT-licentie, waardoor iedereen het kan downloaden en gebruiken zonder te betalen. Er zijn meerdere modelgroottes, van een kleine met 39 miljoen parameters tot een groot model met 1,55 miljard parameters, en je kiest op basis van hoeveel nauwkeurigheid je nodig hebt versus hoeveel je hardware aankan. Het model is hetzelfde of je het nu vanuit een terminal of in een app draait. Wat verandert, is de schil eromheen.
En die schil is de hele vraag. Er zijn twee van, allebei legitiem. Het officiële OpenAI-commandoregelgereedschap: gratis, scriptbaar, op Python gebaseerd, gebouwd voor het transcriberen van bestanden. En desktopapps die hetzelfde soort model laden achter een gewoon venster, zodat je een toets indrukt en praat in plaats van een commando te typen. De nuchtere waarheid is dat de meeste mensen die dit zoekwoord gebruiken een van die twee willen en nog niet weten welke. De volgende twee secties behandelen precies die twee routes.
De ontwikkelaarsroute: Python, pip en ffmpeg
Als je thuis bent in een terminal, is het officiële project het schoonste antwoord — en het is echt gratis. Je hebt drie dingen nodig: Python (het project richt zich op 3.8 tot 3.11), het Whisper-pakket zelf en ffmpeg, het audiohulpmiddel waarop Whisper leunt om je bestanden te lezen. De installatie bestaat uit twee commando's. `pip install -U openai-whisper` haalt het pakket en zijn PyTorch-afhankelijkheid op. Daarna ffmpeg, wat afhangt van je besturingssysteem — `brew install ffmpeg` op een Mac, `choco install ffmpeg` of `scoop install ffmpeg` op Windows, `sudo apt install ffmpeg` op Ubuntu.
Eenmaal geïnstalleerd, draai je het op een bestand. `whisper audio.mp3 --model turbo` transcribeert de opname en schrijft de tekst weg. Voeg `--language Japanese` toe om automatische taaldetectie over te slaan, of `--task translate` om een niet-Engelstalige opname als Engels te laten uitvoeren. Dat is de kern. Het is een gereedschap waarbij bestand-in, tekst-uit geldt, en het is goed in precies dat. Wijs het 's nachts naar een map met spraakmemo's en het werkt zich door elke opname heen zonder dat je hoeft te kijken.
De hardwarewerkelijkheid is waar verwachtingen op een muur stuiten. De officiële modelgroottes zijn tiny (39M parameters), base (74M), small (244M), medium (769M), large (1,55B) en turbo (809M). Het VRAM dat elk model nodig heeft, vertelt het echte verhaal: ruwweg 1 GB voor tiny, circa 2 GB voor small, rond de 5 GB voor medium en ruwweg 10 GB voor het large-model. Die getallen gelden voor een GPU. Je kunt de kleinere modellen op een CPU draaien, maar een aparte GPU is wat de grotere modellen draaglijk maakt. Ik tekende ooit een nette opzet voor "gewoon large op mijn laptop draaien" en zag het daarna kruipen op geïntegreerde grafische kaart. Het schema klopt altijd niet meer bij de tweede commit. De CPU haalt het uiteindelijk wel; het large-model op een dunne laptop is geen dinsdagmiddagplan.
De route zonder terminal: Whisper in een desktopapp draaien
Als je nooit een opdrachtprompt wilt zien, is dit het andere eerlijke pad. Whisper by Remskill is een desktopapp voor Windows 10 of nieuwer en Apple Silicon Macs die Whisper lokaal voor je draait — de modellen worden in de app gedownload, geen pip, geen ffmpeg, geen Python. Het draait ook Parakeet, een tweede lokale engine waar ik zo op kom. De volledige lokale pipeline is gratis voor elk ingelogd account, zonder dat er bij aanmelding om een betaalmethode wordt gevraagd. Dit is de volgorde.
Stap 1 — Installeer Whisper en meld je aan.
Download via de downloadpagina, installeer en maak een gratis account aan. Geen creditcard. De lokale transcriptiepipeline opent meteen.
Je weet dat het werkte wanneer het tray-icoontje van de app verschijnt en de installatiewizard aanbiedt een model te kiezen.
Stap 2 — Kies een transcriptieroute en download een model.
De app kiest niet voor je. Je krijgt drie opties: Cloud (OpenAI, breng je eigen sleutel mee), Local Parakeet of Local Whisper. Als je dingen op je eigen machine wilt draaien, kies je een van de twee lokale engines en laat je het model in de app downloaden.
Je weet dat het werkte wanneer het model klaar is met downloaden en als gereed wordt weergegeven.
Stap 3 — Bevestig je sneltoets.
Windows gebruikt standaard Ctrl+Space, Mac Command+Option ingedrukt houden als push-to-talk. Op Mac verleen je de Toegankelijkheidsmachtiging wanneer daarom wordt gevraagd; zonder die machtiging kan de plak-op-cursor andere apps niet bereiken.
Je weet dat het werkte wanneer een testopname in elk tekstveld wordt geplakt.
Stap 4 — Zet je cursor ergens en praat.
Klik in een tekstveld — een e-mail, een document, een chatvenster — houd de sneltoets ingedrukt, zeg een zin, laat los. De transcriptie verschijnt waar de cursor staat.
Je weet dat het werkte wanneer je gesproken zin als tekst in het tekstveld staat.
Het trage deel is het downloaden van het model, net als bij de CLI-route — de gewichten zijn de gewichten. Al het andere zijn de vier stappen hierboven. Het verschil is dat er geen terminal staat tussen jou en het model, en in plaats van bestand-in-tekst-uit krijg je een sneltoets die dicteert waar je cursor ook staat. Dezelfde Whisper eronder, een andere taak erboven.
Welk model en welke hardware je nodig hebt
Beide routes vragen je een model te kiezen, en de keuze draait om dezelfde afweging: grotere modellen zijn nauwkeuriger en langzamer, kleinere zijn sneller en lichter. Bij de officiële CLI wil het large-model ruwweg 10 GB VRAM en het small-model circa 2 GB, dus je grafische kaart bepaalt het plafond. In de desktopapp zijn de Whisper-modellen opgesplitst in uitsluitend-Engels en meertalig, met het standaard Engelstalige model van circa 480 MB op schijf en het grootste meertalige model van circa 3 GB. De meertalige builds ondersteunen 99 talen en kunnen naar Engels vertalen; de uitsluitend-Engelstalige builds zijn alleen Engels.
De andere lokale engine van de app is het hier waard om te kennen, omdat hij het hardwareprobleem voor veel mensen omzeilt. Parakeet is NVIDIA's TDT-model, circa 600 MB, en het draait 5 tot 10 keer sneller dan Whisper op een CPU. Het ondersteunt Engels plus 24 andere Europese talen, 25 in totaal, zonder vertaling naar Engels. Als je voornamelijk Engels spreekt en geen krachtige GPU hebt, is Parakeet de snelle lokale keuze. Als je Chinees, Japans, Koreaans of vertaling nodig hebt, is dat het meertalige territorium van Whisper en kan Parakeet daar niet naartoe. Terwijl je spreekt, laat een kleine capsule zien dat er geluisterd wordt:
Het beste wat je voor nauwkeurigheid kunt doen, is helemaal geen groter model. Een USB-microfoon van $20 doet meer voor je transcriptie dan twee modelgroottes omhoog gaan — schone audio klopt altijd beter dan een zwaarder model gevoed met laptopmicrofoongekraak. Geef het geld eerst uit aan de microfoon en maak je daarna pas zorgen over het model. Dat is het enige hardwareadvies dat ik zwart op wit zet en waarvoor ik ga staan.
Lokaal of cloud: welke modus voor welke taak
Als je machine Apple Silicon heeft of je pc van de afgelopen jaren is, probeer dan eerst lokaal. Cloud is de nooduitgang, niet de standaard. Maar de desktopapp laat je kiezen tussen drie paden en ik wil liever dat je goed kiest, dus hier is hoe ze van elkaar verschillen.
Hier is hoe de drie paden van elkaar verschillen, want de app laat je kiezen:
- Lokale Parakeet — NVIDIA's TDT-engine, circa 600 MB, en de snelste lokale optie — 5 tot 10 keer sneller dan Whisper op CPU. Ondersteunt Engels plus 24 andere Europese talen, 25 in totaal. Geen vertaling naar Engels. Als je in het Engels of een andere Europese taal dicteert en snelheid wilt zonder GPU, is dit de volledig offline keuze.
- Lokale Whisper — langzamer dan Parakeet op dezelfde machine, maar de meertalige builds ondersteunen 99 talen en kunnen naar Engels vertalen. De uitsluitend-Engelstalige builds zijn alleen Engels, niet 99 talen. Kies dit voor Chinees, Japans, Koreaans of vertaalwerk, wat Parakeet niet kan. Standaard Engelstalig model is circa 480 MB; het grootste meertalige model is circa 3 GB.
- Cloud (OpenAI, BYOK) — beste nauwkeurigheid en webtoegang, met je eigen OpenAI-sleutel die rechtstreeks door OpenAI wordt gefactureerd. Transcriptie verloopt standaard via gpt-4o-mini-transcribe. Het vereist internet, dus het is het enige pad dat je machine verlaat. De Cloud-functionaliteit maakt deel uit van Whisper Pro.
De nuchtere waarheid is dat lokaal voor dagelijks dicteren prima volstaat, en dat beide lokale engines volledig op je machine draaien zonder dat er iets naar een server wordt gestuurd. Cloud verdient zijn plek wanneer je topnauwkeurigheid wilt op een moeilijke opname, of wanneer je het model een feit van het web wilt laten ophalen midden in een zin. Welke route je ook hebt genomen om Whisper lokaal te draaien — de CLI of de app — het privacyverhaal is hetzelfde: de audio blijft waar hij is. Als offline blijven de enige reden is dat je hier bent, offline spraak-naar-tekst gaat daar dieper op in.
Nauwkeurigheid, leestekens en het opruimen van de ruwe transcriptie
Wat Whisper ook draait, ruwe dictatie komt eruit als één lange zin. Je zegt "oké dus transcribeer de standup-opname en stuur de samenvatting voor de lunch naar het team," en dat is de reeks zonder leestekens die elke spraakmachine je geeft. De officiële CLI geeft je die tekst en stopt daar — opruimen is jouw werk, in een script of met de hand. Prima voor batchtranscriptie waarbij je de uitvoer toch later verwerkt.
De desktopapp kan de opruimstap voor je doen voordat de tekst landt. Zeg de activeringsphrase "Hey whisper" en een AI-stap verwijdert opvulwoorden, herstelt de aaneengeschreven zinnen en voegt leestekens toe. Bij een lokaal model verloopt dat via Ollama op je machine; in cloudmodus is het standaard gpt-5-mini. Het verschil tussen rauw en opgeruimd is het verschil tussen een transcriptie die je nog moet bewerken en eentje die je direct kunt versturen:
okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager
Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.
Nauwkeurigheid zelf is vooral een kwestie van model en microfoon, en de microfoon heb ik al besproken. Aan de modelkant zijn de grotere meertalige Whisper-builds sterk in 99 talen, en cloudmodus voegt OpenAI's topklasse transcriptie toe als een opname echt moeilijk is. Maar voor schone audio en normaal spraakgebruik zijn zelfs de kleine modellen solide, en het najagen van het grootste model op zwakke hardware levert je tragere uitvoer op voor nauwkeurigheid die je waarschijnlijk niet eens opmerkt. Pas het model aan op de taak, niet op de specificatieblad-grootspraak.
Als je belangrijkste doel is de hele dag praten in plaats van typen, is dezelfde spreek-dan-opruim-aanpak wat je in staat stelt om spraak naar tekst op Windows te zetten zonder ooit een terminal te openen, wat het punt is van de route zonder CLI.
Wanneer de commandoregel de juiste keuze is

Soms is de terminal echt het betere gereedschap, en beweren dat dat niet zo is om je een app te verkopen zou oneerlijk zijn. De officiële OpenAI CLI is gratis, MIT-gelicenseerd en gebouwd voor een taak die de desktopapp niet doet: bestanden transcriberen, in bulk, vanuit een script. Als dat jouw klus is, sla dan de app over.
Grijp naar de commandoregel wanneer je een map vol opnames 's nachts in batch wilt verwerken, wanneer je Whisper wilt integreren in een grotere Python-pipeline of een server die je zelf beheert, wanneer je een specifieke modelmarkering nodig hebt die de GUI niet blootstelt, of wanneer je gewoon al in de terminal leeft en geen extra venster wilt openen. Het is ook de juiste keuze op Linux, waarvoor de desktopapp niet beschikbaar is. De CLI draait overal waar Python en ffmpeg draaien. Niets daarvan is kritiek op de app — het is gewoon een ander soort probleem.
Grijp naar de desktopapp wanneer de klus dicteren is, niet bestandsverwerking: je wilt inspreken in je e-mail, je documenten, je chat en de woorden met één toets op de cursor laten verschijnen. De CLI kan niet op je cursor plakken in een ander programma; dat was nooit zijn taak. De eerlijke verdeling is dus: bestanden en scripts, gebruik de terminal; praten in plaats van typen, gebruik de app. De meeste mensen weten, zodra ze helder hebben wat ze wilden, meteen aan welke kant ze staan.
Dezelfde logica van op-apparaat en zonder cloud geldt ook als je dit op een Mac instelt — de handleiding in spraak naar tekst op Mac behandelt de Apple Silicon-kant, inclusief de Toegankelijkheidsmachtiging die de sneltoets nodig heeft.
Whisper draaien op je eigen machine is een van de betere deals in software op dit moment — een model dat OpenAI weggaf, hetzelfde dat grote cloudtools stilletjes aanroepen, op je schijf voor niets. De enige echte beslissing is welke schil bij je dag past. Ik gebruik de CLI wanneer ik bestanden heb om door te worstelen, en de app de andere 95% van de tijd, omdat ik ruwweg veertig keer per uur van programma wissel en voor elk programma geen commando wil typen. Ik heb het grootste deel van deze gids ingesproken met een sneltoets, in een tekstvak dat geen terminal was, met het model dat de hele tijd op dezelfde laptop draaide.
Whisper lokaal draaien zonder terminal
Houd de sneltoets ingedrukt, praat, laat los. Het model draait op je machine en de transcriptie landt precies waar je cursor staat — geen Python, geen pip, geen ffmpeg.
Gratis lokale modus voor elk ingelogd account. Geen creditcard nodig om te beginnen.



