Door Denys Medvediev

Vergelijking

Whisper vs Google Speech-to-Text

Google Cloud Speech-to-Text is een ontwikkelaars-API die je vanuit code aanroept en per minuut betaalt. Whisper, het open-source OpenAI-model waarop onze app op je eigen machine draait, is gemaakt voor iemand die dicteert in Word of Slack. Het ene is leidingwerk voor engineers. Het andere is een dicteertool voor je desktop.

Laatst bijgewerkt: juni 2026

Verlichte serverracks die blauw oplichten in een modern datacenter, een verwijzing naar een cloud-transcriptie-API

Google Cloud Speech-to-Text is een ontwikkelaars-API. Je roept hem aan vanuit code, en hij rekent per minuut audio af die naar Googles servers wordt gestuurd. Whisper, het open-source OpenAI-model waarop onze app op je eigen machine draait, is gemaakt voor iemand die dicteert in Word of Slack. Het ene is leidingwerk voor engineers. Het andere is een dicteertool voor je desktop.

Google Speech-to-Text is een cloud-API voor ontwikkelaars die transcriptie inbouwen in apps en servers. Hij streamt, verwerkt lange bestanden in batches, dekt veel talen en rekent per minuut af. Whisper-in-onze-app is voor een eindgebruiker die privé, offline en gratis op de desktop wil dicteren. Schrijf je code en heb je transcriptie op grote schaal nodig, dan wint Google. Wil je praten en de tekst bij je cursor zien verschijnen, dan wint Whisper. Verschillende categorieën.

Ik run Whisper by Remskill, een app die het open-source Whisper-model omzet in desktopdictatie: sneltoets, spreken, tekst verschijnt waar je cursor ook staat. Dus ik heb hier een belang. Toch probeer ik eerlijk te blijven, want het eerlijke antwoord is het nuttigste. De meeste mensen die "Whisper vs Google Speech-to-Text" in een zoekbalk typen, staan op het punt twee dingen te vergelijken die niet in dezelfde categorie thuishoren.

Google Speech-to-Text is een API, geen app die je opent

Het eerste dat duidelijk moet zijn: Google Cloud Speech-to-Text heeft geen venster. Er is geen icoon in je dock, geen sneltoets, geen "druk om te praten". Het is een dienst waarmee je software over het netwerk praat. Je stuurt er audio naartoe met code; het stuurt tekst terug. Googles eigen documentatie omschrijft het als synchrone, streaming en asynchrone herkenning die via een API wordt gebruikt.

Dat ontwerp is goed voor waar het voor bedoeld is. Streaming-herkenning geeft tussentijdse resultaten in realtime terug, wat handig is als je een functie voor live ondertiteling of een spraakcommando voor je eigen product bouwt. Asynchrone herkenning verwerkt lange opnames: je uploadt audio, Google ploetert er op de achtergrond doorheen, en jij vraagt het resultaat op zodra het klaar is. Google documenteert dit batchpad als geschikt voor audio van maximaal acht uur in één opdracht. Dat is een echte sterke kant. Heb je een magazijn vol opgenomen gesprekken die 's nachts getranscribeerd moeten worden, dan is een dicteerapp voor eindgebruikers het verkeerde gereedschap en is een API zoals die van Google het juiste.

Het ondersteunt een lange lijst talen en regionale taalvarianten, de BCP-47-codes die engineers kennen, zoals en-US, en-GB en es-MX. Ik ga hier geen exact aantal talen of een prijs per minuut afdrukken, en ik zou voorzichtig zijn met elk artikel dat dat wel doet. Googles prijs- en taalpagina's veranderen, en de cijfers die rondzweven op het web zijn niet allemaal te herleiden tot een primaire bron waar ik achter zou staan. Wat ik wel zonder voorbehoud kan zeggen: het is gebruiksgebaseerde cloudfacturatie. Je betaalt voor wat je verstuurt, je audio gaat naar Googles servers, en er is geen gratis lokale modus.

Twee mensen, twee verschillende problemen

Dit is de helderste manier die ik heb gevonden om te bepalen aan welke kant van de streep je staat. Stel je twee mensen voor.

De eerste is een ontwikkelaar. Ze bouwt een klantenservicetool die opgenomen gesprekken omzet in doorzoekbare tekst. De transcriptie gebeurt op haar server, binnen haar code, zonder dat iemand toekijkt terwijl het draait. Ze wil een endpoint waar ze audio naartoe kan sturen en een JSON-antwoord dat ze in een database kan opslaan. Ze gaat de transcriber nooit "openen". Die zit in het product dat ze aan haar eigen klanten levert. Dat is de taak van Google Speech-to-Text. De API is het onderdeel; haar product is de app.

De tweede is een schrijver. Of een advocaat die in de trein een stuk opstelt, of een student die een college omzet in aantekeningen, of een ouder die de e-mail van een leraar beantwoordt terwijl het eten op het vuur staat. Hij heeft geen server. Hij heeft een cursor die knippert in een document, en hij praat liever dan dat hij typt. Hij wil op één toets drukken, de zin uitspreken en die zien verschijnen in het bestand dat hij al open heeft. Hij gaat nooit code schrijven, en dat hoeft ook niet. Dat is onze taak.

De verwarring in het zoekwoord komt doordat "Whisper" twee dingen tegelijk betekent. Google STT is een afgewerkte clouddienst. Whisper is een model, en een model is geen app. Iemand moet de app eromheen bouwen: de microfoon aansluiten, de sneltoets bedraden, de tekst bij de cursor plakken. Dat is het deel dat wij hebben gedaan.

Whisper-in-onze-app is desktopdictatie, en het draait op jouw machine

Whisper is het spraakmodel dat OpenAI open-source heeft gemaakt. Onze app draait het lokaal: pure Rust, geen Python-sidecar, geen server in de keten voor gewone dictatie. Je drukt op een sneltoets (standaard Ctrl+Space op Windows, volledig herindeelbaar), je praat, je laat los, en de tekst landt waar je cursor al staat. Geen code. Geen API-sleutel voor het lokale pad. De audio verlaat de laptop nooit.

Dat laatste deel is waar het allemaal om draait, en het is precies het deel dat niet opduikt in een functietabel.

Whisper
De live Whisper by Remskill-app — zijbalk, transcriptiepaneel en AI-instructiekaarten. Dit is de echte interface, geen screenshot.

Op het lokale niveau kies je uit acht Whisper-modellen, van ongeveer 140 MB tot 3 GB; je ruilt downloadgrootte en CPU-tijd in voor nauwkeurigheid. Vier zijn afgestemd op Engels; de vier meertalige dekken een breed scala aan talen en kunnen spraak naar het Engels vertalen in hetzelfde gebaar, iets wat Googles API niet in één dicteerdruk samenvoegt en wat de meeste consumententools helemaal overslaan. Er is ook Parakeet, een aparte NVIDIA-engine die 5 tot 10 keer sneller is dan Whisper op CPU voor Engels en 24 andere Europese talen, en die draait zonder GPU.

De hele lokale pijplijn is gratis voor elke ingelogde gebruiker, zonder kaart bij aanmelding: elk model, AI-opschoning via Ollama, geschiedenis, eigen hotwords, alles. Wil je het cloudoppervlak, dan is dat Whisper Pro: OpenAI-cloudtranscriptie (gpt-4o-mini-transcribe of gpt-4o-transcribe), AI-opschoning in de cloud en zoeken op het web, allemaal op je eigen OpenAI-sleutel, waarbij Remskill geen cent meepakt. Dat is optioneel. De standaard is lokaal en gratis.

De saaie waarheid is dat voor één alinea gedicteerde tekst je laptop al een microfoon en een CPU heeft. Daar is geen datacenter voor nodig.

De kostenmodellen hebben niet dezelfde vorm

Hier houdt de appels-met-appels-vergelijking op. Een cloud-API rekent per minuut audio af. Een lokale dicteerapp rekent hooguit één keer af.

Ik heb het per-minuut-model één keer zien toeslaan. Een team waar ik mee werkte had een freelancer een intern prototype voor "AI-dictatie" laten bouwen dat voor elke uiting een cloud-API aanriep. Een "slimme retry"-routine werd te fanatiek en transcribeerde dezelfde standup-opnames vier keer over. De teammanager opende aan het einde van het kwartaal het kostenoverzicht en vond een rekening met vijf cijfers. De oplossing van de freelancer was "we moeten de prompt optimaliseren". De oplossing van de CFO was "of we moeten niet betalen voor cloudtranscriptie van vergaderingen waar al notulen van zijn."

Dat is geen aanval op Googles API. Gebruikt zoals bedoeld, door engineers die de meter in de gaten houden, is hij prima geprijsd voor productiepijplijnen. Het is een aanval op het gebruik van een betaalde clouddienst voor iets wat een lokale app gratis doet. Cloud-only transcriptie is een privacyramp die wacht om gefactureerd te worden. Je conceptcontracten, je salarisspreadsheet, de e-mail aan de school van je kind, allemaal van je machine af omdat je wilde praten in plaats van typen. Voor iemand die de hele dag dicteert is lokaal-eerst de juiste standaard, en de meter begint nooit te lopen.

Naast elkaar

Hier is de eerlijke indeling. Let op: de tabel gaat niet echt over "welke beter is". Hij gaat over "in welke categorie je zit".

Categorievergelijking tussen Google Speech-to-Text en Whisper in onze app
FunctieGoogle Speech-to-TextWhisper (in onze app)
ProducttypeCloud-ontwikkelaars-APIDesktop-dicteerapp
Hoe je het gebruiktRoep het aan vanuit je eigen codeDruk op een sneltoets en praat
Waar je audio naartoe gaatNaar Googles serversBlijft op je machine (lokale modus)
KostenmodelGebruiksgebaseerde cloudfacturatie, per minuutGratis lokaal niveau; één app, zie prijspagina
Werkt offlineNeeJa (lokale modellen)
Voor wie het isOntwikkelaars die transcriptie inbouwen in apps of serversIemand die in welke app dan ook dicteert
InstallatieCloudproject, inloggegevens, codeInstalleren, inloggen, een model kiezen

Geen specifieke Google-cijfers in die tabel, met opzet. Het gaat om de vorm: server vs machine, code vs sneltoets, meter vs gratis. Wijzen die rijen je richting de API, mooi, lees dan vooral het volgende deel. Wijzen ze richting de app, dan staat de downloadknop onderaan.

Wanneer Google Speech-to-Text het juiste gereedschap is

Ik zou in een paar duidelijke gevallen naar Googles API grijpen, niet naar onze app. Dit is het deel dat AI-artikelen overslaan, dus hier is het zonder omhaal.

Je bouwt een product, je dicteert niet in een product

Ben je een engineer die transcriptie inbouwt in een backend (een analysepijplijn voor een callcenter, een functie voor automatische ondertiteling, een spraakinterface voor je eigen software), dan wil je een API, en die van Google is volwassen. Onze desktop-app kan niet vanaf je server worden aangeroepen. Hij heeft geen endpoint, geen SDK, geen manier voor je code om er tekst aan te vragen. Dat is met opzet; het is een app voor een persoon, geen dienst voor een programma.

Je moet lange opnames op grote schaal in batches verwerken

Acht uur audio in één asynchrone opdracht is precies waar Googles asynchrone herkenning voor gebouwd is. Heb je tienduizend opgenomen gesprekken die er 's nachts doorheen moeten, dan wil je een dienst die opschaalt op andermans servers, niet een laptop die één model tegelijk draait.

Je hebt realtime streaming nodig binnen je eigen code

Moet je applicatie tussentijdse resultaten tonen terwijl iemand spreekt (live ondertiteling bij een videogesprek dat je bouwt), dan is streaming-herkenning daar het API-oppervlak voor. Onze app plakt een afgerond blok tekst nadat je de toets loslaat, wat het verkeerde gedrag is voor een live-ondertitelfunctie en het juiste voor dictatie.

Je hebt programmatische controle en auditlogs nodig

Quota per verzoek, facturatie aan de serverkant, een centraal overzicht van wie wat heeft getranscribeerd: een beheerde cloud-API geeft je het operationele raamwerk dat een gereguleerde of grootschalige uitrol nodig heeft. Een desktop-app houdt dat op de machine van het individu, wat precies de tegenovergestelde afweging is.

Past een van die situaties bij jou, sluit dan dit tabblad en open de documentatie van Google. Wij doen niet aan serverkant. Dat is geen valse bescheidenheid; het is een ander product.

Wanneer Whisper-in-onze-app het juiste gereedschap is

De andere kant. Je bouwt geen software. Je probeert te stoppen met typen.

Je wilt e-mails, aantekeningen, berichten en codecommentaar dicteren en ze laten verschijnen in welke app je ook al gebruikt. Je hebt liever dat je audio niet naar iemands servers gaat. Je wilt geen meter per minuut die loopt terwijl je nadenkt. Je wilt gratis kunnen beginnen, en je wilt geen regel code schrijven om het te gebruiken.

Pasted
De uitgeleverde overlay na het dicteren — hoe één gratis, volledig lokale dictatie eruitziet op het moment dat ze klaar is.

Kies Parakeet voor snelheid en Engels; kies een meertalig Whisper-model wanneer je vertaling, minder gangbare talen of fijnere controle nodig hebt. De lokale pijplijn kost niets; het Cloud-niveau (OpenAI-transcriptie met je eigen sleutel) is optioneel en geprijsd op de prijspagina.

Voor de offline, lokale, gratis kant van deze vraag heb ik de bredere afwegingen uitgeschreven in lokale vs cloud-transcriptie. En als je kiest tussen de twee lokale engines die we leveren, Whisper vs Parakeet loopt door snelheid versus taaldekking heen.

Als je maar één ding onthoudt

Google Speech-to-Text is een API voor engineers; Whisper-in-onze-app is dictatie voor mensen. Vragen welke "beter" is, is als vragen of een automotor beter is dan een auto. Hangt er helemaal van af of je het ding bouwt of erin rijdt.

Kies degene die bij jouw taak past

Is jouw taak dicteren in de apps die je al gebruikt, privé, offline en gratis om te beginnen, installeer dan Whisper en druk op een toets. Is jouw taak transcriptie inbouwen in software, dan weet je al waar Googles documentatie staat.

Voor altijd gratis lokale transcriptie. Geen betaalmethode bij aanmelding. Het Cloud-niveau is optioneel en werkt met je eigen sleutel.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze supportmail leest, hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen