Door Denys Medvediev

Vergelijking

Speechmatics-alternatief: API of app?

Speechmatics is een spraak-naar-tekst-API voor ontwikkelaars die je in je eigen product inbouwt. Whisper is een kant-en-klare desktopapp die je met een sneltoets opstart en waarmee je dicteert. Andere categorie, andere koper — en toch gooit de zoekmachine ze steeds op één hoop.

Laatst bijgewerkt: juni 2026

Regels code op een donker scherm, als verwijzing naar de ASR-engine voor ontwikkelaars die een alternatief vervangt

Een Speechmatics-alternatief hangt af van wat je eigenlijk wilt vervangen. Speechmatics is een spraak-naar-tekst-API voor ontwikkelaars die je in je eigen product integreert. Als dat is wat je nodig hebt, zijn de echte alternatieven AssemblyAI, Deepgram, Google Cloud Speech-to-Text, AWS Transcribe en OpenAI's open-source Whisper. Ongeveer vier op de vijf mensen die hierop zoeken, willen een API voor in hun code — geen tool om te installeren en met een sneltoets te bedienen. Whisper by Remskill is het tweede soort: een desktop-dicteer-app die je gewoon gebruikt, geen dienst die je vanuit een backend aanroept. Druk op een systeembrede sneltoets, spreek, en de tekst verschijnt bij je cursor in elke app — lokaal, zonder teller op audiominuten. De eerlijke eerste stap is dus uitzoeken bij welke groep je hoort, vóór je verder leest.

De meeste mensen die zoeken op "Speechmatics alternatief" zijn ontwikkelaars. Zo'n vier op de vijf willen een API voor in hun code — geen tool om te installeren en met een sneltoets te bedienen. Dat is hier relevant, want Whisper by Remskill is juist dat tweede soort: een desktop-dicteer-app die je gebruikt, geen dienst die je vanuit je backend aanroept.

Ik maak Whisper by Remskill. Ik ga niet doen alsof het kan concurreren met een enterprise-ASR-engine, want dat klopt niet. Andere categorie, andere koper. Wat ik wél kan doen, is je eerlijk vertellen welk gereedschap voor welke klus past, en waar de scheidslijn ligt. De vervelende waarheid is dat de meeste "alternatief"-lijsten deze stap overslaan, waardoor een ontwikkelaar een dicteer-app downloadt die helemaal geen API heeft.

Wat Speechmatics is: een ASR-engine voor ontwikkelaars

Kleurrijke programmacode met onscherpe achtergrond, als illustratie van een door een ontwikkelaar geïntegreerde spraakherkenningsengine

Speechmatics omschrijft zichzelf als spraak-API's die voice-AI aandrijven. Je integreert het in je eigen product via de API. Het biedt realtime transcriptie met sub-secondelatentie en batchverwerking, en je kunt het inzetten als cloud-API, on-device of on-premises. Volgens eigen cijfers ondersteunt het 55+ talen voor transcriptie en 69 taalparen voor AI-vertaling.

De kopers zijn teams die transcriptie inbouwen in iets groters: callcenter-analyses, live ondertiteling, medische of juridische transcriptiepijplijnen, voice-agents. Dat is allemaal iets anders dan één persoon die een e-mail wil beantwoorden door in te spreken.

De prijsstructuur vertelt hetzelfde verhaal. Speechmatics werkt op basis van gebruik, betaald per audio-uur. De gratis laag geeft je 2.400 minuten — 40 uur — spraak-naar-tekst per maand, twee gelijktijdige realtime sessies, zonder creditcard om te starten. Pro begint vanaf $0.24 per audio-uur en heeft een plafond van 6.000 uur per maand. Enterprise is maatwerk, met on-premises implementatie en aangepaste modellen. Dat is een teller, en een teller is precies wat je wilt als je duizenden uren door een product verwerkt. Het is precies wat je niet wilt als je een boodschappenlijstje indicteer.

Het verschil: een engine om mee te bouwen versus een app om te gebruiken

Bovenaanzicht van handen op een laptop aan een bureau, als contrast tussen een gebruiksklare app en een ruwe API

Hier is de scheidslijn, één keer helder getrokken.

Een engine zoals Speechmatics is iets dat een ontwikkelaar integreert. Je stuurt er audio naartoe via een API, krijgt tekst terug, en bouwt zelf de knoppen, de interface, de opslag en de facturering. Het is ruw materiaal.

Een kant-en-klare app installeer en gebruik je gewoon. Whisper by Remskill is het tweede soort. Het is geen spraak-naar-tekst-API, SDK of engine. Je kunt het niet inbouwen in je eigen product, aanroepen vanuit code of er audio programmatisch doorheen sturen. Er is geen endpoint. Het is een desktopapplicatie aangestuurd door een systeembrede sneltoets.

Eén naam zorgt altijd voor verwarring, dus laat me dit meteen rechtzetten. "OpenAI Whisper" — het open-source spraakmodel dat je zelf kunt hosten en als API kunt aanroepen — duikt op in elke Speechmatics-alternatieflijst. Dát is de ontwikkelaarsoptie. Het is niet hetzelfde als Whisper by Remskill, de desktopapp die ik maak. Zelfde woord, andere categorie. Als je een model wilt hosten, zoek je OpenAI's open-source Whisper. Als je een kant-en-klaar gereedschap wilt om mee te dicteren, lees dan verder.

Als je een API nodig hebt om op te bouwen, kijk dan hier

Als je hier bent voor een engine, stuur ik je liever naar de juiste dan dat ik je middag verspil. De echte spraak-naar-tekst-API's in deze categorie — de tools die Speechmatics voor een ontwikkelaar daadwerkelijk vervangen — zijn:

  • AssemblyAIspraak-naar-tekst-API met batch en realtime, gericht op productteams.
  • Deepgramstreaming-API met lage latentie, populair voor voice-agents.
  • Google Cloud Speech-to-Textde hyperscaler-optie, brede taalondersteuning.
  • AWS Transcribehetzelfde idee, op de AWS-rekening.
  • OpenAI's open-source Whisperhost het model zelf en draai het lokaal.
  • Gladiaeen nieuwere transcriptie-API in dezelfde markt.

Dat zijn allemaal API's en engines die je in je eigen code inbouwt. Ik ga geen nauwkeurigheidspercentages of prijzen voor ze verzinnen — zo komen alternatievenlijsten er fout uit te zien, met zelfverzekerde cijfers van een prijspagina die vorig kwartaal is gewijzigd. Waar het om gaat, is de categorie: als je een teller en een endpoint nodig hebt, is een van deze je antwoord, en Whisper by Remskill niet.

Wat Whisper in plaats daarvan doet: sneltoets, spreken, plakken

Dan nu de andere groep — mensen die geen code schrijven en gewoon willen praten in plaats van typen.

Whisper by Remskill is dictaat-first. Je drukt op een systeembrede sneltoets, spreekt, en de transcriptie verschijnt bij je cursor in de app waar je al mee bezig bent. Geen uploadstap, geen projectbibliotheek, geen API om te leren. De standaard sneltoets is Ctrl+Space op Windows en Command+Option — een ingedrukt houden om te praten — op macOS. Je kunt hem aanpassen.

Omdat het direct bij je cursor typt, werkt het overal — in je e-mailclient, een document, een chatvenster, een code-opmerking — zonder dat iemand voor elke app een integratie hoeft te bouwen. Dat is de hele truc, en het is precies het tegenovergestelde van een engine. Een engine wacht totdat je code hem aanroept. Dit wacht totdat jij een toets indrukt. De eerste keer dat ik het aan mijn vrouw liet zien, dicteerde ik een boodschappenlijstje rechtstreeks in een berichtje aan haar. Ze antwoordde: "Goed, maar je bent de melk vergeten." De app deed het prima. Mijn geheugen niet.

De meertalige modellen ondersteunen 90+ talen voor live spraak, en de niet-Engelstalige Whisper-modellen kunnen gesproken invoer onderweg naar het Engels vertalen. Dat is gesproken woord naar Engels — niet de 69-paar tekstvertaaldienst die Speechmatics verkoopt. Andere klus, kleinere scope, eerlijk over uitgesproken.

Whisper
De echte Whisper-app — klik rond in Instellingen en het transcriptiepaneel. Dit is de live interface, geen screenshot.

Lokaal en offline: geen audio-uren, geen gebruiksrekening

Koperen hangslot in een hand, als symbool voor audio die op het apparaat blijft bij lokale offline transcriptie

In de lokale modus transcribeert Whisper volledig op je eigen machine. De audio verlaat het apparaat nooit, er is geen netwerkverbinding nodig voor transcriptie en er is geen teller op audio-uren. De volledige lokale pijplijn — modellen, on-device AI-opschoning, geschiedenis, aangepaste woorden, de sneltoets — is gratis voor elke ingelogde gebruiker, zonder creditcard bij aanmelding.

Ik wil eerlijk zijn, want eerlijkheid is hier het punt. Speechmatics heeft ook een gratis laag — een royale 40 uur per maand — en biedt ook on-premises en on-device implementatie voor ontwikkelaars. Dus "gratis" en "offline" zijn geen magische woorden die alleen Whisper bezit. Het echte verschil zit in de vorm. Speechmatics geeft een ontwikkelaar een engine die ze meten en integreren. Whisper geeft een individu een kant-en-klare app zonder integratiewerk en zonder uurtarief.

Dit is de enige sterke mening die ik in dit artikel geef: facturering per audio-uur past niet bij iemand die gewoon wil dicteren. Bij $0.24 per uur na de gratis 40 uur heeft een teller alle zin als je een product erdoorheen laat lopen en de gebruiksdata nodig hebt. Het heeft geen enkele zin als het "product" jijzelf bent, achter een bureau, e-mail aan het beantwoorden. Je moet niet hoeven nadenken over een klok die loopt terwijl je praat. Een vaste app-prijs, zonder teller, past veel beter bij dat leven. Als het je iets kan schelen dat je dictaat niet in de cloud terechtkomt, is dat hetzelfde instinct dat achter privé, on-device spraak-naar-tekst zit.

Wanneer Speechmatics het juiste gereedschap is

Serverrekken in een datacenter, als vertegenwoordiging van grootschalige enterprise-spraakpijplijnen die een API-engine bedient

Ik zou niet weggaan bij Speechmatics als ik er een product op had gebouwd. Als je transcriptie op schaal in je eigen applicatie moet inbouwen — een callcenter-analysedashboard, live ondertiteling, een medische of juridische transcriptiepijplijn, een voice-agent — dan is Speechmatics of een van de echte API-alternatieven de juiste keuze, en Whisper niet. Hetzelfde geldt als je strikte on-premises datasouvereiniteit nodig hebt voor meerdere gelijktijdige sessies, of zijn 69 vertaalparen. Whisper heeft geen antwoord op dat alles. Het is een single-user desktop-dicteer-app, punt. De verkeerde categorie kiezen kost je een volledige herbouw, geen terugbetaling.

Wat het kost om gewoon te dicteren

Whispers lokale dicteerlaag is gratis voor iedereen met een account, zonder betaalmethode bij aanmelding. Er is geen gebruiksteller — je wordt niet per audio-uur gefactureerd zoals Speechmatics Pro dat doet vanaf $0.24 per uur. Het optionele Cloud-gedeelte, dat je eigen OpenAI-sleutel gebruikt voor cloudtranscriptie en webzoekopdrachten, heeft een vaste app-prijs in plaats van een teller per minuut. De actuele bedragen staan op de prijspagina; het enige dat de moeite waard is om te onthouden, is de vorm — een vaste prijs voor een app, geen teller voor een engine.

Liever praten dan typen?

Als je hier was voor een engine om op te bouwen, pak een van de echte API's en ga — je code zal je dankbaar zijn. Als je hier was omdat je het typen zat bent en gewoon wilt praten, is dat precies de smalle groep waarvoor Whisper is gemaakt. Download het, houd de sneltoets ingedrukt, en kijk hoe de transcriptie verschijnt op de plek waar je al aan het schrijven was. Kies de categorie, niet het modewoord.

Lokaal dicteren altijd gratis. Geen betaalmethode nodig bij aanmelding. De 7-daagse Cloud-proefperiode vraagt pas om een creditcard bij het upgraden.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze support-e-mail leest — hoogstwaarschijnlijk door de antwoorden in te dicteren.

Verder lezen