Door Denys Medvediev

Gids

AI-transcriptietools, uitgelegd

Wat een AI-transcriptietool eigenlijk is, hoe de pijplijn van spraak naar tekst werkt, hoe nauwkeurig hij echt is zodra de audio geen studio meer is, en de ene keuze (lokaal of cloud) die meer uitmaakt dan welk logo je kiest.

Laatst bijgewerkt: juni 2026

Close-up van een digitale audio-interface met een levendige geluidsgolfvorm, die spraak oproept die wordt vastgelegd voor transcriptie

Een AI-transcriptietool is software die gesproken audio omzet in geschreven tekst met behulp van spraakherkenningsmodellen. Hij luistert naar een opname of live spraak, voorspelt de meest waarschijnlijke woorden en levert een transcript op. Dezelfde technologie heet spraak naar tekst of automatische spraakherkenning, en de meeste moderne tools draaien een model uit de OpenAI Whisper-familie.

Tien jaar geleden zag ik een familielid een vakantiebrief proberen te dicteren op een Windows 98-machine. De software had eerst 45 minuten "training" nodig en draaide daarna met misschien 70% nauwkeurigheid en een vertraging van vier seconden per zin. Eén alinea duurde vijftien minuten. De headset vloog door de kamer. De headset overleefde het; het experiment niet. Vandaag dicteert mijn dochter van zeven in 90 seconden een e-mail aan haar oma en stelt ze na de uitleg geen enkele vraag meer. Dat verschil is het hele verhaal van AI-transcriptie, en die kloof werd sneller gedicht dan vrijwel iedereen had verwacht.

Dit is het deel dat de marketingpagina's overslaan: spraak naar tekst was vroeger een onderzoeksprobleem, en toen in 2022 het opensource Whisper-model verscheen, hield het voor de meeste mensen stilletjes op er een te zijn. Een AI-transcriptietool betekent nu een model dat goed genoeg is om je grotendeels niet voor de voeten te lopen, verpakt in software die bepaalt waar je audio heen gaat en wat er daarna met de tekst gebeurt. Dit artikel legt uit hoe die pijplijn werkt, hoe nauwkeurig hij is zodra de audio geen podcaststudio is, en de ene keuze (lokaal of cloud) die meer uitmaakt dan welk logo je kiest. Ik lees elke supportmail die binnenkomt, en de mensen die ontevreden zijn hebben bijna altijd verkeerd gekozen op die ene beslissing, niet op de tool.

Een AI-transcriptietool zet spraak om in tekst. Dat is de hele klus.

Haal de dashboards en de branding van "conversational knowledge engine" weg, en elke tool in deze categorie doet één ding: audio erin, tekst eruit. De verschillen zitten in alles eromheen: waar het model draait, wat het met het transcript doet, en hoeveel het kost om dat te doen.

Pasted
De opname-overlay van Whisper in zijn voltooide toestand — een klein zwevend widget dat afgemaakte tekst teruggeeft op het moment dat je stopt met praten. De echte uitgeleverde UI, geen mockup.

Drie productvormen domineren. De vergadernotulator schuift aan bij je gesprek, neemt iedereen op en spuugt een samenvatting met actiepunten uit. Otter is het schoolvoorbeeld, met 300 gratis transcriptieminuten per maand. De bestand-uploaddienst laat je een audiobestand uploaden en later een transcript downloaden. Rev en Sonix horen hier thuis, en Rev verkoopt daarnaast menselijke transcribenten als de hoog-nauwkeurige terugvaloptie. De dicteertool zit op de achtergrond en plakt tekst waar je cursor ook staat op het moment dat je stopt met praten. Dat laatste is wat Whisper by Remskill doet: druk op een globale sneltoets, spreek, en de getranscribeerde tekst verschijnt in welke app je ook al openhebt.

Dezelfde onderliggende klus. Drie totaal verschillende dagelijkse ervaringen. De meeste verwarring in deze categorie komt voort uit het vergelijken van een vergadernotulator met een dicteertool alsof ze concurrenten zijn. Dat zijn ze niet, net zomin als een bus concurreert met een fiets.

Hoe AI-transcriptie echt werkt (en waar het nog struikelt)

Het mechanisme is eenvoudiger dan de branding suggereert. Je microfoon legt geluid vast als een golfvorm, een stroom getallen die de luchtdruk over de tijd beschrijft. Het model breekt die stroom op in korte stukjes, zet elk stukje om in een numerieke weergave van zijn akoestische kenmerken, en voorspelt vervolgens token voor token de meest waarschijnlijke reeks tekst die die geluiden heeft voortgebracht. Het doet statistiek op audio, het begrijpt geen betekenis. Ik bracht mijn eerste week op dit project door met het tekenen van de pijplijn als een net hokjesdiagram voordat ik het model ook maar één keer had gedraaid. Het diagram klopte bij de tweede commit al niet meer. Het model trok zich niets van mijn diagram aan.

CancelTranscribing
De transcriberende toestand van de overlay — het model dat een golfvorm omzet in tekst, op jouw machine, terwijl je de seconde of zo wacht die het kost.

Dat detail is waarom AI-transcriptie struikelt waar het struikelt. Het model voorspelt de meest waarschijnlijke woorden, niet de juiste. Geef het schone spraak en heldere dictie, en waarschijnlijk en juist zijn hetzelfde. Geef het door elkaar pratende stemmen, een zwaar accent dat het zelden in de training zag, vakjargon of een slechte microfoon, en die twee lopen uiteen. De eerlijke versie, die de AI Overview op precies deze zoekopdracht hardop zegt, is dat deze tools woorden kunnen verzinnen die nooit zijn uitgesproken, de ene spreker voor de andere kunnen aanzien, en stilletjes een zin kunnen vertranscriberen tot iets wat perfect leest en het tegenovergestelde betekent.

Eén vertaaltruc is het weten waard. De meertalige Whisper-modellen kunnen 99 talen transcriberen, en ze kunnen niet-Engelse spraak in één keer naar Engelse tekst vertalen. De Engels-only modelvarianten, de .en builds, laten dat vallen en doen alleen Engels, waardoor ze daar net iets scherper in zijn. Niets hiervan vereist dat je iets "traint". Als een tool je nog steeds vraagt een kalibratiescript voor te lezen voordat hij werkt, draait hij op aannames uit 1999.

Hoe nauwkeurig is het echt? Het eerlijke antwoord.

Een vergrootglas boven een afgedrukt document, dat het nauwkeurig nakijken van transcriptiekwaliteit illustreert

Het eerlijke antwoord is: nauwkeurig genoeg om je echt tijd te besparen, niet nauwkeurig genoeg om ongelezen te publiceren. Ons eigen gepubliceerde bereik voor lokale transcriptie is 95% tot 99%, waarbij de grotere modellen hoger uitkomen. Maar een enkel nauwkeurigheidsgetal zegt op zichzelf bijna niets, want het getal dat ertoe doet is dat voor jouw audio: jouw accent, jouw ruimte, jouw microfoon, jouw woordenschat.

Wees sceptisch over de ronde, voorwaarden-loze beweringen. Een productpagina die "99% nauwkeurigheid" zegt zonder de audiokwaliteit te noemen, citeert een best case, geen belofte. Wanneer Rev 99% adverteert, hangt dat cijfer aan zijn menselijke transcribenten, niet aan zijn AI-model. De marketingversie plet een kromme tot één vleiend punt.

Dit is de goedkoopste nauwkeurigheidsupgrade die niemand je verkoopt: een microfoon. De overstap van een ingebouwde laptopmicrofoon naar een basis-USB-microfoon doet meer voor je transcript dan de sprong van een klein model naar het grootste. AI repareert slechte audio niet. Hij gokt alleen zelfverzekerder. Ik bracht twee avonden door met het benchmarken van het grootste model dat ik kon downloaden voordat ik merkte dat ik vanaf een meter afstand in een laptopscharnier praatte; een microfoon van twaalf dollar loste meer op dan de extra twee gigabyte deed. Geef de twintig dollar uit aan hardware voordat je een avond besteedt aan het downloaden van een model van drie gigabyte. Lees voor werk met hoge inzet het transcript na. Voor een Slack-bericht: gewoon versturen.

Lokaal versus cloud: waar je audio heen gaat doet ertoe

Waar je audio heen gaat is de keuze die het meest uitmaakt, en hij heeft niets met nauwkeurigheid te maken.

Een cloud-transcriptietool stuurt je audio naar de servers van een bedrijf, draait het model daar, en stuurt de tekst terug. Een lokale tool downloadt het model één keer en draait het op je eigen machine. Daarna werkt hij offline, en er verlaat niets je computer. Whisper by Remskill doet allebei, en de schakelaar is één knop. In lokale modus wordt audio volledig op je machine verwerkt en wordt er niets naar een server gestuurd. In cloud-modus gaat audio rechtstreeks van je computer naar OpenAI via je eigen API-sleutel, en zitten wij er nooit tussen.

Whisper
De echte Whisper-app, live aan het draaien — zowel het Lokale als het Cloud-oppervlak in één venster. Klik door naar Instellingen en kies een engine; de schakelaar tussen lokaal en cloud is één knop.

Ik plant hier een vlag, want de marketingpagina's doen het niet: dicteren via alleen de cloud is een privacyramp die wacht om getranscribeerd te worden. Een team waar ik ooit mee werkte liet een freelancer een interne cloud-AI-dicteerproto bouwen. Hij riep de API aan voor elke uiting, inclusief standup-opnames die hij vier keer opnieuw transcribeerde omdat de "slimme retry"-logica te agressief was. De manager opende aan het einde van het kwartaal het kostendashboard en vond een rekening van vijf cijfers. De oplossing van de freelancer was "de prompt optimaliseren". De oplossing van de CFO was "stop met vergaderingen waar we al notulen van hebben naar een server te sturen". De salarisspreadsheet van je baas, de e-mail aan de school van je kind, de juridische memo die je opstelt — niets daarvan hoort in de logs van een leverancier omdat je met je stem wilde typen. Je laptop heeft al een microfoon en een processor. Voor de meeste alinea's heeft hij geen server in de lus nodig. Wil je de volledige onderbouwing, dan hebben we die uitgeschreven in onze gids voor offline spraak naar tekst.

Dat gezegd hebbende, de cloud is niet de boosdoener. Het is een afweging. De cloud-modus geeft je de nieuwste OpenAI-modellen, webtoegang en nul hardwarebelasting. Lokaal geeft je privacy en offline betrouwbaarheid. Het punt is niet dat één van de twee juist is. Het punt is dat je bewust moet kiezen, en niet achteraf moet ontdekken dat je opnames op andermans schijf staan.

De andere tools die het kennen waard zijn

Je ziet in elk overzicht dezelfde namen terug, en ze vallen in duidelijke banen uiteen.

ToolBaanHet ene ding om te weten
Otter.aiVergadernotulen300 gratis minuten per maand, samenvattingen en sprekerlabels; zes benoemde talen.
RevBestand-upload + mensGratis AI-laag is 45 minuten per maand; verkoopt menselijke transcribenten voor audio met hoge inzet.
OpenAI WhisperOpensource modelMIT-gelicentieerd; de engine waar de meeste andere tools op draaien, geen afgewerkte app.
OpenAI cloud-APIDeveloper-APIUploadlimiet van 25 MB; gpt-4o-transcribe en whisper-1; betalen per minuut.
Notta, Sonix, Fireflies, Descript, RiversideGemengdGericht op vergaderen en bewerken; controleer de eigen pagina van elke tool voor de actuele limieten.
Dezelfde namen in elk overzicht, ingedeeld in hun banen. De meeste zijn vergader- of bewerktools, en de meeste draaien onder de branding een model uit de Whisper-familie.

Een opmerking over die laatste rij: die vijf hebben elk hun eigen prijzen en taaldetails die vaak verschuiven, dus ik citeer geen cijfers die ik vandaag niet tegen hun eigen pagina's heb geverifieerd. Het patroon blijft echter overeind: de meeste hiervan zijn vergader- of bewerktools, en de meeste draaien onder de branding een model uit de Whisper-familie.

Whisper by Remskill zit in een andere baan dan al die andere. Het is een dicteertool, geen vergadernotulator. We hebben onszelf vernoemd naar het opensource model dat we draaien; heb je de dicteer-apps die alleen via de cloud werken vergeleken, dan behandelen onze Otter.ai-alternatief-analyse en de bredere gids voor transcriptiesoftware de banen in meer detail.

Wanneer je een AI-transcriptietool helemaal moet overslaan

Een bureau met een Vrouwe Justitia-beeldje, diploma en documenten, dat werk met hoge inzet oproept waar handmatige transcriptie wint

Soms is de juiste tool geen tool. Als de audio een hoge inzet heeft en juridisch bindend is (een getuigenverklaring in de rechtbank, een medisch dossier, een gereguleerde aangifte), betaal dan een mens. De menselijke dienst van Rev bestaat juist omdat een foutmarge van vijf procent op een contract een rechtszaak is, geen typfout. En als je alleen een tekstantwoord van 30 woorden nodig hebt, is de dicteerfunctie die al in je telefoon of je Mac zit gratis en prima; download niets. AI-transcriptie verdient zijn plek in het midden: langer dan een appje, lagere inzet dan een getuigenverklaring, vaak genoeg om een sneltoets waard te zijn. Buiten die band: grijp naar een mens of naar het gratis ding dat al op je apparaat staat.

Wat het kost

De prijzen in deze categorie lopen van gratis tot echt duur, en die spreiding vertelt je wat elke tool verkoopt. De gratis lagen zijn echt maar gemeten — Otter limiteert zijn gratis plan op 300 minuten per maand, de gratis AI-laag van Rev op 45 minuten, en het opensource Whisper-model is voor altijd gratis als je bereid bent het zelf te draaien. Cloud-API's rekenen per minuut, wat prima is tot een op hol geslagen retry-lus een kwartaal in een factuur van vijf cijfers verandert. Whisper by Remskill is gratis voor de hele lokale pijplijn zodra je een account hebt, zonder dat je een betaalmethode hoeft op te geven om te beginnen; de cloud-functies zitten achter Whisper Pro. De exacte cijfers, plannen en wat Pro omvat, staan op de prijzenpagina — ik laat je liever het actuele cijfer checken dan een getal vertrouwen dat ik in een blogpost heb getikt.

Tegen de tijd dat je dit hebt uitgelezen, zou mijn dochter drie e-mails hebben gedicteerd en me twee keer hebben gevraagd waarom de maan er soms niet is. De technologie is niet langer het moeilijke deel. De enige echte keuze die overblijft, is of je woorden op je machine blijven of een reisje maken naar dat van iemand anders — en dat is een keuze die het waard is om te maken voordat je op opnemen drukt, niet erna.

Wil je het proberen zonder je stem ergens heen te sturen?

Download Whisper, kies de lokale modus, houd de sneltoets ingedrukt en zie het transcript verschijnen in welke app je ook al openhebt. Niets verlaat je machine.

Gratis lokale transcriptie voor elke ingelogde gebruiker. Pro voegt de cloud-functies toe via een aparte proefperiode.

Foto van Denys Medvediev

Denys Medvediev

Ik ben degene die onze supportmail leest, hoogstwaarschijnlijk door de antwoorden te dicteren.

Verder lezen