Gids
Realtime transcriptie, uitgelegd
Twee apps dragen dezelfde naam maar doen het tegenovergestelde. Zo onderscheid je live ondertiteling van razendsnel dicteren — en kies je de optie die bij jouw probleem past.
Laatst bijgewerkt: juni 2026

Een realtimetranscriptie-app zet gesproken woorden direct om in tekst — geen uploaden, geen wachten. Er zijn twee soorten: doorlopende live ondertiteling die een transcript streamt tijdens vergaderingen, en nagenoeg-directe dictatie die transcribeert zodra je de sneltoets loslaat en de tekst op de cursorpositie plakt. Welke je nodig hebt, hangt ervan af of je een gesprek volgt of zelf iets schrijft.
Een financieel team waar ik mee werkte bouwde ooit een eigen 'realtimetranscriptie'-tool. Een freelancer koppelde GPT-4 aan de microfoon van elke laptop en liet het draaien. Aan het einde van het kwartaal opende de manager het clouddashboard: een rekening met vijf cijfers. Het grootste deel kwam doordat één team standupopnames vier keer opnieuw transcribeerde, omdat de 'slimme herpoging'-logica te gretig was. De freelancer zei dat ze de prompt moesten optimaliseren. De CFO zei iets kortere woorden. De zin 'realtimetranscriptie' had voor iedereen iets anders betekend.
Dat misverstand is het hele probleem met deze categorie. Twee mensen zeggen 'realtimetranscriptie-app' en bedoelen twee totaal verschillende dingen. De een wil woorden zien scrollen terwijl een collega praat in een Zoom-gesprek. De ander wil een toets ingedrukt houden, een zin inspreken, loslaten en de tekst zien verschijnen in de e-mail die hij al aan het schrijven was. Dit artikel maakt duidelijk wat wat is, laat zien hoe de snelle lokale variant werkt en vertelt je wanneer je beter een vergadertool kunt gebruiken. Aan het einde weet je in welke categorie jouw probleem valt. De meeste mensen kiezen op dag één de verkeerde. Dat weet ik, want het grootste deel van de supportmails die ik las was van mensen die precies dat deden — en ik besteedde mijn eerste maand aan het beantwoorden ervan voordat ik dacht om het verschil meteen uit te leggen.
Het onderscheid is belangrijk omdat beide ontwerpen uitblinken in tegenovergestelde taken. Live ondertiteling is gebouwd om nooit te stoppen: het volgt een vergadering van een uur en jij leest mee. Dictatie is gebouwd om snel klaar te zijn: je praat vijftien seconden, de tekst verschijnt en je werkt verder. Een koude verkoopemail is twaalf varianten van tachtig woorden — via stem zo'n twaalf minuten, versus vijfenveertig minuten via het toetsenbord. Een samenvatting van een college is een opname van negentig minuten teruggebracht tot een notitie van zeshonderd woorden. Dezelfde zoekterm, twee totaal andere tools.
Wat 'realtime' werkelijk betekent

Er bestaan twee eerlijke definities van 'realtime', en de apps die dit claimen vallen uiteen in twee kampen.
Het eerste is doorlopende live ondertiteling. Het transcript verschijnt woord voor woord terwijl de audio nog speelt: een vergadering, een college, een video. Je leest de tekst terwijl hij binnenstroomt. Otter doet dit tijdens gesprekken, met live ondertiteling voor Zoom en Google Meet. Maestra adverteert realtime transcriptie en vertaling in 125+ talen met een gratis live-niveau. Windows 11 heeft Live Captions ingebouwd, op het apparaat zelf en offline, in ongeveer 21 talen. Deze tools luisteren naar een stream en leggen hem vast.
Het tweede is nagenoeg-directe dictatie. Je houdt een sneltoets ingedrukt, spreekt een zin of alinea in, laat los en de voltooide tekst verschijnt waar je cursor al staat. Geen streamende ondertiteling. Een korte pauze van één à twee seconden, dan verschijnt het hele blok in één keer. Dit is wat Whisper by Remskill doet. Het transcribeert zodra je de sneltoets loslaat en plakt de tekst op de cursorpositie; de microfoon blijft 500 milliseconden open nadat je loslaat, om het laatste woord op te vangen dat mensen aan het einde van een zin laten wegslippen.
Beide zijn 'realtime' in de zin die voor een mens telt: je hoeft geen bestand op te nemen, te uploaden en te wachten. Maar ze lossen verschillende problemen op. Live ondertiteling is een leesinstrument; je verwerkt iemand anders' spraak. Dictatie is een schrijfinstrument; je produceert je eigen woorden. Ze door elkaar halen is hoe je uiteindelijk een vergadernotitieabonnement betaalt om een korte e-mail te beantwoorden, of worstelt met een dicteertool die probeert een webinar te ondertitelen waarvoor hij nooit was gemaakt.
Een derde categorie wordt hier vaak mee vermengd, die helemaal niet realtime is: bestandstranscriptie. Je neemt een interview op, uploadt de audio en de tool geeft een paar minuten later een transcript terug. Tools als Rev en Trint zijn meer voor dat soort werk gemaakt — het bewerken van een afgeronde opname, niet het vastleggen van spraak terwijl het gebeurt. Het is de moeite waard dit apart te noemen zodat je het kunt uitsluiten. Als je een voortgangsbalk van een upload ziet, gebruik je geen realtimeapp, wat de marketingtekst ook beweert.
De categorie heeft dus een duidelijke structuur, als je hem eenmaal ziet. Spraak lezen die nu plaatsvindt: live ondertiteling. Schrijven via spraak die je nu uitspreekt: dictatie. Een eerdere opname opschonen: bestandstranscriptie. De zoekterm 'realtimetranscriptie-app' gooit de eerste twee op één hoop en trekt de derde per ongeluk mee. Jezelf in de juiste categorie plaatsen is het nuttigste wat je kunt doen voordat je iets installeert.
Druk op een sneltoets, krijg tekst op de cursor
Zo ziet de dictatiereeks er van begin tot eind uit. Je drukt op de sneltoets: Ctrl+Space op Windows, of Command+Option tegelijk op macOS — een push-to-talk-combinatie waarbij je beide toetsen ingedrukt houdt zolang je praat en een van de twee loslaat om te stoppen. Je spreekt. Je laat los. Een kleine overlay laat zien dat de app aan het transcriberen is, en een seconde of twee later staat de tekst in de app waarmee je al bezig was: de e-mail, het document, het chatvenster, de codecommentaar.
Geen venster om naar over te schakelen. Geen 'kopieer uit het transcriptietabblad en plak het terug.' De tekst verschijnt op de cursor omdat dat nu juist het punt is. Je was aan het schrijven, en nu schrijf je sneller. De overlay hierboven is de live app, geen screenshot; die transcriberende toestand is wat je ziet in de halve seconde tussen het loslaten van de toets en het verschijnen van de woorden.
Hier zit het verschil met 'realtime' bij een ondertitelingstroom. Een ondertitel is iets wat je iemand anders ziet overkomen. Dictatie is iets wat met je eigen zin gebeurt, snel genoeg zodat je de draad niet verliest van wat je aan het zeggen was. De staartbuffer van 500 milliseconden bestaat precies daarom. Mensen laten hun stem zakken aan het einde van een zin, en de microfoon meteen uitschakelen zodra de toets losgelaten wordt zou het laatste woord afknippen. Klein detail. Het is het verschil tussen 'bedankt voor het organiseren van de bi' en een complete zin.
Het helpt om te begrijpen waarom de timing zo uitvalt. Wanneer je de toets loslaat, is de audio die je net insprak al vastgelegd in het geheugen. Het model verwerkt dat korte fragment — een zin of een alinea, geen live stream — en dat is waarom het resultaat arriveert als één afgerond blok in plaats van woord voor woord te scrollen. Een kort fragment is snel te verwerken; dat is de truc. Een live-ondertitelingstool moet een open stream blijven decoderen en gedeeltelijke gissingen tonen die worden bijgesteld naarmate er meer audio binnenkomt. Dictatie slaat dat allemaal over. Het wacht tot je klaar bent, transcribeert dan in één schone doorloop.
Die ontwerpkeuze houdt je in de flow. Uit mijn ervaring is vertraging de grote vloek van dictatie: zodra de pauze langer dan een seconde of twee duurt, dwaalt mijn aandacht terug naar de app waarmee ik bezig was en verlies ik de draad van de zin die ik halverwege had. Dit is een mening uit dagelijks gebruik, geen gepubliceerde specificatie. Korte fragmenten plus een snelle lokale engine houden de pauze kort. Dat is de pauze die ertoe doet — en de reden dat de reeks aanvoelt als schrijven in plaats van dicteren-en-wachten.
Als je de uitgebreidere versie wilt van hoe de hele pijplijn samenwerkt, hebben we een apart artikel geschreven over hoe Whisper van een sneltoets naar geplakte tekst gaat. Dit is de korte versie: drukken, spreken, loslaten, klaar.
Waarom Parakeet de snelste lokale optie is
Lokale transcriptie betekende vroeger traag. Dat veranderde toen NVIDIA's Parakeet-model verscheen. In de Whisper-app luidt Parakeet's eigen beschrijving in de app '5-10× sneller dan Whisper op CPU', voor Engels plus 24 Europese talen, op ongeveer 600 MB schijfruimte. Die snelheid is waarom lokale dictatie aanvoelt als nagenoeg-direct in plaats van nagenoeg-koffiebreak. Het is de reden dat de sneltoetsreeks hierboven werkt zonder server als tussenliggende stap.
Je bent niet gebonden aan één engine. Whisper by Remskill wordt geleverd met twee lokale opties. Parakeet ondersteunt 25 talen (Engels plus 24 Europese) maar geen Aziatische talen en geen vertaling naar het Engels. De faster-whisper-engine heeft meer bereik: de meertalige builds verwerken 99 talen met automatische detectie, terwijl de .en-builds alleen Engels ondersteunen — één taal, in ruil voor een kleinere omvang en hogere snelheid. De Whisper-modellen variëren van een Engels Base van circa 140 MB tot een meertalig Large v3 van circa 3 GB, met een Large v3 Turbo van circa 1,62 GB als tussenoptie voor wie de meeste nauwkeurigheid wil bij een fractie van de wachttijd.
De app kiest niet voor je, en dat is bewust. De ingebedde interface hierboven is het echte instellingenscherm. Je kiest Parakeet als je voornamelijk Engels spreekt en pure snelheid wilt, of een Whisper-model als je 99 talen of vertaling naar het Engels nodig hebt. Ik heb een beschamende middag verspild aan het automatisch proberen te selecteren van de 'beste' engine voor mensen, voordat ik moest toegeven dat alleen de persoon die spreekt weet welke de juiste is. De afweging is reëel: Parakeet is het snelst en het kleinst, maar kan geen Chinees, Japans of Koreaans aan, en kan niet vertalen. De meertalige Whisper-builds kunnen dat allemaal, ten koste van een groter model en een langere verwerkingstijd per fragment. Geen van beide is 'beter' in abstracte zin; één is beter voor jouw specifieke stem en jouw specifieke talen.
Er bestaat ook een cloudpad waarbij je je eigen OpenAI-sleutel meeneemt: transcriptie via gpt-4o-mini-transcribe of gpt-4o-transcribe, met tekstopschoning standaard via gpt-5-mini. Cloud vereist internet; de lokale engines niet. Het cloudpad is de nooduitgang, niet het startpunt. Als een vier jaar oud laptop de lokale engines prima draait — en de meeste kunnen dat — heb je voor een alinea e-mail nooit een server in de lus nodig.
Denk hier even bij stil. Cloud-only dictatie is een privacyramp. De salarissheet van je baas, de e-mail naar de school van je kind, de juridische notitie in de trein: dat alles mag niet in de logs van een leverancier belanden omdat je met je stem wilde typen. Lokale modus draait op het apparaat zelf en werkt offline na de eenmalige modeldownload; niets wordt naar een server gestuurd tijdens lokale transcriptie. Het vijfcijferige kwartaal van dat financiële team ontstond doordat de woorden het gebouw verlieten. Het had voorkomen kunnen worden.
Als je het langere argument wilt lezen, lees dan ons pleidooi voor offline spraak-naar-tekst dat nooit terugbelt.
Live ondertiteling voor vergaderingen vs. dicteren op de cursor

Kies de tool op basis van wat je doet, niet op basis van wie het hardst 'realtime' roept.
Als je in een vergadering zit en het gesprek wilt vastleggen terwijl het plaatsvindt — meerdere sprekers, een uur lang, met een samenvatting achteraf — wil je doorlopende live ondertiteling. Dat is een lees-en-opnameklus. Otter, Maestra, de ingebouwde ondertiteling van Google Meet, Windows 11 Live Captions: ze volgen een stream en schrijven hem op. Windows 11 ondertitelt alle audio die op je scherm speelt, op het apparaat zelf en offline, maar het is een leesweergave. Het typt de woorden niet in de app waarmee je werkt.
Dat Windows-onderscheid zorgt voor veel verwarring. Live Captions leest audio die speelt — een video, een gesprek, de stem van een collega via je luidsprekers — en toont die op het scherm zodat je kunt meelezen. Het plaatst geen tekst in het document dat je aan het schrijven bent. Dat is de grens tussen een leesinstrument en een schrijfinstrument: dezelfde transcriptie-engine onder de motorkap, een andere bestemming voor de woorden. De een stuurt ze naar een ondertitelbalk die je leest. De ander stuurt ze naar de cursor waarop je aan het typen bent.
Als je een e-mail, een document, een Slack-bericht of een commit-notitie schrijft, wil je dictatie. Je produceert de woorden zelf in plaats van iemand anders' woorden over te nemen. Je wilt ze op de cursor, snel, en dan klaar. Dat is de sneltoetsreeks. Een live-ondertitelingstool transcribeert je in zekere zin wel, maar dumpt de tekst in een eigen venster en laat je die zelf kopiëren — waarmee de snelheidswinst waarvoor je gekomen bent verdwenen is.
Een paar concrete gevallen maken het onderscheid duidelijk. Een verkoopmedewerker die CRM-notities dicteert tussen gesprekken door — vijftig woorden, één toetsdruk, dertig seconden — doet aan dictatie. Een team dat een wekelijkse planningsvergadering houdt en achteraf een doorzoekbaar transcript met actiepunten nodig heeft, gebruikt live ondertiteling. Een student die een college van negentig minuten wil samenvatten in een notitie van zeshonderd woorden, wil ondertiteling tijdens het college en daarna een tool om het in te korten. Een ouder die een e-mail van de leraar beantwoordt terwijl hij de lunchtrommels pakt, wil dictatie — want hij schrijft een antwoord, niet de keuken op. Dezelfde persoon kan op één dag beide nodig hebben. Het blijven twee afzonderlijke tools.
De vuistregel: spraak bekijken → live ondertiteling; schrijven via spraak → dictatie. Een paar apps vervagen de grens, maar de meeste frustratie in deze categorie ontstaat doordat mensen een vergadertool gebruiken om te schrijven, of een schrijftool om een vergadering te ondertitelen. Whisper zit in het schrijfkamp: nagenoeg-direct, cursor-first, push-to-talk. De reeks is overal hetzelfde, of je nu dicteert in Gmail of in een ander tekstveld.
De andere realtimetranscriptie-apps die je moet kennen
Je hoeft mijn woord er niet voor te nemen. Hier volgt een eerlijke one-liner over de belangrijkste spelers, zodat je elk van hen kunt plaatsen voordat je een keuze maakt.
- Otter dekt vergadertranscriptie met live ondertiteling voor Zoom en Google Meet, apps op iOS, Android en het web, en AI-transcriptie in het Engels, Spaans, Frans, Duits, Japans en Chinees. Het gratis niveau is beperkt tot 300 transcriptieminuten per maand.
- Maestra adverteert realtime transcriptie en vertaling in 125+ talen, plus ondertitels en nasynchronisatie, met een live-transcriptieniveau dat het bedrijf gratis noemt. Gebouwd voor ondertitels en captions, niet voor cursordicteren.
- Notta zet realtime audio en video om naar tekst en claimt ondersteuning voor 58 talen met vertaling. Een vergader-en-opnametool, cloudgebaseerd.
- Rev en Trint richten zich meer op opgenomen media dan op cursordicteren. Rev staat bekend om transcriptie van vergaderingen en opnamen; Trint wordt veel gebruikt in journalistieke redactieomgevingen voor het verwerken van opgenomen interviews. Beide zijn lees-en-bewerktools — geen houd-een-toets-in-en-typ-in-je-app-reeks.
Zie je het patroon? De meeste van deze tools zijn vergader-en-opnametools die in de cloud leven. Dat is de hele markt voor 'live transcriptieapps'. Het kamp van dicteren-op-de-cursor — de schrijftool — is de kleinere en stillere categorie, en het is precies de categorie die de meeste mensen die deze term zoeken nodig hebben zonder de naam ervoor te kennen.
Om ze naast elkaar te zetten op verifieerbare feiten, niet op verzonnen snelheids- of nauwkeurigheidsscores:
| Tool | Platform | Lokaal / Cloud | Werkt offline | Prijsmodel | Talen | Beste voor |
|---|---|---|---|---|---|---|
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Lokaal + optionele cloud (BYOK) | Ja, lokale modus | Gratis lokaal niveau; betaalde cloud-add-on | 99 (Whisper meertalig) / 25 (Parakeet) | Dicteren op de cursor |
| Otter | iOS, Android, Web | Cloud | Nee | Gratis niveau + betaalde abonnementen | 6 | Live ondertiteling in vergaderingen |
| Maestra | Web | Cloud | Nee | Gratis live niveau + betaalde abonnementen | 125+ | Ondertitels, nasynchronisatie, captions |
| Notta | Web, mobiel | Cloud | Nee | Gratis niveau + betaalde abonnementen | 58 (opgegeven) | Vergader- en opnamenotities |
| Windows 11 Live Captions | Windows 11 | Lokaal (op apparaat) | Ja | Ingebouwd in het besturingssysteem | ~21 | Ondertitels op het scherm lezen |
Waarom deze markt er zo uitziet, is de moeite van een zin waard. Vergaderingen zijn waar het geld zit. Een bedrijf betaalt per gebruiker om elk gesprek vast te leggen, samen te vatten en actiepunten door te sturen naar een projecttool. Dat is een terugkerende, declarabele kostenpost. Persoonlijk schrijven via stem is dat niet. Dus is de luidruchtige, goed gefinancierde helft van de categorie gebouwd voor vergaderzalen, en krijgt de helft die één persoon helpt sneller e-mails te beantwoorden minder marketingaandacht. De zoekterm 'realtimetranscriptie-app' hangt over beiden heen — en dat is waarom mensen bij een vergadertool uitkomen terwijl ze een typtool zochten. Als je het bredere landschap per categorie wilt bekijken, houden we een bijgewerkte gids voor transcriptiesoftware per categorie bij.
Wanneer je Whisper beter links kunt laten liggen
Ik zeg het ronduit, want het alternatief is je de verkeerde tool aansmeren. Als jouw taak het vastleggen van een live vergadering is — meerdere sprekers, een uur, een nette samenvatting aan het einde — gebruik dan Whisper daar niet voor. Gebruik Otter. Het is daarvoor gemaakt, met live ondertiteling voor Zoom en Google Meet en apps op elk platform, en het gratis niveau geeft je 300 minuten per maand om het te testen. Voor meertalige ondertitels of nasynchronisatie dekt Maestra's live niveau 125+ talen. En als je alleen ondertiteling nodig hebt van audio die al op je Windows-scherm speelt, is Windows 11 Live Captions gratis, op het apparaat zelf en al geïnstalleerd. Wij maken een schrijftool. Als je een leesinstrument nodig hebt, zijn dat de betere keuzes — en we willen liever dat je de juiste gebruikt. (Voor de vergelijking op het vergadergeval hebben we een uitgebreide Otter.ai-alternatievenvergelijking geschreven.)
Wat het kost
Whisper by Remskill is gratis voor elke ingelogde gebruiker voor de volledige lokale pijplijn — Parakeet, alle Whisper-modellen, on-device AI-opschoning, geschiedenis, presets, aangepaste sneltoetsen — zonder dat er bij de aanmelding om een betaalmethode wordt gevraagd. Het betaalde niveau, Whisper Pro, voegt de cloudoppervlakte toe: bring-your-own-key OpenAI-transcriptie en webzoekopdrachten. De exacte bedragen staan op de prijspagina, en die bewegen niet met 'vanaf'-voetnoten. Ter vergelijking voor de anderen: het gratis niveau van Otter stopt bij 300 minuten per maand, met betaalde abonnementen daarboven. Het punt van de gratis lokale pijplijn is dat je de volledige schrijfreeks — sneltoets, spreken, plakken — kunt uitproberen voordat je besluit of de cloud ook maar één cent waard is voor jou.
Twee mensen lezen dit en willen twee verschillende apps. De een staat op het punt een standup te ondertitelen. De ander staat op het punt dertig e-mails te beantwoorden voor de schoolrit, één sneltoetsdruk tegelijk. De enige vergissing is de verkeerde machine pakken omdat allebei 'realtime' op de doos stonden — en drie maanden later een clouddashboard openen en je afvragen waar de rekening vandaan komt. Kies op basis van wat je doet. Spraak bekijken, of schrijven via spraak. Al het andere volgt daaruit.
Probeer de schrijfreeks op je eigen laptop
Download Whisper, houd de toets ingedrukt, spreek een zin in en zie hem verschijnen waar je cursor al stond.
Gratis voor de volledige lokale pijplijn. Geen betaalmethode bij aanmelding.



