Par Denys Medvediev

Guide

La transcription en temps réel, expliquée

Deux applications portent le même nom et font des choses opposées. Voici comment distinguer les sous-titres en direct de la dictée quasi-instantanée, et choisir celle dont vous avez vraiment besoin.

Dernière mise à jour : juin 2026

Vue de dessus d'une personne anonyme tapant sur un ordinateur portable, évoquant une dictée rapide pilotée par raccourci clavier

Une application de transcription en temps réel convertit vos paroles en texte à l'instant même où vous parlez, sans étape de téléchargement ni d'attente. Il en existe deux types : les sous-titres en direct en continu, qui retranscrivent les réunions au fil du temps, et la dictée quasi-instantanée, qui transcrit à la relâche d'un raccourci clavier et colle le texte à l'endroit du curseur. Votre choix dépend de si vous suivez une conversation ou si vous rédigez quelque chose.

Une équipe finance avec laquelle j'ai travaillé a un jour conçu son propre outil de « transcription en temps réel ». Un prestataire avait connecté GPT-4 au microphone de chaque ordinateur portable et laissé tourner. À la fin du trimestre, le responsable a ouvert le tableau de bord cloud face à une facture à cinq chiffres. L'essentiel venait d'une équipe qui avait transcrit les enregistrements des réunions quotidiennes quatre fois de suite, parce que la logique de « nouvelle tentative intelligente » était trop zélée. Le prestataire a dit qu'il fallait optimiser le prompt. Le DAF a dit quelque chose de plus court. L'expression « transcription en temps réel » avait un sens différent pour chacun d'eux.

C'est là tout le problème de cette catégorie. Deux personnes disent « application de transcription en temps réel » et pensent à deux outils différents. L'une veut voir les mots défiler à l'écran pendant qu'un collègue parle dans un appel Zoom. L'autre veut appuyer sur une touche, dicter une phrase, la relâcher, et voir le texte apparaître dans l'e-mail qu'elle était déjà en train de rédiger. Cet article démêle tout ça : il montre comment fonctionne la version locale rapide et vous dit quand utiliser un outil de réunion à la place. À la fin, vous saurez quelle catégorie correspond à votre besoin. La plupart des gens font le mauvais choix dès le départ. Je le sais, car la majorité des e-mails d'assistance que je lis viennent de personnes qui sont passées par là, et j'ai passé mon premier mois à répondre à chacune à la main avant de penser à expliquer la différence d'entrée de jeu.

La distinction compte parce que les deux outils excellent dans des tâches opposées. Les sous-titres en direct sont conçus pour ne jamais s'arrêter : ils suivent une réunion pendant une heure et vous lisez en même temps. La dictée est conçue pour être rapide : vous parlez quinze secondes, le texte arrive, vous continuez. Un e-mail de prospection en froid, c'est douze variantes de quatre-vingts mots — soit environ douze minutes à la voix contre quarante-cinq minutes à la main. Un résumé de cours magistral, c'est un enregistrement de quatre-vingt-dix minutes condensé en une note de six cents mots. Même formule de recherche, deux outils différents.

Ce que « temps réel » veut vraiment dire

Interface audio numérique affichant une onde sonore vive, représentant la parole captée et convertie en temps réel

Il existe deux définitions honnêtes du « temps réel », et les applications qui s'en réclament se divisent en deux camps.

Le premier, ce sont les sous-titres en direct en continu. La transcription apparaît mot à mot pendant que l'audio est encore en cours de lecture : une réunion, un cours, une vidéo. Vous lisez le texte au fil du flux. Otter le fait pendant les appels, avec des sous-titres en direct pour Zoom et Google Meet. Maestra propose la transcription et la traduction en temps réel dans plus de 125 langues avec un niveau gratuit en direct. Windows 11 intègre les sous-titres en direct, en local et hors ligne, dans environ 21 langues. Ces outils suivent un flux et le retranscrivent.

Le second, c'est la dictée quasi-instantanée. Vous maintenez un raccourci clavier, prononcez une phrase ou un paragraphe, relâchez, et le texte finalisé apparaît là où se trouvait déjà votre curseur. Pas de sous-titre en streaming. Une courte pause d'une à deux secondes, puis le bloc entier arrive. C'est ce que fait Whisper by Remskill. Il transcrit à la relâche du raccourci et colle le texte à l'endroit du curseur ; le microphone reste ouvert 500 millisecondes après que vous avez lâché la touche, pour capter le dernier mot que les gens ont tendance à laisser traîner.

Les deux sont « en temps réel » dans le sens qui compte pour un humain : vous n'enregistrez pas un fichier, vous ne le téléchargez pas et vous n'attendez pas. Mais ils résolvent des problèmes différents. Les sous-titres en direct sont un outil de lecture : vous consommez la parole de quelqu'un d'autre. La dictée est un outil d'écriture : vous produisez votre propre texte. Les confondre, c'est se retrouver à payer un abonnement de notes de réunion pour répondre à un e-mail d'une ligne, ou à se battre avec une application de dictée pour sous-titrer un webinaire qu'elle n'a jamais été conçue pour suivre.

Il y a une troisième chose qui se retrouve dans ce même sac, alors qu'elle n'a rien de temps réel : la transcription de fichiers. Vous enregistrez un entretien, vous téléchargez l'audio, et l'outil vous retourne une transcription quelques minutes plus tard. Des outils comme Rev et Trint sont davantage conçus pour ce type de travail, et c'est un métier différent : retoucher un enregistrement déjà fait, pas capturer la parole au moment où elle se produit. Ça vaut la peine de le nommer pour pouvoir l'écarter. Si vous attendez une barre de progression de téléchargement, vous n'utilisez pas une application en temps réel, quoi qu'en dise le marketing.

La catégorie prend forme une fois qu'on la voit. Lire de la parole en cours : sous-titres en direct. Écrire de la parole en cours : dictée. Nettoyer un enregistrement antérieur : transcription de fichier. Le terme de recherche « application de transcription en temps réel » mélange les deux premiers et entraîne le troisième par accident. Se placer dans la bonne catégorie est la chose la plus utile que vous puissiez faire avant d'installer quoi que ce soit.

Appuyez sur un raccourci, obtenez du texte à l'endroit du curseur

Voici la boucle de dictée, du début à la fin. Vous appuyez sur le raccourci : Ctrl+Space sous Windows, ou Command+Option maintenus ensemble sur macOS, un accord push-to-talk où vous gardez les deux touches enfoncées pendant que vous parlez et en relâchez une pour arrêter. Vous parlez. Vous lâchez. Un petit overlay indique que l'application transcrit, et une à deux secondes plus tard, le texte se retrouve dans l'application où vous étiez déjà : l'e-mail, le document, la boîte de chat, le commentaire de code.

CancelTranscribing
L'overlay Whisper en direct au milieu d'une transcription, pas une capture d'écran — c'est ce que vous voyez dans la demi-seconde entre le relâchement de la touche et l'apparition des mots.

Pas de fenêtre vers laquelle basculer. Pas de « copier depuis l'onglet de transcription et coller en retour ». Le texte arrive à l'endroit du curseur, parce que c'est précisément l'objectif. Vous étiez en train d'écrire, et maintenant vous écrivez plus vite. L'overlay ci-dessus est l'application en direct, pas une capture d'écran ; cet état de transcription est ce que vous voyez dans la demi-seconde entre le relâchement de la touche et l'apparition des mots.

Voilà pourquoi le « temps réel » se ressent différemment d'un flux de sous-titres. Un sous-titre, c'est quelque chose que vous regardez se produire chez quelqu'un d'autre. La dictée, c'est quelque chose qui arrive à votre propre phrase, suffisamment vite pour que vous ne perdiez pas le fil de ce que vous disiez. Le tampon de fin à 500 millisecondes existe pour cette raison. Les gens baissent la voix en fin de phrase, et couper le micro à l'instant où la touche se lève rognerait le dernier mot. Petit détail. C'est la différence entre « merci d'avoir organisé la réun » et une phrase complète.

Il est utile de comprendre pourquoi le timing se situe là où il est. Quand vous relâchez la touche, l'audio que vous venez de prononcer est déjà capturé en mémoire. Le modèle traite ce court extrait — une phrase ou un paragraphe — et non un flux en direct, ce qui explique pourquoi le résultat arrive en un seul bloc fini plutôt qu'en défilant mot à mot. Un extrait court se traite rapidement ; c'est tout le principe. Un outil de sous-titres en direct doit continuer à décoder un flux ouvert et afficher des suppositions partielles qu'il corrige au fur et à mesure que l'audio arrive. La dictée évite tout ça. Elle attend que vous ayez fini, puis transcrit une seule fois, proprement.

C'est ce choix de conception qui vous maintient dans le flux. D'après mon expérience, ce qui brise la dictée, c'est le délai : dès que la pause s'étire au-delà d'une ou deux secondes, mon attention dérive vers l'application où j'étais et je perds le fil de la phrase que j'avais à moitié formulée. C'est une opinion née d'un usage quotidien, pas une spec publiée. Des extraits courts associés à un moteur local rapide maintiennent ce délai court. C'est le délai qui compte, et c'est la raison pour laquelle la boucle ressemble à de l'écriture plutôt qu'à de la dictée-et-attente.

Si vous voulez la version détaillée du fonctionnement de toute la chaîne, nous avons écrit un article séparé sur comment Whisper transforme un appui sur raccourci en texte collé. Version courte : appuyez, parlez, relâchez, c'est fait.

Pourquoi Parakeet est l'option locale la plus rapide

La transcription locale rimait autrefois avec lenteur. Ça a changé quand le modèle Parakeet de NVIDIA est apparu. Dans l'application Whisper, la description interne de Parakeet est « 5-10× plus rapide que Whisper sur CPU », couvrant l'anglais et 24 langues européennes, pour environ 600 Mo sur disque. Cette vitesse est ce qui rend la dictée locale quasi-instantanée plutôt que proche de la pause-café. C'est la raison pour laquelle la boucle de raccourci fonctionne sans serveur intermédiaire.

Whisper
La vraie application Whisper — allez dans les paramètres et le sélecteur de modèle pour voir les moteurs locaux côte à côte. C'est l'interface en direct, pas une capture d'écran.

Vous n'êtes pas limité à un seul moteur. Whisper by Remskill propose deux options locales. Parakeet prend en charge 25 langues (l'anglais et 24 langues européennes) mais aucune langue asiatique et pas de traduction vers l'anglais. Le moteur faster-whisper couvre davantage de terrain : les versions multilingues gèrent 99 langues avec détection automatique, tandis que les versions .en sont uniquement en anglais, une seule langue, en échange d'une taille plus petite et d'une plus grande rapidité. Les modèles Whisper vont d'un base anglais d'environ 140 Mo jusqu'à un large-v3 multilingue d'environ 3 Go, avec un large-v3 Turbo d'environ 1,62 Go pour ceux qui veulent la majeure partie de la précision à une fraction du temps d'attente.

L'application ne choisit pas pour vous, et c'est délibéré. L'intégration ci-dessus est la vraie interface de paramètres. Vous choisissez Parakeet si vous parlez principalement anglais et voulez la vitesse brute, ou un modèle Whisper si vous avez besoin d'une couverture de 99 langues ou d'une traduction vers l'anglais. J'ai passé un après-midi embarrassant à essayer de sélectionner automatiquement le « meilleur » moteur pour les utilisateurs avant d'admettre que la seule personne qui sait lequel est le bon, c'est celle qui parle. L'arbitrage est réel : Parakeet est le plus rapide et le plus léger, mais il ne peut pas gérer le chinois, le japonais ou le coréen, et il ne peut pas traduire. Les versions multilingues de Whisper peuvent tout faire, au prix d'un modèle plus lourd et d'un temps de traitement plus long par extrait. Aucun n'est « meilleur » dans l'absolu ; l'un est meilleur pour votre bouche et vos langues spécifiques.

Il existe aussi une voie cloud qui vous permet d'utiliser votre propre clé OpenAI : transcription via gpt-4o-mini-transcribe ou gpt-4o-transcribe, avec le nettoyage du texte géré par gpt-5-mini par défaut. Le cloud nécessite une connexion internet ; les moteurs locaux non. La voie cloud est la sortie de secours, pas le point de départ. Si un ordinateur portable vieux de quatre ans fait tourner les moteurs locaux sans problème — et la plupart le font — vous n'avez jamais besoin d'un serveur dans la boucle pour un paragraphe d'e-mail.

Prenez un moment pour réfléchir à ça. La dictée uniquement dans le cloud est un désastre pour la vie privée. Le tableau de salaires de votre patron, l'e-mail à l'école de votre enfant, le brief juridique dans le train : rien de tout cela ne devrait atterrir dans les journaux d'un fournisseur parce que vous vouliez taper avec votre voix. Le mode local fonctionne sur l'appareil et en mode hors ligne après le téléchargement unique du modèle ; rien n'est envoyé à un serveur lors de la transcription locale. La facture à cinq chiffres de cette équipe finance est arrivée parce que les mots ont quitté les locaux. C'était évitable.

Si vous voulez l'argument développé, voici notre plaidoyer pour la reconnaissance vocale hors ligne qui ne rappelle jamais à la maison.

Sous-titres en direct pour les réunions vs. dictée à l'endroit du curseur

Salle de conférence moderne et spacieuse avec écran de projection, le cadre de réunion où les sous-titres en direct sont utilisés

Choisissez l'outil en fonction de ce que vous faites, pas selon celui qui crie « temps réel » le plus fort.

Si vous êtes en réunion et avez besoin que la conversation soit capturée au fur et à mesure (plusieurs interlocuteurs, une heure de durée, avec un résumé à la fin), vous voulez des sous-titres en direct en continu. C'est un travail de lecture et d'enregistrement. Otter, Maestra, les sous-titres intégrés de Google Meet, Windows 11 Live Captions : ils suivent un flux et le retranscrivent. Windows 11 génère des sous-titres pour tout audio joué sur votre écran, en local et hors ligne, mais il les affiche en lecture seule. Il ne tape pas les mots dans l'application sur laquelle vous travaillez.

Cette distinction Windows perturbe beaucoup de monde. Live Captions lit l'audio en cours de lecture (une vidéo, un appel, la voix d'un collègue via vos haut-parleurs) et l'affiche à l'écran pour que vous le lisiez. Il ne place pas de texte dans le document que vous rédigez. C'est la ligne de partage entre un outil de lecture et un outil d'écriture : le même moteur de transcription en local en dessous, mais une destination différente pour les mots. L'un les envoie vers une barre de sous-titres que vous lisez. L'autre les envoie vers le curseur sur lequel vous tapez.

Si vous rédigez un e-mail, un document, un message Slack, une note de commit, vous voulez la dictée. Vous produisez les mots, vous ne transcrivez pas ceux de quelqu'un d'autre. Vous les voulez à l'endroit du curseur, vite, puis c'est fini. C'est la boucle de raccourci. Un outil de sous-titres en direct vous transcrira dans un sens, mais il dépose le texte dans sa propre fenêtre et vous laisse le copier-coller, ce qui annule le gain de vitesse recherché.

Quelques cas concrets rendent la distinction évidente. Un commercial qui dicte ses notes CRM entre deux appels (cinquante mots, un appui sur une touche, trente secondes), c'est de la dictée. Une équipe qui tient un appel de planification hebdomadaire et a besoin d'une transcription consultable avec les actions à suivre ensuite, c'est des sous-titres en direct. Un étudiant qui veut transformer un cours magistral de quatre-vingt-dix minutes en un résumé de six cents mots veut des sous-titres pendant le cours, puis un outil pour le condenser. Un parent qui répond à l'e-mail d'un enseignant en préparant les boîtes à lunch veut de la dictée, parce qu'il rédige une réponse, il n'enregistre pas la cuisine. La même personne peut avoir besoin des deux dans la même journée. Ce sont quand même deux outils différents.

La règle : suivre de la parole → sous-titres en direct ; écrire par la parole → dictée. Quelques applications brouillent la frontière, mais la plupart des frustrations dans cette catégorie viennent d'utiliser un outil de réunion pour écrire ou un outil d'écriture pour sous-titrer une réunion. Whisper est dans le camp de l'écriture : quasi-instantané, centré sur le curseur, push-to-talk. C'est la même boucle que vous dictiez dans Gmail ou dans n'importe quelle autre application avec un champ de texte.

Les autres applications de transcription en temps réel à connaître

Vous n'avez pas à me croire sur parole pour cette catégorie. Voici un résumé honnête en une ligne des principaux acteurs, pour que vous puissiez situer chacun avant de vous engager.

  • Otter couvre la transcription de réunions avec des sous-titres en direct pour Zoom et Google Meet, des applications sur iOS, Android et Web, et la transcription IA en anglais, espagnol, français, allemand, japonais et chinois. Le niveau gratuit est limité à 300 minutes de transcription par mois.
  • Maestra propose la transcription et la traduction en temps réel dans plus de 125 langues, plus les sous-titres et le doublage, avec un niveau de transcription en direct que l'entreprise annonce comme gratuit. Conçu pour les sous-titres et légendes, pas pour la dictée à l'endroit du curseur.
  • Notta fait de la transcription audio et vidéo en temps réel et annonce la prise en charge de 58 langues avec traduction. Un outil de réunion et d'enregistrement, basé dans le cloud.
  • Rev et Trint se positionnent davantage autour des médias enregistrés que de la dictée à l'endroit du curseur. Rev est surtout connu pour la transcription de réunions et d'enregistrements ; Trint est largement utilisé dans les rédactions et les flux de travail journalistiques pour travailler sur des interviews enregistrées. Ce sont tous deux des outils de lecture et d'édition, pas une boucle « maintenir une touche et taper dans son application ».

Le schéma est visible : la plupart de ces outils sont des outils de réunion et d'enregistrement qui vivent dans le cloud. C'est l'ensemble du marché des « applications de transcription en direct ». Le camp de la dictée à l'endroit du curseur, l'outil d'écriture, est la catégorie plus petite et plus discrète — et c'est pourtant celle dont la plupart des personnes qui cherchent ce terme ont besoin sans connaître le nom.

Pour les comparer côte à côte sur des éléments vérifiables, et non sur des scores de vitesse ou de précision inventés :

OutilPlateformeLocal / CloudFonctionne hors ligneModèle tarifaireLanguesIdéal pour
Whisper by RemskillWindows, macOS (Apple Silicon)Local + cloud optionnel (BYOK)Oui, mode localNiveau local gratuit ; cloud payant en option99 (Whisper multilingue) / 25 (Parakeet)Dictée à l'endroit du curseur
OtteriOS, Android, WebCloudNonNiveau gratuit + plans payants6Sous-titres en direct pour réunions
MaestraWebCloudNonNiveau en direct gratuit + plans payants125+Sous-titres, doublage, légendes
NottaWeb, mobileCloudNonNiveau gratuit + plans payants58 (annoncé)Notes de réunion et d'enregistrement
Windows 11 Live CaptionsWindows 11Local (sur l'appareil)OuiIntégré au système d'exploitation~21Sous-titres à lire à l'écran
Comparaison des applications de transcription en temps réel sur des faits vérifiables, sans scores inventés.

Pourquoi ce marché ressemble à ce qu'il est mérite qu'on s'y attarde. Les réunions, c'est là que l'argent se trouve. Une entreprise paiera par siège pour capturer chaque appel, le résumer et envoyer les actions à suivre dans un gestionnaire de projet. C'est une ligne budgétaire récurrente et déductible. L'écriture vocale personnelle, non. La moitié bruyante et bien financée de la catégorie est donc conçue pour les salles de conférence, et la moitié qui aide une personne à répondre plus vite à ses e-mails reçoit moins d'attention marketing. L'expression « application de transcription en temps réel » coiffe les deux, ce qui explique pourquoi les gens atterrissent sur un outil de réunion alors qu'ils voulaient un outil de saisie. Si vous voulez le panorama complet par catégorie, nous tenons à jour un guide des logiciels de transcription par catégorie.

Quand éviter Whisper et utiliser un outil de réunion

Je vais être direct, parce que l'alternative serait de vous vendre ce qu'il ne vous faut pas. Si votre travail consiste à capturer une réunion en direct (plusieurs personnes qui parlent, une heure de durée, un résumé propre à la fin), n'utilisez pas Whisper pour ça. Utilisez Otter. C'est fait pour ça, avec des sous-titres en direct pour Zoom et Google Meet et des applications sur toutes les plateformes, et le niveau gratuit vous donne 300 minutes par mois pour le tester. Pour les sous-titres multilingues ou le doublage, le niveau en direct de Maestra couvre plus de 125 langues. Et si vous avez seulement besoin de sous-titres pour l'audio déjà diffusé sur votre écran Windows, Windows 11 Live Captions est gratuit, sur l'appareil, et déjà installé. Nous fabriquons un outil d'écriture. Quand vous avez besoin d'un outil de lecture, ce sont de meilleurs choix, et nous préférons que vous utilisiez le bon. (Pour la comparaison détaillée du cas de la réunion, nous avons rédigé un comparatif complet des alternatives à Otter.ai.)

Ce que ça coûte

Whisper by Remskill est gratuit pour tout utilisateur connecté sur l'ensemble de la chaîne locale (Parakeet, tous les modèles Whisper, nettoyage IA sur l'appareil, historique, préréglages, raccourcis clavier personnalisés) sans demande de moyen de paiement à l'inscription. Le niveau payant, Whisper Pro, ajoute la surface cloud : transcription OpenAI avec votre propre clé et recherche web. Les chiffres exacts se trouvent sur la page de tarifs, et ils ne varient pas avec des notes de bas de page « à partir de ». Pour situer les autres : le niveau gratuit d'Otter s'arrête à 300 minutes par mois, avec des plans payants au-delà. L'intérêt de la chaîne locale gratuite, c'est que vous pouvez tester toute la boucle d'écriture — raccourci, parole, collage — avant de décider si le cloud vaut un centime pour vous.

Deux personnes vont lire ceci et vouloir deux applications différentes. L'une est sur le point de sous-titrer une réunion debout. L'autre est sur le point de répondre à trente e-mails avant de conduire les enfants à l'école, un appui de raccourci à la fois. La seule erreur est de prendre le mauvais outil parce que les deux affichaient « temps réel » sur la boîte, et de se retrouver à regarder un tableau de bord cloud trois mois plus tard en se demandant d'où vient la facture. Choisissez selon ce que vous faites. Regarder de la parole, ou en produire. Tout le reste découle de là.

Testez la boucle d'écriture sur votre propre ordinateur

Téléchargez Whisper, maintenez la touche, dites une phrase, regardez-la apparaître là où se trouve déjà votre curseur.

Gratuit sur l'ensemble de la chaîne locale. Aucun moyen de paiement à l'inscription.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis les e-mails d'assistance, très probablement en dictant les réponses.

Pour aller plus loin