Guide
Logiciel de transcription de réunions
Un même terme de recherche, deux usages très différents. Certains outils envoient un bot rejoindre votre appel pour rédiger des notes partagées. D'autres traitent un enregistrement existant, hors ligne, directement sur votre ordinateur. Voici comment identifier ce dont vous avez vraiment besoin.
Dernière mise à jour : juin 2026

Un logiciel de transcription de réunions convertit les conversations orales en texte consultable. Il fonctionne de deux façons : en temps réel, où la transcription apparaît en direct pendant que les participants parlent, et après la réunion, où l'enregistrement est traité pour produire des notes plus propres, horodatées et attribuées à chaque intervenant. La plupart des outils rejoignent les appels automatiquement via un bot synchronisé avec votre agenda ; quelques-uns fonctionnent sans bot, à partir d'un enregistrement déjà en votre possession.
La première fois que j'ai vu une équipe accumuler une facture à cinq chiffres pour la transcription de réunions, ces réunions avaient déjà des notes. Un prestataire avait connecté un prototype de dictée IA interne qui appelait l'API cloud pour chaque utterance, avec une logique de relance si agressive qu'elle avait transcrit le même enregistrement de standup quatre fois. Le responsable a ouvert le tableau de bord des coûts en fin de trimestre. La salle s'est tue.
La vérité ennuyeuse sur cette catégorie, c'est que choisir le mauvais outil coûte cher — en argent, en confidentialité ou en temps — le plus souvent avant que qui que ce soit ne s'en aperçoive.
C'est tout l'objet de cet article. Les équipes rêvent de notes de réunion automatiques depuis une décennie, et les outils font désormais le travail correctement. Le hic, c'est qu'ils font des choses radicalement différentes sous le même terme de recherche. Certains rejoignent votre appel vidéo sous forme de bot et rédigent des notes partagées pour tout le monde. D'autres traitent un enregistrement après coup, hors ligne, sur votre propre ordinateur.
Je décris ci-dessous les deux approches, je nomme les outils qui méritent attention, et je suis honnête sur ce que notre application ne fait pas : elle n'est pas un bot de réunion. En tant que personne qui lit nos e-mails de support, je peux vous dire que la majorité des malentendus dans cette catégorie viennent de personnes qui ont choisi le mauvais type d'outil dès le départ. J'ai répondu assez souvent au même e-mail pour le reconnaître dès l'objet.
Ce que fait un logiciel de transcription de réunions (et les deux façons dont il fonctionne)
Derrière le marketing, tous ces outils font une seule chose : ils prennent de l'audio et produisent du texte. L'audio est la parole humaine lors d'une réunion. Le texte est une transcription. Tout le reste — résumés, points d'action, attribution des prises de parole, recherche — est construit par-dessus cette unique conversion.
La catégorie se divise selon le moment où cette conversion a lieu.
- La transcription en temps réel se déroule pendant que les gens parlent. Les mots apparaissent à l'écran avec une ou deux secondes de décalage par rapport à l'intervenant. C'est ce que vous obtenez avec les sous-titres en direct dans Zoom ou Microsoft Teams, et avec les bots preneurs de notes qui affichent une transcription continue pendant l'appel. Utile sur le moment : pour l'accessibilité, pour suivre la conversation, pour rattraper un nom que vous avez manqué.
- La transcription post-réunion s'effectue sur l'enregistrement une fois l'appel terminé. L'outil dispose du fichier complet et peut prendre son temps. Il corrige les faux départs, identifie qui a dit quoi, ajoute des horodatages et assemble un document lisible. Le traitement post-réunion produit un texte plus propre, attribué et horodaté que la version en direct. La contrepartie, c'est d'attendre le résultat.
La plupart des outils connus (Otter, Fireflies, Fathom, tl;dv) font les deux, et ils captent l'audio de la même façon : un bot rejoint l'appel. Vous connectez votre calendrier Google ou Outlook, l'outil repère une réunion avec un lien vidéo, et il envoie un participant dans la salle pour écouter et enregistrer. Cette petite vignette d'enregistrement que vous avez aperçue dans une grille Zoom, c'est tout le modèle en un seul cadre.
Une troisième voie plus discrète se cache derrière ce terme de recherche : transcrire un enregistrement déjà en votre possession, sur votre propre machine, sans bot ni appel. C'est de la dictée et de la transcription, et non pas de la prise de notes de réunion — et c'est là que se situe notre application. J'y reviens plus bas, avec la partie honnête sur les cas où ce n'est pas le bon choix.
Quand un bot de réunion est la bonne solution (et Whisper ne l'est pas)
Maria 10:02 Commençons par la date de lancement.
Tom 10:02 Je pense qu'on devrait décaler d'une semaine.
Si votre problème est « quelque chose devrait rejoindre mon appel Zoom, Teams ou Google Meet, capturer tout le monde et remettre des notes partagées à toute l'équipe après », vous avez besoin d'un bot de réunion. Whisper ne fait pas ça. Il ne rejoint pas automatiquement un appel, n'enregistre pas les autres participants et ne réalise pas de diarisation multi-locuteurs sur une visioconférence. Prétendre le contraire vous ferait perdre votre après-midi.
Pour ce type de besoin, les bons choix sont les preneurs de notes basés sur des bots. Otter.ai rejoint Zoom, Microsoft Teams et Google Meet pour rédiger et partager automatiquement des notes, avec un plan Basic gratuit si vous voulez tester le modèle avant de payer. Fireflies.ai rejoint les réunions par invitation ou en rejoignant automatiquement vos rendez-vous agenda, et son niveau gratuit inclut une transcription illimitée avec des résumés IA limités. tl;dv enregistre Google Meet, Zoom et Teams, propose un mode de capture sans bot et offre un plan gratuit à vie sans limite de durée. Fathom dispose d'un plan gratuit à vie avec enregistrements illimités et le choix entre la capture sans bot (en bêta) ou avec bot.
Voici la partie de l'article où je vous envoie délibérément voir ailleurs. Otter est fait pour les réunions. Whisper est fait pour écrire. Ce sont deux catégories différentes, et payer pour la mauvaise est l'erreur la plus fréquente dans cet espace. Si vous avez besoin de diarisation multi-locuteurs sur un appel enregistré, d'une connexion automatique à votre agenda et d'un résumé dans le canal d'équipe avant la fin de la réunion, un bot preneur de notes accomplit un travail pour lequel notre application n'a jamais été conçue. Nous rendons l'écriture vocale rapide ; eux rendent la capture d'une salle automatique. Choisissez d'abord la catégorie, l'outil ensuite.
Quelle est la précision réelle de la transcription de réunions par IA ?
La réponse honnête : meilleure que vous ne l'espériez sur un audio propre, moins bonne que vous ne le souhaiteriez lors d'une vraie réunion. La catégorie atteint environ 85 à 95 % de précision sur un audio clair en une seule langue, et ce taux chute avec le bruit de fond, les accents, le jargon et les interruptions. Les services avec vérification humaine remontent vers 99 %, parce qu'une personne corrige ce que le modèle a raté.
Notre propre mode local affiche une précision qui se situe généralement entre 95 et 99 %, les modèles plus grands obtenant de meilleurs résultats. Je tiens à être prudent ici. Il s'agit de notre mesure sur notre logiciel, pas d'une comparaison indépendante face à Otter ou Fireflies, et je n'en inventerai pas. Quiconque vous donne un taux de précision unique pour la transcription de réunions sans préciser les conditions audio est en train de vendre, pas de mesurer.
Voici ce que personne ne met en avant, parce qu'il n'y a rien à vendre là-dedans. Le microphone compte plus que le modèle. Un micro USB à vingt euros fait plus pour votre transcription que passer d'un petit modèle au plus grand. La plupart des mauvaises transcriptions que j'ai vues n'étaient pas dues à un échec du modèle. C'était un micro d'ordinateur portable qui captait la climatisation, quatre personnes partageant une salle et un haut-parleur, ou un casque Bluetooth qui coupait le premier mot de chaque phrase. Corrigez l'audio en premier. L'IA ne peut pas « désentendre » une bouilloire.
Deux autres facteurs influencent la précision sous le capot. Le premier est la façon dont l'outil détermine où une personne arrête de parler et où une autre commence — ce qui devient difficile quand les gens se coupent la parole (la raison pour laquelle une transcription de ma famille à table ressemblerait à un seul paragraphe de 400 mots sans ponctuation). Le second est la prise en charge du vocabulaire personnalisé : la capacité à lui soumettre les noms de produits, patronymes et acronymes qu'aucun modèle généraliste n'a jamais vus. Whisper vous permet de définir un vocabulaire personnalisé et de favoriser des mots-clés spécifiques sur son moteur Whisper local, et de nombreux bots de réunion le permettent aussi. Si vos appels sont remplis de jargon, ce seul paramètre vaut plus qu'une mise à niveau de modèle.
Sans bot et hors ligne : transcrire un enregistrement que vous avez déjà
Voici la voie que le terme de recherche passe sous silence, et celle pour laquelle notre application est conçue. Vous n'avez pas toujours besoin d'un logiciel pour rejoindre une réunion. Parfois, vous avez déjà l'enregistrement — un mémo vocal d'un entretien individuel, une interview, l'export d'un webinaire, un clip envoyé par un collègue — et vous avez juste besoin d'en extraire un texte propre, sur votre propre machine, sans bot dans aucun appel.
Un logiciel de dictée et de transcription comme Whisper répond à ce besoin, et se distingue par la confidentialité. Tout en mode local s'exécute sur votre ordinateur. L'audio ne quitte jamais l'appareil : pas de serveur intermédiaire, pas de journaux chez le fournisseur, pas de compteur de coûts cloud. La discussion salariale de votre responsable, l'enregistrement juridique, l'entretien RH : rien de tout ça ne devrait atterrir dans le stockage d'un tiers parce que vous aviez besoin d'une transcription. La priorité au local n'est pas une fonctionnalité ici. C'est le principe fondateur.
Whisper fait tourner deux moteurs locaux, tous deux en Rust pur via transcribe-rs, sans sidecar Python qui ralentirait le démarrage. Le premier est le Whisper open source d'OpenAI, qui dans ses versions multilingues couvre 99 langues et peut traduire vers l'anglais, avec des tailles de modèles allant de Base (environ 140 MB) à Large v3 (environ 3 GB). Les versions anglaises uniquement sont exactement ça — anglais seulement — et elles ont tendance à fonctionner un peu plus légèrement. Le second moteur est le Parakeet TDT de NVIDIA, environ 600 MB, décrit dans l'application comme 5 à 10 fois plus rapide que Whisper sur CPU, couvrant l'anglais et 24 langues européennes (25 au total) sans traduction vers l'anglais. Choisissez Parakeet pour la vitesse si vous travaillez principalement en anglais. Choisissez Whisper si vous avez besoin de traduction ou d'une langue non couverte par Parakeet.
L'interaction est la même que celle que j'utilise toute la journée. Vous maintenez la touche de raccourci — Ctrl+Space sous Windows, ou la combinaison Command+Option push-to-talk sur Mac, en maintenant les deux touches et en relâchant l'une ou l'autre pour arrêter — vous parlez, et le texte s'insère à votre curseur dans n'importe quelle application active. Un petit overlay indique l'état pendant le traitement. Pour un enregistrement plutôt que de la parole en direct, vous pointez l'application vers le fichier et obtenez la transcription en retour. Si vous vous intéressez spécifiquement au côté dictée, notre guide de reconnaissance vocale hors ligne approfondit l'utilisation entièrement locale.
Une option Cloud existe également, pour ceux qui souhaitent les derniers modèles OpenAI et une recherche web par la voix dans le même outil. Apportez votre propre clé OpenAI, dites « Hey whisper » pour router le texte via l'IA. Mais pour transcrire un enregistrement déjà en votre possession, le mode local est la réponse — et il est gratuit pour tout utilisateur connecté.
Les autres outils à connaître
Cette catégorie est encombrée, et les résultats de recherche sont dominés par des listes classant six à dix outils chacune. Voici une carte claire pour que vous n'ayez pas à lire dix avis pour comprendre à quoi sert chacun. Toutes les fonctionnalités ci-dessous proviennent des pages officielles de chaque outil.
- Otter.ai — le preneur de notes de réunion par défaut. Le bot rejoint Zoom, Teams et Meet ; plan Basic gratuit avec 300 minutes mensuelles, puis des niveaux Pro et Business payants. Transcription en six langues : anglais, espagnol, français, allemand, japonais, chinois.
- Fireflies.ai — le bot rejoint par invitation ou en rejoignant automatiquement les réunions de votre agenda. Plan gratuit avec transcription illimitée et résumés IA limités ; annonce plus de 100 langues selon les niveaux.
- tl;dv — enregistre Meet, Zoom et Teams, propose un mode sans bot, transcrit en plus de 30 langues, plan gratuit à vie sans limite de durée et sans carte bancaire requise.
- Fathom — plan gratuit à vie avec enregistrements illimités, plus le choix entre la capture sans bot (bêta) ou avec bot ; niveaux Premium, Team et Business payants au-dessus.
- Notta — dispose d'un bot de réunion pour Zoom, Teams et Meet ainsi que d'un niveau gratuit ; son propre centre d'aide liste environ 58 langues.
- Zoom et Teams, en natif — avant d'acheter quoi que ce soit, vérifiez ce que vous payez déjà. Zoom transcrit les enregistrements cloud et propose la transcription en temps réel AI Companion dans 46 langues sur les plans payants éligibles. Microsoft Teams dispose d'une transcription en direct native dans environ 50 langues ou plus ; la transcription traduite en direct nécessite Teams Premium.
Voici la même carte sous forme de tableau, avec uniquement les informations vérifiables sur les pages officielles de chaque outil. Pas de chiffres de précision ou de vitesse, parce que personne ne les a comparés sur le même audio, et je n'inventerai pas le test.
| Outil | Capture | Local/Cloud | Fonctionne hors ligne | Modèle tarifaire | Langues | Idéal pour |
|---|---|---|---|---|---|---|
| Otter.ai | Bot rejoint l'appel | Cloud | Non | Niveau gratuit + payant par utilisateur | 6 | Le preneur de notes d'équipe par défaut |
| Fireflies.ai | Bot par invitation ou rejoindre auto | Cloud | Non | Niveau gratuit + payant par utilisateur | 100+ | Transcription gratuite généreuse |
| tl;dv | Enregistre l'appel, mode sans bot disponible | Cloud | Non | Gratuit à vie + payant | 30+ | Pas de bot dans la grille de réunion |
| Fathom | Sans bot (bêta) ou avec bot | Cloud | Non | Gratuit à vie + payant | Non précisé sur la page tarifaire | Enregistrements gratuits illimités |
| Notta | Bot rejoint l'appel | Cloud | Non | Niveau gratuit + payant | ~58 (centre d'aide) | Un bot avec un niveau gratuit |
| Zoom / Teams (natif) | Natif à l'appel | Cloud | Non | Inclus dans les plans payants éligibles | Zoom 46, Teams 50+ | Ce que vous payez déjà |
| Whisper by Remskill | Pas d'appel ; transcrit un fichier ou une dictée | Local (Cloud optionnel) | Oui | Niveau local gratuit + Pro | 99 multilingue, 25 Parakeet | Privé, sans bot, sur l'appareil |
Si vos réunions se déroulent déjà sur un plan Zoom ou Teams payant, la transcription intégrée est peut-être tout ce dont vous avez besoin — sans abonnement supplémentaire ni bot de plus dans l'appel.
Ce que je choisirais selon la situation
Je lis les e-mails de support, donc je vois assez souvent les regrets liés au mauvais outil pour avoir des opinions arrêtées. Voici comment je choisirais.
- Vous voulez des notes d'un appel vidéo d'équipe, automatiquement, partagées avec tout le monde. Utilisez un bot preneur de notes. Otter pour la valeur sûre et soignée, Fireflies ou Fathom pour un niveau gratuit généreux, tl;dv si l'absence de bot dans la grille compte pour vous.
- Vous êtes déjà sur un plan Zoom ou Teams payant. Essayez la transcription intégrée avant de payer pour un troisième outil.
- Vous avez un enregistrement et voulez un texte propre, en toute confidentialité, sur votre propre machine. C'est la voie sans bot et hors ligne : Whisper, ou un autre outil de transcription locale. L'audio reste sur l'appareil.
- Vous voulez écrire par la voix (e-mails, documents, notes pendant ou après l'appel) à votre curseur, dans n'importe quelle application. C'est de la dictée, et c'est le travail pour lequel Whisper a été conçu. Notre comparaison des logiciels de transcription détaille davantage la distinction entre dictée et notes de réunion.
- Vous avez besoin d'une transcription quasi-parfaite garantie pour un dossier légal ou de conformité. Utilisez un service avec vérification humaine. L'IA seule plafonne en dessous de 99 % sur de l'audio réel.
L'erreur à éviter est de payer pour un bot de réunion pour faire de la dictée, ou d'attendre d'un outil de dictée qu'il rejoigne vos appels. Ce sont des catégories différentes. Choisissez celle qui correspond au besoin. J'ai développé des logiciels pendant quinze ans et j'ai encore acheté le mauvais outil pour un travail l'année dernière — ce n'est donc pas un sermon venant de quelqu'un qui a tout bon du premier coup.
Les tarifs, en chiffres clairs
La plupart des outils ici proposent un niveau gratuit à tester avant de sortir la carte bancaire. Otter, Fireflies, tl;dv et Fathom offrent tous un plan gratuit, avec des niveaux payants quand vous avez besoin de plus de minutes, de plus de sièges ou d'un stockage illimité. Les bots preneurs de notes facturent généralement par utilisateur et par mois, ce qui monte vite à l'échelle d'une équipe.
Whisper est gratuit pour tout utilisateur connecté sur l'ensemble du pipeline local — les deux moteurs, l'amélioration IA via Ollama, l'historique, les préréglages, le vocabulaire personnalisé, la touche de raccourci, tout — sans demande de moyen de paiement à l'inscription. Le niveau payant ajoute l'accès Cloud pour ceux qui veulent les modèles OpenAI et la recherche web vocale. Les chiffres exacts pour les formules mensuelle, annuelle, à vie et par équipe se trouvent sur la page tarifaire. Je préfère que vous commenciez gratuitement et décidiez par vous-même plutôt que de vous donner un prix sorti de son contexte ici.
Choisissez d'abord le type d'outil, puis la marque. Si un bot doit rejoindre votre appel, utilisez un preneur de notes. Si un enregistrement sur votre ordinateur doit devenir un texte confidentiel, utilisez quelque chose de local. La facture à cinq chiffres que j'ai vue une équipe accumuler venait de n'avoir jamais demandé pour quel travail ils payaient — et c'est une réunion dont personne n'avait besoin d'une transcription.
Essayez la voie sans bot sur un enregistrement que vous avez déjà
Téléchargez Whisper, pointez-le vers un enregistrement et regardez un texte propre apparaître — sur votre propre machine, sans bot dans aucun appel.
Gratuit pour tout utilisateur connecté sur l'ensemble du pipeline local. Aucun moyen de paiement requis à l'inscription.



