Par Denys Medvediev

Guide

Comment transcrire des entretiens

Pour transcrire un entretien automatiquement, faites passer l'enregistrement dans un outil de reconnaissance vocale : une option gratuite et open source comme Buzz ou OpenAI Whisper sur votre propre ordinateur pour la confidentialité, ou un service de transcription cloud si vous avez aussi besoin de l'identification des locuteurs et d'un éditeur soigné. Choisissez le local pour la gratuité et la confidentialité, le cloud pour la diarisation.

Dernière mise à jour : juin 2026

Un bureau de studio podcast avec des microphones et une table de mixage, prêt à enregistrer une conversation

Pour transcrire un entretien automatiquement, faites passer l'enregistrement dans un outil de reconnaissance vocale : une option gratuite et open source comme Buzz ou OpenAI Whisper sur votre propre ordinateur pour la confidentialité, ou un service de transcription cloud si vous avez aussi besoin de l'identification des locuteurs et d'un éditeur soigné. Choisissez le local pour la gratuité et la confidentialité, le cloud pour la diarisation.

Je vais commencer par la partie gênante, parce qu'elle vous fait gagner dix minutes. Whisper by Remskill, l'application à qui appartient ce blog, ne transcrit pas les enregistrements d'entretiens. C'est de la dictée en direct : vous maintenez un raccourci clavier, vous parlez, et les mots apparaissent à votre curseur dans n'importe quelle application. C'est un travail très différent de soumettre un enregistrement d'une heure entre deux personnes et d'obtenir une transcription étiquetée. Ce guide porte donc sur les outils qui font vraiment le travail d'entretien, rédigé par quelqu'un qui préfère vous envoyer vers le bon outil plutôt que de prétendre être ce bon outil.

Une transcription d'entretien est plus difficile qu'il n'y paraît pour une seule raison : les locuteurs. Un outil de transcription classique vous donne un mur de texte. Ce que vous voulez généralement, c'est « Intervieweur : » et « Interlocuteur : » devant chaque prise de parole. C'est ce qu'on appelle la diarisation, et tous les outils ne le font pas. La distinction qui compte vraiment, c'est local contre cloud. Les outils locaux fonctionnent sur votre ordinateur, ne coûtent rien et ne téléversent jamais votre audio. Les services cloud envoient le fichier sur leurs serveurs, mais gèrent mieux les étiquettes de locuteurs et vous donnent un éditeur. Voici la carte honnête, suivie de la partie où je vous dis exactement où nous sommes utiles et où nous ne le sommes pas.

La méthode gratuite et privée tourne sur votre propre ordinateur

Si l'entretien est sensible (une source à protéger, un patient, un cadre interne), l'enregistrement ne doit jamais quitter votre machine. Les outils open source gratuits transcrivent entièrement sur l'appareil.

Le modèle Whisper d'OpenAI est celui sur lequel la plupart de ces outils reposent. Il est publié sous licence MIT, vous l'installez avec une seule commande pip, et il transcrit des fichiers audio depuis la ligne de commande. Il se décline en six tailles, dont quatre avec des variantes uniquement en anglais, ce qui vous permet d'arbitrer entre vitesse et précision selon votre matériel. Il est multilingue et peut même traduire la parole en anglais pendant la transcription. Le problème pour les entretiens : Whisper de base retranscrit les mots, mais n'indique pas qui les a prononcés. La diarisation des locuteurs nécessite des outils supplémentaires greffés dessus, ou un service cloud qui l'intègre nativement.

Si la ligne de commande vous donne de l'urticaire, Buzz est la solution facile. C'est une application graphique qui transcrit et traduit l'audio hors ligne sur votre ordinateur, propulsée par Whisper, sous licence MIT et disponible sur macOS, Windows et Linux. Faites glisser l'enregistrement, choisissez un modèle, attendez, lisez la transcription. Pour la plupart des gens qui veulent transcrire un entretien gratuitement, c'est le chemin le plus court.

Deux autres méritent d'être connus. whisper.cpp est un portage C/C++ pur de Whisper qui fonctionne uniquement sur CPU et est fortement optimisé pour Apple Silicon : plus rapide, sans Python, mais vous devez le compiler et le piloter depuis la ligne de commande. Et MacWhisper est une application Mac construite autour de Whisper sur l'appareil et du Parakeet de NVIDIA, axée sur la transcription de fichiers — exactement le cas d'usage des entretiens. Tous ces outils gardent l'audio sur votre machine. Aucun d'eux, seul, ne vous donne des étiquettes de locuteurs propres.

Les services cloud ajoutent les étiquettes de locuteurs et un éditeur

C'est là que vous décidez ce que vaut votre vie privée. Les services de transcription dédiés téléversent votre enregistrement sur leurs serveurs, le traitent, puis vous rendent une transcription qui nomme généralement les locuteurs et la place dans un éditeur où vous pouvez corriger les noms et exporter. Cette commodité est bien réelle, et pour un podcast public ou un panel que vous ne voyez pas d'inconvénient à partager, c'est le meilleur outil.

Si c'est votre besoin (étiquettes multi-locuteurs, horodatages, une interface d'édition propre), regardez du côté de la catégorie établie de transcription de réunions et d'enregistrements plutôt que d'une application de dictée. J'ai décrit ce paysage dans l'article sur les alternatives à Otter.ai et dans celui sur les alternatives à Rev ; les deux couvrent les outils cloud qui font correctement la diarisation et l'édition.

Voici mon avis, et il s'accompagne d'une facture. Une équipe avec qui j'ai travaillé avait un jour fait appel à un prestataire pour construire un prototype interne de dictée qui appelait une IA cloud pour chaque énoncé. Le responsable a ouvert le tableau de bord des coûts en fin de trimestre et a trouvé un chiffre à cinq décimales, en grande partie à cause de la re-transcription des réunions quotidiennes quatre fois de suite parce que la logique de réessai était trop agressive. La réponse du DAF fut brève : ou alors on arrête de payer pour téléverser des réunions qui ont déjà des notes. L'argent était le petit problème. Le plus grand, c'est qu'un quart des appels internes vivait désormais sur les serveurs d'un prestataire. La transcription cloud est vraiment le bon choix pour les étiquettes de locuteurs et l'édition. C'est le mauvais choix pour un enregistrement que vous ne voulez jamais voir quitter les murs. Choisissez sur cet axe-là, pas sur le marketing.

Comment choisir, en un mot

Il y a trois types de personnes qui arrivent sur cette page : celles qui sont soucieuses de leur vie privée, celles qui sont sous pression de délai, et celles qui veulent juste les noms des locuteurs sans y réfléchir. Deux d'entre elles devraient opter pour le local.

  • Besoin que ce soit gratuit et privéBuzz (le plus simple) ou Whisper sur votre propre machine. L'audio ne quitte jamais votre ordinateur.
  • Besoin d'étiquettes de locuteurs et d'un éditeur soignéun service de transcription cloud. L'audio est téléversé ; c'est le compromis.
  • Sur Mac, vous voulez une app axée sur les fichiersMacWhisper, sur l'appareil.

Le critère de décision honnête : si l'enregistrement est sensible, la réponse est local, un point c'est tout. Si c'est une conférence publique et que vous voulez la diarisation clé en main, le cloud vaut son prix. La plupart des transcriptions d'entretiens relèvent du premier cas, c'est pourquoi je commence par les outils locaux gratuits. Si c'est la vitesse qui vous préoccupe, le guide pour transcrire l'audio rapidement passe en revue tous les leviers de vitesse.

Où Whisper by Remskill s'insère vraiment

Pasted
L'overlay post-dictée livré — à quoi ressemble une dictée live, entièrement locale, au moment où elle se termine. Il n'y a pas de bouton « téléverser un enregistrement » ici.

Voici maintenant la partie où je trace la ligne clairement, parce que le pire résultat de cet article serait que vous téléchargiez notre application en espérant qu'elle avale un enregistrement. Ce n'est pas son rôle. Whisper by Remskill est avant tout un outil de dictée : un raccourci clavier déclenche votre parole en direct, qui est transcrite et collée au curseur dans l'application où vous vous trouvez. Il n'y a pas de bouton « téléverser un fichier d'entretien », ni de diarisation des locuteurs, parce qu'il est conçu pour une seule voix : la vôtre, sur le moment.

Alors où un journaliste ou un chercheur l'utilise-t-il ? Autour de l'entretien, pas sur l'entretien lui-même. Pour dicter vos questions de préparation dans un document avant d'entrer dans la pièce. Pour parler à voix haute vos notes de suivi à la seconde où la conversation se termine, quand les impressions sont fraîches et que vos mains tiennent encore un café. Pour rédiger l'article à la voix une fois que la transcription existe. Le raccourci par défaut sur Windows est Ctrl+Space, entièrement reconfigurable, et tout le pipeline local est gratuit pour tout utilisateur connecté, sans carte bancaire à l'inscription. Il existe aussi un niveau payant cloud qui ajoute la transcription OpenAI et la recherche web pour la dictée en direct, mais cela reste de la saisie à la voix, pas de la transcription d'un enregistrement à deux voix.

Whisper
C'est la vraie application desktop — barre latérale, panneau de transcription et cartes d'instructions IA — pas une capture d'écran.

Utilisez-la pour l'écriture autour de l'entretien. Utilisez Buzz ou un service cloud pour l'entretien lui-même. Des outils différents, des travaux différents. Je préfère que vous le sachiez avant d'installer quoi que ce soit.

Un dernier mot

La plupart des enregistrements d'entretiens qui méritent d'être transcrits sont ceux que vous aimeriez le moins téléverser : la confidence hors micro, la source qui vous a fait confiance, le patient. C'est précisément pour ça que les outils locaux gratuits méritent leur place — le fichier reste sur votre ordinateur. J'ai une fois passé un week-end à affiner les réglages du modèle pour nettoyer mon propre audio brouillon, avant de remarquer que le vrai problème était le micro du portable posé à quinze centimètres d'un ventilateur. J'ai un master. Achetez d'abord le microphone.

Et quand la transcription est faite et qu'il est temps d'écrire l'article, c'est là que notre application cesse d'être spectatrice.

Dictez l'article, une fois la transcription faite

Transcrivez l'entretien avec Buzz ou un service cloud. Ensuite, téléchargez Whisper by Remskill et dictez l'article — la seule partie du flux de travail d'entretien pour laquelle nous avons été conçus. Le pipeline local est gratuit, sans carte bancaire à l'inscription.

Dictée locale gratuite pour toujours. Aucun moyen de paiement à l'inscription. Nous ne transcrivons pas les enregistrements — utilisez un outil local ou un service cloud pour cela.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, très probablement en dictant les réponses.

Pour aller plus loin