Par Denys Medvediev

Guide

Comment convertir un mp3 en texte

Pour convertir un mp3 en texte, faites passer le fichier dans un outil de reconnaissance vocale. La voie gratuite et confidentielle, c'est une application open source locale comme Buzz ou la ligne de commande OpenAI Whisper, qui transcrivent directement sur votre machine. La voie la plus rapide à mettre en route, c'est un convertisseur web sur lequel vous déposez votre fichier.

Dernière mise à jour : juin 2026

Un écran d'ordinateur affichant la forme d'onde d'un enregistrement sonore dans un logiciel de montage audio

Pour convertir un mp3 en texte, faites passer le fichier dans un outil de reconnaissance vocale. La voie gratuite et confidentielle, c'est une application open source locale comme Buzz ou la ligne de commande OpenAI Whisper, qui transcrivent directement sur votre machine. La voie la plus rapide à mettre en route, c'est un convertisseur web sur lequel vous déposez votre fichier. Les deux transforment l'audio en texte modifiable.

Vous avez donc un mp3 et il vous faut les mots qu'il contient. Une interview enregistrée, un mémo vocal, un épisode de podcast, un cours que vous avez sauvegardé depuis votre téléphone. Le travail est le même dans tous les cas : partir d'un audio, obtenir un texte que vous pouvez modifier.

La bonne nouvelle, c'est qu'en 2026 le problème est résolu, et la plupart des méthodes sont gratuites. La nouvelle un peu agaçante, c'est que les outils portent tous des noms qui se ressemblent. Alors laissez-moi y mettre de l'ordre.

Il existe trois voies honnêtes. Faire tourner un outil local gratuit sur votre propre ordinateur (le plus confidentiel, aucun envoi, sans frais). Utiliser une application Mac conçue pour ça. Ou déposer le fichier sur un service web qui le transcrit sur un serveur, ce qui est le plus rapide à démarrer, même si l'audio quitte votre machine. Le bon choix dépend de ce qui compte le plus pour vous, la confidentialité ou la commodité, et de votre humeur technique du jour.

Autant le dire dès le début, parce que ce serait malhonnête de le cacher. L'application que mon équipe développe, Whisper by Remskill, ne convertit pas les fichiers mp3. C'est un outil de dictée en direct. Vous maintenez un raccourci, vous parlez, et vos mots apparaissent là où vous êtes en train d'écrire. Un tout autre métier. J'expliquerai où il s'intègre vers la fin, mais si vous êtes venu ici pour convertir un enregistrement existant, ce sont les outils ci-dessous qu'il vous faut.

La voie gratuite et confidentielle : un outil open source local

Si vous ne voulez pas que votre enregistrement traîne sur le serveur de quelqu'un d'autre, faites la transcription sur votre propre ordinateur. Le moteur que presque tout le monde utilise pour ça est OpenAI Whisper, publié sous licence MIT, libre d'usage, libre à lire, libre à exécuter. C'est la même famille de modèle qui anime bon nombre des applications payantes que vous avez vues passer en publicité.

Il y a plusieurs façons de s'en servir concrètement, depuis « je suis à l'aise dans un terminal » jusqu'à « donnez-moi un bouton sur lequel cliquer ».

OpenAI Whisper (ligne de commande Python)

Installez-le avec pip, installez l'outil ffmpeg dont il dépend, puis pointez-le vers votre fichier : whisper recording.mp3 --model turbo. Il lit le mp3, le transcrit et produit un fichier texte. Il existe six tailles de modèle, d'un tout petit très rapide à un grand très précis, vous pouvez donc échanger de la vitesse contre de la précision. Il est multilingue et peut même traduire en anglais un audio dans une autre langue. Le hic, c'est l'installation. pip et ffmpeg ne sont pas difficiles, mais ce n'est pas rien non plus. J'ai un jour passé vingt minutes à corriger un chemin ffmpeg sur un portable tout neuf. J'ai un master.

whisper.cpp

Le même modèle Whisper, réécrit en C et C++ purs pour tourner vite sans Python et sans dépendances lourdes. Il fonctionne sur le seul processeur et est très optimisé pour les Mac Apple Silicon. Sous licence MIT lui aussi. Vous le compilez depuis les sources et le lancez en ligne de commande, c'est donc carrément pour les habitués du terminal. C'est l'option épurée si vous avez beaucoup de fichiers à avaler.

Buzz

C'est celui que je conseille aux personnes non techniques. Buzz est une application de bureau normale, avec une fenêtre normale. Vous l'ouvrez, vous choisissez votre mp3, il transcrit hors ligne sur votre machine. Il est bâti sur OpenAI Whisper, il sait transcrire et traduire, et il fonctionne sous macOS, Windows et Linux. Sous licence MIT et gratuit. Pas de terminal, pas de pip, pas de bataille avec ffmpeg. Si vous avez un fichier et que vous voulez en finir avec le moins de tracas possible, c'est la réponse.

Whisper Desktop (Const-me)

Une application Windows pour ceux qui ont une carte graphique. Elle transcrit les fichiers audio et utilise le GPU pour le faire rapidement, ce qui compte quand votre fichier est long. C'est de l'open source sous licence MPL-2.0. Windows uniquement. Si vous êtes sur un PC avec un GPU correct et un enregistrement de deux heures, c'est la voie rapide.

Du code et un terminal en ligne de commande ouverts sur l'écran d'un portable posé sur un bureau bien rangé

Sur Mac, une application dédiée vous épargne l'installation

Si vous êtes sur Mac et que la ligne de commande n'est pas votre idée d'une bonne soirée, MacWhisper est conçu exactement pour ça. Vous glissez un fichier audio ou vidéo dedans et il transcrit sur l'appareil, donc rien ne quitte votre machine. Il fait tourner les mêmes modèles OpenAI Whisper, plus le moteur Parakeet de NVIDIA, et il fait bien le travail de transcription de fichiers. Il exporte aussi vers les formats dont vous avez vraiment besoin, comme les fichiers de sous-titres pour la vidéo.

MacWhisper est pensé fichier d'abord : les enregistrements entrent, le texte sort. C'est tout son intérêt, et il le fait bien. Je le mentionne précisément parce que c'est ce qui se rapproche le plus d'une réponse Mac en un clic pour exactement ce que vous avez cherché.

Un convertisseur web démarre le plus vite, mais votre audio quitte votre machine

L'autre voie ne demande aucune installation. De nombreux services web vous laissent déposer un mp3, attendre une minute et télécharger une transcription. Pas d'installation, pas de modèle à télécharger, ça marche depuis un téléphone ou un portable emprunté. Pour un besoin ponctuel rapide, cette commodité est réelle, et je ne vais pas prétendre le contraire.

Voici la seule opinion tranchée de cet article, et je vais l'étayer par la raison évidente plutôt que par des grands gestes. Quand vous déposez un enregistrement sur un convertisseur web, l'audio quitte votre ordinateur et atterrit sur le serveur de quelqu'un d'autre. Pour un podcast que vous allez de toute façon publier, peu importe. Pour un entretien RH enregistré, un compte rendu médical, ou une réunion client où un montant de salaire ou un nom de patient est prononcé à voix haute, c'est une décision de confidentialité que vous prenez, souvent sans lire la page qui vous dit combien de temps le fichier est conservé. Un outil local fait le même travail et l'audio ne part nulle part. Pour des enregistrements sensibles, la transcription uniquement dans le cloud est un désastre de confidentialité qui n'attend qu'à être transcrit.

Si un convertisseur web est vraiment le bon choix pour vous, le paysage des services de transcription mérite un coup d'œil. J'ai écrit sur cette catégorie ailleurs. Commencez par le guide de transcription rapide et le guide des convertisseurs audio en texte, qui couvrent tous deux la voie de l'envoi en ligne et la voie locale côte à côte.

Choisissez la précision et la langue par le modèle, pas par le marketing

Quel que soit l'outil sur lequel vous arrivez, la précision dépend surtout de deux choses que vous maîtrisez : la taille du modèle et le micro avec lequel l'audio a été enregistré. Les modèles plus grands sont plus lents et plus précis. Les plus petits sont plus rapides et plus légers. La plupart des outils locaux ci-dessus vous laissent choisir, parce qu'ils font tous tourner les mêmes modèles Whisper sous-jacents derrière des boutons différents.

La vérité ennuyeuse que personne qui vous vend un convertisseur « IA intelligente » ne veut dire à voix haute : un enregistrement propre sur un micro USB bon marché bat un enregistrement bourbeux passé dans le plus gros modèle. L'outil ne peut pas effacer le bruit de la climatisation qu'il a entendu. Si votre mp3 a été enregistré à l'autre bout d'une pièce sur le micro d'un portable, revoyez vos attentes et, si c'est encore possible, réenregistrez peut-être.

Où Whisper by Remskill s'intègre, et où il ne s'intègre pas

Maintenant, la partie honnête que j'avais promise. Whisper by Remskill ne prend pas votre mp3 pour le transformer en texte. Il est conçu pour un autre moment.

C'est un outil de dictée en direct. Vous appuyez sur un raccourci (Ctrl+Space sur Windows par défaut, remappable), vous parlez, et vos mots s'écrivent directement dans l'application où vous êtes : votre e-mail, votre document, un message Slack, un commentaire de code. La transcription se fait localement pendant que vous parlez, et le texte arrive à votre curseur un instant après que vous vous arrêtez. Pas de fichier, pas d'envoi, pas de boucle enregistrer-puis-convertir.

Pasted
L'overlay de fin de dictée tel qu'il est livré : une dictée en direct qui se termine à votre curseur, pas un fichier en cours de conversion.

Alors, quand est-ce l'outil dont vous avez vraiment besoin ? Quand les mots qu'il vous faut n'existent pas encore sous forme d'enregistrement, parce qu'ils sont encore dans votre tête. Si votre véritable objectif n'a jamais été « convertir ce fichier » mais « mettre vite mes propres paroles dans un document », vous sautez complètement l'enregistrement. Vous le pensez, vous le dites, c'est écrit. Toute la chaîne locale est gratuite, et elle tourne sous Windows et Mac (Apple Silicon). J'ai un jour dicté un e-mail à une enseignante, une liste de courses et une réponse à ma sœur dans le temps qu'il a fallu à la bouilloire pour siffler, puis j'ai oublié de me servir le thé. L'outil a fonctionné. Pas moi.

Whisper
L'application Whisper by Remskill en direct : barre latérale, panneau de transcription et cartes d'instructions IA. C'est la vraie interface, pas une capture d'écran.

Pour le tableau complet du fonctionnement de la transcription en direct et hors ligne sous le capot, le guide de la reconnaissance vocale hors ligne va plus loin. Mais si vous avez un enregistrement qui dort dans votre dossier de téléchargements en ce moment même, remontez en haut de la page. Buzz ou la ligne de commande Whisper, c'est ce qu'il vous faut, pas nous.

Si vous n'en avez besoin qu'une seule fois

Un fichier, une fois, sans intention de recommencer ? Ouvrez Buzz, déposez votre mp3, laissez-le tourner. C'est gratuit, ça marche hors ligne, et vous n'aurez rien installé qu'il vous faille entretenir. C'est toute la recommandation. Gardez les outils en ligne de commande pour le jour où vous aurez cinquante fichiers au lieu d'un.

Le moyen le plus rapide de convertir un mp3, c'est de ne pas avoir de mp3 du tout. Mais pour l'enregistrement que vous avez déjà, un outil local gratuit vous y amène sans l'envoyer où que ce soit.

Whisper by Remskill est fait pour la dictée en direct, pas la conversion de fichiers

Si votre objectif est de mettre vos propres paroles dans un document sans taper, découvrez comment fonctionne la dictée en direct. Pour convertir un enregistrement que vous avez déjà, Buzz est la réponse gratuite ci-dessus.

Chaîne locale gratuite. Windows et Mac (Apple Silicon).

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, le plus souvent en dictant les réponses.

Pour aller plus loin