Par Denys Medvediev

Guide

Convertisseur audio en texte, expliqué

Outils web gratuits, applications de bureau hors ligne et cloud avec votre propre clé : tous transforment le son en texte. Ce qui compte vraiment, c'est l'endroit où votre audio est traité.

Dernière mise à jour : juin 2026

Gros plan d'une interface audio numérique affichant une forme d'onde sonore lumineuse sur un écran sombre

Un convertisseur audio en texte transforme un enregistrement ou une parole en direct en texte modifiable et consultable grâce à un modèle de reconnaissance vocale. Ce qui compte vraiment, c'est l'endroit où l'audio est traité : les outils web gratuits envoient vos fichiers sur un serveur, tandis qu'une application de bureau comme Whisper peut transcrire entièrement sur votre propre ordinateur, hors ligne, et coller le résultat là où se trouve votre curseur.

La plupart des outils audio en texte gratuits vous limitent aux 10 à 30 premières minutes de transcription, puis réclament une carte bancaire. Ça, c'est honnête. Les serveurs coûtent de l'argent. Ce que personne ne dit tout haut, c'est que votre audio a d'abord dû voyager jusqu'à ces serveurs. Un mémo vocal d'un médecin, l'enregistrement d'un conseil d'administration, un fichier de préparation pour une audience de garde d'enfants : tout est envoyé à un prestataire que vous n'avez jamais rencontré.

J'ai un avis là-dessus, et j'y viens.

Un convertisseur audio en texte ne fait qu'une chose : il écoute le son et écrit les mots. Les vraies différences tiennent à la façon dont il écoute (un modèle), à l'endroit où il écoute (votre machine ou un serveur) et à ce qu'il fait ensuite du texte (le déposer dans un fichier, ou le coller là où vous êtes déjà en train de taper). Les trois convertisseurs gratuits les mieux classés pour cette recherche sont tous du type « envoyez un fichier et attendez ». Whisper by Remskill est d'une autre espèce. Il est conçu d'abord pour la dictée, ce qui veut dire que vous appuyez sur un raccourci, vous parlez, et le texte apparaît au curseur dans n'importe quelle application.

Ce guide explique comment fonctionnent les convertisseurs, déroule le parcours en trois étapes pour un fichier enregistré, et vous dit quand un convertisseur web est le bon choix et quand il ne l'est pas. Après un an passé à lire nos e-mails d'assistance, je peux vous dire que l'essentiel vient de personnes qui ont choisi un outil cloud pour de l'audio qui n'aurait jamais dû quitter leur ordinateur.

Un convertisseur audio en texte transforme vos enregistrements en mots que vous pouvez modifier

Whisper
La vraie application Whisper — explorez les Paramètres pour voir comment la transcription locale et cloud sont configurées.

Sous le capot, chaque convertisseur fait tourner la même chose : un modèle de reconnaissance vocale. Il prend la forme d'onde de votre audio et prédit les mots, un fragment à la fois. C'est dans le modèle que se joue la précision. Le grand modèle ouvert derrière beaucoup de ces outils est Whisper, d'OpenAI, qui prend en charge 99 langues dans ses variantes multilingues. La même API Speech-to-Text d'OpenAI expose whisper-1 ainsi que les modèles plus récents gpt-4o-transcribe et gpt-4o-mini-transcribe.

Le résultat est un texte brut, modifiable. Vous pouvez corriger un nom, rechercher une expression, le glisser dans un e-mail. C'est tout l'intérêt. Le son est difficile à survoler, le texte est facile à parcourir. Whisper produit le même texte modifiable, mais au lieu de vous remettre un fichier à télécharger, il peut le coller directement dans l'application où vous vous trouvez. L'application intégrée ci-dessus est la véritable interface de bureau, pas une maquette.

Le modèle que vous choisissez détermine la précision, et le modèle ouvert Whisper et Google Cloud Speech-to-Text ne se situent pas au même endroit ; notre comparaison Whisper et Google Speech-to-Text met les deux moteurs côte à côte sur la précision, la couverture linguistique et la destination de votre audio.

Comment convertir un fichier audio en texte en trois étapes

Pour un fichier enregistré, le parcours est court. Les convertisseurs web gratuits le résument à : envoyer, cliquer, télécharger.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Un convertisseur web typique : déposez un fichier, attendez l'envoi, téléchargez la transcription.
1

Choisissez où ça tourne. Les convertisseurs cloud vous demandent d'envoyer le fichier sur leur serveur. Whisper effectue la transcription sur votre propre machine en mode local, si bien que le fichier ne quitte jamais votre ordinateur.

2

Choisissez un modèle pour votre langue. Les fichiers uniquement en anglais sont plus rapides sur un petit modèle. Un audio multilingue ou mélangeant plusieurs langues nécessite un modèle multilingue couvrant 99 langues.

3

Récupérez le texte et modifiez-le. La transcription revient sous forme de texte brut. Corrigez les fautes qu'un modèle fait toujours sur les noms propres, et c'est terminé.

CancelTranscribing
Whisper transcrivant un enregistrement en local — le fichier ne quitte jamais votre machine.

Un détail à connaître : les API cloud imposent des limites de taille. Le point d'accès de transcription d'OpenAI plafonne les envois à 25 Mo par requête. Un long enregistrement de réunion au format WAV dépasse vite cette limite. Le traitement local n'a pas de telle limite, hormis votre propre espace disque et votre patience.

Fichiers enregistrés ou dictée en direct : de quoi avez-vous besoin ?

Voici la question que la plupart des pages de convertisseurs esquivent. Êtes-vous en train de transcrire un fichier qui existe déjà, ou essayez-vous d'écrire quelque chose de nouveau avec votre voix ?

Si vous avez un enregistrement (un entretien, un cours, un podcast), un convertisseur de fichiers est le bon outil. Envoyez-le, récupérez la transcription, passez à autre chose. Les trois meilleurs outils gratuits gèrent cela, avec des limites de minutes quotidiennes sur l'offre gratuite.

Cancel
La fenêtre d'enregistrement en direct de Whisper — maintenez le raccourci, parlez, relâchez.

Si vous rédigez un nouvel e-mail, une note ou un document, vous ne voulez pas du tout d'un fichier. Vous voulez que les mots apparaissent au fil de votre parole. C'est la dictée, et c'est un mécanisme différent. Avec Whisper, vous maintenez un raccourci, vous parlez, puis vous relâchez. Sur Windows, le raccourci par défaut est Ctrl+Space, et sur macOS c'est un raccourci push-to-talk Command+Option (maintenez les deux, relâchez l'une ou l'autre touche pour arrêter). Le texte transcrit se colle à votre curseur dans n'importe quelle application. Pas d'envoi, pas de téléchargement, pas de changement d'onglet. La fenêtre superposée ci-dessus est ce que vous voyez pendant qu'il écoute.

La plupart des gens qui cherchent un convertisseur audio en texte veulent la première chose et découvrent qu'ils voulaient aussi la seconde. On enregistre moins de choses qu'on n'en écrit. J'ai passé deux semaines l'an dernier à chercher un meilleur convertisseur de fichiers alors que ce dont j'avais réellement besoin, c'était d'arrêter de taper mes réponses d'un doigt pendant l'entraînement de natation de ma fille.

Local ou cloud : où votre audio est traité (et pourquoi ça compte)

Rangées de baies de serveurs dans un centre de données avec des équipements actifs, représentant le traitement audio dans le cloud

L'embranchement qui compte arrive ici, et c'est celui sur lequel les outils gratuits sont les plus discrets. Un convertisseur web traite votre audio sur ses serveurs. AudioConvert.ai indique que les fichiers sont supprimés sous 24 heures. HappyScribe et NoteGPT envoient eux aussi vos données vers le cloud. C'est la norme, et pour un podcast public, c'est très bien.

Maintenant, l'avis que j'avais promis. La conversion audio uniquement dans le cloud est un désastre de confidentialité en attente d'être transcrit. Une équipe avec laquelle j'ai travaillé avait un jour fait développer par un prestataire un prototype interne de dictée qui appelait une IA cloud à chaque énoncé. Le responsable a ouvert le tableau de bord des coûts à la fin du trimestre et y a trouvé une facture à cinq chiffres, l'essentiel provenant de la transcription d'enregistrements de réunions de suivi quatre fois de suite, parce que la logique de relance était trop agressive. La réponse du directeur financier fut brève : ou alors on pourrait ne pas payer pour envoyer des réunions dont on a déjà les comptes rendus. L'argent était le petit problème. Le plus gros, c'est que des trimestres entiers d'appels internes résidaient désormais sur les serveurs de quelqu'un d'autre.

Le mode local de Whisper répond à cela. En mode local, tout l'audio est traité sur votre ordinateur et rien ne quitte l'appareil ; après un téléchargement de modèle unique (entre environ 140 Mo et 3 Go selon le modèle), il fonctionne entièrement hors ligne. Deux moteurs tournent sur l'appareil : les modèles Whisper, et Parakeet de NVIDIA, qui est 5 à 10 fois plus rapide que Whisper sur CPU mais ne couvre que l'anglais et 24 langues européennes, sans traduction vers l'anglais. Si vous préférez le cloud, Whisper propose un mode OpenAI avec votre propre clé utilisant gpt-4o-mini-transcribe ou gpt-4o-transcribe (les mêmes modèles que l'API expose), facturé directement par OpenAI, sans marge de notre part. L'essentiel, c'est que vous choisissez. Les outils web gratuits choisissent à votre place, et la réponse est toujours leur serveur. Pour en savoir plus sur le fait de rester entièrement à l'écart du cloud, consultez notre guide sur la reconnaissance vocale hors ligne.

Choisir la précision : quel modèle gère votre accent et votre langue

La précision est surtout une question de modèle, et le modèle est une question de langue. Les convertisseurs gratuits affichent de gros chiffres. AudioConvert.ai annonce jusqu'à 99 % de précision sur un audio clair, HappyScribe parle de jusqu'à 96 %. Ce sont des arguments marketing de prestataires sans méthode publiée : traitez-les comme la brochure, pas comme le banc d'essai.

Ce qui fait bouger la précision, c'est l'adéquation entre le modèle et votre audio. Whisper livre 8 modèles locaux répartis entre anglais uniquement et multilingue. Les versions anglais uniquement (de Base à ~140 Mo jusqu'à Medium à ~1,5 Go) verrouillent le sélecteur de langue sur l'anglais et font cette seule tâche très bien. Les versions multilingues (Small, Medium, Large v3 à ~3 Go, et une Large v3 Turbo) couvrent 99 langues avec détection automatique. De l'ukrainien et de l'anglais mélangés dans une même phrase ? Il faut un modèle multilingue. Un mémo vocal propre en anglais ? Le modèle Base anglais est plus rapide et plus léger.

Whisper
Le sélecteur de modèle et de langue dans la vraie application Whisper — versions anglais uniquement et multilingues côte à côte.

La vérité ennuyeuse qu'aucune page de modèle n'avoue : un microphone-cravate bon marché fait plus pour la précision que n'importe quelle montée en gamme de modèle. Audio pourri en entrée, texte pourri en sortie. Aucune IA ne rattrape un enregistrement réalisé à côté d'un lave-vaisselle en marche. J'ai passé un week-end à régler les paramètres du modèle pour nettoyer mon propre audio embrouillé avant de réaliser que le problème, c'était le micro du portable à quinze centimètres d'un ventilateur. J'ai un master. Le panneau de paramètres ci-dessus est là où vous choisissez le modèle et la langue.

Quand renoncer à un convertisseur web (et utiliser autre chose)

Un espace de bureau bien rangé avec un carnet, des lunettes et des stylos, suggérant des alternatives manuelles de prise de notes

Un convertisseur web est parfois le meilleur choix, et je préfère vous le dire plutôt que de vous laisser vous battre avec le mauvais outil. Si vous avez un seul court enregistrement (un extrait d'entretien de cinq minutes, un unique mémo vocal) et que peu vous importe qu'il transite par un serveur, un convertisseur gratuit comme HappyScribe vous offre les 10 premières minutes sans carte bancaire. Ouvrez la page, envoyez, c'est fait. Installer une application de bureau pour ça serait disproportionné.

Renoncez au convertisseur web lorsqu'une de ces trois choses est vraie : l'audio est sensible (médical, juridique, financier), le fichier est assez gros pour atteindre la limite cloud de 25 Mo, ou vous êtes en train d'écrire quelque chose de nouveau plutôt que de transcrire quelque chose d'ancien. Les deux premiers cas appellent un traitement local. Le troisième appelle la dictée, pas du tout un convertisseur. Pour une transcription de type réunion avec plusieurs intervenants et des résumés, un outil dédié à cette catégorie convient mieux que l'un ou l'autre — c'est un autre métier, abordé dans notre tour d'horizon des logiciels de transcription.

Combien ça coûte

Whisper est gratuit pour tout le monde sur l'ensemble du pipeline local (les deux moteurs de transcription, le nettoyage de texte par IA, l'historique et le raccourci personnalisé), sans moyen de paiement requis à l'inscription. La partie cloud avec votre propre clé correspond à l'offre payante Pro, et OpenAI vous facture directement les minutes réellement transcrites. Les convertisseurs web gratuits de cette recherche fonctionnent sur un plafond de minutes freemium : HappyScribe offre 10 minutes gratuites, AudioConvert.ai donne 30 minutes par jour. Whisper est aujourd'hui disponible sur Windows et sur macOS sur Apple Silicon. Pour les chiffres exacts des offres, la page tarifs les présente noir sur blanc.

Les convertisseurs gratuits font bien ce qu'ils font — déposez un fichier, attendez, copiez le texte. Utilisez-en un pour l'extrait de podcast que vous ne craignez pas de partager. Mais les enregistrements qui comptent le plus sont en général ceux que vous aimeriez le moins envoyer, et c'est à ce moment-là qu'un convertisseur qui tourne sur votre propre portable cesse d'être un simple bonus.

Essayez un enregistrement qui ne quitte jamais votre machine

Ma fille cadette a dicté un e-mail de 90 mots à sa grand-mère samedi dernier et m'a demandé où étaient passés les mots. Nulle part, lui ai-je répondu. Ils sont restés ici même. Cette réponse est toute la raison pour laquelle j'ai créé ceci.

Gratuit pour l'ensemble du pipeline local. Aucun moyen de paiement requis pour s'inscrire.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails d'assistance, le plus souvent en dictant les réponses.

Pour aller plus loin