Par Denys Medvediev

Explainer

À quel point est-il vraiment précis, Whisper

Whisper est très précis sur un audio anglais clair et performant dans les grandes langues, mais il n'est pas parfait. Le levier le plus efficace pour améliorer votre propre précision, c'est le microphone et une pièce silencieuse — pas le modèle que vous choisissez. Un passage IA nettoie la ponctuation et les mots parasites ensuite.

Dernière mise à jour : juin 2026

Forme d'onde audio bleue sur un écran sombre, représentant la parole mesurée pour la précision de la transcription

Whisper est suffisamment précis pour la dictée quotidienne et les notes professionnelles, avec un taux d'erreur sur les mots d'environ 3 % sur de l'anglais lu proprement avec le modèle medium. La précision baisse avec les accents, le bruit de fond, le jargon et les locuteurs qui se chevauchent. La plus grande amélioration que la plupart des gens puissent faire est d'utiliser un meilleur microphone dans une pièce calme — pas un modèle plus grand.

« À quel point Whisper est-il précis » est une de ces questions qui a une réponse honnête et une réponse marketing, et elles ne sont pas identiques. La réponse marketing : « incroyablement précis, à la pointe de la technologie ». La réponse honnête : « très bon sur un enregistrement propre, nettement moins bon sur un mauvais, et la différence entre les deux tient surtout à votre microphone ». J'ai vu le même modèle transcrire parfaitement une phrase via un micro USB à 20 $ et la massacrer via le micro intégré d'un ordinateur portable dans une cuisine bruyante.

Ce n'est donc pas un article de classement de benchmarks. C'est la réponse que je donnerais à un ami qui demande s'il peut faire confiance à la dictée vocale pour du vrai travail. Version courte : oui, avec des nuances que vous pouvez maîtriser. Version longue ci-dessous, avec le seul chiffre qui compte vraiment et les trois choses qui sabotent discrètement la précision quel que soit le modèle.

Voici ce que la plupart des pages sur « la précision de Whisper » passent sous silence. La précision n'est pas un chiffre fixe. C'est un chiffre qui varie selon la taille du modèle, la langue parlée et — plus que tout — la qualité de l'audio en entrée. Un petit modèle sur un enregistrement propre surpasse chaque fois un grand modèle sur un enregistrement étouffé.

La façon dont les chercheurs mesurent ça s'appelle le taux d'erreur sur les mots, souvent abrégé WER. C'est le pourcentage de mots que le système transcrit incorrectement. Le WER publié de Whisper sur l'anglais propre est faible. Votre WER un mardi après-midi avec le lave-vaisselle en marche, c'est une autre histoire. Je vais expliquer ce que ce chiffre signifie, ce que Whisper obtient réellement, ce qui le fait baisser, et la solution ennuyeuse et bon marché qui aide plus que n'importe quelle mise à niveau de modèle.

Ce que « précision » veut vraiment dire : le taux d'erreur sur les mots

Gros plan d'une forme d'onde audio sur un écran sombre, illustrant la parole mesurée pour les erreurs

Quand les gens disent qu'un système de transcription est « précis à 95 % », ils parlent presque toujours du taux d'erreur sur les mots, ou WER. C'est la mesure honnête la plus simple qui soit : prendre un passage connu, le faire transcrire par le système, puis compter les mots mal retranscrits. Un WER de 5 % signifie 5 mots sur 100 incorrects — une substitution, une suppression, ou un mot inséré qui n'a pas été prononcé. Plus c'est bas, mieux c'est. Zéro serait parfait, et rien dans la réalité n'atteint zéro.

Ce dernier point est important, je vais donc être direct. Aucun moteur vocal n'est parfait, et tout produit qui prétend le contraire arrondit les chiffres pour une présentation PowerPoint. Les humains ne sont pas non plus des transcripteurs parfaits — les transcripteurs humains professionnels atteignent environ 4 % de WER sur un audio propre, et font plus d'erreurs sur des enregistrements difficiles. Donc quand vous lisez que Whisper fait « 3 % de WER », c'est à peu près au niveau humain sur ce type d'audio, pas de la magie. C'est un outil qui a raison la plupart du temps et tort parfois, comme tous les outils.

Une nuance supplémentaire qui mérite trente secondes. Le WER compte chaque mot de façon égale, ce qui ne correspond pas à ce que vous ressentez réellement face aux erreurs. Que Whisper confonde « leur » et « leurs », c'est une erreur d'un mot qui passe presque inaperçue. Qu'il rate le nom d'un client ou un dosage médicamenteux, c'est aussi une erreur d'un mot, mais elle ruine la phrase. Le chiffre principal vous donne une idée d'ensemble ; il ne vous dit pas si le mot qui comptait est passé. C'est pourquoi une relecture finale ne se démode jamais, quelle que soit la qualité du WER.

Alors, à quel point Whisper est-il précis en pratique

Sur de l'anglais lu proprement, Whisper est vraiment solide. Les benchmarks documentés publiquement situent le modèle medium à environ 3 % de WER sur un ensemble de test vocal propre standard, et le modèle plus petit à environ 5 %. En clair, sur un bon enregistrement d'une personne qui parle distinctement, vous avez un ou deux mots incorrects toutes les quelques phrases — généralement un homonyme ou une virgule mal placée, pas un sens dénaturé. Pour dicter des e-mails, des notes et des brouillons, c'est largement au-delà du seuil où ça vous fait gagner du temps plutôt que vous en faire perdre.

Le fonctionnement dans l'application est le même quelle que soit la précision du résultat. Vous appuyez sur un raccourci clavier, parlez, relâchez, et la transcription se colle à l'endroit du curseur dans n'importe quelle application active. Une petite capsule apparaît pendant que vous parlez pour vous indiquer que l'application écoute. Ce que vous voyez dans cette capsule, c'est l'enregistrement en direct — la question de précision se décide dans la demi-seconde qui suit le relâchement, quand le modèle transforme cet audio en texte.

Cancel
L'incrustation d'enregistrement : une petite capsule qui apparaît pendant que vous parlez, pour vous indiquer que Whisper écoute.

La mise en garde honnête se trouve juste à côté du bon chiffre. Ces benchmarks correspondent à de la parole lue proprement en laboratoire. Votre cuisine, votre accent, votre habitude de vous interrompre en milieu de phrase — rien de tout ça n'est dans l'ensemble de test. Le benchmark vous indique le plafond. Le reste de ce guide porte sur la distance à laquelle vous vous approchez réellement de ce plafond, et sur les leviers qui en décident. Indice : le plus important, ce n'est pas le modèle.

Ce qui fait réellement monter ou baisser le chiffre

Trois choses influencent votre précision réelle bien plus que la réputation du modèle : l'audio, la langue et les mots eux-mêmes. La qualité audio arrive largement en tête. Un micro intégré d'ordinateur portable qui capte l'écho de la pièce, un ventilateur et un enfant qui demande pourquoi la lune est parfois absente pose à n'importe quel modèle un problème bien plus difficile qu'un micro de podcast dans une pièce calme. Le même modèle, la même phrase, peut passer de presque parfait à nettement erroné selon le seul enregistrement. C'est le levier que presque personne n'ajuste et pourtant celui qui rapporte le plus.

La langue est le deuxième levier. Les versions multilingues de Whisper couvrent 99 langues, mais cette couverture n'est pas uniforme. L'anglais est le mieux pris en charge, les grandes langues européennes et asiatiques sont solides, et les langues à faibles ressources — celles avec moins de données d'entraînement sur internet — sont plus faibles et plus sujettes aux erreurs. La traduction vers l'anglais est réservée à Whisper multilingue ; les versions anglais uniquement ne le font pas, et les 25 langues de Parakeet non plus. Donc « prend en charge 99 langues » est vrai mais ne signifie pas que les 99 sont aussi précises. Testez votre langue spécifique sur votre propre audio avant de lui faire confiance pour quelque chose d'important.

Le troisième levier, c'est le contenu. Les accents influencent le chiffre — Whisper gère un large spectre d'accents sans aucune étape d'« entraînement » préalable, mais un accent prononcé sur du jargon technique est le pire cas pour n'importe quel moteur. Le vocabulaire métier le fait trébucher également : noms de produits inhabituels, termes médicaux ou juridiques, patronymes qu'il n'a jamais vus. Et les locuteurs qui se chevauchent constituent un vrai mur — Whisper est conçu pour une seule voix à la fois, donc deux personnes qui parlent en même temps produiront du charabia. Avec Whisper local, vous pouvez contrebalancer ça avec un vocabulaire personnalisé et des mots-clés de biaisage, orientant le modèle vers les noms et termes que vous utilisez réellement. Parakeet ne propose pas de mots-clés, ce qui est une bonne raison de choisir Whisper si votre travail est plein de noms propres.

Modèle plus grand, plus de précision, moins de vitesse

Il existe un vrai compromis entre précision et vitesse, et l'application vous le montre plutôt que de le cacher. En règle générale, plus le modèle Whisper est grand, plus il est précis et plus il est lent. Le modèle Small en anglais uniquement pèse environ 480 Mo et est rapide ; Medium fait environ 1,5 Go et est plus précis ; le Large v3 multilingue pèse environ 3 Go et offre la meilleure précision disponible, mais il nécessite 16 Go de RAM et une machine récente pour être réactif. Choisissez le plus grand modèle que votre matériel supporte confortablement, pas le plus grand qui existe.

L'exception intéressante, c'est Turbo. La version Turbo de Whisper (distil-large-v3) est documentée comme étant environ 6 fois plus rapide que Large v3 tout en conservant environ 99 % de sa précision. C'est le point d'équilibre sur lequel beaucoup de gens se posent : presque la qualité du plus grand modèle sans l'attente. Il pèse environ 1,5 Go. Si vous voulez une bonne précision sans regarder un indicateur de chargement tourner, Turbo est le choix pragmatique du milieu.

Voici ce qui remet tout le compromis en perspective. L'écart de précision entre un petit modèle et le plus grand est réel mais plus faible qu'on ne le penserait — quelques points de pourcentage de WER sur un audio propre. L'écart de précision entre un micro de laptop et un bon micro USB sur le même modèle est plus important. Donc avant de télécharger 3 Go en cherchant le dernier point de précision, branchez un meilleur micro et enregistrez dans un endroit calme. La vérité ennuyeuse est que la plupart des plaintes du type « le modèle s'est trompé » sont en réalité « la pièce s'est trompée ».

Local ou cloud : où se trouve la meilleure précision

L'application ne choisit pas de chemin pour vous. Elle en présente trois et vous laisse choisir selon ce que vous recherchez — vitesse, couverture linguistique ou précision de premier ordre. Pour la précision spécifiquement, voici comment ils se comparent, parce que la différence est réelle et mérite d'être comprise avant de confier un enregistrement à l'un d'eux.

Les trois chemins, classés selon la précision réelle :

  • Parakeet localLe moteur TDT de NVIDIA, environ 600 Mo, l'option locale la plus rapide avec 5 à 10 fois la vitesse de Whisper sur CPU. La précision est bonne — pas au niveau de Large-v3, mais amplement suffisante pour la dictée quotidienne en anglais. Couvre l'anglais et 24 langues européennes, 25 au total. Pas de traduction vers l'anglais, pas de mots-clés. Choisissez-le quand la vitesse compte et que vous parlez principalement anglais.
  • Whisper localplus lent que Parakeet sur la même machine, mais les versions multilingues atteignent 99 langues, traduisent vers l'anglais et vous permettent d'orienter vers un vocabulaire personnalisé et des mots-clés — les contrôles de précision qui comptent pour les noms propres et le jargon. La plus grande version (Large v3) est l'option locale la plus précise. Choisissez-la pour le travail multilingue, la traduction ou un contrôle fin.
  • Cloud (OpenAI, BYOK)précision de premier ordre et accès web avec votre propre clé OpenAI, facturé directement par OpenAI. La transcription utilise gpt-4o-mini-transcribe par défaut. Ça nécessite une connexion internet, c'est donc le seul chemin où votre audio quitte votre machine. La surface Cloud fait partie de Whisper Pro.

Le classement honnête pour la précision brute est approximativement : le cloud en tête, Large v3 local en deuxième position proche, Parakeet capable en troisième pour l'anglais. Mais « précision maximale » ne gagne que si votre audio est assez propre pour le mériter. Envoyer au cloud un enregistrement étouffé depuis l'autre bout de la pièce ne battra pas Whisper local sur un enregistrement propre. Pour la plupart des dictées, les deux moteurs locaux fonctionnent entièrement sur votre machine sans rien envoyer à un serveur, et c'est largement suffisant. Optez pour le cloud quand vous avez un enregistrement vraiment difficile ou quand vous avez besoin d'un fait récupéré sur le web en pleine phrase.

Quatre façons d'améliorer votre propre précision

Le plafond de Whisper est fixé par le modèle. Votre plancher est fixé par tout ce qui l'entoure, et c'est là que la plupart des gens perdent en précision. La bonne nouvelle, c'est que les correctifs sont bon marché et prennent quelques minutes. Voici les quatre qui comptent, dans l'ordre de leur impact.

Étape 1 — Corrigez le microphone en premier.

Un micro USB à 20 $ fait plus pour la précision que n'importe quelle mise à niveau de modèle. Positionnez-le près de vous, légèrement décalé de votre bouche pour éviter les plosives, et loin du ventilateur de l'ordinateur. C'est le changement qui offre le meilleur retour sur investissement.

Vous saurez que ça a marché quand la même phrase qui sortait déformée avec le micro du laptop sort proprement.

Étape 2 — Silencez la pièce.

Fermez la porte, mettez la musique en pause, attendez que le lave-vaisselle finisse son cycle. Le bruit de fond et l'écho sont la vraie cause de la plupart des moments « le modèle se trompe ». Une pièce calme, ça ne coûte rien.

Vous saurez que ça a marché quand les mots parasites et les phrases à moitié captées cessent d'apparaître dans la transcription.

Étape 3 — Adaptez le modèle à la tâche.

Choisissez le plus grand modèle que votre machine supporte confortablement, ou Turbo pour une précision proche du maximum avec de la rapidité. Pour les noms et le jargon sur Whisper local, ajoutez un vocabulaire personnalisé et des mots-clés pour que le modèle penche vers vos termes.

Vous saurez que ça a marché quand un modèle finit de se télécharger, s'affiche comme prêt, et que vos noms propres commencent à passer correctement.

Étape 4 — Laissez un passage IA faire le ménage.

La dictée brute est un flot continu de mots parasites. Whisper peut effectuer un passage de nettoyage IA qui corrige la ponctuation, supprime les « euh » et ordonne la phrase avant qu'elle n'atterrisse. Dites la phrase d'activation « Hey whisper » pour le déclencher.

Vous saurez que ça a marché quand le texte collé se lit comme une prose éditée, pas comme une transcription brute.

Whisper
La vraie application de bureau Whisper sur l'écran des paramètres, avec les panneaux Transcription et IA ouverts.

Cette dernière étape mérite qu'on s'y arrête, car elle change ce que « précision » signifie pour votre résultat. La transcription peut être parfaite mot pour mot et se lire quand même comme un flot continu, parce que c'est ainsi que les gens parlent. Le passage de nettoyage corrige la lisibilité que le WER ne mesure jamais. Sur un modèle local, il passe par Ollama ; en mode cloud, c'est gpt-5-mini par défaut. Voici la même phrase avant et après le passage :

Thinking...
L'incrustation pendant le passage de nettoyage IA, avant que le texte nettoyé n'atterrisse à votre curseur.
Brut

euh donc la précision ça dépend surtout du micro pas du modèle et genre une pièce calme ça aide plus que les gens pensent

Nettoyé

La précision dépend surtout du micro, pas du modèle — et une pièce calme aide plus que les gens ne pensent.

Remarquez que le nettoyage n'a changé le sens d'aucun mot ; il a ajouté la ponctuation et supprimé les mots parasites que la transcription brute portait. C'est la partie que les gens confondent avec la précision, à tort. Le rôle du modèle est de vous entendre correctement. Le rôle du passage IA est de faire lire les mots corrects. Corrigez le micro et la pièce, et les deux tâches deviennent plus faciles. Si vous voulez le flux parler-puis-nettoyer dans n'importe quelle application, le même raccourci clavier permettra de dicter une prose propre dans n'importe quelle application, pas seulement dans une.

Le verdict honnête sur la précision de Whisper

Une balance sur une surface sombre, illustrant une évaluation honnête des forces et des limites

Alors, la réponse directe. Whisper est suffisamment précis pour être fiable dans le vrai travail — e-mails, notes, brouillons, comptes rendus de réunion — sur un audio propre dans une langue bien prise en charge. Il n'est pas parfait et ne le prétend jamais. Les accents, le bruit de fond, le jargon lourd et les locuteurs qui se chevauchent font tous baisser le chiffre, et aucun modèle ne sauve pleinement un mauvais enregistrement. Si vous êtes venu ici en espérant « 100 % précis », la réponse honnête est que rien ne l'est, et quiconque vend ça vend une présentation.

Quand ne pas chercher la précision au niveau de Whisper ? Si vous ne dictez qu'un texte de 30 mots de temps à autre, votre système d'exploitation le fait déjà gratuitement. Sous Windows, appuyez sur Touche Windows + H pour ouvrir la Saisie vocale là où se trouve votre curseur — elle ponctue d'elle-même, mais passe par les serveurs de Microsoft et nécessite internet, donc elle n'est pas hors ligne. Sur Mac, la Dictée dans les Réglages Système saisit dans n'importe quel champ, et sur Apple Silicon le texte général peut être traité sur l'appareil. Pour de courts passages, c'est bien, et je ne vais pas vous demander d'installer quoi que ce soit pour un rappel d'une ligne. Un outil dédié gagne sa place pour les notes plus longues, le travail multilingue, la confidentialité hors ligne et les contrôles de précision — mots-clés, choix du modèle, passage de nettoyage — que les outils intégrés ne vous offrent pas.

Si vous comparez les moteurs locaux entre eux, le choix précision-contre-vitesse est toute la décision, et c'est traité clairement dans quel modèle Whisper utiliser et dans le détail du modèle Parakeet. Pour la plupart des gens, la réponse est sans glamour : un modèle de taille intermédiaire, un micro correct, une pièce calme et un passage de nettoyage. Cette combinaison vous rapproche au maximum du benchmark sur l'audio que vous enregistrez réellement.

Si la précision vous préoccupe parce que vous voulez éviter entièrement le cloud, les compromis dans la reconnaissance vocale hors ligne expliquent comment les modèles locaux s'en sortent sans réseau.

J'ai passé une semaine au début convaincu qu'une mise à niveau du modèle allait améliorer mes transcriptions, j'ai téléchargé 3 Go, et j'ai récupéré peut-être un point de WER. Ensuite j'ai acheté un micro USB à 20 $ et j'ai quitté la table de cuisine, et les transcriptions sont devenues nettement plus propres le même après-midi. Le modèle n'a jamais été le problème. C'était la pièce. Whisper est très précis ; si vous en voyez les effets dépend de ce que vous lui donnez à ingérer.

Écoutez-le par vous-même sur votre propre voix

Téléchargez Whisper, branchez un bon micro et dictez un paragraphe. La précision est bien plus facile à juger sur votre propre audio que sur le benchmark de quelqu'un d'autre.

Mode local gratuit pour tout compte connecté. Aucune carte requise pour commencer.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, probablement en dictant les réponses.

Pour aller plus loin