Par Denys Medvediev

Dépannage

Pourquoi ma dictée est-elle si imprécise ?

Si la dictée est imprécise, c'est généralement à cause de la configuration, pas parce que le logiciel est défaillant — un mauvais micro, une pièce bruyante, la mauvaise langue ou le mauvais modèle.

Dernière mise à jour : juin 2026

Gros plan sur un micro à condensateur de studio, pour illustrer pourquoi la dictée vocale fait fausse route

Si la dictée est imprécise, c'est généralement à cause de la configuration, pas parce que le logiciel est défaillant. Les principaux coupables sont un mauvais microphone, une pièce bruyante, le mauvais réglage de langue et un modèle qui ne convient pas à votre machine. Un son propre dans une pièce calme avec la bonne langue amène la plupart des gens autour de 95 % de précision — soit environ un mot faux sur vingt.

J'ai un jour vu un proche jeter un casque à l'autre bout de la pièce. C'était à la fin des années 1990, l'ordinateur était un PC de bureau sous Windows 98 avec 64 Mo de RAM, et le logiciel s'appelait Dragon NaturallySpeaking. L'entraînement durait 45 minutes — on lisait une liste de mots à voix haute pour le « calibrer ». Ensuite ça fonctionnait, à peu près, à environ 70 % de précision, avec quatre secondes de délai par phrase. Quinze minutes pour dicter un seul paragraphe d'une lettre de vœux. Le casque a survécu. L'expérience de dictée, non.

Si j'en parle, c'est parce que la frustration que trahit votre question est ancienne, mais sa cause a changé. La dictée moderne n'a plus besoin d'un rituel de calibrage de 45 minutes. Quand elle se trompe de mot aujourd'hui, ce n'est presque jamais parce que le modèle est bête. C'est parce que le son qui parvient au modèle est moins bon que vous ne le pensez — et une part étonnante de tout cela se corrige en moins d'une minute. La précision de Whisper en mode local se situe entre 95 % et 99 % sur un son anglais propre — mais ce chiffre suppose certaines conditions qui ne sont souvent pas réunies.

Ceci est un diagnostic, pas une liste de solutions toutes faites. Nous allons déterminer laquelle de cinq choses casse votre transcription, dans l'ordre approximatif où chacune est le plus souvent la véritable raison. Si vous voulez le tutoriel complet sur le micro et les mots personnalisés, notre guide pour corriger une dictée qui tape les mauvais mots couvre ce terrain. Cet article-ci vous aide d'abord à trouver la cause, pour que vous corrigiez la bonne chose.

Quelle précision est réellement réaliste

Gros plan sur un graphique à barres bleues sur papier, pour poser des attentes réalistes sur les taux de transcription

Voici le chiffre que personne ne met sur sa page marketing. La reconnaissance vocale se mesure en taux d'erreur sur les mots, ou WER — la proportion de mots que le système se trompe, en comptant les substitutions, les suppressions et les insertions par rapport à ce que vous avez réellement dit. Plus c'est bas, mieux c'est. Un WER de zéro est une transcription parfaite ; la précision sur les mots, c'est simplement un moins le WER.

Sur le benchmark anglais propre LibriSpeech, le modèle anglais medium de Whisper enregistre environ 3 % de WER — soit à peu près 97 % de précision. Le petit modèle anglais small se situe autour de 5,1 % de WER, environ 95 %. Ce sont des chiffres en conditions de son propre : une pièce calme, un bon micro, un lecteur appliqué. La vraie vie ajoute du bruit, des accents, des conversations croisées et du jargon, et chacun de ces éléments fait légitimement grimper le WER.

Alors, qu'est-ce qui est normal ? Environ 95 % sur un son anglais correct — un mot faux sur vingt. Ce n'est pas un défaut. C'est l'outil qui fonctionne comme prévu. Si vous êtes à 85 % dans une cuisine bruyante avec le micro intégré d'un portable, le logiciel n'est pas cassé — les conditions sont en dessous de ce dont le modèle a besoin. La solution, ce sont les conditions, pas un modèle plus gros. Placez la barre à « une petite correction par paragraphe » et l'essentiel de l'agacement disparaît de l'expérience.

Les cinq suspects, par ordre de probabilité

Loupe sur une surface bleue, évoquant la recherche de ce qui casse la transcription

Quand la dictée dérape, la cause est presque toujours l'une de ces cinq choses. Passez en revue cette liste dans l'ordre. Les deux premières expliquent la plupart des cas.

  1. Le réglage de langue. Vous parlez une langue ; l'outil en écoute une autre, ou bien il devine.
  2. Le microphone. Un micro de portable intégré à un mètre de distance entend votre pièce plus que votre bouche.
  3. La pièce. Bruit de fond, télévision, cuisine qui résonne — le modèle transcrit tout ça.
  4. Le modèle. Vous en avez choisi un trop lourd pour votre matériel, donc il est lent ou il s'étrangle.
  5. L'attente. Le son est correct et l'outil est correct ; vous mesurez par rapport à 100 %, que rien n'atteint.

Un autotest de 60 secondes : dictez les deux mêmes phrases trois fois — une fois dans une pièce silencieuse, près du micro, une fois à l'autre bout de la pièce, une fois avec de la musique. Si la précision varie fortement entre ces prises, votre problème est le son (suspects 2 et 3), et aucun changement de logiciel ne fera mieux que rapprocher le micro et fermer la porte. Si c'est mauvais même sur la prise silencieuse et rapprochée, regardez le réglage de langue et le modèle. Ce simple test situe la plupart des gens en une minute.

Cause 1 : le mauvais réglage de langue

Deux globes terrestres sur fond gris, symbolisant le choix de la bonne langue et du bon accent

C'est la correction en dix secondes que personne ne vérifie en premier. Si vous savez quelle langue vous parlez, choisissez-la explicitement dans les réglages au lieu de laisser l'outil en détection automatique. Quand vous définissez une langue précise, l'outil cesse d'essayer de deviner quelle langue il entend et consacre tous ses efforts à bien transcrire les mots — sensiblement plus rapide et plus fiable.

Les pièges du décalage sont bien réels. Les modèles multilingues de Whisper couvrent 99 langues avec détection automatique, mais les modèles anglais uniquement sont bloqués sur l'anglais — donnez-leur une autre langue et vous obtenez du charabia. Parakeet en local gère l'anglais plus 24 langues européennes et rien d'autre, donc lui dicter du japonais ne fonctionnera jamais, quelle que soit la propreté de votre micro. Et si vous alternez vraiment de langue en milieu de phrase, il vous faut un modèle Whisper multilingue avec détection automatique, pas un modèle anglais uniquement. Faites correspondre le réglage aux mots qui sortent de votre bouche et une bonne partie de l'« imprécision » disparaît avant même que vous ne touchiez à autre chose.

Cause 2 : votre micro fait plus de dégâts que votre accent

Micro à condensateur avec filtre anti-pop dans un studio, illustrant le matériel qui façonne la qualité du son

Les gens accusent leur accent. C'est presque toujours le microphone. Pendant des années j'ai accusé le mien — il s'est avéré que ma voix allait bien et que c'était mon micro de portable à 0 $ le problème. Voici l'avis que je défendrai : l'« IA » ne répare pas un mauvais son. Un microphone USB à 20 $ fait plus pour la précision que n'importe quelle montée en gamme de modèle — le microphone et une pièce calme sont les deux plus grands leviers de précision, devant le choix du modèle. Dépensez votre argent dans le matériel avant de le dépenser dans un téléchargement plus gros.

Le mécanisme est terre à terre et physique. Un micro de portable intégré se trouve à trente centimètres ou plus de votre bouche et capte le bureau, le ventilateur et la pièce. Une perche de casque ou un micro USB à quinze centimètres entend votre voix et pas grand-chose d'autre. L'outil ne peut transcrire que ce qui lui parvient, et un signal flou, lointain et bruyant lui donne moins de matière — alors il devine, et c'est par les devinettes qu'on récolte les mauvais mots. Je ne vais pas réexpliquer ici tout le b.a.-ba du micro et du vocabulaire ; notre analyse approfondie sur la dictée qui tape les mauvais mots couvre en détail le placement du micro, le gain d'entrée et le vocabulaire personnalisé. Pour cet article, le point est plus restreint : si votre test en trois prises a montré la précision s'effondrer avec la distance, le suspect, c'est votre micro, pas votre voix.

Cause 3 : la pièce, pas les mots

Micro avec filtre anti-pop dans un studio de musique traité acoustiquement, un environnement à faible bruit pour une captation claire

Un micro ne peut pas « désentendre » une pièce. S'il y a une télé allumée, un lave-vaisselle en marche, un bureau en open space derrière vous, ou des enfants qui débattent des règles d'un jeu de société à deux mètres, le modèle transcrit cette énergie en même temps que votre voix. Il ne sait pas quel son est celui que vous vouliez.

La solution est d'une simplicité presque gênante : fermez la porte, coupez la musique, éloignez-vous du ventilateur. Les surfaces douces aident — une pièce avec un tapis et des rideaux est plus clémente pour un micro qu'une cuisine carrelée aux murs nus, où votre voix rebondit et arrive en double. Vous n'avez pas besoin de mousse acoustique. Vous avez besoin que le lave-vaisselle finisse son cycle. J'ai dicté des e-mails à l'école tout en préparant les goûters et le modèle a suivi sans problème — mais c'est parce que la cuisine était calme, pas parce que le logiciel est magique. À l'instant où le blender démarre, la précision chute, et ce n'est pas un bug à signaler.

Cause 4 : le modèle ne convient pas à votre matériel

Whisper
La vraie appli Whisper — elle présente trois voies et vous laisse choisir le modèle qui convient à votre machine. Cliquez dans les Réglages ; c'est interactif.

C'est celle que les concurrents traitent comme une boîte noire, et elle compte. Plus gros ne veut pas toujours dire meilleur. Choisissez un modèle trop lourd pour votre machine et il tourne lentement, prend du retard, et l'expérience semble cassée même quand la précision sur le papier est bonne.

Whisper by Remskill ne choisit pas de modèle à votre place. Il présente trois voies et vous laisse choisir : le mode Cloud avec votre propre clé OpenAI, Parakeet en local, ou Whisper en local. Le mode Cloud fonctionne sur n'importe quel matériel parce que ce n'est qu'un appel réseau. En local, le calcul tourne surtout autour de la RAM. Sur une machine de 8 Go, Parakeet (~600 Mo), le modèle Base ou le modèle Small tournent confortablement, et le modèle Medium peinera. Les plus gros modèles Whisper — Large v3 à ~3 Go, ou Turbo — réclament 16 Go ou plus et profitent surtout d'un GPU dédié. La meilleure option multilingue en précision est Large v3, qui prend en charge 99 langues mais a besoin de ces 16 Go de marge.

Le flux d'appui pour parler est le même quelle que soit la voie choisie — maintenez le raccourci, parlez, relâchez, et le texte se colle à l'emplacement de votre curseur. Le raccourci par défaut est Ctrl+Space sous Windows et la combinaison Command+Option sous macOS, tous deux modifiables dans les Réglages. Vous ne savez pas quel modèle convient à votre portable ? Notre guide pour choisir le bon modèle Whisper associe chacun au matériel dont il a besoin. La règle d'or : un modèle qui convient et tourne vite vaut mieux qu'un plus gros qui hoquette.

Quand l'outil est vraiment en cause, et quand ce n'est que de la physique

Parfois, vous avez tout fait correctement — micro proche, pièce calme, bonne langue, modèle sensé — et il se trompe encore d'un mot sur quinze. Ce peut être le vrai plafond. Les accents marqués que le modèle a peu vus, le jargon technique dense, deux personnes qui parlent en même temps, un haut-parleur de téléphone à l'autre bout — tout cela fait légitimement grimper le WER, et aucun réglage ne le corrige entièrement. Pour les noms propres et le jargon métier, Whisper en local et le mode Cloud vous permettent d'ajouter une liste de Mots personnalisés qui oriente la reconnaissance vers la bonne orthographe ; Parakeet n'accepte pas ces indications. Mais « il apprend ma voix à mesure que je l'utilise » est un mythe de l'ère Dragon — la reconnaissance vocale moderne ne s'adapte pas à votre voix individuelle au fil du temps, et aucune répétition ne l'entraîne. Le levier, c'est le son et les réglages, pas la patience.

Quand se passer de Whisper pour ça

Si vous ne faites qu'envoyer un texto de 20 mots ou une note rapide, ne téléchargez rien. Votre système d'exploitation dicte déjà. Sur un Mac, la Dictée d'Apple est intégrée et gratuite — appuyez sur la touche Microphone ou sur le raccourci clavier, et sur les configurations compatibles, le traitement se fait sur l'appareil. Elle s'arrête d'elle-même après 30 secondes de silence, donc elle convient mieux aux courtes salves qu'à l'écriture longue. Dans Word, la fonction Dictée de Microsoft fait la même chose avec un microphone et une connexion internet.

Tournez-vous vers un outil dédié dès que vous dictez des paragraphes entiers, que vous voulez qu'il fonctionne hors ligne, ou que vous avez besoin de précision sur les noms propres et le jargon que les outils intégrés écorchent — notre comparatif des alternatives à la Dictée d'Apple passe en revue les options. Pour une réponse d'une ligne, l'outil intégré gratuit est le bon choix.

La plupart du temps, la réponse à « pourquoi ma dictée est-elle si imprécise » n'est pas un aveu sur votre voix. C'est trente centimètres de distance avec le microphone et un lave-vaisselle dont vous aviez oublié qu'il tournait. Corrigez le son, réglez la bonne langue, choisissez un modèle que votre portable peut porter, puis jugez-le par rapport à 95 %, pas à 100 %. Le proche au casque et à Dragon livrait la bataille de 1999. Vous, non. Vous luttez surtout contre votre cuisine.

Envie de le savoir en une minute ?

Téléchargez Whisper et faites le test en trois prises — vous saurez en moins d'une minute si c'est l'outil, la pièce, ou juste de la physique.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, très probablement en dictant les réponses.