Par Denys Medvediev

Dépannage

La dictée tape les mauvais mots ? 5 solutions

La dictée tape les mauvais mots quand le modèle entend mal un son et devine. Cinq causes, quatre que vous pouvez résoudre en dix minutes.

Dernière mise à jour : juin 2026

Clavier noir en faible profondeur de champ sur une surface sombre, évoquant la retranscription de la dictée à l'écran

La dictée tape les mauvais mots quand le modèle vocal entend mal un son et réécrit la phrase autour de son hypothèse. Les causes habituelles sont un microphone médiocre, du bruit de fond, un homophone que le modèle ne peut pas distinguer, un mauvais réglage de langue, ou un nom qu'il n'a jamais rencontré. Commencez par corriger l'audio, puis apprenez au logiciel votre vocabulaire.

Vous dites « déployer en staging ». L'écran affiche « déployer en enfer ». Vous corrigez. Phrase suivante, même problème. À la troisième correction, vous tapez plus vite que vous ne parlez — ce qui annule complètement l'intérêt de la dictée. J'ai vu cette boucle exacte exaspérer une rédactrice, un commercial, et ma propre mère, qui a essayé la dictée une fois avant de revenir au clavier à deux doigts, par dépit. La bonne nouvelle : presque chaque mot erroné remonte à l'une de cinq causes, et quatre d'entre elles se règlent en dix minutes.

Voici ce que personne ne vous dit. La plupart des outils de dictée ne sont pas cassés quand ils font ça. Ils devinent, en temps réel, dans de mauvaises conditions, sans savoir comment s'appelle votre collègue ni que « Kubernetes » est un mot qui existe. Le mode local de Whisper dispose d'un réglage qui résout directement ce dernier problème — un champ Mots personnalisés où vous listez les noms et le jargon que vous comptez prononcer, pour qu'il les écrive correctement au lieu d'inventer quelque chose qui rime. C'est gratuit, et ça fonctionne hors ligne. On y viendra. Mais la vérité un peu ennuyeuse, c'est que le microphone compte plus que le logiciel — donc on commence par là.

Votre dictée n'est pas cassée. Elle devine.

Clavier de laptop sous un éclairage ambiant, illustrant l'endroit où atterrissent les mots mal retranscrits

La reconnaissance vocale n'entend pas des lettres. Elle entend des sons, et parie sur les mots les plus probables correspondant à ces sons — puis elle ajuste ce pari au fur et à mesure que d'autres sons arrivent. C'est pourquoi la dictée réécrit parfois du texte que vous avez déjà dit. Elle entend mal un mot en fin de phrase, décide qu'un mot précédent devait être autre chose pour que la grammaire tienne, et le modifie discrètement.

« Sein » et « saint ». « Vert » et « verre ». « Cou » et « coup ». Ce sont des homophones — des mots qui sonnent pareil — et aucun effort d'élocution ne résout le problème, parce que la clarté n'a jamais été en cause. Le modèle doit deviner selon le contexte, et il se trompe parfois.

Puis il y a des mots que le modèle n'a tout simplement jamais rencontrés. Le nom de famille de votre responsable. Un code produit. « Remskill ». Le modèle ne peut pas écrire ce qu'il ne connaît pas, alors il substitue le mot réel le plus proche qu'il connaît. Ce n'est pas un bug. C'est un manque de vocabulaire, et il existe une solution précise que nous aborderons plus bas.

Le microphone est le suspect numéro un

Bureau avec un microphone à condensateur, un laptop et un casque audio — la source d'entrée de la dictée

Avant d'accuser le logiciel, regardez ce qui l'alimente. Le microphone intégré d'un laptop est positionné à côté du ventilateur, pointe vers le plafond, et capte autant la pièce que votre voix. Mauvais signal en entrée, mauvais mots en sortie.

C'est la seule opinion sur laquelle je mise tout l'article : « l'IA » ne compense pas un audio médiocre. Un microphone USB à 20 € fait plus pour la précision que n'importe quelle mise à niveau de modèle. J'ai passé une semaine à charger des modèles plus grands et plus lents pour corriger mes propres erreurs, avant de remarquer que le micro de mon laptop était orienté vers le ventilateur. Le micro était le problème depuis le début. Je développe ce logiciel pour gagner ma vie. Investissez d'abord dans le matériel. Le modèle, c'est la partie bon marché.

Le test de vérification : dicter les mêmes trois phrases avec votre micro intégré, puis avec un casque ou un micro USB. Si le nombre de mots erronés chute, le microphone était en cause et vous avez terminé. La plupart des gens s'arrêtent là, et c'est très bien.

Bruit de fond et acoustique de la pièce

Bureau calme et serein avec un laptop, un carnet et des fleurs dans un espace de travail silencieux

Un lave-vaisselle deux pièces plus loin. La conversation téléphonique d'un collègue. Ce genre d'open space où l'on entend quelqu'un grignoter à dix mètres. Le modèle ne distingue pas votre voix du bruit — il retranscrit le son le plus fort, et parfois c'est le bruit qui l'emporte.

L'AI Overview de Google sur ce problème précis cite le bruit de fond comme cause principale, aux côtés des accents et des homophones. La solution est sans glamour : fermez la porte, coupez le ventilateur, éloignez-vous de la fenêtre ouverte. Une pièce silencieuse fait plus qu'un algorithme malin.

Vérification : essayez la même dictée dans un endroit calme, puis dans votre environnement habituel. Si les erreurs diminuent dans le silence, le bruit était coupable. Si vous ne pouvez pas obtenir une pièce calme, un micro directionnel ou à réduction de bruit qui n'écoute que ce qui est directement en face de lui est la meilleure alternative — et on revient au matériel, là où l'argent devrait aller de toute façon.

Mauvaise langue ou inadéquation d'accent

Tuiles en bois avec des lettres éparpillées sur une table claire, évoquant les mots et les choix de langue

Si votre dictée est réglée sur la détection automatique et que vous alternez entre les langues, le modèle consacre de l'énergie à identifier la langue avant d'identifier les mots — et une mauvaise hypothèse sur la langue fausse tout ce qui suit. Définissez la langue explicitement quand vous le pouvez.

Dans Whisper, c'est dans Paramètres, Transcription, Langue. Choisir directement votre langue parlée évite l'étape de détection et aide le modèle à saisir vos mots plus précisément. Laissez la détection automatique uniquement si vous changez vraiment de langue en cours de session. Les modèles multilingues de Whisper couvrent 99 langues avec la détection automatique ; les versions uniquement en anglais se verrouillent sur l'anglais, ce qui est exactement ce qu'il vous faut si vous ne parlez qu'anglais.

L'inadéquation d'accent est cousine de ce problème. Un modèle anglais américain entraîné principalement sur des locuteurs américains butera sur un accent régional prononcé. Sélectionner la variante régionale la plus proche proposée par votre outil, et lui fournir un signal propre, réduit cet écart.

Corriger sur Windows, Mac et iPhone

La dictée intégrée à chaque plateforme a ses propres particularités, et ses propres limites. Sur Windows, Voice Typing s'ouvre avec la touche Windows plus H, mais le curseur doit être dans un champ de texte et une connexion internet est requise — l'outil intégré envoie votre audio dans le cloud pour le transcrire. S'il tape n'importe quoi, vérifiez d'abord la connexion ; les forums d'assistance Apple pour le même problème de mots erronés placent « vérifier la connexion internet » tout en haut de la liste. (Pour un guide plus complet, consultez notre article sur la reconnaissance vocale qui ne fonctionne pas sur Windows.)

Sur Mac, activez la Dictée avec la touche Microphone de la rangée de touches de fonction, le raccourci Dictée, ou Édition puis Démarrer la dictée. Mettons fin à un mythe : la Dictée actuelle de macOS vous permet de dicter du texte sans limite de durée — elle s'arrête seulement après environ 30 secondes de silence, ce que les utilisateurs confondent souvent avec une limite fixe. Si les mots erronés persistent, notre guide de dépannage de la reconnaissance vocale sur Mac détaille les étapes une par une. Sur iPhone, les forums Apple suggèrent également de désactiver le texte prédictif, qui parfois corrige à tort ce que la dictée avait bien compris.

La limite plus difficile à contourner : Windows Voice Typing (Win+H) ne permet pas d'ajouter des mots personnalisés ni d'entraîner son dictionnaire. La surface de dictée séparée de Word permet de constituer un petit dictionnaire de dictée, mais l'outil que la plupart des gens utilisent — Win+H — ne peut pas du tout apprendre votre vocabulaire. Ce qui nous amène à la seule solution qui change vraiment la donne pour le problème des noms et du jargon mal reconnus.

Apprenez-lui vos mots : vocabulaire personnalisé

Whisper
L'application Whisper réelle — ouvrez Paramètres, Transcription, et saisissez vos noms et votre jargon dans le champ Mots personnalisés. Cliquez et explorez ; c'est en direct.

C'est la solution que les outils intégrés ne peuvent pas vous offrir. Lorsque vous utilisez un modèle Whisper en mode local, vous disposez d'un champ Mots personnalisés — une liste séparée par des virgules de noms, termes produits et jargon que vous comptez prononcer. Vous saisissez « Kubernetes, PostgreSQL, Remskill, Jean Dupont, » et la transcription favorise l'orthographe correcte de ces mots quand ils apparaissent dans votre discours. C'est dans Paramètres, Transcription, dans le niveau local gratuit — sans carte bancaire, sans cloud.

Une mise en garde importante : les Mots personnalisés sont une fonctionnalité des modèles Whisper. Parakeet, l'option locale plus rapide, n'accepte pas les mots personnalisés ni les suggestions — sa propre description le dit clairement. Donc si apprendre votre vocabulaire à l'outil compte pour vous, choisissez un modèle Whisper, pas Parakeet.

J'ai compris l'importance de ça grâce à ma fille cadette. Je lui ai montré la dictée une fois — appuyer, parler, relâcher. Elle a aussitôt rédigé un e-mail de 90 mots à sa grand-mère à propos d'une dent qu'elle avait perdue et du tarif pratiqué par la fée des dents, sans poser de questions. Puis elle est revenue contrariée parce que l'outil massacrait constamment le prénom de sa meilleure amie. Elle ne savait pas ce qu'était un manque de vocabulaire. Elle savait juste que le nom sortait mal. J'ai ajouté le prénom dans les Mots personnalisés, et les plaintes ont cessé. La personne ordinaire ne veut pas comprendre pourquoi la dictée écorche un prénom. Elle veut un champ pour le saisir. Ce champ, c'est tout l'objet de cette section.

Un second levier, si vous le souhaitez : Whisper propose un réglage Profil — Rapide, Équilibré ou Précis — qui contrôle l'attention portée par le modèle à l'écoute. Précis est plus lent mais capte davantage. Et choisir un modèle plus grand parmi les huit proposés par Whisper, de Base à environ 140 Mo jusqu'à Large v3 à environ 3 Go, échange vitesse contre précision. Aucun n'est « le bon choix » pour tout le monde — ce sont des curseurs, et le problème des mots erronés détermine lequel vous tourner. Si vous ne savez pas lequel charger, notre guide de choix d'un modèle Whisper expose les compromis.

Une passe de nettoyage pour corriger le reste

Thinking...
La passe de nettoyage IA optionnelle de Whisper appliquée sur la transcription brute — elle corrige la grammaire, la ponctuation et la casse avant que le texte arrive à votre curseur.

Même après un audio propre et un vocabulaire chargé, quelques erreurs résiduelles passent à travers les mailles. Whisper peut lancer une passe de nettoyage IA optionnelle sur la transcription brute avant qu'elle n'arrive à votre curseur — elle corrige la grammaire, la ponctuation et la casse, et supprime les mots de remplissage comme « euh » et « tu vois ». Elle tourne sur votre appareil gratuitement, ou en mode Cloud avec OpenAI si vous avez fourni votre propre clé.

C'est le filet de sécurité, pas le premier réflexe. Corrigez le microphone, réduisez le bruit, réglez la langue, apprenez vos mots à l'outil — puis laissez la passe de nettoyage arranger ce qui reste. Essayer de faire compenser par la correction IA les défauts d'un micro intégré soufflé par le ventilateur, c'est résoudre le mauvais problème avec l'outil coûteux. Je le sais, parce que j'ai livré la passe de nettoyage en premier et le sélecteur de langue en second, exactement dans le mauvais ordre, puis j'ai utilisé ma propre application pendant un mois en me demandant pourquoi. Pour ceux qui veulent un contrôle fin, notre guide de prompting Whisper approfondit le sujet.

Le raccourci pour enregistrer est Ctrl+Space sur Windows et Command+Option sur Mac, tous deux personnalisables dans Paramètres en cas de conflit avec un raccourci déjà utilisé.

Quand l'outil intégré ne peut pas être corrigé

Parfois, la réponse n'est pas une correction — c'est un outil différent, ou pas d'outil du tout. Si vous ne dictez qu'un message de 30 mots de temps en temps, Apple Dictation et Windows Voice Typing sont gratuits et intégrés, et chercher une précision parfaite est disproportionné. Utilisez ce qui est déjà là.

Mais il y a une vraie limite. Windows Voice Typing a besoin d'internet et ne peut pas apprendre votre vocabulaire. Si votre problème de mots erronés est précisément que l'outil continue de massacrer des noms, des termes produits ou du jargon technique — et que vous ne pouvez pas ajouter ces mots nulle part — l'outil intégré ne peut vraiment pas être corrigé pour votre usage. C'est là que s'impose un outil enseignable et hors ligne. Et si vous transcrivez surtout des réunions avec plusieurs interlocuteurs plutôt que de dicter vos propres textes, c'est une catégorie d'outil différente — la transcription de réunions, pas la dictée. N'essayez pas de plier un outil de dictée pour un travail pour lequel il n'a pas été conçu.

Quelle précision attendre de la dictée ?

Fixez des attentes honnêtes. Un audio propre, une langue connue et un vocabulaire chargé vous amèneront au point où les corrections sont l'exception, pas la règle. Les benchmarks publics de Whisper atteignent environ 3 % de taux d'erreur sur des discours lus en conditions propres avec le modèle medium en anglais. Dans la vraie vie — votre accent, votre pièce, votre jargon — c'est plus élevé. C'est normal.

L'objectif n'est pas zéro erreur. L'objectif est moins d'erreurs que la frappe n'en aurait produites dans le même temps, et ce seuil est plus bas que les gens ne le pensent. Dicter à 145 mots par minute dépasse la frappe à 40 même quand vous vous arrêtez pour corriger un ou deux mots. Si vous corrigez un mot sur deux, quelque chose dans la liste ci-dessus est encore défaillant. Si vous corrigez un mot sur dix, vous avez déjà gagné.

Si votre dictée continue de taper les mauvais mots, corrigez l'audio, réglez la langue, et apprenez-lui vos noms — puis laissez-la faire la frappe pendant que vous vous occupez d'autre chose. Ma fille cadette appelle encore ça « l'ordinateur qui parle ». Elle n'a aucune idée qu'il existe un champ de vocabulaire, un sélecteur de langue ou huit modèles derrière le geste appuyer-parler-relâcher. C'est la version qui fonctionne vraiment — quand les mots erronés s'arrêtent, et qu'on cesse de remarquer l'outil.

Vous voulez que vos noms sortent correctement ?

Téléchargez Whisper, ajoutez votre premier mot personnalisé, et regardez les mots erronés disparaître dès la première phrase.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails d'assistance — en dictant probablement les réponses.

Pour aller plus loin