Par Denys Medvediev

Guide

Logiciels de dictée vocale : options gratuites intégrées contre outils payants

Certains des meilleurs logiciels de dictée vocale sont déjà sur votre ordinateur. Voici lequel utiliser, et à quel moment payer pour une application dédiée a vraiment du sens.

Dernière mise à jour : juin 2026

Ordinateur portable élégant et verre d'eau sur un bureau lumineux, prêt pour la dictée vocale mains libres

Un logiciel de dictée vocale écoute à travers un micro et transcrit ce que vous dites, transformant la parole en texte modifiable à environ 145 mots par minute, contre à peu près 40 au clavier. Les bons outils fonctionnent à l'échelle du système, donc les mots apparaissent là où se trouve le curseur. Certains sont gratuits et intégrés à Windows et au Mac ; les applications payantes ajoutent le mode hors ligne et un nettoyage par IA.

Parlez, et les mots apparaissent à votre curseur

La première fois que ça marche, on dirait un petit tour de magie. Vous maintenez une touche, dites une phrase, relâchez, et la phrase est simplement là, dans votre e-mail. Sans clavier. Une de mes jeunes proches a un jour dicté une note de 90 mots à sa grand-mère avant même que j'aie fini d'expliquer ce qu'était la dictée. Le difficile n'a jamais été de parler. Pendant deux décennies, le difficile a été d'avoir un logiciel assez bon pour qu'on lui fasse confiance, et cette partie-là vient enfin d'être réglée.

Cet article parle des logiciels de dictée vocale qui valent votre temps, y compris les options gratuites que vous possédez déjà.

Pasted
L'overlay de Whisper terminant une dictée — le texte se colle à votre curseur.

La plupart des gens rivés à leur clavier le font par habitude, pas par nécessité. Taper est un compromis appris, une manière de sortir ses pensées de sa tête pour les mettre dans une machine qui n'a pas d'oreilles. La dictée vocale supprime ce compromis. La question a cessé d'être « est-ce que ça marche ? » vers 2022 pour devenir « lequel choisir, et dois-je payer pour ça ? ».

La réponse honnête dépend de trois choses : combien de temps vous dictez, si vous voulez que ça fonctionne dans toutes vos applications, et si vous tenez à ce que vos mots ne quittent jamais votre ordinateur. À la fin de cet article, vous saurez quelle voie vous correspond, et je vous dirai quand l'option gratuite intégrée suffit amplement. Je lis la plupart des e-mails de support de cette application, et une part régulière vient de gens qui ont payé pour un outil alors que celui déjà présent sur leur machine aurait fait l'affaire. J'ai donc un petit intérêt à vous dissuader d'un achat.

Ce qu'est un logiciel de dictée vocale

Gros plan d'une interface audio numérique montrant une onde sonore vive, illustrant la parole capturée sous forme de données

Un logiciel de dictée vocale est un programme qui capte le son de votre micro et le convertit en texte écrit grâce à un modèle de reconnaissance vocale. L'ancien nom est « logiciel de dictée ». Le nouveau nom marketing est « dictée par IA », ce qui revient pour l'essentiel au même, avec un modèle de langage greffé par-dessus pour corriger la ponctuation et le ton.

Il en existe trois formes. La dictée intégrée est livrée avec votre système d'exploitation : la saisie vocale de Windows, Apple Dictation. La dictée vocale dans le navigateur vit à l'intérieur d'une seule application, comme la saisie vocale de Google Docs. Et les applications de bureau dédiées s'installent à part et fonctionnent partout où vous écrivez. La forme compte plus que la marque. Un outil de navigateur qui n'écrit que dans Google Docs est inutile pour vos messages Slack, peu importe sa précision. La première question à se poser sur un outil n'est pas sa précision, mais l'endroit où il vous laisse écrire. La précision est désormais un problème résolu pour la plupart d'entre eux ; la portée, non.

Ce qui sépare un outil sérieux d'un jouet, c'est l'endroit où il colle le texte. Les outils intégrés et les applications de bureau dédiées fonctionnent à l'échelle du système : appuyez sur le raccourci dans n'importe quel champ de texte et le texte y apparaît. C'est tout le jeu. Le reste — précision, langues, nettoyage par IA — n'est qu'un raffinement par-dessus la question de savoir s'il écrit là où vous regardez.

Une deuxième chose sépare les catégories : ce que le modèle sait entendre. Certains outils ne gèrent que l'anglais. D'autres gèrent des dizaines de langues et peuvent en changer en pleine phrase. Les modèles anglais uniquement de Whisper ne prennent en charge qu'une seule langue, tandis que ses versions multilingues en couvrent 99. Parakeet de NVIDIA se situe au milieu, avec 25 langues : l'anglais et 24 langues européennes. Si vous n'écrivez qu'en anglais, rien de tout cela n'importe et vous devriez choisir d'après la vitesse. Si vous rédigez dans deux langues avant le déjeuner, cela compte beaucoup. La plupart des gens surestiment le nombre de langues dont ils ont besoin et sous-estiment à quel point la latence leur importe. Le délai entre le moment où l'on relâche la touche et celui où le texte apparaît, c'est ce que l'on ressent à chaque fois.

Si vous préférez voir la version à l'échelle du système en action plutôt que de lire sur la catégorie, la page de dictée vocale de Whisper montre la boucle « maintenir un raccourci » sur Windows et Mac, moteurs locaux gratuits compris.

Comment ça marche (et pourquoi la précision est enfin devenue bonne)

Sous le capot, le processus comporte trois étapes. Votre micro enregistre un court extrait audio. Un modèle de reconnaissance vocale transforme cet audio en texte. Puis le texte est collé, parfois après qu'un modèle de langage l'a remis en forme.

CancelTranscribing
Whisper en pleine transcription — le modèle de reconnaissance vocale transformant l'audio en texte.

Le bond de précision que tout le monde a remarqué vient du modèle au milieu. Le modèle open source Whisper d'OpenAI a changé la définition de « bon ». Il gère les accents, le bruit de fond et 99 langues sur ses variantes multilingues, sans aucune étape d'entraînement. Ce dernier point est la révolution silencieuse. Vous n'apprenez pas votre voix à un logiciel de dictée vocale moderne. Vous l'installez et vous parlez.

Je suis assez vieux pour me souvenir de l'époque où c'était de la science-fiction. À la fin des années 1990, un proche faisait tourner Dragon NaturallySpeaking sur un PC Windows 98 avec 64 Mo de RAM. La configuration consistait à lire une liste de mots à voix haute pendant 45 minutes pour que le logiciel se cale sur votre voix. Ensuite ça marchait, à peine, à peut-être 70 % de précision, avec quatre secondes de délai par phrase. Il fallait quinze minutes pour dicter un paragraphe d'une lettre de vœux. Le casque a fini balancé à travers la pièce. Le casque a survécu ; l'expérience non. Vingt-cinq ans plus tard, la même tâche prend quatre-vingt-dix secondes et zéro entraînement. Le matériel a rattrapé l'idée.

Deux variantes de l'étape du milieu existent aujourd'hui. Le traitement local fait tourner le modèle sur votre propre ordinateur, hors ligne, de sorte que votre audio ne quitte jamais la machine, comme le fait la reconnaissance vocale hors ligne. Le traitement dans le cloud envoie l'audio à un serveur, ce qui peut être plus rapide sur du matériel faible mais signifie que vos mots voyagent. Celui que vous voulez dépend de ce que vous dictez. Une liste de courses, peu importe. Le contrat de votre client, peut-être que ça compte.

La troisième étape, le nettoyage, c'est là que vit l'« IA » de la dictée par IA. Une transcription brute vous donne un mur de mots sans saut de paragraphe et avec un « euh » de temps en temps. Un modèle de langage peut corriger la ponctuation, supprimer les hésitations et même adopter un ton que vous lui demandez. Dans Whisper by Remskill, cette étape est facultative et tourne localement via Ollama, ou dans le cloud via votre propre clé OpenAI si vous activez Pro. Vous pouvez aussi la déclencher à la voix : prononcez la phrase d'activation, actuellement « Hey whisper », et le texte est confié au modèle au lieu d'être collé brut. Rien de tout cela ne change le tour central. Cela décide seulement à quel point les mots sont peaufinés à leur arrivée.

Les options gratuites que vous avez déjà : la saisie vocale de Windows, Apple Dictation, Google Docs

Avant de payer quoi que ce soit, vérifiez ce qui se trouve déjà sur votre machine. Trois options gratuites intégrées couvrent beaucoup de terrain.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
La dictée déjà présente sur votre ordinateur, en deux variantes — aucune installation requise.

La saisie vocale de Windows

Sous Windows 11, appuyez sur la touche du logo Windows plus H dans n'importe quel champ de texte et une barre de saisie vocale apparaît. C'est pratique pour les messages rapides. Le hic : il faut une connexion Internet et un micro qui fonctionne, car la reconnaissance se fait dans le cloud. Elle prend en charge 43 langues selon la liste de Microsoft. Si vous êtes hors ligne dans un train, elle cesse de fonctionner. Il y a un tutoriel complet dans notre guide sur la reconnaissance vocale sur Windows.

Apple Dictation

Sur un Mac, activez-la dans Réglages Système, Clavier, Dictée, puis lancez-la avec la touche du micro ou le raccourci de votre choix. La version actuelle transcrit un texte de n'importe quelle longueur et ne s'arrête qu'après 30 secondes de silence, et non au bout d'une limite de temps stricte. Sur Apple Silicon, elle peut traiter votre parole directement sur l'appareil. Pour les notes courtes, c'est gratuit et ça suffit ; la configuration plus poussée se trouve dans la reconnaissance vocale sur Mac.

La saisie vocale de Google Docs

Ouvrez un document Google dans Chrome, Edge ou Safari, cliquez sur Outils, puis sur Saisie vocale, et une fenêtre de micro apparaît. Elle prend en charge plus de 100 langues et variantes régionales. La limite stricte est dans le nom lui-même : elle n'écrit qu'à l'intérieur de Google Docs et Slides. Elle n'écrira ni votre e-mail, ni votre Slack, ni votre code.

La manière honnête de lire ces trois options : ce sont de vrais outils, pas des démos, et pour une large part des gens, elles marquent la fin de la recherche. Là où elles s'arrêtent est prévisible. La saisie vocale de Windows meurt à l'instant où vous perdez le signal. La saisie vocale de Google Docs ne quitte jamais le document. Apple Dictation est excellente sur un Mac et absente partout ailleurs. Si votre travail tient dans ces limites, vous avez terminé. Fermez cet onglet et appuyez sur la touche. La catégorie payante existe pour le travail qui n'y tient pas : dicter toute la journée, hors ligne dans un avion, dans toutes les applications plutôt qu'une seule, et un audio qui doit rester sur votre propre disque.

Quand se passer d'une application dédiée et utiliser celle intégrée

Voici la partie que la plupart des articles « meilleurs logiciels » sautent. Si vous envoyez de courts messages — un SMS de 30 mots, une réponse Slack rapide — la dictée gratuite déjà sur votre machine suffit amplement. La saisie vocale de Windows (touche Windows + H) et Apple Dictation sont gratuites, intégrées, et elles marchent. N'installez et ne payez rien pour écrire une seule phrase. Une application dédiée commence à gagner sa place quand vous dictez souvent, qu'il vous la faut hors ligne dans un avion, que vous la voulez dans toutes les applications et pas dans une seule, ou que vous tenez à ce que vos mots restent sur votre appareil. En dessous de ce seuil, la vérité ennuyeuse, c'est que vous possédez déjà le bon outil.

Combien coûte Whisper by Remskill

Whisper by Remskill est gratuit pour tout utilisateur connecté, pour l'intégralité du pipeline local : Whisper local, Parakeet, nettoyage par IA basé sur Ollama, historique, raccourci personnalisé, téléchargements de modèles, sans aucun moyen de paiement requis pour s'inscrire. Whisper Pro ajoute la surface Cloud : transcription cloud OpenAI, amélioration par IA dans le cloud et recherche web vocale via votre propre clé OpenAI. Le mode Cloud vous facture directement via OpenAI ; nous ne prenons aucune commission. Les forfaits actuels et l'essai Pro sont sur la page tarifs. Je ne vais pas vous citer de chiffres ici ; la page le fait mieux qu'un paragraphe ne le pourrait.

Pour aller plus loin

Un de mes proches a balancé un casque à travers une pièce en 1999 parce que la dictée était une corvée de 45 minutes qui produisait du charabia. Le casque a survécu à l'expérience. Vingt-cinq ans plus tard, la corvée a disparu. Vous appuyez sur une touche et vous parlez, et les mots apparaissent. La seule vraie décision qui reste, c'est quel outil, et pour beaucoup de gens, la bonne réponse est déjà posée sur leur machine, éteinte, en attente. Mes propres enfants ne sauront jamais que c'était autrefois difficile, ce qui est le but, même si ça fait une moins bonne histoire à table.

Essayez d'abord celui que vous possédez déjà

S'il arrive à court d'espace, téléchargez Whisper et choisissez le moteur qui correspond à votre façon de travailler.

Gratuit pour les utilisateurs connectés sur tout le pipeline local. Aucune carte à l'inscription.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis les e-mails de notre support, très probablement en dictant les réponses.