Explications
Quel modèle Whisper devrais-je utiliser
Il n'existe pas un seul bon modèle Whisper : le bon dépend de ce qui compte le plus pour vous, la vitesse, la précision, la langue ou l'espace disque. Ce guide associe chaque modèle livré à un cas d'usage pour que vous puissiez choisir en une minute environ, et vous dit quand laisser Whisper de côté au profit de Parakeet.
Dernière mise à jour : juin 2026

Le meilleur modèle Whisper dépend de la tâche : choisissez un petit modèle anglais pour la dictée anglaise du quotidien, un modèle multilingue pour les autres langues, le grand modèle pour une précision maximale, ou Turbo pour une vitesse proche de la qualité du grand modèle. Pour de la vitesse en anglais avant tout, Parakeet devance Whisper. L'app les présente tous et laisse l'utilisateur choisir.
C'est la question qu'on me pose le plus souvent, généralement formulée ainsi : « J'ai téléchargé l'app, maintenant quel modèle je choisis ? » C'est une question légitime, et la réponse honnête, d'emblée, c'est qu'aucun modèle ne l'emporte. Il y a un modèle qui l'emporte pour votre machine, votre langue et l'importance que vous accordez à une demi-seconde d'attente supplémentaire. Alors l'app ne choisit pas à votre place. Elle vous montre les options et s'efface.
Ça ressemble à une dérobade jusqu'à ce que vous voyiez l'écart. Le plus petit modèle anglais pèse environ 140 Mo et tourne sur un portable de 2016. Le meilleur multilingue fait environ 3 Go et réclame 16 Go de RAM. Entre les deux se logent six autres choix, plus un moteur distinct appelé Parakeet. Choisissez mal et vous attendez trop longtemps ou vous transcrivez dans la mauvaise langue. Choisissez bien et vous oubliez l'existence même du modèle, ce qui est le but.
Voici le cadre qui fait tomber toute la liste en place. Chaque modèle est un compromis entre quatre choses : la vitesse, la précision, le nombre de langues qu'il connaît, et l'espace disque et la RAM qu'il consomme. Impossible de maximiser les quatre. Un modèle de 3 Go est plus précis et connaît plus de langues, mais il est plus lent et ne tiendra pas sur une machine de 8 Go. Un modèle de 140 Mo est instantané, mais ne fait que de l'anglais, et seulement jusqu'à un certain point.
La vraie question n'est donc pas « quel est le meilleur modèle ». C'est « quel compromis je veux ». Une fois que vous savez si vous êtes un dictateur anglophone exclusif sur un portable modeste, un traducteur qui jongle avec neuf langues, ou quelqu'un qui veut simplement l'option locale la plus rapide qui existe, le choix se fait de lui-même. Je vais passer en revue les modèles anglais uniquement, les multilingues, le cas où Parakeet les bat tous, et la recommandation en une ligne si vous ne voulez pas lire le reste.
Commencez par une question : qu'est-ce qui compte le plus pour vous ?

Avant tout nom de modèle, répondez à une question : qu'est-ce qui vous importe le plus en ce moment — la vitesse, la précision, la couverture linguistique ou l'espace disque ? Vous ne pouvez en choisir qu'un comme priorité, car les modèles s'opposent les uns aux autres. La plupart des gens qui s'angoissent là-dessus n'ont pas décidé ce qu'ils cherchent à optimiser, et c'est pour ça que la liste paraît paralysante. Elle ne l'est pas. Ce sont quatre réponses courtes affublées de huit noms.
Si vous voulez de la vitesse et que vous parlez anglais, vous finirez sur un petit modèle anglais ou, plus probablement, sur Parakeet. Si vous avez besoin d'une autre langue que l'anglais, vous êtes dans la famille multilingue, que ça vous plaise ou non. Si vous voulez la transcription la plus précise possible en local et que vous avez la RAM pour, c'est le grand modèle. Et si l'espace disque est compté, le plus petit modèle est votre ami et celui de 3 Go est hors jeu. Voilà tout l'arbre de décision, et le reste de ce guide ne fait que remplir les noms.
Une chose que l'app fait à dessein : elle ne vous impose jamais de modèle par défaut. Pas de badge « recommandé » qui vous pousse vers le modèle qui nous met justement en valeur dans un benchmark. Vous voyez Cloud, vous voyez Parakeet, vous voyez les huit modèles Whisper répartis entre anglais uniquement et multilingue, et vous choisissez. Si vous avez déjà configuré la reconnaissance vocale sur Windows ou sur Mac auparavant, c'est le même écran, braqué sur une autre question.
Les modèles anglais uniquement, du portable poussif à la précision maximale
Si vous ne dictez jamais qu'en anglais, les modèles anglais uniquement sont le choix efficace — ils abandonnent la mécanique multilingue et consacrent ce budget à l'anglais. Il y en a quatre, et ils s'alignent proprement du « vieux portable » au « meilleur anglais que vous puissiez faire tourner en local ». Vous appuyez sur le raccourci, vous parlez, vous relâchez, et la transcription se colle au curseur quel que soit celui que vous avez choisi ; la seule différence, c'est la vitesse et la fréquence à laquelle il décroche un mot délicat. Une petite capsule apparaît pendant que vous parlez pour vous signaler qu'il écoute :
Le plus petit, c'est Base, environ 140 Mo. C'est celui à choisir sur un portable de 2016 ou une machine de 8 Go, là où vous voulez une dictée qui fonctionne sans avoir à penser à la RAM. Au-dessus, Small, autour de 480 Mo, l'option anglaise équilibrée — plus lente que Parakeet, mais elle prend en charge la traduction vers l'anglais et le biais sur mots-clés, ce que Parakeet ne fait pas. Puis Medium, à environ 1,5 Go, qui réclame 16 Go de RAM et offre la meilleure précision en anglais courant de la famille. (Sur un benchmark public, le modèle anglais medium tourne autour de 3 % de taux d'erreur sur mots avec un audio propre ; Small est plus proche de 5 %. Dans la vraie vie, les chiffres dépendent bien plus de votre micro que du modèle choisi.)
Le quatrième sème la confusion, alors soyons clairs. Turbo, qui est le modèle distil-large-v3, fait lui aussi environ 1,5 Go et est décrit comme 6× plus rapide que le grand modèle avec 99 % de sa précision. Ça ressemble à un repas gratuit, et pour l'anglais ça l'est presque — c'est le choix quand vous voulez une précision anglaise proche du meilleur sans la pénalité de vitesse du grand modèle complet. Le piège, c'est l'étiquette « anglais uniquement » : ces quatre-là connaissent l'anglais et rien d'autre. Dès que vous avez besoin d'une deuxième langue, vous avez quitté cette famille pour de bon, ce qui nous amène à la section suivante.
Les modèles multilingues, pour les 98 autres langues
À l'instant où votre audio n'est pas en anglais, il vous faut un modèle multilingue. Les versions multilingues de Whisper couvrent 99 langues avec détection automatique, et c'est le seul chemin local capable de traduire la parole en anglais au fil de la transcription. Les modèles anglais uniquement n'y arrivent pas, et Parakeet non plus. Donc si vous dictez en ukrainien, rédigez une note en japonais, ou voulez qu'un enregistrement espagnol ressorte en texte anglais, c'est cette famille la réponse, point final.
Il y en a quatre ici aussi, et elles reflètent les tailles anglais uniquement. Small, autour de 480 Mo, est la base multilingue rapide — le modèle par défaut global livré avec l'app, parce que c'est le pari de départ le plus sûr quand personne ne connaît encore votre langue. Medium, environ 1,5 Go, échange de la vitesse contre une qualité nettement meilleure. Large v3, à environ 3 Go, c'est la meilleure précision possible en local et le bon choix pour du travail multilingue professionnel, à condition d'avoir 16 Go de RAM pour l'alimenter. Et Large v3 Turbo, autour de 1,62 Go, c'est le palier multilingue rapide — l'essentiel de la qualité du grand modèle pour une fraction de l'attente.
Un mot sur le décompte des langues, parce que le chiffre marketing et le vrai diffèrent selon ce qu'on entend. Les modèles multilingues couvrent réellement 99 langues ; les modèles anglais uniquement en couvrent exactement une. Si vous parlez surtout anglais et touchez de temps en temps à une seconde langue européenne, vous avez une option plus rapide que toutes celles-ci, et c'est Parakeet — ce qu'il faut comprendre ensuite, car c'est le modèle que les gens choisissent le plus souvent par erreur ou écartent par erreur.
Quand Parakeet bat Whisper, et quand il ne le bat pas

Parakeet n'est pas du tout un modèle Whisper — c'est le moteur TDT de NVIDIA, environ 600 Mo, et c'est l'option locale la plus rapide livrée avec l'app, décrite comme 5 à 10 fois plus rapide que Whisper sur CPU. Si vous avez un CPU plus ancien ou de classe portable, sans GPU disponible, cet écart de vitesse, c'est la différence entre une dictée qui semble instantanée et une dictée qui vous fait attendre. Pour le travail anglais du quotidien, Parakeet est celui que je dégaine en premier.
Il couvre l'anglais plus 24 autres langues européennes — 25 au total — donc pour beaucoup d'utilisateurs européens, c'est largement suffisant. Ce qu'il ne fait délibérément pas, c'est tout ce qui est propre à Whisper : pas de traduction vers l'anglais, pas de biais sur mots-clés, pas de prompt de vocabulaire personnalisé. Si votre travail est monolingue anglais (ou l'une de ces 24 langues européennes) et que vous le voulez juste rapide, Parakeet l'emporte et la question est close. Vous trouverez plus de détails dans le décryptage du modèle Parakeet si vous voulez le tableau complet.
Whisper l'emporte dès que vous sortez de ce cadre. Besoin de chinois, de japonais ou de coréen ? Whisper multilingue, parce que Parakeet ne les parle pas. Besoin de traduire un enregistrement en anglais ? Whisper multilingue, le seul chemin local qui le fasse. Vous voulez orienter le modèle vers une liste de noms de produits ou de jargon pour qu'il arrête de les massacrer ? Whisper, via les mots-clés. La règle empirique : Parakeet pour la vitesse en anglais, Whisper pour les langues, la traduction et le contrôle. L'app livre les deux parce qu'aucun n'est la bonne réponse pour tout le monde.
Taille, vitesse et précision : comment le compromis fonctionne vraiment
Il est utile de voir les trois forces côte à côte, car chaque modèle n'est qu'un point différent sur le même triangle. Les gros fichiers sont plus précis et plus lents ; les petits fichiers sont plus rapides et plus légers en RAM ; et les moteurs spéciaux infléchissent la courbe. Voici la version honnête de chaque force, puisque l'app vous fait choisir et que je préfère que vous choisissiez en connaissance de cause.
Trois façons de lire la gamme, selon ce qui vous coince :
- Si le problème, c'est la vitesse — tournez-vous d'abord vers Parakeet — environ 600 Mo et 5 à 10 fois plus rapide que Whisper sur CPU. Sur une machine sans GPU, rien en local ne le touche pour l'anglais du quotidien. Le prix à payer : pas de traduction vers l'anglais et pas de mots-clés.
- Si le problème, c'est la précision ou la langue — voyez plus grand dans la famille Whisper. Large v3, à environ 3 Go, c'est la meilleure précision locale et 99 langues couvertes, mais il réclame 16 Go de RAM. Les variantes Turbo vous offrent l'essentiel de cette qualité avec bien moins d'attente. Small et Medium sont le juste milieu raisonnable.
- Si le problème, c'est l'espace disque ou la RAM — restez petit (Base à environ 140 Mo), ou laissez tomber le local et utilisez le mode Cloud, qui tourne sur n'importe quel matériel parce que ce n'est qu'un appel réseau vers OpenAI avec votre propre clé. Le Cloud fait partie de Whisper Pro et nécessite Internet.
La vérité ennuyeuse, c'est que pour la plupart des gens, sur une machine récente, la différence entre les modèles de taille moyenne est plus petite que celle que fait votre micro. Un micro USB à 20 $ apporte plus à la précision que de passer de Small à Large — les benchmarks publics de Whisper le confirment, et je l'ai vu se vérifier sur mon propre bureau plus d'une fois. Alors ne vous angoissez pas sur Medium contre Large dès le premier jour. Prenez quelque chose qui tient dans votre RAM, mettez-vous à dicter, et changez de modèle plus tard si un mot continue de mal sortir. Le modèle que vous garderez vraiment, c'est celui qui est assez rapide pour que vous oubliiez sa présence.
Essayez-en un, puis changez en deux clics s'il ne convient pas
Voici la partie qui ôte toute la pression de la décision : vous n'épousez pas le modèle que vous choisissez en premier. Changer, c'est deux clics dans les Réglages, et le seul vrai coût, c'est le téléchargement du modèle vers lequel vous basculez. La bonne stratégie n'est donc pas de chercher pendant une heure — c'est de faire un premier choix raisonnable, de dicter avec pendant une journée, et d'en changer s'il vous agace. Tout le pipeline local est gratuit pour n'importe quel compte connecté, sans moyen de paiement demandé à l'inscription, donc essayer quelques modèles ne vous coûte rien d'autre que de l'espace disque.
Étape 1 — Ouvrez les Réglages et trouvez le panneau Transcription.
C'est là que vit la liste des modèles, répartie entre anglais uniquement et multilingue, avec Parakeet et Cloud à côté. Rien n'est présélectionné comme « le meilleur ».
Vous saurez que vous êtes au bon endroit quand vous verrez la liste des modèles avec les tailles à côté de chaque nom.
Étape 2 — Faites votre premier choix à partir de la section ci-dessus.
Anglais et vous voulez de la vitesse : Parakeet. Anglais et vous voulez de la précision : Small ou Medium English. Autres langues : un modèle multilingue. RAM serrée : Base.
Vous saurez que ça a marché quand le modèle finit de se télécharger et s'affiche comme prêt.
Étape 3 — Dictez avec pendant une journée.
Utilisez-le sur du vrai travail, pas une phrase de test. Vous apprenez plus d'un après-midi de vraies notes que de n'importe quel graphique de benchmark.
Vous saurez que c'est le bon modèle quand vous cesserez de le remarquer pour simplement parler.
Étape 4 — Changez s'il ne convient pas.
Trop lent : prenez quelque chose de plus petit ou Parakeet. Une langue manquante ou des mots massacrés : passez au multilingue ou à plus grand. Deux clics, un téléchargement, terminé.
Vous saurez que ça a marché quand le nouveau modèle se charge et que votre prochain enregistrement l'utilise.
Les gens traitent ça comme une porte à sens unique, et ce n'en est pas une. Le premier modèle que j'ai fait tourner n'est pas celui que j'ai gardé ; j'ai commencé sur un modèle multilingue par habitude, j'ai réalisé que je dictais en anglais toute la journée, et je suis passé à Parakeet pour la vitesse. Deux clics et le temps d'un café de téléchargement. Considérez votre premier choix comme un brouillon.
La recommandation rapide, si vous avez sauté à la fin
Si vous ne lisez rien d'autre, le voici. Anglais, vous le voulez rapide, machine modeste : Parakeet. Anglais, vous voulez la meilleure précision locale : le modèle Medium English, ou Turbo si vous voulez cette précision sans l'attente. Une autre langue, ou vous avez besoin de traduction : un modèle multilingue — Small pour commencer, Large v3 si la précision compte et que vous avez 16 Go de RAM. Disque ou RAM serrés : Base. Vous voulez une précision haut de gamme avec accès web et ça ne vous dérange pas d'utiliser votre propre clé OpenAI : Cloud. Voilà toute la carte.
Quel que soit votre choix, la transcription brute ressort d'un seul tenant, et c'est vrai de tous les moteurs de reconnaissance vocale, pas seulement du nôtre. Vous dites « okay donc règle le modèle de réunion sur medium et rappelle-moi de tester le grand plus tard », et c'est ce mur sans ponctuation que vous récupérez. Whisper peut lancer une passe de nettoyage par IA pour corriger la ponctuation et supprimer les hésitations avant que le texte n'arrive — dites la phrase d'activation « Hey whisper » et il fait le ménage en premier. Sur un modèle local, ça passe par Ollama ; en mode cloud, c'est gpt-5-mini par défaut.
okay donc règle le modèle de réunion sur medium et rappelle-moi de tester le grand plus tard euh peut-être parakeet pour les trucs rapides
Okay, donc règle le modèle de réunion sur Medium et rappelle-moi de tester le Large plus tard — peut-être Parakeet pour les trucs rapides.
Une mise en garde honnête qui a sa place à la fin de tout guide « quel modèle » : si tout ce que vous faites, c'est déposer une note de 30 mots dans un champ de texte, vous n'avez peut-être pas besoin de choisir de modèle du tout. Sur Windows, la barre de saisie vocale intégrée s'ouvre avec touche Windows + H là où se trouve votre curseur — elle ponctue toute seule et est gratuite, même si elle passe par les serveurs de Microsoft et nécessite Internet. Sur Mac, la Dictée dans les Réglages Système fait la même chose, et sur Apple Silicon le texte général peut être traité sur l'appareil. En dessous du seuil où la précision et la longueur commencent à faire mal, utilisez ce qui est déjà sur votre machine. Nous commençons à valoir le téléchargement quand vous faites du vrai volume, voulez de la confidentialité hors ligne, ou avez besoin d'une langue et d'un contrôle que les outils intégrés n'offrent pas. Je ne vais pas vous dire d'installer une app pour dicter une liste de courses.
Le « meilleur » modèle Whisper, c'est celui auquel vous cessez de penser. Choisissez le compromis qui vous importe, faites un premier choix, et changez en deux clics s'il vous agace. J'ai livré des systèmes où le schéma d'architecture était déjà faux au deuxième commit, alors j'ai un respect sain pour le « essaie et ajuste ». Votre choix de modèle a moins d'enjeu que ça, et il est beaucoup plus facile à défaire. Commencez quelque part. Le téléchargement est la partie lente ; la décision ne devrait pas l'être.
Choisissez un modèle et commencez à parler
Faites un premier choix, dictez pendant une journée, changez en deux clics s'il ne convient pas. L'app vous montre toutes les options et vous laisse choisir.
Mode local gratuit pour tout compte connecté. Aucune carte requise pour commencer.



