Par Denys Medvediev

Explications

Le modèle NVIDIA Parakeet

Parakeet est le modèle de reconnaissance vocale open-source de NVIDIA. La version actuelle, parakeet-tdt-0.6b-v3, pèse environ 600 Mo, fonctionne hors-ligne et est 5 à 10 fois plus rapide que Whisper sur CPU. Voici ce que c'est et comment il se compare.

Dernière mise à jour : juin 2026

Forme d'onde audio bleue abstraite sur une puce processeur, évoquant la reconnaissance vocale locale

Le modèle NVIDIA Parakeet est un modèle de reconnaissance vocale open-source basé sur un encodeur FastConformer et un décodeur Token-and-Duration Transducer. La version actuelle, parakeet-tdt-0.6b-v3, compte environ 600 millions de paramètres, transcrit 25 langues européennes dont le français et l'anglais, et fonctionne 5 à 10 fois plus vite que Whisper sur CPU. Il ne traduit pas vers l'anglais.

La plupart des gens entendent le mot « Parakeet » en pensant à un oiseau, et repartent avec un modèle de reconnaissance vocale. Il appartient à NVIDIA, il est ouvert sous une licence permissive, et la version qui compte pour la dictée quotidienne s'appelle parakeet-tdt-0.6b-v3. Le « 0.6b » correspond au nombre de paramètres — environ 600 millions. Sur disque, il occupe environ 600 Mo. C'est assez petit pour tenir sur votre ordinateur portable et ne jamais contacter un serveur.

Si je m'y intéresse, c'est pour une raison peu glamour : on le distribue. Parakeet est l'un des moteurs locaux intégrés à Whisper, juste à côté des modèles Whisper d'OpenAI, et la question qu'on me pose le plus souvent est « lequel choisir, et pourquoi l'oiseau est si rapide ». Voici donc la version sans détour — ce qu'est vraiment Parakeet, pourquoi son décodeur le rend rapide, et le point précis où je vous renverrais plutôt vers Whisper.

Voilà ce que le jargon des fiches modèle masque. Parakeet est un modèle de transcription, et rien d'autre. Il écoute de l'audio et écrit les mots, avec ponctuation et majuscules incluses. Il ne résume pas, il ne traduit pas vers l'anglais et il n'accepte pas de mots-clés prioritaires. Ce qu'il fait, il le fait très vite.

Le bon cadrage n'est donc pas « Parakeet contre Whisper, lequel gagne ». C'est « à quoi sert chacun ». Parakeet est le choix rapide pour l'anglais et les langues européennes, et il fonctionne entièrement hors-ligne. Whisper est le choix polyvalent — 99 langues, traduction vers l'anglais, contrôle fin — mais plus lent sur la même machine. Je vais vous expliquer la vitesse, vous donner la liste des langues sans ambiguïté, et vous montrer comment utiliser Parakeet gratuitement, en local, en environ deux minutes.

Ce qu'est vraiment le modèle Parakeet

Gros plan d'une carte électronique avec un processeur lumineux, représentant la transcription locale sur l'appareil

Parakeet est une famille de modèles de reconnaissance vocale automatique publiée par NVIDIA. Celui que l'on distribue, et que la plupart des gens désignent, est parakeet-tdt-0.6b-v3, sorti en août 2025 sous la licence CC-BY-4.0. « 0.6b » signifie 600 millions de paramètres. Le téléchargement fait environ 600 Mo. Dans Whisper, il arrive sous forme de modèle ONNX exécuté via transcribe-rs, notre couche de transcription en pur Rust — pas de runtime Python, pas de processus séparé à surveiller.

Sa mission est étroite, et il l'assume. Parakeet prend de l'audio et retourne du texte avec ponctuation et majuscules automatiques, plus des horodatages mot par mot si vous le demandez. Il détecte la langue tout seul — vous n'avez pas à lui préciser. Ce qu'il ne fait pas est tout aussi important : pas de traduction vers l'anglais, pas de pondération de vocabulaire personnalisé, pas de liste de mots-clés prioritaires. Il transcrit. C'est tout le contrat.

Le « TDT » dans le nom est la partie intéressante, et c'est ce qui rend le modèle rapide plutôt que simplement petit. TDT signifie Token-and-Duration Transducer. L'encodeur est un FastConformer, la vision efficace de NVIDIA de l'architecture Conformer qu'utilisent la plupart des modèles vocaux modernes. L'association — encodeur rapide, décodeur intelligent — est l'ingénierie derrière le chiffre affiché, et ça mérite sa propre section.

Comment un Token-and-Duration Transducer va vite

Les anciens modèles transducteurs parcourent l'audio image par image et, à chaque image, posent la question : « y a-t-il un nouveau fragment de mot ici, ou non ? » La plupart du temps, la réponse est « non » — ils émettent un blanc, avancent d'une image et reposent la question. Cette boucle d'émission de blancs représente l'essentiel du travail et du temps perdu. C'est l'équivalent, pour un modèle vocal, de lire une phrase pixel par pixel.

Un Token-and-Duration Transducer change la question. Au lieu de prédire uniquement le prochain token, il prédit le token et combien d'images audio sauter avant le suivant. Quand il y a une longue voyelle ou une pause, le modèle la franchit en une seule étape plutôt que d'avancer laborieusement image par image. Moins d'étapes de décodage, même résultat. Cette prédiction de durée, c'est le tour de passe-passe que désigne le nom « TDT », et c'est là que vient la vitesse.

Cancel
L'indicateur d'enregistrement : une petite capsule qui apparaît pendant que vous parlez, pour vous montrer que Whisper écoute.

De votre côté, rien de tout ça n'est visible. Vous maintenez un raccourci clavier, vous parlez, vous relâchez, et le texte apparaît à votre curseur — la capsule ci-dessus est la seule chose que vous voyez pendant qu'il écoute. Les calculs du décodeur sont de la plomberie cachée. Mais c'est pourquoi Parakeet termine un segment audio pendant qu'un modèle Whisper comparable est encore en train de traiter les blancs — et sur CPU, cet écart fait la différence entre « instantané » et « attends un peu ».

Parakeet contre Whisper, sans le marketing

Les gens voient ça comme un combat de coqs. Ce n'en est pas un. Ce sont deux outils aux formes différentes, et dans notre application vous pouvez garder les deux installés et basculer d'un enregistrement à l'autre. La façon la plus claire de le retenir : Parakeet optimise la vitesse et la simplicité hors-ligne ; Whisper optimise la couverture et le contrôle.

Parakeet est plus rapide — 5 à 10 fois plus rapide que Whisper sur CPU, selon les propres chiffres de NVIDIA et nos mesures. Il couvre 25 langues, toutes européennes, dont l'anglais. Il ponctue et met des majuscules d'office. Ce à quoi il renonce : il ne peut pas traduire d'autres langues vers l'anglais, il n'a pas de pondération de vocabulaire personnalisé, et il ne touche pas aux dizaines de langues non européennes — chinois, japonais, coréen, arabe, hindi — que les versions multilingues de Whisper gèrent sans sourciller.

Whisper, dans les versions multilingues d'OpenAI, atteint 99 langues et peut en traduire n'importe laquelle vers l'anglais. Il expose aussi les réglages que Parakeet n'a pas : taille du beam, prompt initial, pondération de mots-clés pour les noms et le jargon. Le coût, c'est le temps de traitement sur le même matériel, et des modèles plus grands signifient plus de RAM. La règle pratique est simple : si vous parlez français, anglais ou une autre langue européenne et que vous voulez un résultat immédiat, Parakeet. Si vous avez besoin de traduction, d'une langue non européenne, ou d'un contrôle fin, Whisper. La vérité un peu décevante, c'est que la plupart des gens qui essaient les deux finissent par garder les deux.

Les vrais chiffres : vitesse et 25 langues

Carte du monde lumineuse avec des traînées de lumière reliant des villes, évoquant de nombreuses langues et un traitement rapide

Commençons par la vitesse, parce que c'est la raison pour laquelle Parakeet existe dans notre application. Le chiffre annoncé par NVIDIA est 5 à 10 fois plus rapide que Whisper sur CPU, ce qui correspond à ce que nous observons. Sur le classement public Open ASR Leaderboard, le modèle affiche un facteur temps-réel de l'ordre du millier — autrement dit, il peut transcrire bien plus vite que la lecture audio quand on lui donne un GPU puissant. Vous n'aurez pas ce GPU. Mais même sur un simple CPU de laptop, le décodeur qui saute les durées permet à une courte dictée de sembler instantanée plutôt que lente.

Voici maintenant la liste des langues, formulée précisément pour éviter toute mauvaise surprise. Parakeet v3 prend en charge 25 langues, toutes européennes, dont l'anglais — soit l'anglais plus 24 autres, pas 99. L'ensemble va des langues évidentes (anglais, français, allemand, espagnol, italien, portugais, néerlandais, polonais) aux langues nordiques et baltes jusqu'au russe et à l'ukrainien. Il détecte automatiquement la langue utilisée. Si une fiche de modèle ou un forum vous dit que Parakeet gère 99 langues, c'est une confusion avec Whisper. Il en gère 25, et vite.

Deux autres limites méritent d'être dites clairement, parce que ce sont celles qui surprennent. Parakeet n'a pas de mode de traduction vers l'anglais — il transcrit ce que vous avez dit dans la langue dans laquelle vous l'avez dit, point final. Et il n'accepte pas de mots-clés prioritaires : si votre dictée est pleine de noms de produits inhabituels ou de patronymes rares, vous ne pouvez pas les pré-alimenter. Aucune de ces deux choses n'est un défaut ; ce sont simplement les limites d'un modèle rapide et ciblé. (La précision sur l'anglais courant est vraiment bonne — sur le benchmark standard de parole claire, il est en dessous de 2 % de taux d'erreur par mot — mais « bon » et « paramétrable pour votre jargon particulier » sont deux promesses différentes.)

Utiliser Parakeet gratuitement, en local, en deux minutes

Il ne vous faut pas de compte NVIDIA, d'installation Python ni de GPU pour essayer. Il vous faut un Mac avec Apple Silicon ou un PC sous Windows 10 ou supérieur, un microphone qui fonctionne, et quelques minutes. Toute la pipeline locale — Parakeet inclus — est gratuite pour tout compte connecté, sans moyen de paiement demandé à l'inscription. Voici la marche à suivre.

Étape 1 — Installez Whisper et connectez-vous.

Téléchargez depuis la page de téléchargement, installez, et créez un compte gratuit. Pas de carte. Toute la pipeline de transcription locale s'ouvre immédiatement.

Vous saurez que ça fonctionne quand l'icône de la barre d'état système apparaît et que l'assistant de configuration propose de choisir un modèle.

Étape 2 — Choisissez Local Parakeet.

L'application propose trois options sans choisir à votre place : Cloud, Local Parakeet, Local Whisper. Sélectionnez Local Parakeet et laissez le modèle d'environ 600 Mo se télécharger une fois.

Vous saurez que ça fonctionne quand Parakeet a terminé son téléchargement et s'affiche comme prêt.

Étape 3 — Confirmez votre raccourci clavier.

Sur Windows, le raccourci par défaut est Ctrl+Space ; sur Mac, Command+Option maintenu en mode push-to-talk. Sur Mac, accordez la permission Accessibilité lorsque vous y êtes invité ; sans elle, le collage au curseur ne peut pas atteindre les autres applications.

Vous saurez que ça fonctionne quand un enregistrement test se colle dans n'importe quel champ de texte.

Étape 4 — Placez votre curseur n'importe où et parlez.

Cliquez dans une zone de texte — un e-mail, un document, un chat — maintenez le raccourci, prononcez une phrase, relâchez. Parakeet la transcrit et le texte apparaît là où se trouve le curseur.

Vous saurez que ça fonctionne quand votre phrase prononcée est dans le champ sous forme de texte, un instant après que vous ayez relâché.

Whisper
La vraie application de bureau Whisper sur l'écran des paramètres, avec le panneau Transcription où vous choisissez Parakeet.

La partie lente, c'est ce seul téléchargement du modèle. Tout le reste, ce sont les quatre étapes ci-dessus, et une fois Parakeet sur disque il ne contacte jamais un serveur — l'audio et la transcription restent sur votre machine. Si vous avez déjà configuré la dictée sur Windows ou sur Mac, c'est le même fonctionnement avec un moteur plus rapide en dessous.

Précision, phrases enchainées et nettoyage du texte

La dictée brute de n'importe quel moteur, Parakeet compris, sort comme un flot continu. Vous dites « bon alors décaler la réunion à dix heures classer le brouillon parakeet et écrire à marco », et c'est ce mur sans ponctuation que vous obtenez. Parakeet ajoute bien sa propre ponctuation et ses majuscules, ce qui est déjà plus que beaucoup de modèles, mais il ne va pas supprimer vos « euh » ni transformer une pensée décousue en phrase nette.

C'est là qu'une passe IA gagne sa place. Dites la phrase d'activation « Hey whisper » et le texte transcrit est amélioré avant d'arriver — les remplissages sont supprimés, les phrases enchainées sont découpées, le désordre parlé est transformé en quelque chose que vous enverriez vraiment. En local, ça passe par Ollama sur votre propre machine ; en mode cloud, c'est gpt-5-mini par défaut. Parakeet s'occupe de l'écoute, l'amélioration s'occupe du rangement.

Thinking...
Brut

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

Nettoyé

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

Sur la précision elle-même, Parakeet est vraiment solide sur l'anglais courant — moins de 2 % de taux d'erreur par mot sur le benchmark standard, ce qui le place dans le même voisinage que Whisper, pas en dessous. La mise en garde honnête est celle que personne ne met en avant : aucun modèle ne corrige un mauvais audio. Un micro USB à 15 euros fait plus pour votre précision de transcription que changer de moteur. Je l'ai appris de la façon la plus ennuyeuse qui soit, après avoir accusé le modèle pendant une semaine d'enregistrements brouillés qui s'avéraient venir du micro intégré de mon laptop capturant le bruit du lave-vaisselle.

Cette habitude parler-puis-nettoyer est utile bien au-delà d'une seule application — vous pouvez rédiger des e-mails et des documents entiers avec votre voix avec un seul raccourci clavier, alors un long paragraphe devient quelques phrases parlées au lieu de quelque chose que vous tapez laborieusement.

Quand choisir Whisper plutôt que Parakeet

Deux flèches tracées à la craie sur un trottoir pointant dans des directions différentes, illustrant un choix d'outil

Ce serait vous rendre un mauvais service que de vous vendre Parakeet comme la réponse à tout. C'est le choix rapide, pas le choix universel, et il y a des cas clairs où je l'écarterais au profit d'un des modèles Whisper — ou même de la dictée gratuite déjà présente sur votre machine.

Choisissez Whisper plutôt que Parakeet dans l'un de ces cas. Vous avez besoin d'une langue hors des 25 de Parakeet — chinois, japonais, coréen, arabe, hindi, toute langue non européenne — parce que Parakeet ne les couvre tout simplement pas. Vous avez besoin d'une traduction vers l'anglais, ce que Parakeet ne propose pas. Ou vous dictez un jargon technique dense, des noms inhabituels, ou des termes produits, et vous voulez une pondération de mots-clés pour les verrouiller, ce que seul Whisper expose. Pour tous ces cas, les versions multilingues de Whisper avec leur portée de 99 langues sont le bon outil, même s'ils tournent plus lentement sur le même ordinateur.

Et parfois le bon outil n'est pas le nôtre. Si vous ne faites que saisir une note de 20 mots dans un champ de texte, votre système d'exploitation le fait déjà gratuitement : la touche Windows + H ouvre la Saisie vocale où que soit votre curseur (elle nécessite internet, donc ce n'est pas hors-ligne), et sur Mac, la Dictée dans Réglages Système → Clavier tape partout où vous pouvez, traitée sur l'appareil sur Apple Silicon. En dessous du seuil où la vitesse, la confidentialité hors-ligne ou une passe IA propre ont vraiment de l'importance, utilisez ce qui est gratuit. Je ne vais pas vous dire d'installer un moteur pour un rappel d'une ligne.

Si vous choisissez une configuration spécifiquement sur une machine Apple, les compromis entre Parakeet, Whisper et la dictée d'Apple sont détaillés dans les meilleures options de reconnaissance vocale pour Mac, qui aborde le même arbitrage vitesse-couverture côté Mac.

Parakeet est un modèle de 600 Mo nommé d'après un oiseau qui fait une seule chose — transformer la parole européenne en texte, vite, sur votre propre machine — et refuse de prétendre faire plus. Je trouve cette retenue bizarrement rassurante dans une année où chaque outil prétend tout faire. J'ai dicté le brouillon brouillon de cet article avec Parakeet en local, puis j'ai laissé la passe IA nettoyer les enchaînements, puis j'ai basculé vers un modèle Whisper pour une citation en ukrainien que Parakeet gérait très bien mais que je voulais traduire. Deux moteurs, un raccourci, aucun serveur. C'est tout l'intérêt d'avoir les deux.

Essayez Parakeet sur votre propre machine

Maintenez le raccourci, parlez, relâchez. Parakeet transcrit en local et le texte apparaît à votre curseur — dans chaque application que vous ouvrez.

Mode local gratuit pour tout compte connecté. Pas de carte requise pour commencer.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, très probablement en dictant les réponses.

Pour aller plus loin