Guide
OpenAI Whisper pour Windows
OpenAI Whisper est un modèle de reconnaissance vocale gratuit et open source, publié sous licence MIT. Sur Windows, il s'utilise normalement via Python et la ligne de commande pour transcrire des fichiers audio. Whisper by Remskill regroupe ces modèles dans une application de bureau, pour que vous puissiez dicter en direct dans n'importe quelle application.
Dernière mise à jour : juin 2026

OpenAI Whisper est un modèle de reconnaissance vocale gratuit et open source, publié sous licence MIT. Sur Windows, il s'utilise normalement via Python et la ligne de commande, pour transcrire les fichiers audio que vous lui indiquez. Whisper by Remskill regroupe ces modèles dans une application de bureau, pour que vous puissiez dicter en direct dans n'importe quelle application.
OpenAI Whisper est un modèle gratuit et open source. Sur une machine Windows toute neuve, la version officielle réclame Python, ffmpeg et la ligne de commande pour transcrire des fichiers. Si vous avez un fichier, des outils gratuits avec interface comme Buzz ou Whisper Desktop s'en chargent. Si vous voulez parler et voir vos mots apparaître au curseur dans n'importe quelle application, Whisper by Remskill regroupe les mêmes modèles, sans rien à compiler, avec un palier local gratuit.
Ce que les gens entendent par « OpenAI Whisper pour Windows »
La vérité un peu ennuyeuse, c'est qu'« OpenAI Whisper » désigne deux choses différentes qui portent le même nom, et les résultats de recherche les confondent tous les jours.
La première chose, c'est le modèle. Whisper est un modèle de reconnaissance vocale qu'OpenAI a publié en open source sous licence MIT : le code et les poids entraînés sont donc tous deux libres de téléchargement et d'utilisation. Il existe en six tailles (tiny, base, small, medium, large et turbo), dont quatre ont une variante uniquement anglaise, qui troque la vitesse contre la précision. Il est multilingue, et il peut traduire la parole vers l'anglais avec une seule option. C'est réellement impressionnant, et c'est réellement gratuit.
La seconde chose, c'est la façon dont vous l'utilisez concrètement. Le Whisper officiel est un paquet Python. Vous l'installez avec pip, vous installez l'outil en ligne de commande ffmpeg à côté, puis vous lui donnez un fichier audio depuis un terminal. Si « terminal », « pip » et « ffmpeg » sonnent déjà comme un samedi que vous n'aviez pas prévu, vous venez de trouver le vide que comble tout cet article. La ligne de commande, c'est l'outil avec lequel vous tapez des commandes pour l'ordinateur au lieu de cliquer. La plupart des gens sur Windows ne l'ont jamais ouverte volontairement.
Donc quand quelqu'un tape « OpenAI Whisper pour Windows » dans Google, il veut généralement l'une de deux réponses. Soit : comment faire transcrire mes fichiers par ce modèle gratuit sans avoir un diplôme d'informatique ? Soit : je veux juste parler et voir mes mots apparaître, est-ce que ce truc en est capable ? Ce sont des besoins différents, et ils appellent des outils différents. Je vais répondre aux deux, et je serai honnête sur l'outil qui l'emporte dans chaque cas.
Le modèle gratuit est excellent. C'est l'installation, le piège.
Voici la partie que les pages produit passent sous silence. Whisper le modèle ne coûte rien. Whisper l'expérience, sur une machine Windows toute neuve, vous coûte un après-midi.
Pour faire tourner l'OpenAI Whisper officiel, vous installez Python, puis le paquet Whisper, puis ffmpeg en vous assurant que Windows sait le trouver, puis vous ouvrez un terminal et vous lancez une commande pour chaque fichier. Rien de tout cela n'est difficile pour un développeur. Tout cela est un mur pour tous les autres : l'écrivain, l'avocat, l'étudiant, le commercial, ma propre mère, qui a accepté d'essayer la dictée à la troisième démo et qui aurait accepté exactement zéro démo contenant la phrase « ajoute ffmpeg à ton PATH ».
Il existe des entrées en matière plus accueillantes, et elles valent la peine d'être connues. Whisper.cpp est un portage en C/C++ pur du même modèle : sous licence MIT, rapide, fonctionnant uniquement sur le CPU, sans aucun Python. Mais vous le compilez quand même depuis les sources, ou vous l'exécutez depuis la ligne de commande. C'est une belle pièce d'ingénierie qui vise droit les gens qui aiment les compilateurs. Le reste de cet article s'adresse à ceux qui ne les aiment pas.
Quand vous voulez plutôt le Whisper en ligne de commande (ou un transcripteur de fichiers)
Je vais vous envoyer ailleurs maintenant, parce que c'est la partie honnête.
Si ce que vous avez vraiment, c'est un fichier audio (une interview enregistrée, un épisode de podcast, un appel Teams que vous avez sauvegardé, un mémo vocal), alors notre application est le mauvais outil, et je préfère vous le dire plutôt que de vous vendre quelque chose qui ne colle pas. Nous faisons de la dictée en direct : vous parlez, les mots arrivent à votre curseur. Nous ne prenons pas un fichier existant pour le transcrire. C'est un autre travail.
Pour ce travail-là, trois outils gratuits sont vraiment bons, et ils sont conçus exactement pour ça :
- Buzz transcrit et traduit des fichiers audio hors ligne, propulsé par le Whisper d'OpenAI, sous licence MIT, et il fonctionne sous Windows. Si vous voulez une vraie fenêtre avec des boutons plutôt qu'un terminal, commencez ici.
- Whisper Desktop (Const-me) est une application Windows avec interface graphique. Vous la décompressez, vous lancez WhisperDesktop.exe, vous lui désignez un fichier, et il transcrit en utilisant votre GPU via DirectCompute. Elle est sous licence MPL-2.0, et rapide sur une carte graphique correcte.
- whisper.cpp est l'option épurée si vous êtes à l'aise avec la ligne de commande et que vous voulez de la vitesse brute sans Python.
Ce n'est pas moi qui fais le diplomate pour la forme. Vous envoyer vers le bon outil quand ce n'est pas le nôtre, c'est précisément la raison pour laquelle vous devriez croire le reste. Si vous avez un fichier, allez utiliser Buzz. Si vous avez un micro et une phrase en tête, continuez à lire.
Ce que Whisper by Remskill fait réellement sous Windows
Nous avons pris les mêmes modèles Whisper open source, plus un second moteur, et nous les avons enveloppés dans une application Windows : rien à compiler, rien à taper dans un terminal.
Vous installez une seule application, environ 25 Mo. Vous vous connectez. Vous appuyez sur le raccourci, qui est Ctrl + Space par défaut et entièrement réassignable. Vous parlez. Vous relâchez. Le texte apparaît à votre curseur dans l'application où vous étiez déjà : Word, Outlook, le navigateur, Slack, un éditeur de code, le champ de recherche. Pas de fichier, pas de terminal, pas de GPU requis ; toute la transcription locale tourne sur votre CPU.
Sous le capot, vous choisissez parmi trois voies, car nous ne choisissons pas de modèle à votre place :
- Whisper local (8 modèles) c'est le Whisper open source pour lequel vous êtes venu, intégré et prêt à l'emploi. Optimisé pour l'anglais, de Base (~140 Mo) jusqu'à Medium (~1,5 Go), plus des versions multilingues jusqu'à Large v3 (~3 Go). Les versions multilingues couvrent 99 langues et peuvent traduire vers l'anglais.
- Parakeet (NVIDIA TDT, ~600 Mo) est un moteur distinct, 5 à 10 fois plus rapide que Whisper sur CPU, couvrant l'anglais plus 24 autres langues européennes. Pas de traduction vers l'anglais. Choisissez-le si vous voulez de la vitesse et que vous travaillez surtout en anglais.
- Cloud (OpenAI, BYOK) vous permet d'apporter votre propre clé OpenAI pour une précision haut de gamme et la recherche web ; nous ne prenons aucune commission. C'est la seule fonctionnalité Pro.
Le pipeline local (chaque modèle Whisper, Parakeet, le nettoyage par IA via Ollama, l'historique, les préréglages, le raccourci personnalisé, le téléchargement des modèles) est gratuit pour tout utilisateur connecté, sans carte à l'inscription. La voie Cloud est le palier Pro payant ; vous pouvez voir les chiffres sur la page des tarifs.
Pourquoi une vraie application de dictée Windows est plus dure qu'un pip install
Voici ce dont personne ne vous avertit quand on vous dit « il suffit d'envelopper Whisper dans une interface ».
Le modèle, c'est la partie facile. Faire qu'un raccourci se comporte bien sous Windows, non. La première version de notre gestionnaire de raccourci déclenchait six fois la fonction d'arrêt d'enregistrement pour une seule vraie pression de touche. Ça marchait parfaitement sur un Mac. Ça marchait parfaitement sur une installation Windows propre. Ça s'effondrait sur les vraies machines des clients, celles où une méthode de saisie est activée, ce qui, sous Windows, génère des événements fantômes de relâchement de Ctrl + Space à des moments imprévisibles. Il a fallu des jours de télémétrie, puis un anti-rebond de 50 ms qui ne suffisait pas, puis un anti-rebond de 300 ms qui a fini par suffire. J'en ai appris plus sur le framework de méthode de saisie de Windows que quiconque ne devrait, et j'ai un master. Le verdict de ma fille aînée, quand je lui ai expliqué : « c'est pour ça que les e-mails de papa prennent une éternité ».
Voilà la différence entre un modèle et un produit. Le Whisper gratuit vous donne la transcription d'un fichier. Une application de dictée doit survivre au vrai bureau Windows, dans de vraies applications, pendant que vous faites autre chose. Le modèle ne voit jamais ce combat. Nous, si — et nous l'avons perdu pendant une bonne semaine au début.
Quand l'outil intégré à Windows suffit amplement
Dites aux gens quand ne PAS acheter votre produit, et ils vous croiront peut-être sur le reste. Donc : si vous ne dictez qu'une petite note de temps en temps, vous n'avez peut-être besoin de rien de tout ça. Windows 11 dispose d'un outil de saisie vocale intégré que vous ouvrez avec Win + H. Il est gratuit et très bien pour deux ou trois lignes, même s'il fait passer votre audio par la reconnaissance vocale en ligne de Microsoft plutôt que de tourner sur votre machine. Pour une réponse rapide sur Teams, c'est largement suffisant.
Nous commençons à valoir l'installation à partir du moment où vous rédigez du vrai texte (longs e-mails, mémos, résumés de cours, commentaires de code, variantes marketing) et où vous voulez que cela reste sur votre machine, en 99 langues, avec le même raccourci partout. Si votre journée se résume à des messages de deux lignes, vous avez terminé. Si votre journée, c'est de l'écriture, gardez l'application.
Pour aller plus loin
OpenAI Whisper est un modèle gratuit et open source, et sous Windows il réclame normalement Python, ffmpeg et un terminal pour transcrire des fichiers. Si vous avez un fichier, Buzz ou Whisper Desktop le feront gratuitement avec une vraie fenêtre. Si ce que vous voulez vraiment, c'est parler et voir vos mots arriver au curseur dans n'importe quelle application, sans rien compiler, sans ligne de commande, en tournant localement sur votre CPU, c'est ce que nous avons créé.
Pour un traitement plus approfondi du paysage gratuit contre payant, voir la reconnaissance vocale sous Windows. Pour choisir entre nos deux moteurs locaux, voir Whisper vs Parakeet.
Dictez votre première phrase en une minute environ
Téléchargez Whisper by Remskill pour Windows, connectez-vous sans carte requise, appuyez sur Ctrl + Space, et parlez. Le pipeline local est gratuit aussi longtemps que vous l'utilisez.
Transcription locale gratuite à vie. Aucun moyen de paiement à l'inscription. Le palier Cloud est la seule fonctionnalité payante.



