Par Denys Medvediev

Explainer

Comment exécuter Whisper localement

Il existe deux façons honnêtes d'exécuter Whisper sur votre propre machine : la voie développeur via Python et la ligne de commande, ou une application de bureau qui s'en charge à votre place sans terminal. Les deux gardent votre audio sur votre ordinateur. On passe en revue chaque option et quand choisir laquelle.

Dernière mise à jour : juin 2026

Un ordinateur portable sur un bureau sombre affichant des lignes de code dans une fenêtre de terminal, évoquant une configuration en ligne de commande

Exécuter Whisper localement signifie transcrire de l'audio sur votre propre machine plutôt que sur un serveur distant. Deux options s'offrent à vous : installer Whisper open source d'OpenAI avec Python, pip et ffmpeg et le lancer depuis la ligne de commande, ou utiliser une application de bureau comme Whisper by Remskill qui regroupe les modèles et dicte à votre curseur sans terminal. Dans les deux cas, l'audio reste sur votre appareil.

Whisper est le modèle de reconnaissance vocale open source d'OpenAI, publié sous licence MIT — et la raison pour laquelle « comment exécuter Whisper localement » est autant recherché, c'est qu'il tourne réellement sur votre propre matériel, gratuitement. Pas de clé API, pas de facturation à la minute, pas d'audio qui quitte votre ordinateur. C'est une vraie bonne affaire, et le projet officiel sur GitHub vous donne accès à tout.

Le bémol, c'est ce que « l'exécuter » implique concrètement. La voie officielle passe par un outil en ligne de commande. Vous installez Python, vous faites `pip install openai-whisper`, vous installez ffmpeg, puis vous pointez un terminal vers un fichier audio. C'est parfait si vous avez un dossier d'enregistrements à traiter en masse. C'est moins pratique si ce que vous vouliez vraiment, c'est dicter dans votre messagerie et voir les mots apparaître. Ce sont deux usages différents, et je vais couvrir les deux honnêtement.

Voici le carrefour que la plupart des articles esquivent. « Exécuter Whisper localement » peut signifier deux choses complètement différentes selon qui pose la question. Pour un développeur : mettre le modèle sur disque et transcrire des fichiers depuis un script. Pour un rédacteur ou un commercial : arrêter de taper et convertir sa voix en texte dans n'importe quelle application.

La vraie question n'est donc pas simplement « comment installer Whisper ». C'est : « quel Whisper local est-ce que je cherche — le CLI pour les traitements par lots et les scripts, ou un raccourci clavier qui dicte à mon curseur ? » Le premier, c'est le projet officiel OpenAI, excellent dans ce qu'il fait. Le second, c'est une application de bureau qui exploite la même famille de modèles sans ligne de commande. Je vais configurer les deux, vous expliquer les contraintes matérielles, et vous dire franchement quand le terminal est le meilleur choix.

Ce que « exécuter Whisper localement » signifie vraiment

Une personne travaillant sur un ordinateur portable à un bureau, illustrant un traitement sur l'appareil plutôt que dans le cloud

Exécuter Whisper localement signifie que la transcription s'effectue sur le processeur de votre ordinateur, pas sur un serveur quelque part. Vous lui fournissez de l'audio, le modèle le convertit en texte, et rien ne quitte la machine. C'est là tout l'intérêt. Le tableau Excel confidentiel dicté à voix haute, l'email à l'école de vos enfants, un appel client enregistré — rien de tout ça ne touche les logs d'un prestataire, puisque vous vouliez simplement dicter. Local d'abord ou ne pas se donner la peine, c'est ma position, et je l'étayerai plus bas.

Whisper en lui-même n'est que le modèle. OpenAI l'a entraîné et a publié les poids sous licence MIT, ce qui permet à n'importe qui de le télécharger et de l'exécuter sans payer. Il existe plusieurs tailles de modèles, d'un petit modèle à 39 millions de paramètres jusqu'à un grand modèle à 1,55 milliard de paramètres — vous choisissez selon le niveau de précision recherché et ce que votre matériel peut encaisser. Le modèle est le même que vous l'exécutiez depuis un terminal ou depuis une application. Ce qui change, c'est l'enveloppe autour de lui.

Et cette enveloppe, c'est toute la question. Il en existe deux, toutes deux légitimes. L'outil officiel OpenAI en ligne de commande : gratuit, scriptable, basé sur Python, conçu pour transcrire des fichiers. Et des applications de bureau qui chargent le même type de modèle derrière une fenêtre normale, pour qu'il suffise d'appuyer sur une touche et de parler au lieu de taper une commande. La vérité peu glamour, c'est que la plupart des personnes qui cherchent ce terme veulent l'un ou l'autre sans encore savoir lequel. Les deux sections suivantes couvrent exactement ces deux voies.

La voie développeur : Python, pip et ffmpeg

Si vous êtes à l'aise dans un terminal, le projet officiel est la réponse la plus propre — et il est vraiment gratuit. Vous avez besoin de trois choses : Python (le projet cible les versions 3.8 à 3.11), le paquet Whisper lui-même, et ffmpeg, l'outil audio dont Whisper se sert pour lire vos fichiers. L'installation tient en deux commandes. `pip install -U openai-whisper` télécharge le paquet et sa dépendance PyTorch. Puis ffmpeg, selon votre système : `brew install ffmpeg` sur Mac, `choco install ffmpeg` ou `scoop install ffmpeg` sur Windows, `sudo apt install ffmpeg` sur Ubuntu.

Une fois installé, vous l'exécutez sur un fichier. `whisper audio.mp3 --model turbo` transcrit l'enregistrement et écrit le texte. Ajoutez `--language Japanese` pour contourner la détection automatique, ou `--task translate` pour obtenir un enregistrement en langue étrangère traduit en anglais. C'est l'essentiel. C'est un outil fichier-en-entrée, texte-en-sortie, et il excelle dans ce rôle. Pointez-le vers un dossier de mémos vocaux une nuit et il traitera tout sans surveillance.

La réalité matérielle, c'est là que les attentes se heurtent à un mur. Les tailles officielles de modèles sont : tiny (39 M paramètres), base (74 M), small (244 M), medium (769 M), large (1,55 G) et turbo (809 M). La VRAM que chacun réclame vous dit tout : environ 1 Go pour tiny, environ 2 Go pour small, environ 5 Go pour medium, et environ 10 Go pour le modèle large. Ces chiffres sont calibrés pour un GPU. Vous pouvez faire tourner les petits modèles sur CPU, mais un GPU dédié est ce qui rend les plus grands supportables. J'ai un jour concocté un beau plan « faire tourner large sur mon laptop », puis je l'ai vu ramper sur une carte graphique intégrée. Le plan est toujours faux dès la deuxième tentative. Le CPU finit par y arriver ; le modèle large sur un ultrabook, ce n'est pas un projet pour un mardi après-midi.

La voie sans terminal : exécuter Whisper dans une application de bureau

Si vous ne voulez jamais voir une invite de commande, voilà l'autre voie honnête. Whisper by Remskill est une application de bureau pour Windows 10 ou ultérieur et les Mac Apple Silicon qui exécute Whisper localement pour vous — les modèles se téléchargent dans l'application, sans pip, sans ffmpeg, sans Python. Elle fait également tourner Parakeet, un second moteur local dont je parlerai ensuite. L'ensemble du pipeline local est gratuit pour tout compte connecté, sans moyen de paiement demandé à l'inscription. Voici comment ça se passe.

Étape 1 — Installer Whisper et se connecter.

Téléchargez depuis la page de téléchargement, installez, et créez un compte gratuit. Pas de carte bancaire. Le pipeline de transcription local est immédiatement disponible.

Vous saurez que ça fonctionne quand l'icône de l'application apparaît dans la barre des tâches et que l'assistant de configuration propose de choisir un modèle.

Étape 2 — Choisir un mode de transcription et télécharger un modèle.

L'application ne choisit pas pour vous. Trois options : Cloud (OpenAI, votre propre clé), Local Parakeet, ou Local Whisper. Pour tout garder sur votre machine, choisissez l'un des deux moteurs locaux et laissez le modèle se télécharger dans l'application.

Vous saurez que ça fonctionne quand le modèle a terminé de se télécharger et s'affiche comme prêt.

Étape 3 — Confirmer votre raccourci clavier.

Sur Windows, le raccourci par défaut est Ctrl+Space ; sur Mac, Command+Option maintenu en push-to-talk. Sur Mac, accordez la permission Accessibilité lorsqu'elle est demandée ; sans elle, le collage à la position du curseur ne peut pas atteindre les autres applications.

Vous saurez que ça fonctionne quand un enregistrement de test se colle dans n'importe quel champ de texte.

Étape 4 — Positionnez votre curseur n'importe où et parlez.

Cliquez dans n'importe quel champ de texte — un email, un document, une messagerie — maintenez le raccourci, prononcez une phrase, relâchez. La transcription apparaît là où se trouve le curseur.

Vous saurez que ça fonctionne quand votre phrase parlée s'affiche sous forme de texte dans le champ.

Whisper
La vraie application de bureau Whisper sur l'écran des paramètres, avec les panneaux Transcription et IA ouverts.

La partie lente, c'est le téléchargement du modèle — comme avec le CLI, les poids sont les poids. Tout le reste, ce sont les quatre étapes ci-dessus. La différence, c'est qu'il n'y a pas de terminal entre vous et le modèle, et qu'au lieu de fichier-en-entrée, texte-en-sortie, vous obtenez un raccourci qui dicte là où se trouve votre curseur. Même Whisper en dessous, usage différent au-dessus.

Quel modèle et quel matériel il vous faut

Les deux voies vous demandent de choisir un modèle, et le choix repose sur le même compromis : les grands modèles sont plus précis et plus lents, les petits sont plus rapides et plus légers. Avec le CLI officiel, le modèle large réclame environ 10 Go de VRAM et le small environ 2 Go — votre carte graphique fixe donc le plafond. Dans l'application de bureau, les modèles Whisper se divisent en versions anglais uniquement et multilingues ; le modèle anglais par défaut pèse environ 480 Mo et le plus grand modèle multilingue environ 3 Go. Les versions multilingues couvrent 99 langues et peuvent traduire vers l'anglais ; les versions anglais uniquement se limitent à l'anglais.

L'autre moteur local de l'application mérite qu'on s'y arrête, car il contourne le problème matériel pour beaucoup de personnes. Parakeet est le modèle TDT de NVIDIA, environ 600 Mo, et il tourne 5 à 10 fois plus vite que Whisper sur un CPU. Il couvre l'anglais et 24 autres langues européennes, soit 25 au total, sans traduction vers l'anglais. Si vous dictez principalement en anglais et que vous n'avez pas de GPU costaud, Parakeet est le choix local rapide. Si vous avez besoin du chinois, du japonais, du coréen ou de la traduction, c'est le territoire multilingue de Whisper — Parakeet ne peut pas aller là. Pendant que vous parlez, une petite capsule indique que l'application vous écoute :

Cancel
L'overlay d'enregistrement : une petite capsule qui apparaît pendant que vous parlez, pour que vous sachiez que l'application vous écoute.

La meilleure chose que vous puissiez faire pour la précision n'est pas du tout un modèle plus grand. Un microphone USB à $20 fait plus pour votre transcription que de sauter deux tailles de modèle — un audio propre en entrée bat un modèle plus lourd nourri de bouillie de micro d'ordinateur portable. Investissez d'abord dans le micro, puis préoccupez-vous du modèle. C'est le seul conseil matériel que je mettrais par écrit et que j'assumerais.

Local ou cloud : quel mode pour quel usage

Si votre machine est en Apple Silicon ou si votre PC date de ces dernières années, essayez d'abord le local. Le cloud est la roue de secours, pas le mode par défaut. Mais l'application vous demande de choisir entre trois options, et je préfère que vous choisissiez bien — voici les différences.

Voici comment les trois modes diffèrent, puisque l'application vous oblige à choisir :

  • Local ParakeetLe moteur TDT de NVIDIA, environ 600 Mo, et l'option locale la plus rapide — 5 à 10 fois plus rapide que Whisper sur CPU. Couvre l'anglais et 24 autres langues européennes, soit 25 au total. Pas de traduction vers l'anglais. Si vous dictez en anglais ou dans une autre langue européenne et que vous voulez de la vitesse sans GPU, c'est le choix 100 % hors ligne.
  • Local Whisperplus lent que Parakeet sur la même machine, mais les versions multilingues couvrent 99 langues et peuvent traduire vers l'anglais. Les versions anglais uniquement ne font que l'anglais, pas 99 langues. Choisissez-le pour le chinois, le japonais, le coréen, ou tout travail de traduction que Parakeet ne peut pas faire. Le modèle anglais par défaut pèse environ 480 Mo ; le plus grand modèle multilingue environ 3 Go.
  • Cloud (OpenAI, BYOK)meilleure précision et accès web, en utilisant votre propre clé OpenAI facturée directement par OpenAI. La transcription s'appuie sur gpt-4o-mini-transcribe par défaut. Il nécessite une connexion internet — c'est donc la seule option qui quitte votre machine. Le mode Cloud fait partie de Whisper Pro.

La vérité peu glamour, c'est que pour la dictée quotidienne, le local est largement suffisant, et les deux moteurs locaux fonctionnent entièrement sur votre machine sans rien envoyer à un serveur. Le cloud prend tout son sens quand vous voulez une précision maximale sur un enregistrement difficile, ou que vous avez besoin que le modèle aille chercher un fait sur le web en plein milieu d'une phrase. Quelle que soit la voie choisie pour exécuter Whisper localement — CLI ou application — la confidentialité est la même : l'audio reste là où il est. Si rester hors ligne est votre seule raison d'être ici, la reconnaissance vocale hors ligne va plus loin sur ce sujet.

Précision, ponctuation et nettoyage du transcript brut

Peu importe ce qui fait tourner Whisper, la dictée brute sort comme un flot continu. Vous dites « ok donc transcris l'enregistrement du standup puis envoie le résumé à l'équipe avant le déjeuner », et c'est exactement ce mur sans ponctuation que n'importe quel moteur vocal vous rend. Le CLI officiel vous donne ce texte et s'arrête là — le nettoyage est votre affaire, dans un script ou à la main. C'est très bien pour la transcription en masse où vous traiterez de toute façon les sorties plus tard.

L'application de bureau peut effectuer la passe de nettoyage pour vous avant que le texte n'arrive à destination. Prononcez la phrase d'activation « Hey whisper » et une passe IA supprime les mots parasites, corrige les enchaînements et ajoute la ponctuation. Sur un modèle local, ça passe par Ollama sur votre machine ; en mode cloud, c'est gpt-5-mini par défaut. La différence entre brut et nettoyé, c'est la différence entre un transcript à corriger et un que vous pouvez envoyer directement :

Thinking...
Brut

ok donc transcris l'enregistrement du standup puis envoie le résumé à l'équipe avant le déjeuner euh et mets le manager en copie

Nettoyé

Ok, donc transcris l'enregistrement du standup, puis envoie le résumé à l'équipe avant le déjeuner, et mets le manager en copie.

La précision elle-même est principalement une question de modèle et de micro — et j'ai déjà parlé du micro. Du côté du modèle, les grandes versions multilingues de Whisper sont solides sur 99 langues, et le mode cloud ajoute la transcription haut de gamme d'OpenAI quand un enregistrement est vraiment difficile. Mais pour un audio propre et une parole normale, même les petits modèles s'en sortent très bien — courir après le plus grand modèle sur un matériel faible vous donnera un résultat plus lent pour une précision que vous ne remarquerez probablement pas. Adaptez le modèle à l'usage, pas aux droits de vantardise de la fiche technique.

Si votre objectif principal est de parler au lieu de taper toute la journée, c'est ce flux parler-puis-nettoyer qui vous permet de transformer votre voix en texte sur Windows sans jamais ouvrir un terminal — c'est tout l'intérêt de la voie sans CLI.

Quand la ligne de commande est le bon choix

Deux chemins qui divergent, illustrant le choix entre la ligne de commande et une application de bureau

Parfois, le terminal est vraiment le meilleur outil, et prétendre le contraire pour vous vendre une application serait malhonnête. Le CLI officiel OpenAI est gratuit, sous licence MIT, et conçu pour une tâche que l'application de bureau ne fait pas : transcrire des fichiers, en masse, depuis un script. Si c'est votre usage, ignorez l'application.

Optez pour la ligne de commande quand vous avez un dossier d'enregistrements à traiter en masse du jour au lendemain, quand vous voulez intégrer Whisper dans un pipeline Python plus large ou sur un serveur que vous gérez, quand vous avez besoin d'un paramètre de modèle spécifique que l'interface graphique n'expose pas, ou quand vous vivez déjà dans le terminal et ne voulez pas d'une fenêtre de plus. C'est aussi le bon choix sur Linux, pour lequel l'application de bureau n'existe pas. Le CLI tourne partout où Python et ffmpeg tournent. Rien de tout ça n'est une critique de l'application — c'est simplement un problème de forme différent.

Optez pour l'application de bureau quand il s'agit de dictée, pas de traitement de fichiers : vous voulez parler dans votre email, vos documents, votre messagerie, et avoir les mots qui apparaissent au curseur en appuyant sur une touche. Le CLI ne peut pas coller au curseur dans un autre programme — ça n'a jamais été sa vocation. Le partage honnête est donc le suivant : fichiers et scripts, utilisez le terminal ; parler plutôt que taper, utilisez l'application. La plupart des gens, une fois qu'ils savent ce qu'ils cherchaient vraiment, savent immédiatement de quel côté ils sont.

La même logique sur l'appareil, sans cloud, s'applique si vous faites ça sur un Mac — le guide dans voix en texte sur Mac couvre le côté Apple Silicon, y compris la permission Accessibilité dont le raccourci a besoin.

Whisper qui tourne sur votre propre machine est l'une des meilleures affaires du logiciel en ce moment — un modèle qu'OpenAI a offert, le même que celui que les grands outils cloud utilisent discrètement, stocké sur votre disque pour rien. La seule vraie décision, c'est quelle enveloppe convient à votre quotidien. J'utilise le CLI quand j'ai des fichiers à mâcher, et l'application les 95 % du temps restants, parce que je change de programme environ quarante fois par heure et que je n'ai pas envie de taper une commande à chaque fois. J'ai dicté la majeure partie de ce guide avec un raccourci, dans une zone de texte qui n'était pas un terminal, avec le modèle qui tournait sur le même ordinateur portable tout du long.

Exécutez Whisper localement sans le terminal

Maintenez le raccourci, parlez, relâchez. Le modèle tourne sur votre machine et la transcription apparaît là où se trouve votre curseur — sans Python, sans pip, sans ffmpeg.

Mode local gratuit pour tout compte connecté. Pas de carte bancaire requise pour démarrer.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis notre messagerie d'assistance — le plus souvent en dictant les réponses.

Pour aller plus loin