Explainer
Reconnaissance vocale privée, sur votre appareil
La reconnaissance vocale privée signifie que votre voix est transcrite directement sur votre appareil, sans rien envoyer à un serveur. Whisper et Parakeet en local fonctionnent entièrement hors ligne. La dictée cloud, à l'inverse, envoie votre audio pour le transcrire à distance.
Dernière mise à jour : juin 2026

La reconnaissance vocale privée est une transcription qui s'exécute directement sur votre appareil, de sorte que votre voix enregistrée ne quitte jamais la machine. Les moteurs locaux comme Whisper et Parakeet fonctionnent entièrement hors ligne sans rien envoyer à un serveur. Les services de dictée cloud, eux, téléchargent l'audio pour le transcrire à distance. Pour une confidentialité maximale, choisissez un outil local et hors ligne.
Tous les outils de dictée se disent privés. La plupart ne le sont pas. Le mot finit par signifier « nous chiffrons l'envoi » ou « nous le supprimons après 30 jours » — ce qui veut quand même dire que votre voix a quitté votre machine, s'est retrouvée sur le serveur de quelqu'un d'autre, et a été transcrite par un ordinateur qui ne vous appartient pas. C'est une politique de confidentialité, pas de la confidentialité. Il existe une définition plus stricte et honnête du mot, et elle mérite d'être bien comprise avant de confier à un outil l'e-mail destiné à votre avocat.
La définition honnête est simple : la reconnaissance vocale privée, c'est quand l'audio est converti en texte sur votre appareil, et rien n'est envoyé nulle part. Pas d'envoi, pas de serveur, pas d'internet requis. Cette version existe, elle est gratuite pour le pipeline local, et elle tourne sur l'ordinateur que vous avez déjà. Le hic — soyons directs — c'est que dès que vous optez pour un mode cloud pour une meilleure précision, cette promesse change. Je vais tracer cette ligne clairement.
Voici ce que le marketing tend à occulter. « Privé » n'est pas une impression, c'est une question à réponse unique : l'audio quitte-t-il l'appareil ou non ? S'il part, quelqu'un d'autre que vous peut, en principe, l'entendre. S'il ne part pas, c'est impossible. Tout le reste — chiffrement, durées de rétention, certifications de conformité — n'est que gestion des dégâts pour le cas où il partirait quand même.
La vraie question n'est donc pas « cet outil est-il privé ? ». C'est « ma voix est-elle transcrite sur ma machine ou sur la leur ? ». Whisper et Parakeet en local le font sur la vôtre, hors ligne, avec le modèle chargé dans votre propre RAM. La dictée cloud le fait sur la leur. Ce guide explique ce que cette distinction vous apporte concrètement, comment configurer la version locale en deux minutes, et la seule exception honnête où envoyer l'audio dans le cloud est un échange raisonnable.
Ce que « privé » signifie vraiment pour la reconnaissance vocale

La reconnaissance vocale privée signifie une chose précise : votre voix enregistrée est convertie en texte sur votre propre appareil, et l'audio ne le quitte jamais. Pas d'envoi à un serveur, pas d'aller-retour sur internet, pas de tiers dans la boucle. La transcription se passe dans votre propre mémoire et votre CPU, comme la correction orthographique, puis l'audio disparaît. C'est toute la définition — et la plupart des outils qui emploient le mot « privé » n'y répondent pas.
Ce qui se vend habituellement comme « privé », c'est la version cloud avec un meilleur verrou sur la porte. L'audio voyage quand même vers les serveurs d'un prestataire pour être transcrit ; le prestataire promet juste de le chiffrer en transit et de le supprimer à une échéance donnée. C'est franchement mieux que rien, et pour beaucoup de personnes c'est suffisant. Mais ce n'est pas la même chose que si l'audio ne partait jamais. Une promesse de suppression est une promesse. Le traitement sur l'appareil est un fait — il n'y a rien à supprimer parce que rien n'a été envoyé. Quand la confidentialité compte vraiment — un chiffre de salaire, une note médicale, un brouillon que vous ne voudriez jamais voir indexé — la différence entre une promesse et un fait, c'est tout.
Si la transcription sur l'appareil est désormais possible, c'est parce que les modèles sont devenus compacts et les ordinateurs portables, rapides. Il y a quelques années, il fallait un datacenter pour faire tourner une bonne reconnaissance vocale — d'où le passage au cloud. Aujourd'hui, un modèle Whisper ouvert tourne localement sur un portable milieu de gamme, et Parakeet tourne encore plus vite. Le cloud était un contournement pour du matériel qui ne vous freine plus. La reconnaissance vocale privée n'est pas une fonctionnalité premium que vous payez en plus — c'est le mode par défaut qui est devenu pratique, et le reste de ce guide vous explique comment l'utiliser.
Pourquoi la plupart des dictées cloud ne sont pas privées
Quand vous appuyez sur une touche dans un outil de dictée cloud, voici ce qui se passe en coulisses : votre microphone enregistre quelques secondes d'audio, ce fichier audio est envoyé sur internet à un serveur, un modèle sur ce serveur le transcrit, et le texte revient sur votre écran. L'opération peut prendre à peine une seconde, ce qui explique pourquoi elle semble invisible. Mais votre voix — l'enregistrement réel, pas seulement les mots — a fait un aller-retour vers une machine que vous ne contrôlez pas.
La Saisie Vocale Windows est l'exemple le plus parlant, car la plupart des gens l'ont déjà. Appuyez sur la touche Windows + H et une petite barre s'ouvre qui tape votre discours dans le champ actif. Ça marche bien. C'est aussi un service cloud — la reconnaissance vocale en ligne de Microsoft — d'où la nécessité d'une connexion internet et le fait qu'il s'arrête dans un avion. Votre audio part sur les serveurs de Microsoft pour devenir du texte. Il en va de même pour la plupart des applications de « dictée IA » qui sortent aujourd'hui : la partie intelligente tourne sur le matériel de quelqu'un d'autre, et une facture mensuelle discrète est le prix à payer pour le louer. Un outil local affiche une petite capsule pendant l'écoute, et l'audio qu'il enregistre ne quitte jamais l'ordinateur :
Je ne dis pas que la transcription cloud est mauvaise — je la défendrai plus loin pour les cas où elle justifie son existence. Je dis que le mot marketing « privé » décrit généralement le verrou sur l'envoi, pas l'absence d'envoi. La dictée exclusivement cloud est un désastre de confidentialité en attente de transcription, et ceux qui le ressentent en premier sont ceux qui ne voient pas la facture arriver. J'ai vu une équipe accumuler une charge cloud à cinq chiffres en un seul trimestre, principalement à cause d'un bug de « retry intelligent » qui renvoyait les mêmes enregistrements de standup quatre fois de suite. Le directeur financier a ouvert le tableau de bord lors de la revue trimestrielle, et le silence s'est installé dans la salle. Personne n'avait décidé d'envoyer tout cet audio sur un serveur. L'outil le faisait, à chaque fois, parce que c'est comme ça qu'il fonctionnait.
Comment la reconnaissance vocale locale préserve la confidentialité
La version privée tourne entièrement sur votre machine. Vous appuyez sur un raccourci, parlez, relâchez, et un modèle déjà chargé dans votre propre RAM convertit l'audio en texte et le colle à votre curseur — pas d'internet, pas de serveur, rien d'envoyé. Il vous faut un Mac avec Apple Silicon ou un PC sous Windows 10 ou plus récent, un microphone qui fonctionne, et quelques minutes. L'ensemble du pipeline local est gratuit pour tout compte connecté, sans moyen de paiement demandé à l'inscription. Voici les étapes.
Étape 1 — Installer Whisper et se connecter.
Téléchargez depuis la page de téléchargement, installez, et créez un compte gratuit. Pas de carte. Tout le pipeline de transcription local s'ouvre immédiatement, hors ligne.
Vous saurez que ça a fonctionné quand l'icône de l'application apparaît dans la barre système et que l'assistant de configuration propose de choisir un modèle.
Étape 2 — Choisir un moteur de transcription local.
L'application ne choisit pas pour vous. Pour une dictée privée et hors ligne, choisissez Local Parakeet ou Local Whisper — tous deux tournent sur votre machine. La troisième option, Cloud, envoie l'audio, donc laissez-la désactivée si la confidentialité est l'objectif.
Vous saurez que ça a fonctionné quand un modèle local termine son téléchargement et s'affiche comme prêt.
Étape 3 — Confirmer votre raccourci clavier.
Sur Windows, le raccourci par défaut est Ctrl+Space ; sur Mac, Command+Option en mode push-to-talk. Sur Mac, accordez la permission Accessibilité quand elle est demandée ; sans elle, le collage au curseur ne peut pas atteindre les autres applications.
Vous saurez que ça a fonctionné quand un enregistrement test se colle dans n'importe quel champ de texte.
Étape 4 — Débranchez le câble réseau et parlez quand même.
C'est le test de confidentialité. Coupez le Wi-Fi, placez votre curseur dans n'importe quelle zone de texte, maintenez le raccourci, dites une phrase, relâchez. La transcription apparaît toujours, parce que le modèle a tourné localement.
Vous saurez que ça a fonctionné quand la dictée fonctionne avec internet complètement coupé.
La partie lente, c'est le téléchargement unique du modèle, qui nécessite évidemment internet. Après ça, l'audio ne va plus jamais en ligne en mode local. Le test du câble débranché à l'étape quatre n'est pas un gadget — c'est la seule preuve qui compte. Si la dictée continue de fonctionner avec le réseau coupé, l'audio est transcrit sur votre appareil, un point c'est tout. Si elle s'arrête, c'est qu'il partait quelque part. Ce seul test démystifie toutes les affirmations « privé » sur toutes les pages marketing.
Même le nettoyage IA peut rester sur votre machine
Voilà ce que la plupart des gens ne pensent pas à demander. La dictée brute sort en flux continu — pas de ponctuation, un « euh » de temps en temps, des phrases qui s'allongent. La solution est un passage IA qui remet le texte en forme pour qu'il soit réellement utilisable. Et c'est exactement là que beaucoup d'outils locaux soi-disant « privés » rappellent discrètement la maison : ils transcrivent sur l'appareil, puis envoient la transcription désordonnée à un modèle cloud pour le nettoyage. L'audio est resté privé ; les mots, non.
Whisper gère aussi le nettoyage localement, via Ollama — un moteur de modèle local gratuit qui tourne sur votre machine en localhost et ne touche jamais internet. Prononcez la phrase d'activation « Hey whisper » et le texte est amélioré avant d'atterrir à votre curseur, l'ensemble de l'aller-retour se déroulant à l'intérieur de votre ordinateur. La chaîne reste donc ininterrompue : votre voix devient du texte sur votre appareil, et ce texte est nettoyé sur votre appareil. Rien dans la phrase — ni l'audio, ni le brouillon, ni la version retravaillée — ne part jamais.
C'est le détail que je vérifierais pour tout outil qui se dit privé. Il est facile de garder la transcription en local et de faire glisser l'amélioration dans le cloud, parce que l'amélioration est la partie qui a besoin d'un grand modèle, et les grands modèles sont tentants à louer. La vérité, moins sexy, c'est que pour la dictée quotidienne, un modèle local via Ollama est largement suffisant pour corriger la ponctuation et supprimer les mots parasites. Vous n'avez besoin d'un modèle cloud que pour quelque chose de vraiment plus complexe — et c'est un choix que vous devriez faire délibérément, pas un que l'outil fait pour vous en arrière-plan.
Local ou cloud : quel mode pour un usage confidentiel
Pour tout ce que vous qualifieriez de confidentiel, commencez en local. Si votre Mac est Apple Silicon ou si votre PC date de ces dernières années, les moteurs locaux gèrent la dictée quotidienne sans problème, et le cloud devient la solution de secours plutôt que le choix par défaut. L'application vous force à choisir une voie délibérément — elle ne pousse pas de valeur par défaut — voici donc en quoi les trois diffèrent, avec la confidentialité en pleine lumière :
Le choix se résume à l'endroit où l'audio est traité et à ce dont vous avez besoin de la transcription.
- Local Parakeet — Le moteur TDT de NVIDIA, environ 600 Mo, et l'option locale la plus rapide — 5 à 10 fois plus rapide que Whisper sur CPU. Couvre l'anglais et 24 autres langues européennes, soit 25 au total. Pas de traduction vers l'anglais. Entièrement sur l'appareil, rien d'envoyé. Le choix privé rapide si vous parlez anglais ou une autre langue européenne.
- Local Whisper — plus lent que Parakeet sur la même machine, mais les versions multilingues couvrent 99 langues et peuvent traduire vers l'anglais. Les versions anglais uniquement sont anglais uniquement, pas 99 langues. Aussi entièrement sur l'appareil. Choisissez-le pour le chinois, le japonais, le coréen, ou tout travail de traduction, ce que Parakeet ne peut pas faire. Le modèle anglais par défaut pèse environ 480 Mo.
- Cloud (OpenAI, BYOK) — meilleure précision et accès web, en utilisant votre propre clé OpenAI facturée directement par OpenAI. La transcription utilise par défaut gpt-4o-mini-transcribe. C'est le seul mode qui envoie votre audio — il quitte votre machine pour atteindre OpenAI. C'est opt-in, compris dans Whisper Pro, et désactivé sauf si vous l'activez.
La frontière est nette : les deux voies locales sont privées par construction — l'audio est transcrit sur votre appareil et il n'y a rien à fuiter. La voie cloud ne l'est pas, et nous ne prétendons pas le contraire. Elle envoie votre audio à OpenAI, sous votre propre clé, parce que c'est la seule façon d'obtenir la précision d'OpenAI et l'accès web en temps réel. Si votre Mac est de la série M ou si votre PC est récent, commencez en mode local et ne recourez au cloud que lorsque le local vous laisse vraiment sur votre faim. Le cloud est l'exception que vous choisissez, pas le défaut que vous héritez.
Ce qui quitte vraiment votre machine, selon le mode
Soyons concrets sur les données, parce que « privé » n'a de sens que si l'on précise ce qui circule. En mode local, la réponse est : rien — ni l'audio, ni la transcription, ni la version nettoyée. L'enregistrement est traité dans votre RAM, le nettoyage passe par Ollama sur votre machine, et la seule chose qui s'est déplacée, ce sont les mots, du modèle vers votre zone de texte. Vous pouvez le vérifier avec le réseau débranché.
Quand le nettoyage IA s'exécute, l'overlay affiche un état d'amélioration pendant que le modèle local transforme le flux continu en quelque chose de lisible. Voici le type de transformation qu'il effectue — la dictée brute en haut, le texte nettoyé en bas — tout cela se produisant sur votre appareil en mode local :
okay so send the q3 numbers to marcus before the board call and flag the margin dip um but dont cc the whole finance list
Okay, so send the Q3 numbers to Marcus before the board call and flag the margin dip — but don't cc the whole finance list.
En mode cloud, le bilan est différent et vous devriez le connaître avant de basculer. Votre audio est envoyé vers l'endpoint de transcription d'OpenAI, sous votre propre clé API, pour y être converti en texte. Si vous utilisez aussi l'amélioration IA Cloud, la transcription part vers un modèle GPT ; si vous utilisez la recherche web, une requête est envoyée également. Rien de tout cela ne transite par Remskill — c'est une ligne directe de votre machine à OpenAI via votre clé — mais cela quitte bien votre machine, ce qui est la seule chose qui définit si quelque chose est privé. La phrase sur les chiffres Q3 et Marcus, c'est exactement le genre de chose que je garderais en local. Une recette que je dicte pour le plaisir, vraiment, je m'en fiche.
Ce même flux parler-puis-nettoyer fonctionne dans toutes les applications, donc une fois configuré vous pouvez écrire plus vite avec votre voix dans votre éditeur, votre messagerie et votre terminal — en toute confidentialité, sans que rien ne quitte l'ordinateur en mode local.
Quand envoyer l'audio dans le cloud est un échange acceptable

Je mentirais si je disais que le local est toujours la bonne réponse. Parfois, le cloud est le bon choix, et prétendre le contraire pour pousser un angle confidentialité serait le même mensonge marketing que je viens de passer six sections à dénoncer. L'échange est réel : vous abandonnez la garantie « ça ne quitte jamais votre machine », et vous obtenez la meilleure précision de transcription disponible plus l'accès web en direct avec le même raccourci.
Utilisez le mode cloud quand le contenu n'est pas sensible mais que la précision l'est. Une transcription de podcast, un brouillon de blog public, une liste de courses, un enregistrement difficile avec un accent prononcé ou une pièce bruyante où le modèle local trébuche — rien de tout ça n'a besoin de rester sur votre machine, et les modèles d'OpenAI feront mieux. Vous utilisez votre propre clé API, donc l'audio va directement chez OpenAI et le coût à la minute vous incombe, sans marge d'intermédiaire. Pour du travail non sensible où la qualité est ce que vous payez, c'est un échange sensé. L'erreur n'est pas d'utiliser le cloud — c'est de l'utiliser par défaut pour tout, y compris ce que vous ne voudriez jamais voir sur un serveur.
Et pour les textes vraiment courts, passez l'outil dédié entièrement. Si vous dictez un texte de 30 mots, la touche Windows + H ou la Dictée macOS est gratuite et déjà installée — notez cependant que la Saisie Vocale Windows est elle-même un service cloud, donc ce n'est pas l'option privée, juste la pratique. Sur Apple Silicon, la Dictée macOS peut traiter du texte général sur l'appareil, ce qui en fait le seul outil intégré qui soit vraiment privé pour les courts extraits. En dessous des 200 mots, je ne vais pas vous dire d'installer quoi que ce soit. L'outil dédié se justifie quand les notes sont longues, quand vous voulez la confidentialité hors ligne sur Windows, ou quand vous voulez un seul raccourci qui fonctionne partout de la même façon.
Si vous choisissez un outil principalement pour la garantie de confidentialité, la version plus approfondie de cet argument se trouve dans le guide sur la reconnaissance vocale hors ligne qui explique comment tout faire tourner avec le réseau débranché.
« Privé » est le mot le plus galvaudé de cette catégorie et le plus facile à tester : débranchez le réseau et voyez si ça fonctionne encore. Whisper et Parakeet en local passent ce test parce que l'audio ne quitte jamais votre machine, et le nettoyage IA le passe aussi parce qu'Ollama tourne juste à côté d'eux. Le mode cloud l'échoue délibérément, parce qu'il loue la précision d'OpenAI — et c'est un échange acceptable pour le bon usage. J'ai dicté la majeure partie de ce guide avec le Wi-Fi coupé, ce qui est soit une belle démonstration produit, soit le signe que je devrais sortir davantage. Les deux peuvent être vrais.
Dictez en toute confidentialité, dès maintenant
Choisissez un modèle local, débranchez le réseau, et parlez. La transcription atterrit à votre curseur — et votre voix n'a jamais quitté l'ordinateur.
Mode local gratuit pour tout compte connecté. Aucune carte requise pour commencer.



