Par Denys Medvediev

Guide

Dictée en temps réel pour les écrivains

Une application de dictée en temps réel pour les écrivains vous permet de prononcer une phrase et de la voir apparaître au curseur un instant plus tard. Avec Whisper, vous maintenez un raccourci, parlez, relâchez — et la transcription se colle dans ce que vous êtes en train d'écrire. Avec les modèles locaux, ça prend environ une seconde et demie.

Dernière mise à jour : juin 2026

Les mains d'un écrivain posées près d'un clavier et d'un document ouvert sur un bureau sombre, évoquant la rédaction à la voix

Une application de dictée en temps réel pour les écrivains transforme la parole en texte au curseur avec peu de délai. Whisper fonctionne en push-to-talk : maintenez un raccourci, parlez, relâchez — et la transcription se colle dans l'éditeur à l'écran. Avec les modèles locaux, le délai entre le relâchement de la touche et le texte est d'environ 1,4 seconde. Fonctionne hors ligne, gratuitement, dans n'importe quelle application de bureau.

J'ai créé Whisper parce que taper était la partie la plus lente de l'écriture. Pas la réflexion, pas la correction — l'acte littéral de faire bouger les doigts assez vite pour suivre une phrase que j'avais déjà terminée dans ma tête. La voix règle ça. On parle à environ 145 mots par minute ; on tape peut-être à 40. Cet écart, c'est tout l'intérêt.

Mais « temps réel » est un terme qui porte à confusion, et la plupart des pages qui vendent la dictée aux écrivains vous laissent imaginer quelque chose d'inexact. Alors avant de télécharger quoi que ce soit, je veux être clair sur ce que « temps réel » signifie vraiment ici, sur ce que ressent le délai, et sur la place que ça occupe dans une vraie session d'écriture — prose longue, articles de blog, fiction, ce mail que vous repoussez depuis des jours.

Voici la version honnête que la plupart des pages marketing passent sous silence. Whisper fonctionne en push-to-talk. Vous maintenez un raccourci, prononcez une phrase ou trois, puis relâchez. La transcription se colle au curseur au relâchement — pas mot par mot pendant que vous parlez, comme l'écran d'un sténographe de tribunal. L'unité, c'est l'énoncé, pas la syllabe.

Cette distinction compte parce qu'elle fixe la bonne attente. Si vous imaginez des mots qui défilent sur la page en même temps que votre bouche bouge, c'est du sous-titrage en direct — un outil différent pour un usage différent. Ce que Whisper offre à un écrivain est en pratique plus rapide que ça : vous exprimez une pensée, elle apparaît, vous passez à la suivante. Avec un modèle local, l'aller-retour prend environ 1,4 seconde. Assez vite pour que vous cessiez de le remarquer et que vous vous mettiez à écrire, tout simplement.

Ce que « temps réel » signifie vraiment pour un écrivain

Un écrivain tapant sur un ordinateur portable avec un carnet à côté, illustrant le flux de rédaction que la voix remplace

Les écrivains se tournent vers la dictée pour la même raison que moi : le brouillon est dans leur tête et le clavier est en travers du chemin. Un premier jet est censé être rapide et imparfait. Le clavier le rend lent et propre, ce qui est exactement l'inverse de ce qu'on veut. Parler vous permet de capturer la version brouillonne à la vitesse à laquelle vous pensez, et l'édition — la partie qui veut vraiment vos doigts — vient après.

Quand un écrivain cherche « dictée en temps réel », ce qu'il veut généralement, c'est ça : prononcer une phrase, la voir arriver avant d'avoir perdu la suivante. C'est le vrai critère. Pas un streaming lettre par lettre — un délai inférieur à deux secondes, pour que les mots soient là avant que la pensée ne s'évapore. Whisper y répond. Du moment où vous relâchez le raccourci à l'apparition du texte dans votre document, il faut environ 1,4 seconde sur un modèle local sur un M1 Air, et un peu plus de deux secondes sur un PC Windows milieu de gamme avec un modèle plus grand. (J'ai vu le flux se briser quand la latence dépasse deux secondes — votre cerveau se réengage avec l'écran et vous perdez le fil. Ce chiffre, c'est celui qui m'obsède.)

L'autre chose que veulent les écrivains, c'est ne jamais quitter le document. Un long brouillon est un état de flow, et le flow ne survit pas à l'ouverture d'une fenêtre de transcription séparée, au clic sur « enregistrer », à l'attente, au copier-coller. Whisper colle au curseur dans l'application où vous êtes déjà — Scrivener, Word, Google Docs dans un navigateur, un éditeur de texte simple, votre CMS. Vous ne changez pas de fenêtre. Vous maintenez une touche et continuez d'écrire. C'est ce qui donne l'impression du temps réel, même si, à strictement parler, le collage se fait au relâchement.

Maintenez un raccourci, parlez, relâchez — le texte se colle tout seul

Le mécanisme est ennuyeux, ce qui est le plus grand compliment que je puisse faire à un logiciel. Vous maintenez un raccourci, vous parlez, vous relâchez, et la transcription se colle au curseur dans ce qui a le focus. Whisper conserve une petite queue — 250 millisecondes — après que vous lâchez, pour que votre dernier mot ne soit pas coupé. Comme il colle au curseur du système d'exploitation, votre manuscrit est juste « une zone de texte ». Scrivener, Final Draft, Word, un brouillon Substack dans le navigateur — même comportement, aucune configuration par application.

Une petite capsule apparaît pendant que vous parlez pour vous indiquer que l'application écoute, puis elle montre la brève étape de transcription avant que les mots n'arrivent. C'est toute la boucle. Pas de fenêtre d'application séparée vers laquelle faire Alt+Tab, pas de bouton d'enregistrement à trouver, pas de fichier à exporter. Votre curseur est dans le paragraphe, vous parlez, la phrase apparaît dans le paragraphe :

Cancel
La capsule d'enregistrement : une petite bulle qui apparaît pendant que vous parlez, pour que vous sachiez que Whisper vous écoute.

Le raccourci est la seule chose qui vaille la peine d'être bien configurée dès le départ. Sur Windows c'est Ctrl+Space ; sur Mac c'est Command+Option, un push-to-talk à modificateur pur que vous maintenez pendant que vous parlez. Les deux sont modifiables dans les paramètres, ce qui compte pour les écrivains car beaucoup d'applications d'écriture accaparent des touches pour leurs propres raccourcis. (Ma fille cadette m'a dit un jour qu'un raccourci « ne fonctionnait pas » dans son application de dessin. C'était un conflit, pas un bug — c'est ainsi que j'ai appris que la personne moyenne n'a aucune idée de ce qu'est un conflit de raccourci. Désormais, chaque raccourci est personnalisable.) Si vous avez déjà configuré la dictée sur Windows ou sur Mac auparavant, c'est la même mémoire musculaire pointée vers votre application d'écriture.

Installation en deux minutes (Windows ou Mac)

Il vous faut un Mac Apple Silicon ou un PC sous Windows 10 ou version ultérieure, un microphone fonctionnel, et l'éditeur dans lequel vous écrivez ouvert. Toute la chaîne locale est gratuite pour tout compte connecté, sans moyen de paiement demandé à l'inscription. Voici la marche à suivre.

Étape 1 — Installez Whisper et connectez-vous.

Téléchargez depuis la page de téléchargement, installez, et créez un compte gratuit. Sans carte. Toute la chaîne de transcription locale s'ouvre immédiatement.

Vous saurez que ça fonctionne quand l'icône de la barre des tâches apparaît et que l'assistant de configuration vous propose de choisir un modèle.

Étape 2 — Choisissez un mode de transcription.

L'application ne choisit pas pour vous. Trois options s'offrent à vous : Cloud (OpenAI, avec votre propre clé), Local Parakeet, ou Local Whisper. Pour rédiger de la prose en privé, commencez en local — plus de détails deux sections plus bas.

Vous saurez que ça fonctionne quand un modèle finit de se télécharger et s'affiche comme prêt.

Étape 3 — Confirmez votre raccourci.

Windows utilise Ctrl+Space par défaut, Mac utilise Command+Option maintenu en push-to-talk. Sur Mac, accordez la permission d'accessibilité quand elle est demandée ; sans elle, le collage au curseur ne peut pas atteindre votre application d'écriture.

Vous saurez que ça fonctionne quand un enregistrement test se colle dans n'importe quel champ de texte.

Étape 4 — Placez votre curseur dans votre brouillon et parlez.

Ouvrez le document, cliquez où vous voulez la prochaine phrase, maintenez le raccourci, dites-la, relâchez. La transcription apparaît au curseur, en plein milieu du paragraphe.

Vous saurez que ça fonctionne quand votre phrase prononcée se retrouve dans le brouillon sous forme de texte.

Whisper
La vraie application de bureau Whisper sur l'écran des paramètres, avec les panneaux Transcription et IA ouverts.

La partie lente, c'est le téléchargement du modèle, pas la configuration. Tout le reste, c'est les quatre étapes ci-dessus. Une fois lancé, mettre une phrase sur la page cesse d'être une tâche de frappe pour devenir une tâche de parole — et pour un long brouillon, c'est la différence entre un après-midi et une soirée.

la voix-vers-texte sur Windows · sur Mac

Ce que ça fait vraiment de dicter un brouillon

L'astuce pour dicter de la prose, c'est d'arrêter de vouloir dicter une prose parfaite. Les nouveaux utilisateurs essaient de parler avec des virgules et des sauts de paragraphe et finissent par être plus lents qu'en tapant. La méthode rapide consiste à parler en pensées complètes — dites la phrase comme vous la diriez à un ami, relâchez, dites la suivante. Laissez le premier passage être brut. Vous capturez le brouillon, vous ne composez pas. Un article de blog de 1 500 mots qui me prend quatre-vingt-dix minutes à taper en prend environ la moitié à dicter, et l'essentiel du gain vient simplement du fait de ne pas s'arrêter pour corriger en cours de phrase.

Le rythme du push-to-talk correspond à la façon dont les écrivains pensent réellement. Vous maintenez la touche pour une idée, relâchez, regardez ce qui est arrivé, décidez la phrase suivante, maintenez à nouveau. Les pauses entre les appuis sont du temps de réflexion, pas du temps mort — l'outil n'enregistre pas vos « euh » pendant que vous regardez le mur en cherchant comment la scène se développe. Pour la fiction en particulier, c'est plus proche de la façon dont le dialogue sonne dans votre tête que la frappe ne l'a jamais été ; vous jouez la réplique, puis vous l'avez sur la page à tailler.

Deux notes pratiques pour les longues sessions. D'abord, dictez par blocs d'une à trois phrases, pas des paragraphes entiers en une seule haleine — les rafales courtes se collent plus vite et sont plus faciles à corriger si un mot sort mal. Ensuite, votre microphone compte plus que vous ne le pensez. Un micro USB à 20 $ fait plus pour la précision que n'importe quelle mise à niveau de modèle, parce que c'est l'audio propre qui est le vrai matériau de travail du modèle. C'est la vérité ennuyeuse que personne qui vous vend « une précision IA » ne veut mettre en avant. Une fois que les mots coulent aussi vite, vous pouvez rédiger des brouillons entiers à la voix et traiter le clavier comme un outil d'édition, ce pour quoi il a toujours été meilleur.

Local ou cloud : quel mode pour un écrivain au travail

Pour rédiger, essayez d'abord le mode local. Un manuscrit en cours, un pitch que vous n'avez pas encore envoyé, une entrée de journal — rien de tout ça n'a besoin de quitter votre ordinateur pour devenir du texte. Si votre Mac est Apple Silicon ou si votre PC date des dernières années, le local gère la dictée quotidienne sans broncher, et le cloud devient l'option de secours plutôt que le défaut. Voici comment les trois modes diffèrent, parce que l'application vous demande de choisir et que je préfère que vous choisissiez bien :

  • Local ParakeetLe moteur TDT de NVIDIA, environ 600 Mo, et l'option locale la plus rapide — 5 à 10 fois plus rapide que Whisper sur CPU. Couvre l'anglais et 24 autres langues européennes, 25 au total. Pas de traduction vers l'anglais. Si vous écrivez en anglais ou dans une autre langue européenne, c'est le choix rapide et entièrement hors ligne, celui qui maintient la latence basse.
  • Local WhisperPlus lent que Parakeet sur la même machine, mais les versions multilingues couvrent 99 langues et peuvent traduire vers l'anglais. Les versions uniquement en anglais sont uniquement en anglais, pas 99. Choisissez-le si vous écrivez en chinois, en japonais ou en coréen (ce que Parakeet ne peut pas faire), si vous avez besoin de traduction, ou si vous voulez le biais de mots-clés pour les noms de personnages et les mots inventés. Le modèle anglais par défaut fait environ 480 Mo.
  • Cloud (OpenAI, BYOK)La meilleure précision et l'accès au web, en utilisant votre propre clé OpenAI facturée directement par OpenAI. La transcription utilise gpt-4o-mini-transcribe par défaut. Nécessite internet, c'est donc le seul mode qui quitte votre machine, et il fait partie de Whisper Pro.

La vérité ennuyeuse, c'est que pour la plupart des textes, le local suffit largement — les deux moteurs locaux tournent entièrement sur votre machine sans rien envoyer à un serveur. Le cloud mérite sa place quand vous voulez une précision maximale sur un enregistrement délicat ou quand vous avez besoin d'un fait pêché sur le web en plein milieu d'une phrase. Le cloud est aussi le chemin à plus faible latence sur une bonne connexion, autour de 1,1 seconde, car l'aller-retour réseau bat le calcul local sur un ordinateur plus lent. Commencez en local ; ne passez au cloud que quand le local vous laisse sur votre faim.

Une opinion que j'assume : la dictée cloud exclusivement est un désastre pour la vie privée en attente d'être transcrit. J'ai un jour regardé une équipe interne accumuler une facture cloud à cinq chiffres en un trimestre, principalement à cause d'une boucle de « nouvelle tentative intelligente » qui re-transcrivait les mêmes enregistrements quatre fois. Le directeur financier a ouvert le tableau de bord pendant la revue trimestrielle et le silence est tombé dans la salle. Votre premier jet n'a pas besoin de vivre dans les logs d'un prestataire pour devenir du texte. Votre ordinateur a déjà un microphone et un processeur.

Transformer un brouillon oral en prose propre

La dictée brute sort comme un flux continu sans ponctuation. Vous dites « donc voilà le chapitre s'ouvre à la gare elle est en retard elle a raté la correspondance euh et tout part de là », et c'est le mur sans ponctuation que n'importe quel moteur de parole vous remet. Pour un brouillon, c'est bien — vous allez de toute façon éditer. Mais il existe un chemin plus rapide vers quelque chose de lisible.

La frappe vocale Windows ajoute la ponctuation pendant que vous parlez, et macOS Dictation gère les bases quand vous dites « virgule » ou « point ». Pour un nettoyage plus poussé — supprimer les « euh », corriger les runs-on, transformer un paragraphe oral en quelque chose que vous garderiez — Whisper peut lancer un passage IA. Dites la phrase d'activation « Hey whisper » et le texte est amélioré avant d'arriver. Sur un modèle local, ça passe par Ollama ; en mode cloud, c'est gpt-5-mini par défaut.

Thinking...
Brut

donc voilà le chapitre s'ouvre à la gare elle est en retard elle a raté la correspondance euh et tout part de là

Nettoyé

Donc, voilà : le chapitre s'ouvre à la gare. Elle est en retard — elle a raté la correspondance — et tout part de là.

Un mot de mise en garde que les écrivains en particulier devraient entendre : le nettoyage IA est un passage ponctuation-et-remplissage, pas un co-auteur. Il corrige la mécanique ; il ne réécrit pas votre voix, et vous ne devriez pas le laisser faire. Pour la fiction ou tout ce qui a un style distinct, je lance le nettoyage local plus léger ou je l'ignore entièrement sur le premier jet et j'édite à la main plus tard, car tout l'intérêt de dicter vite, c'est que le brouillon brut est le vôtre. Utilisez le nettoyage pour rendre les notes lisibles. Faites vous-même le vrai travail d'écriture.

Ce même flux parler-puis-nettoyer fonctionne partout où vous conservez du texte — c'est exactement comme ça que je dicte des notes et capture des idées entre les sessions de rédaction, pour qu'une pensée de recherche ou un rebondissement narratif passe de remarque orale à une ligne soignée sans briser l'élan.

Quand une application de dictée en temps réel est le mauvais outil

Deux flèches tracées à la craie sur un trottoir pointant dans des directions différentes, illustrant un choix d'outil

Parfois la réponse honnête, c'est que vous voulez autre chose, et je préfère le dire plutôt que de vous vendre le mauvais produit. Whisper est une dictée push-to-talk dans l'application dans laquelle vous écrivez. Ce n'est pas du sous-titrage en direct, ce n'est pas de la transcription d'entretien, et ce n'est pas un outil pour téléphone.

Si vous avez vraiment besoin que les mots défilent à l'écran pendant que vous parlez — sous-titrer une conférence en direct, des sous-titres qui défilent pendant un stream, une piste de sous-titres d'accessibilité — c'est du vrai sous-titrage en direct, une catégorie distincte conçue pour le streaming continu, pas pour la dictée appuyer-et-relâcher. Utilisez un outil de sous-titrage. Si vous avez un entretien enregistré ou une réunion de deux heures à transformer en transcript, c'est de la transcription de fichier avec labels de locuteurs — un service comme Otter ou Rev convient mieux qu'un raccourci de dictée ; catégorie différente, ne faites pas faire à un outil d'écriture un travail de transcription. Et si vous ne dictez qu'une note de 30 mots en déplacement, le microphone du clavier de votre téléphone est gratuit et déjà dans votre poche ; Whisper est un outil de bureau pour Windows et macOS, donc il n'y a pas d'application à installer pour ça.

Tournez-vous vers une application de dictée en temps réel quand le travail, c'est la rédaction : prose longue, article de blog, chapitre, mail que vous continuez d'éviter — rédigé au bureau, dans l'application que vous utilisez déjà, où parler bat taper et où vous voulez les mots au curseur une seconde plus tard. En dessous de ça, utilisez ce qui est gratuit. Je ne vais pas vous dire de lancer une application de bureau pour envoyer un message d'une ligne.

La plupart des écrivains que j'entends sont sur l'une ou l'autre plateforme, donc si vous voulez le guide spécifique à votre plateforme, la configuration dans un logiciel de dictée conçu pour les écrivains couvre le flux de travail de bout en bout, du choix d'un modèle à garder les mains hors du clavier pendant une session entière.

« Temps réel » pour un écrivain ne signifie pas des lettres qui défilent sur la page en même temps que votre bouche bouge. Ça signifie que vous dites une phrase et qu'elle est là avant que vous ayez perdu la suivante — environ une seconde et demie, dans l'application où vous êtes déjà, sans rien envoyer nulle part. C'est le tour de magie, et il est discret. J'ai dicté la majeure partie de ce guide une phrase à la fois, en relâchant la touche entre les pensées, en regardant les mots apparaître pendant que je cherchais la ligne suivante. Le clavier était là tout le temps, utile seulement pour les corrections. Ce qui est exactement là où je veux qu'il soit.

Dictez votre prochain brouillon sur la page

Maintenez le raccourci, dites une phrase, relâchez. Les mots atterrissent à votre curseur dans ce que vous êtes en train d'écrire — environ une seconde et demie plus tard, sans rien envoyer nulle part.

Mode local gratuit pour tout compte connecté. Aucune carte requise pour commencer.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos emails de support — très probablement en dictant les réponses.

Pour aller plus loin