Par Denys Medvediev

Guide

Dictez votre thèse

Une thèse est bien trop longue pour rester bloqué devant la page blanche. Parlez votre premier brouillon : appuyez sur un raccourci, dites un chapitre à voix haute, et les mots tombent dans Word, Scrivener ou LaTeX. Puis éditez. Le mode local est gratuit et fonctionne hors ligne.

Dernière mise à jour : juin 2026

Salle de lecture d'une bibliothèque universitaire calme avec de longues tables d'étude et des rayonnages de thèses reliées

Pour dicter votre thèse, installez un outil de dictée système, appuyez sur un raccourci et parlez le brouillon dans l'éditeur que vous utilisez — Word, Scrivener, Google Docs ou un fichier LaTeX. La transcription se colle à l'endroit du curseur. Un moteur local fonctionne entièrement hors ligne et est gratuit pour tout compte connecté ; vous éditez ensuite au clavier.

La page la plus difficile d'une thèse, c'est celle qui est encore vide. Vous avez lu les articles, l'argument est dans votre tête, et le curseur clignote pendant que vous cherchez comment commencer une phrase que vous avez réécrite neuf fois dans votre esprit. J'ai vu des amis en fin de doctorat perdre des soirées entières face à ce curseur. La réflexion était faite. La frappe était le mur.

Parler, c'est passer par-dessus le mur. Vous pouvez énoncer une version approximative d'un paragraphe dans le temps qu'il faudrait pour en taper la moitié, et une version imparfaite sur la page est quelque chose que vous pouvez corriger. Une page blanche, non. Dicter le premier brouillon d'un chapitre, ce n'est pas écrire plus vite — c'est faire sortir la mauvaise version pour que la bonne ait quelque chose contre quoi s'affirmer.

Voici ce que la plupart des articles sur la dictée de thèse passent sous silence. Votre traitement de texte n'est qu'un champ de texte. Idem pour l'éditeur de Scrivener, un Google Doc, ou le corps d'un fichier `.tex` dans votre éditeur de code. Un outil de dictée qui colle au curseur se fiche complètement de savoir dans lequel vous êtes. Il n'y a pas de plugin à brancher sur votre gestionnaire de références, pas de « mode thèse » spécial.

La vraie question n'est donc pas « quelle application prend en charge la dictée ». C'est « quel outil de dictée fonctionne par-dessus l'application dans laquelle j'écris déjà ». Et pour un travail de plusieurs années, souvent sans financement, deux critères comptent plus que pour un simple e-mail : il doit tourner hors ligne et sur un niveau local gratuit, et il doit apprendre les noms et le jargon de votre domaine. Je vais parcourir le flux de travail chapitre par chapitre, en configurer un en deux minutes, et vous indiquer la seule tâche à confier à un autre outil.

Pourquoi les doctorants parlent le premier brouillon

Bureau couvert de livres universitaires ouverts, d'articles imprimés et d'un ordinateur portable pendant une séance d'écriture nocturne

Le but n'est pas d'« écrire plus vite ». C'est d'« arrêter de fixer l'écran ». Un chapitre de thèse fait entre huit et douze mille mots, et la première version de chaque section sera maladroite, peu importe comment vous la produisez. La seule question est de savoir si vous produisez un brouillon maladroit en un après-midi en parlant, ou si vous échouez à en produire un propre en une semaine en tapant. Parler l'emporte parce que c'est allergique au perfectionnisme. On ne peut pas corriger une phrase à mi-souffle comme on le ferait à mi-frappe, alors les mots sortent et restent, et on les corrige plus tard.

Il y a une deuxième raison, toute physique. Une thèse est la chose la plus longue que la plupart des gens écriront jamais, souvent sur des mois de séances marathon, et les mains ont leur mot à dire là-dessus. Dicter une partie du brouillon signifie qu'une partie de l'écriture de la journée se fait sans les mains sur le clavier. Je ne vais pas en faire une affirmation médicale, parce que ce n'en est pas une — c'est un point de productivité et de confort, comme se lever toutes les heures. Si la fatigue des poignets est votre préoccupation principale, l'article plus complet sur la dictée comme façon de reposer ses mains traite honnêtement de cet aspect. Pour la thèse en elle-même, le point est plus simple : vous pouvez continuer à rédiger les jours où vos mains préféreraient que vous ne tapiez pas.

Et la vérité ennuyeuse, c'est que la majeure partie d'une thèse n'est pas la prose finale élégante. C'est l'échafaudage — les « dans ce chapitre, je soutiens que », les résumés de ce qu'untel a trouvé, les paragraphes de liaison entre les sections. Cet échafaudage, c'est exactement ce qui sort très bien à la voix et se lit aussi bien que si vous l'aviez tapé. Réservez le clavier pour les phrases qui ont vraiment besoin d'être précises.

Appuyez sur un raccourci, parlez, le texte arrive dans votre éditeur

Le mécanisme est banal, ce qui est le plus beau compliment qu'on puisse lui faire. Vous appuyez sur un raccourci, vous parlez, vous relâchez, et la transcription se colle à votre curseur dans ce qui a le focus — un titre dans Word, un document dans Scrivener, un paragraphe dans un Google Doc, un bloc de commentaire dans votre fichier LaTeX. Whisper conserve une courte queue après que vous relâchez la touche, pour que le dernier mot d'une longue phrase ne soit pas coupé. Comme il colle au niveau du curseur du système d'exploitation, votre éditeur est simplement « la zone de texte qui se trouve au premier plan ».

C'est la partie que les tutoriels surcompliquent. Il n'y a pas d'intégration à installer dans Word, pas d'extension pour Scrivener, pas de jeton à coller dans votre gestionnaire de références. Votre curseur est dans le document, vous parlez, les mots apparaissent. Une petite capsule s'affiche pendant que vous parlez pour vous indiquer que l'application vous écoute :

Cancel
La superposition d'enregistrement : une petite capsule qui apparaît pendant que vous parlez, pour vous signaler que Whisper est à l'écoute.

Le raccourci est la seule chose qui vaut la peine d'être bien réglée avant de commencer une longue session. Sur Windows, c'est Ctrl+Space ; sur Mac, c'est Command+Option, un push-to-talk à modificateur que vous maintenez pendant que vous parlez et relâchez pour arrêter. Les deux sont modifiables dans les Paramètres s'ils entrent en conflit avec autre chose — et dans un environnement d'écriture rempli de raccourcis LaTeX et de touches de gestionnaire de références, il y en a toujours un. Si vous avez déjà configuré la dictée sur Windows ou sur Mac, c'est le même réflexe, appliqué à votre thèse.

Configurez-le en deux minutes (Windows ou Mac)

Il vous faut un Mac sur Apple Silicon ou un PC sous Windows 10 ou plus récent, un microphone fonctionnel et votre éditeur ouvert — Word, Scrivener, un onglet de navigateur avec Google Docs, ou votre éditeur LaTeX. Tout le pipeline local est gratuit pour tout compte connecté, sans moyen de paiement demandé à l'inscription, ce qui compte quand le travail va prendre des années et que la situation de financement est ce qu'elle est. Voici la séquence.

Étape 1 — Installez Whisper et connectez-vous.

Téléchargez depuis la page de téléchargement, installez et créez un compte gratuit. Aucune carte. Tout le pipeline de transcription local s'ouvre immédiatement.

Vous saurez que ça marche quand l'icône de la barre système apparaît et que l'assistant de configuration propose de choisir un modèle.

Étape 2 — Choisissez un mode de transcription.

L'application ne choisit pas pour vous. Vous avez trois options : Cloud (OpenAI, apportez votre propre clé), Local Parakeet ou Local Whisper. Pour un long brouillon hors ligne avec des termes spécifiques à votre domaine, Whisper local est le bon choix — nous expliquerons pourquoi deux sections plus bas.

Vous saurez que ça marche quand un modèle finit de se télécharger et s'affiche comme prêt.

Étape 3 — Confirmez votre raccourci.

Windows utilise Ctrl+Space par défaut, Mac utilise Command+Option maintenu en push-to-talk. Sur Mac, accordez la permission d'Accessibilité lorsqu'elle est demandée ; sans elle, le collage au curseur ne peut pas atteindre votre éditeur.

Vous saurez que ça marche quand un enregistrement test se colle dans n'importe quel champ de texte.

Étape 4 — Placez votre curseur dans votre brouillon et parlez.

Ouvrez le chapitre, cliquez là où va le prochain paragraphe, maintenez le raccourci, dites quelques phrases, relâchez. La transcription apparaît à l'endroit du curseur, dans le document.

Vous saurez que ça marche quand votre paragraphe parlé apparaît dans le chapitre sous forme de texte.

Whisper
L'application de bureau Whisper sur l'écran des paramètres, avec les panneaux Transcription et IA ouverts.

La partie lente, c'est le téléchargement unique du modèle, pas la configuration. Tout ce qui suit, ce sont les quatre étapes ci-dessus. Une fois lancé, ouvrir un chapitre cesse d'être « trouver l'énergie de taper » pour devenir « trouver l'énergie de parler », ce qui un jeudi épuisé représente une barre bien plus basse.

la voix vers texte sur Windows · sur Mac

Rédiger un chapitre à la voix, puis lui apprendre votre jargon

Le flux de travail qui fonctionne pour la longue forme, c'est parler par blocs, éditer par passes. N'essayez pas de dicter un chapitre soigné de bout en bout — c'est la mentalité de la frappe avec un micro. À la place, ouvrez votre plan, placez le curseur sous un titre et dites la version approximative de cette section à voix haute, comme vous l'expliqueriez à un collègue de labo autour d'un café. Une section, quelques centaines de mots, relâchez la touche, passez au titre suivant. Vous remplissez le squelette, vous ne sculptez pas la statue. La sculpture, c'est l'édition, et elle vient plus tard avec le clavier.

Ce qui fait ou défait la dictée académique, c'est le vocabulaire. Une thèse regorge de mots qu'aucun transcripteur général n'attend — les méthodes que vous citez, les produits chimiques, construits ou théorèmes de votre domaine, et surtout les noms de famille. « Foucault », « Nyquist », « Bourdieu », le nom polonais ou coréen d'un co-auteur épelé exactement comme la citation l'exige. Un moteur général va deviner, et il va se tromper, comme la correction automatique déforme un nom qu'il n'a jamais vu. C'est là que Whisper local trouve sa place : il prend en charge le vocabulaire personnalisé — vous lui donnez une liste de mots-clés, les noms d'auteurs et les termes de domaine que vous utilisez régulièrement, et il privilégie leur transcription correcte. Parakeet, le moteur local plus rapide, ne gère pas les mots-clés, donc pour un brouillon chargé en jargon, Whisper est le choix local. Le mode Cloud est aussi performant en termes de précision, mais le levier du vocabulaire personnalisé est spécifiquement une fonctionnalité de Whisper local.

Constituez cette liste une seule fois au début de la thèse et elle vous rapportera pendant deux ans. Ajoutez les vingt ou trente termes et noms qui reviennent dans votre travail, et le texte que vous récupérez n'a plus besoin d'un chercher-remplacer pour corriger « Burdeau » à chaque paragraphe. Vous corrigerez encore des choses — aucun outil n'épèle tous les noms correctement du premier coup — mais vous corrigerez l'erreur occasionnelle plutôt que de retaper chaque terme technique qui vous appartient.

Local ou cloud pour un travail confidentiel sur plusieurs années

Pour une thèse, je commencerais en local, et pas seulement par principe. Des recherches non publiées, un argument inachevé, des données d'entretien que vous êtes tenu de garder confidentielles — rien de tout cela n'a de raison de voyager vers le serveur de quelqu'un pour que vous puissiez le taper à la voix. Un moteur local fonctionne entièrement sur votre machine sans rien envoyer nulle part, ce qui est le même raisonnement derrière le choix d'une configuration de reconnaissance vocale privée et hors ligne en premier lieu. Il n'a pas non plus de coût à la minute ni d'exigence d'internet, ce qui compte quand l'écriture se fait dans un sous-sol de bibliothèque avec une mauvaise connexion Wi-Fi sur quelques années sans financement. Voici comment les trois options diffèrent, parce que l'application vous oblige à choisir.

L'application ne choisit pas pour vous, alors choisissez en fonction de votre brouillon réel :

  • Local ParakeetLe moteur TDT de NVIDIA, environ 600 Mo, et l'option locale la plus rapide — 5 à 10 fois plus rapide que Whisper sur CPU. Anglais plus 24 autres langues européennes, 25 au total. Pas de traduction vers l'anglais, et pas de vocabulaire personnalisé, ce qui en fait un mauvais choix pour une thèse chargée en jargon. Idéal pour une rédaction rapide en anglais courant où les termes sont ordinaires.
  • Local Whisperplus lent que Parakeet sur la même machine, mais couvre 99 langues, peut traduire vers l'anglais, et prend en charge le vocabulaire personnalisé et les mots-clés pour les termes de votre domaine et les noms cités. Pour une thèse pleine de noms propres et de jargon, c'est le moteur local à utiliser. Le modèle anglais par défaut pèse environ 480 Mo ; les modèles plus grands échangent vitesse contre précision.
  • Cloud (OpenAI, BYOK)meilleure précision brute et accès au web en direct, en utilisant votre propre clé OpenAI facturée directement par OpenAI. La transcription utilise gpt-4o-mini-transcribe par défaut. Il nécessite une connexion internet, c'est donc la seule option qui quitte votre machine — convient aux sections non sensibles, moins idéale pour les données confidentielles. Le mode Cloud fait partie de Whisper Pro.

La réponse honnête est que pour la majeure partie d'une thèse, Whisper local avec une bonne liste de vocabulaire suffit largement, et cela ne coûte rien et reste sur votre ordinateur. Le Cloud mérite sa place quand vous voulez une précision maximale sur un enregistrement difficile ou quand vous avez besoin d'une information tirée du web en pleine phrase. Pour deux ans de rédaction confidentielle, le local est la valeur par défaut et le cloud est l'échappatoire occasionnelle.

Transformer un chapitre parlé en prose soumissible

La dictée brute sort comme un bloc continu. Vous dites « donc ce chapitre examine comment la notion de discipline de Foucault s'applique à la surveillance moderne du lieu de travail en s'appuyant sur les travaux empiriques du chapitre trois », et c'est le mur non ponctué que tout moteur vocal vous rend. C'est normal — c'est un premier brouillon, et les premiers brouillons sont censés être laids. Le nettoyage, c'est là qu'il devient lisible.

La Saisie Vocale de Windows ajoute de la ponctuation pendant que vous parlez, et la Dictée de macOS gère la ponctuation de base quand vous dites « virgule » ou « point ». Pour un nettoyage plus poussé — supprimer les « euh », corriger les blocs sans ponctuation, découper une phrase haletante en trois — Whisper peut effectuer un passage IA avant que le texte n'arrive. Prononcez la phrase d'activation « Hey whisper » et le texte est amélioré à l'entrée. Sur un modèle local via Ollama, entièrement hors ligne ; en mode cloud, c'est gpt-5-mini par défaut. Cela règle la mécanique pour que vous puissiez consacrer votre temps d'édition à l'argument, pas aux virgules.

Thinking...
Brut

so this chapter examines how foucaults notion of discipline maps onto modern workplace surveillance drawing on the empirical work in chapter three um and the interview data

Nettoyé

This chapter examines how Foucault's notion of discipline maps onto modern workplace surveillance, drawing on the empirical work in Chapter Three and the interview data.

Ce qu'un passage IA ne fera pas — et ne devrait pas faire — c'est l'édition académique. Il ne vérifiera pas si votre citation soutient l'affirmation, ne corrigera pas une date mal mémorisée et ne remarquera pas que le paragraphe quatre contredit le paragraphe un. C'est votre travail, et c'est le travail, et la dictée ne prétend pas le contraire. La séquence honnête est : parlez le brouillon approximatif, lancez le nettoyage pour que la mécanique soit saine, puis lisez chaque ligne vous-même avec le clavier et les derniers commentaires de votre directeur de thèse ouverts. L'outil vous donne un brouillon lisible une heure plus tôt. Il ne vous donne pas un argument défendable — cette partie reste à votre charge, comme il se doit.

Ce rythme parler-puis-nettoyer s'applique aussi après la thèse — vous pouvez écrire plus vite à la voix dans vos e-mails, vos demandes de financement et les lettres de motivation pour le marché de l'emploi, toujours avec le même raccourci.

Quand la dictée est le mauvais outil

Deux flèches sur un panneau en bois indiquant des directions différentes, illustrant un choix d'outil

La dictée rédige les mots que vous prononcez. Ce n'est pas un service de transcription pour les mots que disent les autres, et confondre les deux vous coûtera un après-midi de frustration. Le malentendu le plus courant dans le travail de recherche : transformer un entretien enregistré, un groupe de discussion ou une session de terrain en texte. C'est un travail différent. Vous n'êtes pas en train de rédiger — vous transcrivez un enregistrement multi-locuteurs, souvent avec des chevauchements, des accents et un besoin d'étiquettes de locuteurs et d'horodatages. Pour cela, utilisez un service de transcription dédié conçu pour les fichiers audio. Un raccourci de dictée en direct est complètement inadapté ; il écoute votre microphone maintenant, pas un MP3 de deux heures d'il y a quinze jours.

Et pour les petites choses vraiment courtes, le bon outil est celui qui est déjà gratuit sur votre machine. Si vous ajoutez une note d'une ligne dans votre gestionnaire de références ou un commentaire rapide dans un document partagé, votre système d'exploitation couvre ça. Sur Windows, appuyez sur la touche Windows + H et la barre de Saisie Vocale intégrée s'ouvre là où se trouve votre curseur. Le bémol : elle passe par les serveurs de Microsoft et nécessite une connexion internet, ce n'est donc pas une option hors ligne, ce qui compte davantage que d'habitude pour des recherches confidentielles. Sur Mac, la Dictée vous permet de parler partout où vous pouvez taper, configurée dans les Réglages Système sous Clavier, et sur Apple Silicon le texte général peut être traité sur l'appareil.

Utilisez un outil dédié à l'échelle du système quand les outils intégrés commencent à vous limiter : longs chapitres, jargon de domaine nécessitant un vocabulaire personnalisé, confidentialité hors ligne pour des travaux non publiés, ou souhait d'un raccourci unique qui se comporte de la même façon dans Word, Scrivener et votre éditeur LaTeX. En dessous de cette barre, utilisez ce qui est gratuit, et pour les enregistrements d'entretiens, utilisez quelque chose de conçu pour ça. Je ne vais pas vous dire de dicter un chapitre de thèse dans le même outil que vous utiliseriez pour transcrire un enregistrement — ce sont deux travaux différents, et prétendre que c'est le même, c'est la façon dont on se retrouve déçu par les deux.

Aucun éditeur n'a jamais livré un bouton « rédiger ma thèse », et après quelques années dans les tranchées on arrête d'en attendre un. Le curseur est l'intégration : parlez dans le document, obtenez un brouillon approximatif, puis méritez la version propre avec le clavier et beaucoup de café. Sortez le mauvais brouillon de votre tête et posez-le sur la page où vous pouvez vous battre avec lui. Le combat, c'est le vrai travail — la dictée vous y amène juste quelques heures plus tôt, ce qui les jours où la page est blanche, c'est tout le jeu.

Parlez votre prochain chapitre pour l'amener à l'existence

Ouvrez le brouillon, placez le curseur sous le titre, maintenez le raccourci et dites la version approximative à voix haute. Éditez ensuite. Une page blanche est plus difficile qu'une page imparfaite.

Mode local gratuit pour tout compte connecté. Aucune carte requise pour commencer.

Photo de Denys Medvediev

Denys Medvediev

Je suis celui qui lit nos e-mails de support, très probablement en dictant les réponses.

Pour aller plus loin