Par Denys Medvediev

Tutoriel

Comment transcrire de l'audio rapidement

Laissez un modèle d'IA faire le premier passage à votre place, puis corrigez le reste. Le vrai chemin rapide, étape par étape, avec le moteur local le plus véloce.

Dernière mise à jour : juin 2026

Formes d'ondes audio affichées sur un écran, illustrant le traitement numérique rapide du son

Transcrire de l'audio rapidement, c'est laisser un modèle d'IA faire le premier passage à votre place, puis corriger le reste. La transcription automatique transforme une heure d'audio clair en brouillon en quelques minutes ; une personne qui tape la même heure met trois à quatre heures. On échange la vitesse contre une relecture express à la fin.

Un transcripteur professionnel a besoin d'environ quatre heures pour saisir une heure d'audio propre. Quatre heures. Pour une heure de son. J'ai regardé un collègue faire exactement ça pour un audit de conformité, et vers la troisième heure il a commencé à dicter son propre désespoir dans l'enregistrement — lequel a ensuite dû être transcrit lui aussi.

La méthode rapide, ce n'est pas taper plus vite. C'est ne pas taper du tout. On laisse un modèle produire le brouillon, puis on passe quelques minutes à corriger les noms propres et la ponctuation.

Voilà le changement de fond, et il est structurel, pas marginal. Les gens attendent depuis dix ans une transcription précise utilisable partout, et les outils intégrés aux systèmes d'exploitation ont tout juste suffi pour les courts extraits. En 2026, l'écart s'est comblé : la transcription IA tourne en quelques minutes, et la version rapide tourne sur un ordinateur portable que vous avez déjà.

Ce guide décrit le chemin rapide : ce que chaque méthode vous coûte en temps, comment la mettre en œuvre pas à pas dans Whisper by Remskill, et là où le moteur local le plus rapide l'emporte. À la fin, vous saurez quelle voie choisir pour votre enregistrement et votre matériel. La plupart des e-mails de support que je lis viennent de gens qui ont choisi la voie lente dès le premier jour et n'ont jamais regardé ailleurs. C'est mon constat après un an à lire ces tickets.

Un avertissement honnête avant d'aller plus loin. Le cœur de Whisper by Remskill, c'est la dictée en direct par raccourci clavier. Vous appuyez sur une touche, vous parlez, et le texte apparaît à votre curseur dans n'importe quelle application. Il n'y a pas d'écran de dépôt de fichier par glisser-déposer. Donc quand je dis transcrire de l'audio rapidement, j'entends deux choses : dicter en direct et la transcription est déjà tapée, ou utiliser un outil conçu pour traiter des fichiers enregistrés. Je préciserai lequel est lequel tout au long de l'article, parce qu'internet regorge d'articles qui brouillent cette frontière et vous font perdre votre après-midi.

Combien de temps prend la transcription d'une heure d'audio, selon la méthode

La première chose à comprendre, c'est que rapide est un spectre, et l'écart est énorme. Voici ce que vous coûte une heure d'audio clair, selon la méthode.

Temps de transcription d'une heure d'audio clair, selon la méthode.
MéthodeTemps pour une heure d'audioLanguesFonctionne hors ligne
Saisie manuelle~3–4 heuresToutes celles que vous savez taperOui
IA cloud (OpenAI gpt-4o-mini-transcribe)Quelques minutes98+Non
Whisper local (small.en)Plusieurs minutes sur un processeur récent99 multilingues / 1 sur les variantes .enOui
Parakeet TDT localLe plus rapide en local, 5–10x plus vite que Whisper sur CPU25 (anglais + 24 langues européennes)Oui
Temps de transcription d'une heure d'audio clair, selon la méthode.

Le bond de plusieurs heures à quelques minutes est le seul chiffre qui compte ici. Deux minutes ou six pour le passage IA, c'est du bruit à côté des quatre heures que vous ne passez pas à taper. NVIDIA annonce que son modèle Parakeet tourne des milliers de fois plus vite que le temps réel sur le matériel du classement open-ASR, mais j'ignorerais ce chiffre de une. Votre vitesse réelle dépend de votre CPU, pas d'une machine de benchmark. Le chiffre à retenir est celui de l'application : Parakeet tourne 5–10x plus vite que Whisper sur le même processeur.

La méthode rapide, étape par étape

Voici le chemin le plus rapide qui fonctionne, dans l'ordre. Cette approche suppose que vous dictez en direct — vous parlez et le texte apparaît sur le champ — ce qui, dans la plupart des cas, surpasse enregistrer puis traiter, car la transcription existe dès l'instant où vous arrêtez de parler.

Whisper
La vraie application Whisper, montée en direct — cliquez sur les Paramètres et le sélecteur de modèle.
1

Installez Whisper by Remskill. Téléchargez-le, ouvrez-le, connectez-vous. L'intégralité du pipeline local est gratuite pour tout utilisateur connecté, sans moyen de paiement à l'inscription. L'application est disponible dès aujourd'hui sur Windows et macOS Apple Silicon.

2

Choisissez un modèle. Pour le résultat local le plus rapide, choisissez Parakeet TDT (~600 Mo) si vous parlez anglais ou une langue européenne. Si vous avez besoin de traduction ou d'une des 99 langues multilingues, choisissez plutôt un modèle Whisper. Le téléchargement ne se fait qu'une seule fois.

3

Vérifiez le raccourci clavier. Sur Windows, le raccourci par défaut est Ctrl+Space. Sur macOS, c'est la combinaison Command+Option : maintenez les deux touches, parlez, relâchez l'une pour arrêter. Vous pouvez le modifier dans les Paramètres s'il entre en conflit avec une autre application. J'ai livré la première version de ce gestionnaire de raccourci sans anti-rebond ; il déclenchait l'enregistreur six fois par appui. J'ai pourtant un master en génie logiciel.

4

Parlez. Maintenez le raccourci, parlez à un rythme normal, relâchez. La transcription se colle à votre curseur dans l'application active : votre e-mail, un document, une zone de chat. C'est fait.

5

Corrigez le reste. Parcourez rapidement pour repérer les noms propres, les chiffres et la ponctuation. C'est le temps qu'annonce le titre. Le vocabulaire personnalisé et les mots-clés réduisent cette étape au fil du temps.

Si votre source est un fichier préenregistré plutôt qu'une parole en direct, consultez la FAQ en bas de page — la réponse honnête compte.

Local vs cloud : d'où vient la vitesse

Salle de serveurs avec des équipements réseau éclairés en bleu, illustrant le calcul de transcription côté cloud

Les gens pensent que le cloud est plus rapide parce que les serveurs sont plus puissants. Pour un simple paragraphe dicté, cette hypothèse est fausse. La transcription cloud doit emballer votre audio, l'envoyer via votre connexion, attendre une réponse et la renvoyer. Sur une bonne connexion, cet aller-retour est rapide, mais c'est du temps réseau que vous n'avez pas du tout à dépenser quand le modèle tourne sur votre propre CPU.

Le mode local fait le travail en interne. Toute la transcription locale dans Whisper tourne en Rust pur via transcribe-rs, sans processus Python annexe à lancer. Pas de serveur dans la boucle, pas de facturation à la minute, et votre audio ne quitte jamais votre machine. Le mode cloud est la porte de sortie : OpenAI avec votre propre clé, en utilisant gpt-4o-mini-transcribe par défaut, pour quand vous voulez les derniers modèles ou l'accès web. C'est la surface Whisper Pro, posée par-dessus le pipeline local gratuit.

Voici mon avis tranché pour cet article : essayez d'abord le mode local. Si votre PC date de moins de quatre ans ou si votre Mac est Apple Silicon, vous n'avez pas besoin du cloud pour la transcription. Le mode local atteint des vitesses bien inférieures à deux secondes entre le relâchement de la touche et le texte collé, sur une machine récente. Vos données restent chez vous et vous ne payez rien à la minute. Le cloud est le recours quand vous atteignez une limite, pas le point de départ. J'ai appris ça en regardant une équipe avec qui je travaillais accumuler une facture cloud à cinq chiffres en un trimestre, en grande partie à cause d'un système de reprise intelligent qui retranscrivait les mêmes réunions quotidiennes quatre fois. Le directeur financier a ouvert le tableau de bord lors de la revue trimestrielle et la salle s'est tue. Le local en priorité aurait ramené cette facture à zéro.

Pourquoi Parakeet est l'option locale la plus rapide

Si la vitesse brute est l'objectif et que vous parlez anglais ou une langue européenne, Parakeet est le choix. Le modèle Parakeet-TDT de NVIDIA est un modèle à 600 millions de paramètres sous licence CC-BY-4.0, et dans Whisper il tourne 5–10x plus vite que les modèles Whisper sur le même CPU. C'est ce qui le différencie. Sur un ordinateur portable sans GPU dédié, cet écart est la différence entre attendre et ne pas attendre.

Whisper
Sélection de Parakeet TDT dans le sélecteur de modèle Whisper en direct — cliquez sur les options.

La contrepartie, c'est la couverture linguistique. Parakeet gère 25 langues (l'anglais et 24 langues européennes) et ne propose ni traduction vers l'anglais ni langues asiatiques. Donc si vous transcrivez du japonais, du coréen ou du chinois, ou si vous avez besoin de parole dans une langue traduite en anglais, Parakeet ne peut pas aider et vous voudrez un modèle Whisper, qui couvre 99 langues dans ses variantes multilingues et peut traduire vers l'anglais. Les versions .en de Whisper (Base, Small, Medium, Turbo) sont uniquement en anglais, une langue chacune.

La réalité ennuyeuse, c'est que pour la dictée quotidienne en anglais, Parakeet est suffisamment rapide pour que le modèle ne soit plus le goulot d'étranglement. C'est votre débit de parole qui l'est. C'est le moment où la transcription vocale cesse de ressembler à un outil et commence à ressembler à de la frappe sans clavier. Je suis du genre architecte qui benchmark un moteur de trois façons différentes avant d'y faire confiance, et même moi j'ai arrêté de regarder le chronomètre quelque part dans la deuxième semaine. Si vous travaillez surtout hors ligne, le guide de reconnaissance vocale hors ligne approfondit le sujet de l'exécution entièrement sur l'appareil.

Quand ignorer la transcription IA et le faire à la main

Gros plan de mains écrivant dans un carnet à spirale sur un bureau blanc, évoquant la transcription manuelle

La transcription IA est rapide, pas magique. Trois situations où je l'ignorerais et taperais à la main. Premièrement, les enregistrements de mauvaise qualité : locuteurs qui se chevauchent, bruit de fond intense, un téléphone posé sur une table de café. Un modèle produira des mots erronés avec assurance, et corriger des absurdités confiantes prend plus de temps que taper proprement dès le départ. Un micro USB à 20 € fait plus pour la précision que n'importe quelle mise à niveau de modèle — corrigez la source d'abord. Deuxièmement, les documents juridiques ou médicaux où un seul chiffre mal entendu change le sens, et où la passe de révision doit être parfaite mot à mot de toute façon. Troisièmement, les courts extraits : une note vocale de 30 secondes ne vaut pas la peine d'ouvrir quoi que ce soit, et la dictée intégrée de votre téléphone s'en charge gratuitement. Le chemin rapide est pour les longs enregistrements, là où les quatre heures que vous économisez sont bien réelles.

Travailler à partir d'un enregistrement sauvegardé plutôt que d'une parole en direct est un petit flux de travail à part entière. Si votre source est un fichier audio ou de podcast, notre guide étape par étape sur comment convertir un MP3 en texte couvre la voie du dépôt de fichier du début à la fin.

Gratuit pour le pipeline local

L'intégralité du pipeline de transcription locale dans Whisper est gratuite pour tout utilisateur connecté : Parakeet, les huit modèles Whisper, le nettoyage de texte par IA via Ollama, l'historique, les préréglages, les mots-clés, l'accélération matérielle. Aucun moyen de paiement à l'inscription. Whisper Pro ajoute la surface Cloud par-dessus, pour ceux qui souhaitent la transcription OpenAI avec leur propre clé et la recherche web. Les chiffres exacts se trouvent sur la page tarifaire, où vous pouvez comparer les formules mensuelle, annuelle et à vie sans que je vous cite des prix en pleine phrase.

La transcription la plus rapide que j'aie jamais vue n'était pas un benchmark. C'était ma cadette qui dictait un e-mail de 90 mots à sa grand-mère (une dent perdue, le taux de change de la fée des dents, un cours de danse) en moins de deux minutes, sans correction, sans clavier. Elle ne savait pas qu'elle avait contourné la voie lente. Elle pensait juste que c'est comme ça que les ordinateurs fonctionnent maintenant. Après un an à lire des tickets de support, j'ai décidé qu'elle avait raison, et que le reste d'entre nous est juste en train de rattraper son retard.

Prêt à arrêter de taper vos enregistrements à la main ?

Téléchargez Whisper, maintenez le raccourci et regardez la transcription apparaître à votre curseur.

Gratuit pour l'intégralité du pipeline local. Aucun moyen de paiement à l'inscription.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support, très probablement en dictant les réponses.

Pour aller plus loin