Par Denys Medvediev

Tutoriel

Audio en sous-titres : ce qui fonctionne vraiment

Un générateur de sous-titres à partir de l'audio transforme un fichier son en fichier SRT ou VTT horodaté. Voici le vrai flux de travail, les outils qui exportent réellement un tel fichier, et l'option gratuite hors ligne qui n'envoie jamais votre audio en ligne.

Dernière mise à jour : juin 2026

Formes d'ondes audio affichées sur un écran, illustrant la conversion d'un fichier son en piste de sous-titres

Un générateur de sous-titres à partir de l'audio prend un fichier son — un MP3, un WAV ou un export de podcast — et produit un fichier de sous-titres horodaté. Chaque ligne de texte porte un horodatage de début et de fin. Des outils web comme VEED, Kapwing et Descript font ça dans un navigateur. L'outil en ligne de commande open-source OpenAI Whisper le fait hors ligne, sur votre propre machine.

J'ai une fois passé quarante minutes à sous-titrer manuellement un clip de podcast de dix minutes, en mettant pause toutes les trois secondes pour taper et deviner les horodatages. J'ai un master en génie logiciel. Le calcul est brutal dans les deux cas. Sous-titrer à la main prend plusieurs fois la durée de l'audio. Un générateur de sous-titres moderne fait le même travail en à peu près le temps du fichier, plus un café. Ce que personne ne vous dit d'emblée, c'est que le bon outil dépend d'une seule question : avez-vous besoin d'un fichier horodaté à télécharger, ou juste des mots ?

L'expression « générateur de sous-titres » recouvre deux usages bien distincts, et choisir le mauvais outil vous coûte un après-midi. On distingue les outils de navigateur qui exportent des fichiers horodatés, et les outils hors ligne qui font la même chose gratuitement si vous acceptez de passer par un terminal. Ce guide explique comment fonctionne le flux de travail, quels outils produisent un vrai fichier .srt à partir de l'audio seul, ce que signifient SRT, VTT et TXT, et dans quel cas une appli de dictée comme la nôtre est le mauvais choix. À la fin, vous saurez quel outil ouvrir selon ce que vous devez livrer. La plupart de la confusion que je lis dans notre boîte de support vient de gens qui ont choisi un outil de saisie alors qu'ils avaient besoin d'un fichier de sous-titres. Un an de ces messages, c'est en grande partie pour ça que cet article existe.

Vous avez besoin d'horodatages, pas seulement de texte

Un fichier de sous-titres n'est pas une transcription. Une transcription, ce sont des mots. Un fichier de sous-titres, ce sont des mots plus du timing. Chaque bloc de sous-titre indique « afficher cette ligne de 00:01:04 à 00:01:07 ». Ce timing, c'est tout le travail. Il permet à un lecteur vidéo d'afficher les bons mots à la bonne seconde.

La plupart des outils de « voix en texte », y compris le nôtre, vous donnent des mots et rien d'autre. Ils collent un paragraphe propre à votre curseur et s'arrêtent là. Un générateur de sous-titres à partir de l'audio doit faire davantage. Il divise la parole en courts segments de la taille d'une légende, aligne chaque segment sur l'horloge audio, et écrit le tout dans un format de fichier strict qu'un lecteur peut interpréter. Si ce que vous devez livrer est un fichier à uploader sur YouTube, dans un éditeur vidéo ou sur une plateforme de cours, vous avez besoin des horodatages. Si c'est du texte dans un document, non — et vous ne devriez pas payer pour un outil de sous-titres pour l'obtenir.

Comment générer des sous-titres à partir d'un fichier audio en trois étapes

Ordinateur portable avec un logiciel d'édition audio et un casque sur un bureau, dans un espace de travail à domicile

Le flux de travail est identique dans presque tous les outils, en ligne ou hors ligne.

1

Importez ou indiquez le fichier audio. La plupart des outils acceptent MP3, WAV, M4A et FLAC, sans vidéo requise. VEED accepte les MP3, WAV, enregistrements de podcasts, audio d'interviews et mémos vocaux. Si votre seule source est une vidéo, l'outil en extrait l'audio pour vous.

2

Laissez-le transcrire et horodater la parole. L'outil fait passer l'audio dans un modèle de reconnaissance vocale, découpe le résultat en lignes de la longueur d'une légende, et estampille chacune d'un temps de début et de fin. À la main, la même opération prend plusieurs fois la durée de l'audio. La machine le fait en environ le temps du fichier.

3

Relisez et exportez le fichier. Lisez la transcription une fois (la sortie du modèle est bonne, pas parfaite), corrigez les noms qu'il a mal restitués, puis exportez. Vous choisissez ici le format : SRT, VTT ou TXT brut.

C'est la boucle complète. Les différences entre outils se résument au prix, à la couverture linguistique, à l'endroit où vont vos données audio, et au fait que l'étape trois soit gratuite ou non.

SRT vs VTT vs TXT : quel fichier vous faut-il

Trois formats apparaissent dans chaque menu d'export, et les gens choisissent constamment le mauvais.

  • SRT (SubRip) est le format de sous-titres par défaut. C'est un fichier texte brut composé de blocs numérotés, chacun avec une plage de timecode et une ou deux lignes de texte. YouTube, la plupart des éditeurs vidéo et pratiquement tous les lecteurs le prennent en charge. Si vous ne savez pas quoi choisir, choisissez SRT.
  • VTT (WebVTT) est le cousin web du SRT. Même principe, syntaxe légèrement différente, avec en plus la prise en charge du style et du positionnement. Utilisez VTT quand un site web ou un lecteur vidéo HTML5 le réclame explicitement.
  • TXT ce sont les mots, sans horodatages. C'est le format qu'il vous faut quand vous rédigez un article, alimentez un résumé ou citez une interview. C'est aussi le seul des trois qu'un simple outil de dictée peut vous fournir.

Ma règle empirique : SRT pour la vidéo, TXT pour les documents, VTT quand une plateforme web le demande nommément. La plupart des outils exportent les trois : VEED, Kapwing et Descript.

Les outils qui convertissent l'audio en fichiers de sous-titres

Voici où se situe chaque outil de navigateur, avec les affirmations de fonctionnalités reprises directement depuis la page de chaque outil.

  • VEED est un générateur automatique de sous-titres web et mobile qui transcrit à partir d'un fichier audio seul et vous permet de télécharger le résultat au format SRT, VTT ou TXT. L'utilisation est gratuite au départ. Le téléchargement du fichier de sous-titres et la légende des vidéos longues vous font passer à un niveau payant.
  • Kapwing affiche « des sous-titres précis à 99 %, générés en quelques secondes ». C'est le chiffre marketing de Kapwing, pas un benchmark indépendant. Il accepte n'importe quel fichier vidéo ou audio, y compris MP3, peut traduire les sous-titres en 100+ langues, et exporte SRT, VTT et TXT. Les comptes gratuits bénéficient de jusqu'à 10 minutes de sous-titres avec filigrane ; la version Pro supprime le filigrane.
  • Descript génère des sous-titres en 22+ langues, accepte les fichiers audio seuls, et exporte des sous-titres souples au format SRT ou VTT via Publier, puis Exporter, puis Sous-titres. Il fonctionne sur un modèle freemium avec un niveau gratuit d'une heure de média par mois.

Voici comment ces quatre outils se comparent sur les points vérifiables avant de vous engager. Pas de chiffres de précision ou de vitesse, car personne ne les a comparés en tête-à-tête sur le même audio :

OutilPlateformeLocal ou cloudFonctionne hors ligneModèle tarifaireLanguesIdéal pour
VEEDWeb, mobileCloudNonDémarrage gratuit, payant pour exporter40+ options listées, total non préciséUn passage rapide en navigateur avec téléchargement
KapwingWebCloudNonVersion gratuite (filigrane), ProTraduction vers 100+Légendes rapides et traduction
DescriptWebCloudNonFreemium, une heure de média gratuite22+Éditer l'audio et les légendes ensemble
OpenAI Whisper CLIWindows, macOS, LinuxLocalOuiGratuit, open source99 multilingues, 1 pour les builds .enGratuit, privé, sans upload

Les trois outils de navigateur envoient votre audio sur le serveur de quelqu'un d'autre. Pour un clip marketing, c'est sans importance. Pour un appel client enregistré ou tout contenu comportant des données sensibles, continuez la lecture.

Ces outils partagent une interface qui ressemble grossièrement à ceci :

interview-audio.mp3Sous-titres automatiques
SRTVTTTXTTélécharger

Importez, cliquez sur générer, choisissez un format, téléchargez. Cette barre-là — pas la nôtre — voilà à quoi ressemble un générateur de sous-titres à partir de l'audio.

Gratuit et hors ligne : générer un SRT avec Whisper open source

Code sur un écran d'ordinateur en mode sombre, évoquant un flux de travail de sous-titrage en ligne de commande

Si vous préférez ne rien uploader, l'outil en ligne de commande open-source Whisper d'OpenAI produit des fichiers de sous-titres directement sur votre machine, gratuitement. Son flag --output_format accepte txt, vtt, srt, tsv, json ou all, et vaut all par défaut. Une seule commande — whisper interview.mp3 --model turbo — génère donc un fichier .srt hors ligne, sans compte et sans upload.

Le Whisper open source est un projet distinct de Whisper by Remskill, et il vaut la peine d'être clair là-dessus. C'est le modèle en ligne de commande d'OpenAI qui s'exécute sur votre ordinateur et produit des fichiers de sous-titres horodatés. Il est livré en six tailles (tiny, base, small, medium, large et turbo), avec des variantes en anglais seulement pour les quatre plus petites. Les modèles multilingues couvrent 99 langues ; les variantes .en ne couvrent que l'anglais.

Voici mon avis, et je l'assume : pour tout ce qui est sensible, l'audio ne devrait jamais quitter votre ordinateur. Un entretien d'évaluation enregistré, des notes dictées par un médecin, une déposition légale — rien de tout ça n'a sa place dans les journaux de traitement d'un fournisseur juste parce que vous aviez besoin d'horodatages.

J'ai un jour regardé une équipe accumuler une facture cloud-IA à cinq chiffres en un trimestre en transcrivant des enregistrements de standups. La réaction du directeur financier lors de la revue suivante n'était pas « optimisons le prompt ». C'était « pourquoi on envoie des réunions audio à un serveur, tout court ». Votre ordinateur portable a déjà un processeur et un micro. Pour les données privées, le Whisper CLI hors ligne est la réponse — et ça ne coûte rien.

Il existe un portage local plus rapide appelé whisper.cpp, une version C/C++ de Whisper sans dépendances qui tourne uniquement sur CPU sous une licence ouverte. Des utilisateurs signalent qu'il peut aussi écrire des fichiers de sous-titres ; je vous orienterais néanmoins vers le CLI officiel OpenAI Whisper pour le chemin .srt vérifié, et traiterais whisper.cpp comme l'accélérateur de vitesse une fois que vous êtes à l'aise.

Quand Whisper by Remskill n'est pas le bon outil

Pasted
L'overlay de Whisper dans son état complet — il colle un paragraphe propre à votre curseur, pas un fichier de sous-titres horodaté. Le widget bleu se superpose à n'importe quelle application.

Voici la partie que la plupart des blogs produit passent sous silence. Si votre objectif est un fichier .srt ou .vtt à télécharger, notre appli n'est pas le bon outil — et je préfère vous le dire maintenant plutôt que de vous faire perdre du temps.

Whisper by Remskill est avant tout un outil de dictée. Vous maintenez un raccourci clavier (Ctrl+Space sous Windows, Command+Option sous macOS), vous parlez, vous relâchez, et la transcription se colle à votre curseur dans l'application ouverte. Il ne découpe pas la parole en blocs de légendes, il n'aligne pas le texte sur une horloge audio, et il n'écrit pas de fichier de sous-titres horodaté. Donnez-lui une interview et vous obtenez un paragraphe propre, pas un SRT. J'ai imaginé le menu d'export une douzaine de fois dans ma tête, et je ne l'ai jamais livré, parce que les sous-titres horodatés sont un produit à part entière et les faire mal n'aide personne.

Utilisez les outils ci-dessus pour les fichiers de sous-titres. Tournez-vous vers notre appli pour la tâche adjacente : convertir votre propre parole en texte au moment où vous en avez besoin. Un e-mail, un brouillon, une légende que vous tapez à la main dans une publication. Elle fonctionne sur deux moteurs purement Rust — OpenAI Whisper et NVIDIA Parakeet — sans Python et sans upload. Tâche différente, outil différent. Choisir le bon, c'est tout l'objet de cet article.

Avant d'ouvrir quoi que ce soit, répondez à la question qui décide de tout : livrez-vous un fichier ou des mots ? Un fichier implique des horodatages, donc un vrai générateur de sous-titres. VEED ou Kapwing pour un passage rapide en navigateur, le CLI Whisper pour une option gratuite et privée. Des mots impliquent une transcription, et c'est un outil différent. J'ai construit une appli de dictée, et je vous enverrai quand même ailleurs quand c'est là que vous devez aller. Ma fille de sept ans m'a demandé la semaine dernière ce que je fabrique au travail, et la réponse honnête est que j'aide les gens à moins taper — ce qu'elle a trouvé profondément décevant. L'après-midi que vous économisez, c'est celui que j'ai passé à sous-titrer ce clip de podcast à la main, trois secondes à la fois.

Vous voulez la partie dictée plutôt ?

Si votre objectif est des mots au curseur, pas un fichier de sous-titres, Whisper convertit votre propre parole en texte au moment où vous en avez besoin, entièrement hors ligne.

Dictée locale gratuite pour tout utilisateur connecté. Pour les fichiers de sous-titres, utilisez les outils ci-dessus.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis nos e-mails de support — très probablement en dictant les réponses.

Pour aller plus loin