Par Denys Medvediev

Comparatif

Whisper vs Google Speech-to-Text

Google Cloud Speech-to-Text est une API pour développeurs : on l'appelle depuis du code et on la paie à la minute. Whisper, le modèle open source d'OpenAI sur lequel s'appuie notre application en local, est conçu pour une personne qui dicte dans Word ou Slack. L'un est de la tuyauterie pour ingénieurs. L'autre est un outil de dictée pour le bureau.

Dernière mise à jour : juin 2026

Baies de serveurs illuminées d'une lueur bleue dans un centre de données moderne, évoquant une API de transcription dans le cloud

Google Cloud Speech-to-Text est une API pour développeurs. On l'appelle depuis du code, et elle facture chaque minute d'audio envoyée aux serveurs de Google. Whisper, le modèle open source d'OpenAI sur lequel s'appuie notre application en local, est conçu pour une personne qui dicte dans Word ou Slack. L'un est de la tuyauterie pour ingénieurs. L'autre est un outil de dictée pour le bureau.

Google Speech-to-Text est une API cloud destinée aux développeurs qui intègrent la transcription dans des applications et des serveurs. Elle diffuse en continu, elle traite par lots les fichiers longs, elle couvre de nombreuses langues, et elle facture à la minute. Whisper-dans-notre-application s'adresse à l'utilisateur final qui veut une dictée privée, hors ligne et gratuite sur son ordinateur. Si vous écrivez du code et avez besoin de transcription à grande échelle, Google l'emporte. Si vous voulez parler et voir le texte apparaître sous votre curseur, Whisper l'emporte. Deux catégories différentes.

Je dirige Whisper by Remskill, une application qui transforme le modèle open source Whisper en dictée pour le bureau : un raccourci, on parle, le texte apparaît là où se trouve votre curseur. J'ai donc un parti pris dans cette affaire. Je vais quand même essayer de rester honnête, parce que la réponse honnête est aussi la plus utile. La plupart des gens qui tapent « Whisper vs Google Speech-to-Text » dans un moteur de recherche s'apprêtent à comparer deux choses qui n'appartiennent pas à la même catégorie.

Google Speech-to-Text est une API, pas une application qu'on ouvre

La première chose à bien comprendre : Google Cloud Speech-to-Text n'a aucune fenêtre. Pas d'icône dans votre dock, pas de raccourci, pas de « appuyer pour parler ». C'est un service auquel votre logiciel parle à travers le réseau. Vous lui envoyez de l'audio avec du code ; il vous renvoie du texte. La documentation de Google elle-même le décrit comme de la reconnaissance synchrone, en streaming et asynchrone, consommée via une API.

Cette conception est bonne pour ce à quoi elle sert. La reconnaissance en streaming renvoie des résultats intermédiaires en temps réel, ce qui est utile si vous construisez une fonction de sous-titrage en direct ou une commande vocale pour votre propre produit. La reconnaissance asynchrone gère les longs enregistrements : vous téléversez l'audio, Google le traite en arrière-plan, et vous interrogez le service pour récupérer le résultat une fois terminé. Google documente ce traitement par lots comme capable de gérer jusqu'à huit heures d'audio en une seule tâche. C'est une vraie force. Si vous avez tout un entrepôt d'appels enregistrés à transcrire pendant la nuit, une application de dictée n'est pas le bon outil, et une API comme celle de Google est le bon.

Elle prend en charge une longue liste de langues et de variantes régionales, les codes BCP-47 que les ingénieurs connaissent, comme en-US, en-GB et es-MX. Je ne vais pas afficher ici un nombre exact de langues ni un tarif à la minute, et je me méfierais de tout article qui le fait. Les pages de tarifs et de langues de Google évoluent, et les chiffres qui circulent sur le web ne remontent pas tous à une source primaire que je serais prêt à défendre. Ce que je peux affirmer sans réserve : c'est une facturation cloud à l'usage. Vous payez ce que vous envoyez, votre audio part vers les serveurs de Google, et il n'existe pas de mode local gratuit.

Deux personnes, deux problèmes différents

Voici la manière la plus nette que j'ai trouvée pour savoir de quel côté de la ligne vous vous situez. Imaginez deux personnes.

La première est développeuse. Elle construit un outil de support client qui transforme des appels enregistrés en texte recherchable. La transcription se déroule sur son serveur, à l'intérieur de son code, sans que personne ne la regarde s'exécuter. Elle veut un point de terminaison auquel envoyer de l'audio et une réponse JSON à stocker dans une base de données. Elle n'« ouvrira » jamais le transcripteur. Il vit à l'intérieur du produit qu'elle livre à ses propres clients. C'est le travail de Google Speech-to-Text. L'API est le composant ; son produit, c'est l'application.

Le second est rédacteur. Ou un avocat qui rédige dans le train, ou un étudiant qui transforme un cours en notes, ou un parent qui répond au courriel d'un enseignant tout en remuant le dîner. Il n'a pas de serveur. Il a un curseur qui clignote dans un document, et il préférerait parler plutôt que taper. Il veut appuyer sur une touche, dire sa phrase, et la voir apparaître dans le fichier qu'il a déjà ouvert. Il n'écrira jamais de code, et il ne devrait pas avoir à le faire. C'est notre travail.

La confusion dans le mot-clé vient du fait que « Whisper » joue deux rôles à la fois. Google STT est un service cloud fini. Whisper est un modèle, et un modèle n'est pas une application. Quelqu'un doit construire l'application autour : brancher le microphone, câbler le raccourci, coller le texte sous le curseur. C'est cette partie-là que nous avons faite.

Whisper-dans-notre-application, c'est de la dictée pour le bureau, et ça tourne sur votre machine

Whisper est le modèle de reconnaissance vocale qu'OpenAI a rendu open source. Notre application le fait tourner en local : du Rust pur, pas de processus Python annexe, pas de serveur dans la boucle pour la dictée ordinaire. Vous appuyez sur un raccourci (Ctrl+Space sous Windows par défaut, entièrement remappable), vous parlez, vous relâchez, et le texte atterrit là où votre curseur se trouve déjà. Pas de code. Pas de clé API pour le mode local. L'audio ne quitte jamais l'ordinateur portable.

Cette dernière partie est tout l'enjeu, et c'est celle qui n'apparaît jamais dans un tableau de fonctionnalités.

Whisper
L'application Whisper by Remskill en direct — barre latérale, panneau de transcription et cartes d'instructions IA. C'est la véritable interface, pas une capture d'écran.

Sur le palier local, vous choisissez parmi huit modèles Whisper, d'environ 140 Mo jusqu'à 3 Go ; vous arbitrez entre taille de téléchargement, temps de calcul et précision. Quatre sont optimisés pour l'anglais ; les quatre multilingues couvrent un large éventail de langues et peuvent traduire la parole vers l'anglais dans le même geste, ce que l'API de Google n'intègre pas en une seule pression de dictée et que la plupart des outils grand public ignorent complètement. Il y a aussi Parakeet, un moteur NVIDIA distinct qui est 5 à 10 fois plus rapide que Whisper sur CPU pour l'anglais et 24 autres langues européennes, et il fonctionne sans GPU.

Tout le pipeline local est gratuit pour tout utilisateur connecté, sans carte bancaire à l'inscription : chaque modèle, le nettoyage par IA via Ollama, l'historique, les mots-clés personnalisés, tout. Si vous voulez la couche cloud, c'est Whisper Pro : transcription cloud OpenAI (gpt-4o-mini-transcribe ou gpt-4o-transcribe), nettoyage IA dans le cloud et recherche web, le tout avec votre propre clé OpenAI, sans que Remskill ne prélève quoi que ce soit. C'est optionnel. Par défaut, c'est local et gratuit.

La vérité toute simple, c'est que pour un paragraphe de texte dicté, votre ordinateur portable a déjà un microphone et un processeur. Il n'a pas besoin d'un centre de données.

Les modèles de coûts n'ont pas la même forme

C'est là que la comparaison cesse d'être équitable. Une API cloud facture à la minute d'audio. Une application de dictée locale facture, au maximum, une seule fois.

J'ai vu le modèle à la minute mordre, une fois. Une équipe avec laquelle je travaillais avait fait construire par un prestataire un prototype interne de « dictée IA » qui appelait une API cloud pour chaque énoncé. Une routine de « nouvelle tentative intelligente » est devenue trop agressive et a re-transcrit quatre fois les mêmes enregistrements de réunions debout. Le responsable de l'équipe a ouvert le tableau de bord des coûts à la fin du trimestre et a découvert une facture à cinq chiffres. La solution du prestataire était « il faudrait optimiser le prompt ». La solution de la directrice financière était « ou alors arrêtons de payer pour la transcription cloud de réunions qui ont déjà un compte rendu. »

Ce n'est pas un reproche à l'API de Google. Utilisée comme prévu, par des ingénieurs qui surveillent le compteur, elle est correctement tarifée pour des pipelines de production. C'est un reproche au fait d'utiliser un service cloud facturé au compteur pour quelque chose qu'une application locale fait gratuitement. La transcription uniquement dans le cloud est un désastre pour la vie privée qui n'attend que d'être facturé. Vos brouillons de contrats, votre tableau des salaires, le courriel à l'école de votre enfant, tout cela quittant votre machine simplement parce que vous vouliez parler plutôt que taper. Pour une personne qui dicte toute la journée, le local d'abord est le bon réglage par défaut, et le compteur ne démarre jamais.

Côte à côte

Voici la présentation honnête. Remarquez que le tableau ne dit pas vraiment « lequel est le meilleur ». Il dit « dans quelle catégorie vous vous trouvez ».

Comparaison par catégorie entre Google Speech-to-Text et Whisper dans notre application
CritèreGoogle Speech-to-TextWhisper (dans notre application)
Type de produitAPI cloud pour développeursApplication de dictée pour le bureau
Comment on l'utiliseOn l'appelle depuis son propre codeOn appuie sur un raccourci et on parle
Où va votre audioVers les serveurs de GoogleReste sur votre machine (mode local)
Modèle de coûtFacturation cloud à l'usage, à la minutePalier local gratuit ; une seule application, voir la page de tarifs
Fonctionne hors ligneNonOui (modèles locaux)
Pour qui c'est faitDéveloppeurs qui intègrent la transcription dans des applications ou des serveursUne personne qui dicte dans n'importe quelle application
Mise en placeProjet cloud, identifiants, codeInstaller, se connecter, choisir un modèle

Aucun chiffre précis de Google dans ce tableau, et c'est volontaire. C'est la forme qui compte : serveur vs machine, code vs raccourci, compteur vs gratuit. Si ces lignes vous orientent vers l'API, parfait, continuez avec la section suivante. Si elles vous orientent vers l'application, le bouton de téléchargement est tout en bas.

Quand Google Speech-to-Text est le bon outil

Je me tournerais vers l'API de Google, et non vers notre application, dans quelques cas bien précis. C'est la section que les articles générés par IA sautent, alors la voici clairement.

Vous construisez un produit, vous ne dictez pas dans un produit

Si vous êtes ingénieur et que vous câblez la transcription dans un backend (un pipeline d'analyse de centre d'appels, une fonction de sous-titrage automatique, une interface vocale pour votre propre logiciel), vous voulez une API, et celle de Google est mature. Notre application de bureau ne peut pas être appelée depuis votre serveur. Elle n'a pas de point de terminaison, pas de SDK, aucun moyen pour votre code de lui demander du texte. C'est voulu ; c'est une application pour une personne, pas un service pour un programme.

Vous devez traiter par lots de longs enregistrements à grande échelle

Huit heures d'audio dans une seule tâche asynchrone, c'est exactement ce pour quoi la reconnaissance asynchrone de Google est conçue. Si vous avez dix mille appels enregistrés à mouliner pendant la nuit, vous voulez un service qui passe à l'échelle sur les serveurs de quelqu'un d'autre, pas un ordinateur portable qui fait tourner un modèle à la fois.

Vous avez besoin de streaming en temps réel à l'intérieur de votre propre code

Si votre application doit afficher des résultats intermédiaires à mesure que quelqu'un parle (sous-titres en direct sur un appel vidéo que vous construisez), la reconnaissance en streaming est l'interface API qu'il vous faut. Notre application colle un bloc de texte fini après que vous avez relâché la touche, ce qui est le mauvais comportement pour une fonction de sous-titrage en direct et le bon pour la dictée.

Vous avez besoin d'un contrôle programmatique et de journaux d'audit

Des quotas par requête, une facturation côté serveur, un registre central de qui a transcrit quoi : une API cloud gérée vous offre l'échafaudage opérationnel dont un déploiement réglementé ou à grande échelle a besoin. Une application de bureau garde tout cela sur la machine de l'individu, ce qui est le compromis inverse.

Si l'un de ces cas vous correspond, fermez cet onglet et ouvrez la documentation de Google. Nous ne faisons pas de côté serveur. Ce n'est pas de la fausse modestie ; c'est un produit différent.

Quand Whisper-dans-notre-application est le bon outil

L'autre versant. Vous ne construisez pas de logiciel. Vous essayez d'arrêter de taper.

Vous voulez dicter des courriels, des notes, des messages, des commentaires de code, et les voir apparaître dans l'application où vous êtes déjà. Vous préféreriez que votre audio n'aille sur les serveurs de personne. Vous ne voulez pas d'un compteur à la minute qui tourne pendant que vous réfléchissez. Vous voulez que ce soit gratuit pour commencer, et vous ne voulez pas écrire une seule ligne de code pour l'utiliser.

Pasted
L'overlay post-dictée tel qu'il est livré — à quoi ressemble une dictée gratuite, entièrement locale, à l'instant où elle se termine.

Choisissez Parakeet pour la vitesse et l'anglais ; choisissez un modèle Whisper multilingue quand vous avez besoin de traduction, de langues moins courantes ou d'un contrôle plus fin. Le pipeline local ne coûte rien ; le palier Cloud (transcription OpenAI avec votre propre clé) est optionnel et tarifé sur la page de tarifs.

Pour le versant hors ligne, local et gratuit de cette question, j'ai détaillé les arbitrages plus larges dans transcription locale vs cloud. Et si vous hésitez entre les deux moteurs locaux que nous livrons, Whisper vs Parakeet passe en revue la vitesse face à la couverture linguistique.

Si vous ne deviez retenir qu'une chose

Google Speech-to-Text est une API pour ingénieurs ; Whisper-dans-notre-application, c'est de la dictée pour les gens. Demander lequel est « le meilleur », c'est comme demander si un moteur de voiture est meilleur qu'une voiture. Tout dépend de si vous construisez l'objet ou si vous le conduisez.

Choisissez celui qui correspond à votre tâche

Si votre tâche est de dicter dans les applications que vous utilisez déjà, en privé, hors ligne, gratuitement pour commencer, installez Whisper et appuyez sur une touche. Si votre tâche est d'intégrer la transcription dans un logiciel, vous savez déjà où se trouve la documentation de Google.

Transcription locale gratuite pour toujours. Aucun moyen de paiement à l'inscription. Le palier Cloud est optionnel et fonctionne avec votre propre clé.

Photo de Denys Medvediev

Denys Medvediev

C'est moi qui lis notre courriel de support, le plus souvent en dictant les réponses.

Pour aller plus loin