Af Denys Medvediev

Sammenligning

Whisper vs Google Speech-to-Text

Google Cloud Speech-to-Text er et udvikler-API, som du kalder fra kode og betaler for pr. minut. Whisper, OpenAI's open source-model, som vores app kører lokalt på din egen maskine, er bygget til et menneske, der dikterer ind i Word eller Slack. Det ene er rør og ledninger til ingeniører. Det andet er et dikteringsprogram til skrivebordet.

Senest opdateret: juni 2026

Oplyste serverracks, der lyser blåt i et moderne datacenter og minder om et cloud-transskriptions-API

Google Cloud Speech-to-Text er et udvikler-API. Du kalder det fra kode, og det fakturerer pr. minut lyd, der sendes til Googles servere. Whisper, OpenAI's open source-model, som vores app kører lokalt på din egen maskine, er bygget til et menneske, der dikterer ind i Word eller Slack. Det ene er rør og ledninger til ingeniører. Det andet er et dikteringsprogram til skrivebordet.

Google Speech-to-Text er et cloud-API til udviklere, der bygger transskription ind i apps og servere. Det streamer, det batch-behandler lange filer, det dækker mange sprog, og det opkræver pr. minut. Whisper-i-vores-app er til en slutbruger, der vil have privat, offline og gratis diktering på skrivebordet. Hvis du skriver kode og har brug for transskription i stor skala, vinder Google. Hvis du vil tale og se teksten dukke op ved din markør, vinder Whisper. Forskellige kategorier.

Jeg driver Whisper by Remskill, en app, der gør open source-modellen Whisper til diktering på skrivebordet: tryk på en genvejstast, tal, og teksten dukker op, hvor din markør står. Så jeg har en interesse i sagen. Jeg vil alligevel prøve at være ærlig, for det ærlige svar er det mest brugbare. De fleste, der skriver "Whisper vs Google Speech-to-Text" i et søgefelt, er lige ved at sammenligne to ting, der ikke hører til i samme kasse.

Google Speech-to-Text er et API, ikke en app, du åbner

Det første, der skal være på plads: Google Cloud Speech-to-Text har intet vindue. Der er intet ikon i din dock, ingen genvejstast, ingen "tryk for at tale". Det er en tjeneste, din software taler med over netværket. Du sender den lyd via kode; den sender tekst tilbage. Googles egen dokumentation beskriver det som synkron, streamende og asynkron genkendelse, som man bruger gennem et API.

Det design er godt til sit formål. Streamende genkendelse giver foreløbige resultater i realtid, hvilket er nyttigt, hvis du bygger en live-undertekstfunktion eller en stemmekommando til dit eget produkt. Asynkron genkendelse håndterer lange optagelser: du uploader lyd, Google maler sig igennem den i baggrunden, og du henter resultatet, når den er færdig. Google beskriver denne batch-vej som i stand til at håndtere lyd på op til otte timer i ét job. Det er en reel styrke. Hvis du har et lager af optagede opkald, der skal transskriberes natten over, er en dikterings-app til slutbrugere det forkerte værktøj, og et API som Googles er det rigtige.

Det understøtter en lang liste af sprog og regionale sprogvarianter, de BCP-47-koder, som ingeniører kender, som en-US, en-GB og es-MX. Jeg vil ikke trykke et præcist antal sprog eller en pris pr. minut her, og jeg ville være varsom over for enhver artikel, der gør det. Googles pris- og sprogsider flytter sig, og de tal, der svirrer rundt på nettet, kan ikke alle spores tilbage til en primær kilde, jeg ville stå inde for. Hvad jeg kan sige uden forbehold: det er forbrugsbaseret cloud-fakturering. Du betaler for det, du sender, din lyd går til Googles servere, og der er ingen gratis lokal tilstand.

To mennesker, to forskellige problemer

Her er den klareste måde, jeg har fundet, til at afgøre, hvilken side af stregen du er på. Forestil dig to mennesker.

Den første er udvikler. Hun bygger et kundesupport-værktøj, der gør optagede opkald til søgbar tekst. Transskriptionen sker på hendes server, inde i hendes kode, uden at et menneske ser den køre. Hun vil have et endpoint, hun kan sende lyd til, og et JSON-svar, hun kan gemme i en database. Hun kommer aldrig til at "åbne" transskriptionen. Den bor inde i det produkt, hun leverer til sine egne kunder. Det er Google Speech-to-Texts opgave. API'et er komponenten; hendes produkt er appen.

Den anden er forfatter. Eller en advokat, der udarbejder noget i toget, eller en studerende, der laver en forelæsning om til noter, eller en forælder, der svarer på en lærers mail, mens der røres i aftensmaden. Han har ingen server. Han har en markør, der blinker i et dokument, og han vil hellere tale end taste. Han vil trykke på én tast, sige sætningen og se den dukke op i den fil, han allerede har åben. Han kommer aldrig til at skrive kode, og det skal han heller ikke. Det er vores opgave.

Forvirringen i søgeordet kommer af, at "Whisper" har dobbeltrolle. Google STT er en færdig cloud-tjeneste. Whisper er en model, og en model er ikke en app. Nogen skal bygge appen rundt om den: tilslutte mikrofonen, koble genvejstasten på, indsætte teksten ved markøren. Det er den del, vi har gjort.

Whisper-i-vores-app er diktering på skrivebordet, og den kører på din maskine

Whisper er den talemodel, OpenAI gjorde open source. Vores app kører den lokalt: ren Rust, ingen Python-sidecar, ingen server i kredsløbet ved almindelig diktering. Du trykker på en genvejstast (Ctrl+Space på Windows som standard, frit ombyttelig), du taler, du slipper, og teksten lander, hvor din markør allerede står. Ingen kode. Ingen API-nøgle til den lokale vej. Lyden forlader aldrig din computer.

Den sidste del er hele pointen, og det er den, der ikke dukker op i en funktionstabel.

Whisper
Den levende Whisper by Remskill-app — sidebar, transskriptionspanel og AI-instruktionskort. Det er den rigtige grænseflade, ikke et skærmbillede.

På det lokale niveau vælger du mellem otte Whisper-modeller, fra omkring 140 MB op til 3 GB; du bytter downloadstørrelse og CPU-tid for nøjagtighed. Fire er finjusteret til engelsk; de fire flersprogede dækker et bredt udsnit af sprog og kan oversætte tale til engelsk i samme bevægelse, hvilket Googles API ikke pakker ind i ét diktattryk, og som de fleste forbrugerværktøjer helt springer over. Der er også Parakeet, en separat NVIDIA-motor, der er 5 til 10 gange hurtigere end Whisper på CPU for engelsk og 24 andre europæiske sprog, og den kører uden en GPU.

Hele den lokale pipeline er gratis for enhver bruger, der er logget ind, uden kort ved tilmelding: hver model, AI-oprydning via Ollama, historik, brugerdefinerede hotwords, det hele. Vil du have cloud-fladen, er det Whisper Pro: OpenAI cloud-transskription (gpt-4o-mini-transcribe eller gpt-4o-transcribe), cloud-AI-oprydning og websøgning, alt sammen på din egen OpenAI-nøgle, uden at Remskill tager en andel. Det er valgfrit. Standarden er lokal og gratis.

Den kedelige sandhed er, at til ét afsnit dikteret tekst har din computer allerede en mikrofon og en CPU. Den har ikke brug for et datacenter.

Omkostningsmodellerne har ikke samme form

Det er her, sammenligningen holder op med at være æbler-mod-æbler. Et cloud-API fakturerer pr. minut lyd. En lokal dikterings-app fakturerer i bedste fald én gang.

Jeg har set pr. minut-modellen bide fra sig én gang. Et team, jeg arbejdede med, fik en ekstern konsulent til at bygge en intern "AI-diktering"-prototype, der kaldte et cloud-API for hver ytring. En "smart retry"-rutine blev for ivrig og transskriberede de samme standup-optagelser fire gange over. Teamlederen åbnede omkostningsdashboardet i slutningen af kvartalet og fandt en regning med fem cifre. Konsulentens løsning var "vi bør optimere prompten". Økonomidirektørens løsning var "eller vi bør lade være med at betale for cloud-transskription af møder, der allerede har noter."

Det er ikke et hug til Googles API. Brugt som tiltænkt, af ingeniører, der holder øje med måleren, er det fornuftigt prissat til produktions-pipelines. Det er et hug til at bruge en cloud-tjeneste med måler til noget, en lokal app gør gratis. Transskription, der kun foregår i skyen, er en privatlivskatastrofe, der bare venter på at blive faktureret. Dine udkast til kontrakter, dit lønregneark, mailen til dit barns skole, alt sammen forlader din maskine, fordi du ville tale i stedet for at taste. For en person, der dikterer hele dagen, er lokal-først den rigtige standard, og måleren starter aldrig.

Side om side

Her er det ærlige opstillede. Læg mærke til, at tabellen i virkeligheden ikke handler om "hvilken er bedst". Den handler om "hvilken kategori er du i".

Kategorisammenligning mellem Google Speech-to-Text og Whisper i vores app
FunktionGoogle Speech-to-TextWhisper (i vores app)
ProdukttypeCloud-udvikler-APIDikterings-app til skrivebordet
Sådan bruger du detKald det fra din egen kodeTryk på en genvejstast og tal
Hvor din lyd enderPå Googles servereBliver på din maskine (lokal tilstand)
OmkostningsmodelForbrugsbaseret cloud-fakturering, pr. minutGratis lokalt niveau; én app, se prisside
Virker offlineNejJa (lokale modeller)
Hvem den er tilUdviklere, der bygger transskription ind i apps eller servereEn person, der dikterer ind i en hvilken som helst app
OpsætningCloud-projekt, legitimationsoplysninger, kodeInstallér, log ind, vælg en model

Ingen konkrete Google-tal i den tabel, med vilje. Det er formen, der betyder noget: server vs. maskine, kode vs. genvejstast, måler vs. gratis. Hvis de rækker peger dig mod API'et, godt, læs videre i næste afsnit. Hvis de peger dig mod appen, så er downloadknappen i bunden.

Hvornår Google Speech-to-Text er det rigtige værktøj

Jeg ville gribe efter Googles API, ikke vores app, i nogle få klare tilfælde. Det er det afsnit, AI-artikler springer over, så her er det helt ligetil.

Du bygger et produkt, du dikterer ikke ind i ét

Hvis du er ingeniør, der kobler transskription ind i en backend (en analyse-pipeline til et callcenter, en funktion til automatiske undertekster, en stemmegrænseflade til din egen software), så vil du have et API, og Googles er et modent et af slagsen. Vores skrivebords-app kan ikke kaldes fra din server. Den har intet endpoint, ingen SDK, ingen måde, din kode kan bede den om tekst. Det er med vilje; det er en app til et menneske, ikke en tjeneste til et program.

Du har brug for at batch-behandle lange optagelser i stor skala

Otte timers lyd i ét enkelt asynkront job er præcis det, Googles asynkrone genkendelse er bygget til. Hvis du har ti tusind optagede opkald, der skal males igennem natten over, vil du have en tjeneste, der skalerer på en andens servere, ikke en bærbar, der kører én model ad gangen.

Du har brug for realtidsstreaming inde i din egen kode

Hvis din applikation skal vise foreløbige resultater, mens nogen taler (live-undertekster på et videoopkald, du bygger), så er streamende genkendelse API-fladen til det. Vores app indsætter en færdig blok tekst, efter du har sluppet tasten, hvilket er den forkerte adfærd til en live-undertekstfunktion og den rigtige til diktering.

Du har brug for programmatisk kontrol og revisionslogs

Kvoter pr. forespørgsel, fakturering på serversiden, en central registrering af, hvem der transskriberede hvad: et administreret cloud-API giver dig det driftsmæssige stillads, en reguleret eller storskala-udrulning har brug for. En skrivebords-app holder det på den enkeltes maskine, hvilket er det modsatte bytte.

Hvis et af de tilfælde er dig, så luk denne fane og åbn Googles dokumentation. Vi laver ikke server-side. Det er ikke falsk beskedenhed; det er et andet produkt.

Hvornår Whisper-i-vores-app er det rigtige værktøj

Den anden side. Du bygger ikke software. Du prøver at holde op med at taste.

Du vil diktere mails, noter, beskeder, kodekommentarer og have dem til at dukke op i den app, du allerede er i. Du vil helst ikke have, at din lyd går til nogens servere. Du vil ikke have en pr. minut-måler kørende, mens du tænker. Du vil have det gratis at starte med, og du gider ikke skrive en eneste linje kode for at bruge det.

Pasted
Den leverede overlay efter diktering — hvordan én gratis, fuldt lokal diktering ser ud i det øjeblik, den er færdig.

Vælg Parakeet for fart og engelsk; vælg en flersproget Whisper-model, når du har brug for oversættelse, mindre udbredte sprog eller finere kontrol. Den lokale pipeline koster intet; Cloud-niveauet (OpenAI-transskription med din egen nøgle) er valgfrit og prissat på prissiden.

For den offline, lokale, gratis side af dette spørgsmål har jeg skrevet de bredere afvejninger op i lokal vs cloud-transskription. Og hvis du vælger mellem de to lokale motorer, vi leverer, så Whisper vs Parakeet gennemgår fart over for sprogdækning.

Hvis du kun husker én ting

Google Speech-to-Text er et API til ingeniører; Whisper-i-vores-app er diktering til mennesker. At spørge, hvilken der er "bedst", er som at spørge, om en bilmotor er bedre end en bil. Det afhænger helt af, om du bygger tingen eller kører i den.

Vælg den, der passer til din opgave

Hvis din opgave er at diktere ind i de apps, du allerede bruger, privat, offline og gratis at starte med, så installér Whisper og tryk på en tast. Hvis din opgave er at bygge transskription ind i software, så ved du allerede, hvor Googles dokumentation er.

Gratis lokal transskription for altid. Ingen betalingsmetode ved tilmelding. Cloud-niveauet er valgfrit og med din egen nøgle.

Foto af Denys Medvediev

Denys Medvediev

Jeg er ham, der læser vores support-mail, sandsynligvis ved at diktere svarene.

Videre læsning