Av Denys Medvediev

Sammenligning

Whisper mot Google Speech-to-Text

Google Cloud Speech-to-Text er et utvikler-API du kaller fra kode og betaler for per minutt. Whisper, OpenAIs åpne kildekode-modell som appen vår kjører på din egen maskin, er laget for et menneske som dikterer inn i Word eller Slack. Det ene er rørleggerarbeid for ingeniører. Det andre er et dikteringsverktøy for skrivebordet.

Sist oppdatert: juni 2026

Opplyste serverracks som lyser blått i et moderne datasenter, et bilde på et transkripsjons-API i skyen

Google Cloud Speech-to-Text er et utvikler-API. Du kaller det fra kode, og det fakturerer per minutt lyd som sendes til Googles servere. Whisper, OpenAIs åpne kildekode-modell som appen vår kjører på din egen maskin, er laget for et menneske som dikterer inn i Word eller Slack. Det ene er rørleggerarbeid for ingeniører. Det andre er et dikteringsverktøy for skrivebordet.

Google Speech-to-Text er et sky-API for utviklere som bygger transkripsjon inn i apper og servere. Det strømmer, det tar lange filer i bunker, det dekker mange språk, og det fakturerer per minutt. Whisper-i-appen-vår er for en sluttbruker som vil ha privat, frakoblet og gratis diktering på skrivebordet. Skriver du kode og trenger transkripsjon i stor skala, vinner Google. Vil du snakke og se teksten dukke opp ved markøren, vinner Whisper. Ulike kategorier.

Jeg driver Whisper by Remskill, en app som gjør den åpne Whisper-modellen om til skrivebordsdiktering: hurtigtast, snakk, og teksten dukker opp der markøren står. Så jeg har en side i dette. Jeg skal likevel prøve å holde det ærlig, for det ærlige svaret er det mest nyttige. De fleste som taster «Whisper vs Google Speech-to-Text» inn i et søkefelt, er i ferd med å sammenligne to ting som ikke hører hjemme i samme bås.

Google Speech-to-Text er et API, ikke en app du åpner

Det første du må ha klart for deg: Google Cloud Speech-to-Text har ingen vindu. Det er ikke noe ikon i dokken, ingen hurtigtast, ingen «trykk for å snakke». Det er en tjeneste programvaren din snakker med over nettverket. Du sender den lyd med kode, og den sender tekst tilbake. Googles egne dokumenter beskriver det som synkron, strømmende og asynkron gjenkjenning brukt gjennom et API.

Den utformingen er god til det den er ment for. Strømmende gjenkjenning gir mellomresultater i sanntid, noe som er nyttig hvis du bygger en funksjon for live teksting eller en stemmekommando til ditt eget produkt. Asynkron gjenkjenning håndterer lange opptak: du laster opp lyd, Google maler seg gjennom det i bakgrunnen, og du sjekker etter resultatet når det er klart. Google dokumenterer denne bunkebehandlingen som at den håndterer lyd på opptil åtte timer i én jobb. Det er en reell styrke. Har du et lager av innspilte samtaler som skal transkriberes over natten, er en dikteringsapp for sluttbrukere feil verktøy, og et API som Googles er det rette.

Det støtter en lang liste med språk og regionale lokaliseringsvarianter, BCP-47-kodene ingeniører kjenner, som en-US, en-GB og es-MX. Jeg kommer ikke til å trykke et eksakt språkantall eller en pris per minutt her, og jeg ville vært forsiktig med enhver artikkel som gjør det. Googles pris- og språksider endrer seg, og tallene som flyter rundt på nettet, sporer ikke alle tilbake til en primærkilde jeg ville stått inne for. Det jeg kan si uten forbehold: det er bruksbasert skyfakturering. Du betaler for det du sender, lyden din går til Googles servere, og det finnes ingen gratis lokal modus.

To mennesker, to ulike problemer

Her er den reneste måten jeg har funnet for å avgjøre hvilken side av streken du står på. Se for deg to mennesker.

Den første er en utvikler. Hun bygger et kundestøtteverktøy som gjør innspilte samtaler om til søkbar tekst. Transkripsjonen skjer på serveren hennes, inne i koden hennes, uten at noe menneske ser den kjøre. Hun vil ha et endepunkt hun kan sende lyd til og et JSON-svar hun kan lagre i en database. Hun kommer aldri til å «åpne» transkriberingen. Den bor inne i produktet hun leverer til sine egne kunder. Det er Google Speech-to-Texts jobb. API-et er komponenten; produktet hennes er appen.

Den andre er en skribent. Eller en advokat som skriver utkast på toget, eller en student som gjør en forelesning om til notater, eller en forelder som svarer på en e-post fra læreren mens middagen rører seg. Han har ingen server. Han har en markør som blinker i et dokument, og han snakker heller enn å skrive. Han vil trykke én tast, si setningen, og se den dukke opp i filen han allerede har åpen. Han kommer aldri til å skrive kode, og det skal han heller ikke måtte. Det er vår jobb.

Forvirringen i søkeordet kommer av at «Whisper» gjør dobbeltarbeid. Google STT er en ferdig skytjeneste. Whisper er en modell, og en modell er ikke en app. Noen må bygge appen rundt den: koble til mikrofonen, koble opp hurtigtasten, lime teksten inn ved markøren. Det er den delen vi gjorde.

Whisper-i-appen-vår er skrivebordsdiktering, og den kjører på maskinen din

Whisper er talemodellen OpenAI gjorde åpen. Appen vår kjører den lokalt: ren Rust, ingen Python-sidekick, ingen server i sløyfa for vanlig diktering. Du trykker en hurtigtast (Ctrl+Space på Windows som standard, fullt ombrukbar), du snakker, du slipper, og teksten lander der markøren allerede står. Ingen kode. Ingen API-nøkkel for den lokale veien. Lyden forlater aldri den bærbare maskinen.

Den siste delen er hele poenget, og det er den som ikke dukker opp i en funksjonstabell.

Whisper
Den ekte Whisper by Remskill-appen — sidefelt, transkripsjonspanel og AI-instruksjonskort. Dette er det virkelige grensesnittet, ikke et skjermbilde.

På det lokale nivået velger du blant åtte Whisper-modeller, fra rundt 140 MB opp til 3 GB; du bytter nedlastingsstørrelse og CPU-tid mot nøyaktighet. Fire er tilpasset engelsk; de fire flerspråklige dekker et bredt spenn av språk og kan oversette tale til engelsk i samme håndgrep, noe Googles API ikke folder inn i ett dikteringstrykk og de fleste forbrukerverktøy hopper helt over. Det finnes også Parakeet, en egen NVIDIA-motor som er 5 til 10 ganger raskere enn Whisper på CPU for engelsk og 24 andre europeiske språk, og den kjører uten GPU.

Hele den lokale flyten er gratis for enhver innlogget bruker, uten kort ved registrering: hver modell, AI-opprydding gjennom Ollama, historikk, egendefinerte hotwords, alt sammen. Vil du ha skyflaten, er det Whisper Pro: OpenAI-skytranskripsjon (gpt-4o-mini-transcribe eller gpt-4o-transcribe), AI-opprydding i skyen og nettsøk, alt på din egen OpenAI-nøkkel, der Remskill ikke tar noe kutt. Det er valgfritt. Standarden er lokal og gratis.

Den kjedelige sannheten er at for ett avsnitt diktert tekst har den bærbare maskinen din allerede en mikrofon og en CPU. Den trenger ikke et datasenter.

Kostnadsmodellene har ikke samme form

Det er her sammenligningen slutter å være epler mot epler. Et sky-API fakturerer per minutt lyd. En lokal dikteringsapp fakturerer, på det meste, én gang.

Jeg har sett per-minutt-modellen bite én gang. Et team jeg jobbet med fikk en innleid konsulent til å bygge en intern «AI-dikterings»-prototype som kalte et sky-API for hver ytring. En «smart gjenforsøk»-rutine ble for ivrig og transkriberte de samme standup-opptakene fire ganger om igjen. Teamlederen åpnet kostnadsdashbordet ved kvartalsslutt og fant en femsifret regning. Konsulentens løsning var «vi burde optimalisere ledeteksten». Økonomisjefens løsning var «eller så burde vi la være å betale for skytranskripsjon av møter som allerede har referat.»

Det er ikke et stikk mot Googles API. Brukt som tiltenkt, av ingeniører som følger med på måleren, er det fornuftig priset for produksjonsflyter. Det er et stikk mot å bruke en målt skytjeneste til noe en lokal app gjør gratis. Transkripsjon kun i skyen er en personvernkatastrofe som bare venter på å bli fakturert. Kontraktsutkastene dine, lønnsregnearket ditt, e-posten til barnets skole, alt forlater maskinen din fordi du ville snakke i stedet for å skrive. For et enkeltmenneske som dikterer hele dagen, er lokal-først den rette standarden, og måleren starter aldri.

Side om side

Her er den ærlige oppstillingen. Legg merke til at tabellen egentlig ikke handler om «hva som er best». Den handler om «hvilken kategori du er i».

Kategorisammenligning mellom Google Speech-to-Text og Whisper i appen vår
FunksjonGoogle Speech-to-TextWhisper (i appen vår)
ProdukttypeUtvikler-API i skyenDikteringsapp for skrivebordet
Hvordan du bruker detKall det fra din egen kodeTrykk en hurtigtast og snakk
Hvor lyden din havnerTil Googles servereBlir værende på maskinen din (lokal modus)
KostnadsmodellBruksbasert skyfakturering, per minuttGratis lokalt nivå; én app, se prisside
Fungerer frakobletNeiJa (lokale modeller)
Hvem det er forUtviklere som bygger transkripsjon inn i apper eller servereEt menneske som dikterer inn i en hvilken som helst app
OppsettSkyprosjekt, legitimasjon, kodeInstaller, logg inn, velg en modell

Ingen konkrete Google-tall i den tabellen, med vilje. Det er formen som teller: server mot maskin, kode mot hurtigtast, måler mot gratis. Peker de radene deg mot API-et, bra, fortsett å lese neste seksjon. Peker de deg mot appen, ligger nedlastingsknappen nederst.

Når Google Speech-to-Text er det rette verktøyet

Jeg ville grepet etter Googles API, ikke appen vår, i noen få klare tilfeller. Dette er seksjonen AI-artikler hopper over, så her er den rett ut.

Du bygger et produkt, du dikterer ikke inn i ett

Er du en ingeniør som kobler transkripsjon inn i en backend (en analyseflyt for et kontaktsenter, en funksjon for automatisk teksting, et stemmegrensesnitt til din egen programvare), vil du ha et API, og Googles er et modent et. Skrivebordsappen vår kan ikke kalles fra serveren din. Den har ingen endepunkt, ingen SDK, ingen måte for koden din å be den om tekst. Det er med vilje; det er en app for et menneske, ikke en tjeneste for et program.

Du må behandle lange opptak i bunker i stor skala

Åtte timer lyd i én asynkron jobb er akkurat det Googles asynkrone gjenkjenning er bygget for. Har du ti tusen innspilte samtaler som skal males gjennom over natten, vil du ha en tjeneste som skalerer på noen andres servere, ikke en bærbar maskin som kjører én modell om gangen.

Du trenger sanntidsstrømming inne i din egen kode

Hvis applikasjonen din må vise mellomresultater mens noen snakker (live teksting i en videosamtale du bygger), er strømmende gjenkjenning API-flaten for det. Appen vår limer inn en ferdig tekstblokk etter at du slipper tasten, noe som er feil oppførsel for en live tekstingsfunksjon og rett for diktering.

Du trenger programmatisk kontroll og revisjonslogger

Kvoter per forespørsel, fakturering på serversiden, en sentral oversikt over hvem som transkriberte hva: et administrert sky-API gir deg det driftsmessige stillaset en regulert eller storskala utrulling trenger. En skrivebordsapp holder det på enkeltpersonens maskin, som er den motsatte avveiingen.

Hvis noe av dette er deg, lukk denne fanen og åpne Googles dokumenter. Vi driver ikke med serverside. Det er ikke falsk beskjedenhet; det er et annet produkt.

Når Whisper-i-appen-vår er det rette verktøyet

Baksiden av det. Du bygger ikke programvare. Du prøver å slutte å skrive.

Du vil diktere e-poster, notater, meldinger og kodekommentarer, og få dem til å dukke opp i hvilken som helst app du allerede er i. Du vil helst at lyden din ikke skal til noens servere. Du vil ikke ha en måler per minutt gående mens du tenker. Du vil at det skal være gratis å starte, og du vil ikke skrive en eneste linje kode for å bruke det.

Pasted
Det leverte overlegget etter diktering — hvordan én gratis, helt lokal diktering ser ut i det øyeblikket den er ferdig.

Velg Parakeet for fart og engelsk; velg en flerspråklig Whisper-modell når du trenger oversettelse, mindre vanlige språk eller finere kontroll. Den lokale flyten koster ingenting; Sky-nivået (OpenAI-transkripsjon med din egen nøkkel) er valgfritt og priset på prissiden.

For den frakoblede, lokale og gratis siden av dette spørsmålet skrev jeg om de bredere avveiingene i lokal mot sky-transkripsjon. Og hvis du velger mellom de to lokale motorene vi leverer, Whisper mot Parakeet går gjennom fart mot språkdekning.

Hvis du bare husker én ting

Google Speech-to-Text er et API for ingeniører; Whisper-i-appen-vår er diktering for mennesker. Å spørre hva som er «best» er som å spørre om en bilmotor er bedre enn en bil. Det avhenger helt av om du bygger tingen eller kjører den.

Velg den som passer jobben din

Er jobben din å diktere inn i appene du allerede bruker, privat, frakoblet og gratis å starte, installer Whisper og trykk en tast. Er jobben din å bygge transkripsjon inn i programvare, vet du allerede hvor Googles dokumenter er.

Gratis lokal transkripsjon for alltid. Ingen betalingsmåte ved registrering. Sky-nivået er valgfritt og med din egen nøkkel.

Bilde av Denys Medvediev

Denys Medvediev

Jeg er han som leser support-e-posten vår, mest sannsynlig ved å diktere svarene.

Videre lesning