Av Denys Medvediev

Sammenligning

Speechmatics-alternativ: API eller app?

Speechmatics er et talegjenkjennings-API for utviklere som du bygger inn i ditt eget produkt. Whisper er en ferdig skrivebordsapp du bruker med en hurtigtast og dikterer med. Ulike kategorier, ulike kjøpere – og søkeresultater blander likevel stadig de to.

Sist oppdatert: juni 2026

Kodelinjer på en mørk skjerm, som illustrerer en ASR-motor for utviklere som et alternativ erstatter

Hva et Speechmatics-alternativ er, avhenger av hva du faktisk vil erstatte. Speechmatics er et talegjenkjennings-API for utviklere som du kobler inn i ditt eget produkt. Trenger du det, er de reelle alternativene AssemblyAI, Deepgram, Google Cloud Speech-to-Text, AWS Transcribe og OpenAIs åpen kildekode-modell Whisper. Omtrent fire av fem som søker dette, vil ha et API å droppe inn i koden sin – ikke et verktøy å installere og bruke med en hurtigtast. Whisper by Remskill er den andre typen: en skrivebordsapp for diktering som du bruker, ikke en tjeneste du kaller fra en backend. Trykk en systemomfattende hurtigtast, snakk, og teksten havner ved markøren i hvilken som helst app – lokalt, uten måling per lydtime. Det ærligste første steget er å finne ut hvilken gruppe du tilhører, før du leser videre.

De fleste som søker etter «Speechmatics-alternativ», er utviklere. Omtrent fire av fem vil ha et API de kan bruke i koden sin – ikke et verktøy de installerer og bruker med en hurtigtast. Det er viktig å få avklart, fordi Whisper by Remskill er den andre typen: en skrivebordsapp for diktering du bruker selv, ikke en tjeneste du kaller fra backend-koden din.

Jeg lager Whisper by Remskill. Jeg skal ikke late som den konkurrerer med en enterprise-ASR-motor, for det gjør den ikke. Ulike kategorier, ulike kjøpere. Det jeg kan gjøre, er å fortelle deg rett ut hvilke verktøy som passer til hvilke oppgaver, og hvor grensen går. Den kjedelige sannheten er at de fleste «alternativ»-lister hopper over dette steget og ender opp med å sende en utvikler til en dikteringsapp som ikke har noe API å kalle.

Hva Speechmatics er: en ASR-motor for utviklere

Fargerik programmeringskode med grunt dybdefelt, som illustrerer en utviklerintegrert talegjenkjenningsmotor

Speechmatics beskriver seg selv som tale-API-er som driver stemme-AI. Du kobler det inn i ditt eget produkt via API-et. Det tilbyr sanntidstranskribering med under ett sekunds forsinkelse og batchbehandling, og kan brukes som sky-API, på enheten eller on-premises. Det dekker 55+ språk for transkribering og 69 språkpar for AI-oversettelse, ifølge egne tall.

Kjøperne er team som bygger transkripsjon inn i noe større: analyser for kundesentre, direkte teksting, medisinske og juridiske transkripsjonsprosesser, stemmeagenter. Ingen av disse er én enkelt person som prøver å svare på en e-post ved å snakke.

Prismodellen forteller samme historie. Speechmatics fakturerer per lydtime. Gratisplanen gir deg 2 400 minutter – 40 timer – med tale-til-tekst per måned, to samtidige sanntidsøkter, og du trenger ikke registrere kort. Pro starter fra $0.24 per lydtime og er begrenset til 6 000 timer per måned. Enterprise er skreddersydd, med on-premises-distribusjon og egne modeller. Det er en teller – og en teller er akkurat det du vil ha når du behandler tusenvis av lydtimer gjennom et produkt. Det er akkurat det du ikke vil ha når du dikterer en handleliste.

Skillet: en motor å bygge med vs. en app å bruke

Fugleperspektiv av hender som skriver på en bærbar datamaskin, som kontrasterer en ferdig app med et rått API

Her er grensen, trukket én gang, klart og tydelig.

En motor som Speechmatics er noe en utvikler integrerer. Du sender lyd over et API, får tekst tilbake, og bygger knappene, grensesnittet, lagringen og faktureringen selv. Det er råmateriale.

En ferdig app er noe du installerer og kjører. Whisper by Remskill er den andre typen. Det er ikke et tale-til-tekst-API, SDK eller motor. Du kan ikke bygge det inn i ditt eget produkt, kalle det fra kode eller sende lyd gjennom det programmatisk. Det finnes ingen endepunkter å treffe. Det er en skrivebordsapplikasjon drevet av en systemomfattende hurtigtast.

Ett navn skaper forvirring hos alle, så la meg rydde opp med én gang. «OpenAI Whisper» – den åpen kildekode-talemodellen du kan hoste selv og kalle som et API – dukker opp på alle Speechmatics-alternativlister. Det er utvikleralternativet. Det er ikke det samme som Whisper by Remskill, skrivebordsappen jeg lager. Samme ord, ulike kategorier. Hvis du vil ha en modell å hoste selv, vil du ha OpenAIs åpen kildekode-modell Whisper. Vil du ha et ferdig verktøy å diktere med, les videre.

Trenger du et API å bygge på, er dette hvem du bør se på

Hvis du er her for en motor, sender jeg deg heller til den rette enn å kaste bort ettermiddagen din. De reelle tale-til-tekst-API-ene i denne kategorien – de som faktisk erstatter Speechmatics for en utvikler – er:

  • AssemblyAItale-til-tekst-API med batch og sanntid, rettet mot produktteam.
  • Deepgramstrømming-API med lav forsinkelse, populær for stemmeagenter.
  • Google Cloud Speech-to-Texthyperscaler-alternativet, bred språkdekning.
  • AWS Transcribesamme idé, inne i AWS-regningen.
  • OpenAIs åpen kildekode-modell Whisperhost modellen selv og kjør den på egne ressurser.
  • Gladiaet nyere transkripsjon-API i samme gate.

Alle disse er API-er og motorer du bygger inn i din egen kode. Jeg skal ikke finne på nøyaktighetsprosenter eller priser for dem (det er slik alternativlister ender opp med å ta feil – ved å sitere et tall fra en prissside som ble endret forrige kvartal). Poenget er kategorien: trenger du en teller og et endepunkt, er ett av disse svaret ditt – og Whisper by Remskill er det ikke.

Hva Whisper gjør i stedet: hurtigtast, snakk, lim inn

Nå til den andre gruppen – de som ikke skriver kode og bare vil snakke i stedet for å skrive.

Whisper by Remskill er bygd for diktering først. Du trykker en systemomfattende hurtigtast, snakker, og transkripsjonen havner ved markøren i appen du allerede er i. Ingen opplastingssteg, inget prosjektbibliotek, intet API å lære. Standard hurtigtast er Ctrl+Space på Windows og Command+Option – et hold-for-å-snakke-akkord – på macOS. Du kan endre den.

Fordi den skriver ved markøren, fungerer den overalt – e-postklienten din, et dokument, en chatboks, en kodekommentar – uten at noen trenger å bygge en integrasjon for hver app. Det er hele trikset, og det er det motsatte av en motor. En motor venter på at koden din kaller den. Denne venter på at du trykker en tast. Første gang jeg demonstrerte det for kona mi, dikterte jeg en handleliste rett inn i en melding til henne. Hun svarte: «Flott, men du glemte melken.» Appen fungerte. Hukommelsen min gjorde det ikke.

De flerspråklige modellene dekker 90+ språk for direktetale, og de ikke-engelske Whisper-modellene kan oversette talt innhold til engelsk underveis. Det er tale-til-engelsk, ikke den 69-par tekstoversettelses­tjenesten Speechmatics selger – annen jobb, smalere omfang, ærlig om det.

Whisper
Den virkelige Whisper-appen – klikk rundt i Innstillinger og transkripsjonspanelet. Dette er det levende grensesnittet, ikke et skjermbilde.

Lokalt og frakoblet: ingen lydtimer, ingen bruksregning

Messinghanglas holdt i en hånd, som symboliserer lyd som forblir på enheten med lokal frakoblet transkripsjon

I lokal modus transkriberer Whisper helt på din maskin. Lyden forlater aldri enheten, det er ingen nettverkskall for transkripsjon, og ingen teller per lydtime. Hele den lokale prosessen – modeller, AI-opprydding på enheten, historikk, egne ord, hurtigtasten – er gratis for alle innloggede brukere, uten kortregistrering ved registrering.

Jeg vil være ærlig her, for ærligheten er hele poenget. Speechmatics har også en gratisnivå – generøse 40 timer per måned – og tilbyr også on-premises og on-device-distribusjon for utviklere. Så «gratis» og «frakoblet» er ikke magiske ord som bare Whisper eier. Den reelle forskjellen er formen. Speechmatics gir en utvikler en motor de måler og integrerer. Whisper gir en enkeltperson en ferdig app uten integrasjonsarbeid og uten timeregning.

Dette er den ene sterke meningen jeg bruker i denne artikkelen: måling per lydtime er feil form for en person som bare vil diktere. Til $0.24 per time etter de gratis 40, gir en teller full mening når du kjører et produkt gjennom det og trenger bruksdata. Det gir ingen mening når «produktet» er du, ved et skrivebord, som svarer på e-post. Du skal ikke trenge å tenke på en klokke som tikker mens du snakker. En flat apppris, uten måling overhodet, passer det livet bedre. Hvis det å holde dikteringen din unna skyen betyr noe for deg, er det den samme instinkten bak privat talegjenkjenning på enheten.

Når Speechmatics er det riktige verktøyet

Serverrack i et datasenter, som representerer storskalerte enterprise-taleprosesser som en API-motor betjener

Jeg ville ikke byttet bort Speechmatics om jeg bygde et produkt på det. Trenger du å integrere transkripsjon i din egen applikasjon i stor skala – et analysedashbord for kundesenter, direkteteksting, en medisinsk eller juridisk transkripsjonsprosess, en stemmeagent – er Speechmatics eller ett av de reelle API-alternativene riktig, og Whisper er det ikke. Det samme gjelder om du trenger streng datasuverenitet on-premises for mange samtidige økter, eller dens 69 oversettelsespar. Whisper har ikke svar på noe av det. Det er en enkeltbrukers skrivebordsapp for diktering, punktum. Velger du feil kategori her, koster det deg en ny utvikling – ikke en refusjon.

Hva det koster å bare diktere

Whispers lokale dikteringsnivå er gratis for alle med en konto, uten betalingsmetode ved registrering. Det er ingen bruksklokke – du faktureres ikke per lydtime slik Speechmatics måler Pro fra $0.24 per time. Den valgfrie Sky-overflaten, som bruker din egen OpenAI-nøkkel for skybasert transkripsjon og nettsøk, ligger bak en flat apppris i stedet for en per-minutt-teller. De aktuelle prisene finner du på prissiden; det eneste som er verdt å huske er formen – en fast pris for en app, ikke en teller for en motor.

Vil du snakke i stedet for å skrive?

Kom du hit for en motor å bygge på, ta ett av de ekte API-ene og gå – koden din vil takke deg. Kom du hit fordi du er lei av å skrive og bare vil snakke, er det den smale nisjen Whisper faktisk er bygd for. Last ned den, hold hurtigtasten, og se transkripsjonen dukke opp der du allerede skriver. Velg kategorien, ikke moteordet.

Gratis lokaldiktering for alltid. Ingen betalingsmetode ved registrering. 7-dagers Sky-prøveperiode krever kort kun ved oppgradering.

Bilde av Denys Medvediev

Denys Medvediev

Jeg er den som leser supporte-posten vår – mest sannsynlig ved å diktere svarene.

Videre lesning