Di Denys Medvediev

Confronto

Whisper vs Google Speech-to-Text

Google Cloud Speech-to-Text è un'API per sviluppatori che richiami dal codice e paghi al minuto. Whisper, il modello open source di OpenAI su cui gira la nostra app, è pensato per chi detta dentro Word o Slack. Uno è l'impianto idraulico per gli ingegneri. L'altro è uno strumento di dettatura per desktop.

Ultimo aggiornamento: giugno 2026

Rack di server illuminati di blu in un moderno data center, a evocare un'API di trascrizione cloud

Google Cloud Speech-to-Text è un'API per sviluppatori. La richiami dal codice e ti fattura al minuto di audio inviato ai server di Google. Whisper, il modello open source di OpenAI su cui gira la nostra app, è pensato per chi detta dentro Word o Slack. Uno è l'impianto idraulico per gli ingegneri. L'altro è uno strumento di dettatura per desktop.

Google Speech-to-Text è un'API cloud per sviluppatori che integrano la trascrizione in app e server. Trasmette in streaming, elabora file lunghi in batch, copre molte lingue e fattura al minuto. Whisper nella nostra app è per l'utente finale che vuole una dettatura desktop privata, offline e gratuita. Se scrivi codice e ti serve trascrizione su larga scala, vince Google. Se vuoi parlare e vedere il testo comparire al cursore, vince Whisper. Categorie diverse.

Gestisco Whisper by Remskill, un'app che trasforma il modello open source Whisper in dettatura desktop: scorciatoia, parli, il testo compare ovunque sia il cursore. Quindi sono di parte. Cercherò comunque di essere onesto, perché la risposta onesta è quella più utile. La maggior parte di chi digita "Whisper vs Google Speech-to-Text" nella casella di ricerca sta per mettere a confronto due cose che non stanno nello stesso secchio.

Google Speech-to-Text è un'API, non un'app che apri

La prima cosa da chiarire: Google Cloud Speech-to-Text non ha una finestra. Non c'è un'icona nel dock, nessuna scorciatoia, nessun "premi per parlare". È un servizio con cui il tuo software dialoga via rete. Gli mandi audio con il codice; ti rimanda testo. La documentazione di Google lo descrive come riconoscimento sincrono, in streaming e asincrono, fruito tramite un'API.

Quel design va bene per ciò a cui serve. Il riconoscimento in streaming restituisce risultati intermedi in tempo reale, utile se stai costruendo una funzione di sottotitoli dal vivo o un comando vocale per il tuo prodotto. Il riconoscimento asincrono gestisce le registrazioni lunghe: carichi l'audio, Google lo macina in background e tu interroghi per il risultato quando è pronto. Google documenta questo percorso batch come capace di gestire audio fino a otto ore in un singolo lavoro. È un punto di forza reale. Se hai un magazzino di chiamate registrate da trascrivere durante la notte, un'app di dettatura per l'utente finale è lo strumento sbagliato, e un'API come quella di Google è quello giusto.

Supporta un lungo elenco di lingue e varianti locali regionali, i codici BCP-47 che gli ingegneri conoscono, come en-US, en-GB ed es-MX. Non stamperò qui un conteggio esatto delle lingue né un prezzo al minuto, e diffiderei di qualsiasi articolo che lo fa. Le pagine di prezzi e lingue di Google cambiano, e i numeri che girano sul web non risalgono tutti a una fonte primaria su cui metterei la mano sul fuoco. Quello che posso dire senza giri di parole: è fatturazione cloud a consumo. Paghi per ciò che invii, il tuo audio finisce sui server di Google e non esiste una modalità locale gratuita.

Due persone, due problemi diversi

Ecco il modo più pulito che ho trovato per capire da che parte della linea ti trovi. Immagina due persone.

La prima è una sviluppatrice. Sta costruendo uno strumento di assistenza clienti che trasforma le chiamate registrate in testo ricercabile. La trascrizione avviene sul suo server, dentro il suo codice, senza che nessuno la guardi girare. Vuole un endpoint a cui inviare audio e una risposta JSON da salvare in un database. Non "aprirà" mai il trascrittore. Vive dentro il prodotto che lei spedisce ai propri clienti. È il lavoro di Google Speech-to-Text. L'API è il componente; il suo prodotto è l'app.

Il secondo è uno scrittore. O un avvocato che scrive in treno, o uno studente che trasforma una lezione in appunti, o un genitore che risponde all'email di un insegnante mentre gira la cena. Non ha un server. Ha un cursore che lampeggia in un documento, e preferirebbe parlare anziché digitare. Vuole premere un tasto, dire la frase e vederla comparire nel file che ha già aperto. Non scriverà mai codice, e non dovrebbe doverlo fare. È il nostro lavoro.

La confusione nella parola chiave nasce dal fatto che "Whisper" gioca su due tavoli. Google STT è un servizio cloud finito. Whisper è un modello, e un modello non è un'app. Qualcuno deve costruirci attorno l'app: collegare il microfono, cablare la scorciatoia, incollare il testo al cursore. È la parte che abbiamo fatto noi.

Whisper nella nostra app è dettatura desktop, e gira sulla tua macchina

Whisper è il modello vocale che OpenAI ha reso open source. La nostra app lo esegue in locale: puro Rust, nessun sidecar Python, nessun server nel circuito per la dettatura ordinaria. Premi una scorciatoia (Ctrl+Space su Windows in modo predefinito, completamente rimappabile), parli, rilasci, e il testo atterra ovunque sia già il tuo cursore. Niente codice. Nessuna chiave API per il percorso locale. L'audio non lascia mai il portatile.

Quest'ultima parte è tutto il punto, ed è quella che non compare in una tabella di funzionalità.

Whisper
L'app Whisper by Remskill dal vivo — barra laterale, pannello di trascrizione e schede di istruzioni AI. Questa è l'interfaccia reale, non uno screenshot.

Nel piano locale scegli tra otto modelli Whisper, da circa 140 MB fino a 3 GB; scambi dimensione del download e tempo di CPU per ottenere precisione. Quattro sono ottimizzati per l'inglese; i quattro multilingue coprono un'ampia gamma di lingue e possono tradurre il parlato in inglese con lo stesso gesto, cosa che l'API di Google non racchiude in una singola pressione di dettatura e che la maggior parte degli strumenti consumer salta del tutto. C'è anche Parakeet, un motore NVIDIA separato che è da 5 a 10 volte più veloce di Whisper su CPU per l'inglese e 24 altre lingue europee, e gira senza GPU.

L'intera pipeline locale è gratuita per qualsiasi utente autenticato, senza carta alla registrazione: ogni modello, la pulizia AI tramite Ollama, la cronologia, le parole chiave personalizzate, il tutto. Se vuoi la superficie cloud, c'è Whisper Pro: trascrizione cloud OpenAI (gpt-4o-mini-transcribe o gpt-4o-transcribe), pulizia AI cloud e ricerca web, il tutto sulla tua chiave OpenAI, senza che Remskill trattenga alcuna percentuale. È facoltativo. L'impostazione predefinita è locale e gratuita.

La noiosa verità è che, per un paragrafo di testo dettato, il tuo portatile ha già un microfono e una CPU. Non gli serve un data center.

I modelli di costo non hanno la stessa forma

È qui che il confronto smette di essere mele con mele. Un'API cloud fattura al minuto di audio. Un'app di dettatura locale fattura, al massimo, una volta sola.

Ho visto il modello al minuto mordere una volta. Un team con cui lavoravo aveva fatto sviluppare a un consulente esterno un prototipo interno di "dettatura AI" che richiamava un'API cloud per ogni enunciato. Una routine di "retry intelligente" è diventata troppo aggressiva e ha ri-trascritto le stesse registrazioni dello standup quattro volte di fila. Il manager del team ha aperto la dashboard dei costi a fine trimestre e ha trovato una bolletta a cinque cifre. La soluzione del consulente è stata "dovremmo ottimizzare il prompt". La soluzione del CFO è stata "oppure non dovremmo pagare la trascrizione cloud di riunioni che hanno già gli appunti."

Non è una critica all'API di Google. Usata come previsto, da ingegneri che tengono d'occhio il contatore, ha un prezzo giusto per le pipeline di produzione. È una critica all'uso di un servizio cloud a consumo per qualcosa che un'app locale fa gratis. La trascrizione solo cloud è un disastro per la privacy in attesa di essere fatturato. Le tue bozze di contratti, il foglio degli stipendi, l'email alla scuola di tuo figlio, tutto che lascia la tua macchina solo perché volevi parlare anziché digitare. Per chi detta tutto il giorno, il local-first è l'impostazione predefinita giusta, e il contatore non parte mai.

Fianco a fianco

Ecco lo schema onesto. Nota che la tabella non riguarda davvero "quale è migliore". Riguarda "in quale categoria ti trovi".

Confronto per categoria tra Google Speech-to-Text e Whisper nella nostra app
CaratteristicaGoogle Speech-to-TextWhisper (nella nostra app)
Tipo di prodottoAPI cloud per sviluppatoriApp di dettatura desktop
Come la usiLa richiami dal tuo codicePremi una scorciatoia e parli
Dove va il tuo audioAi server di GoogleResta sulla tua macchina (modalità locale)
Modello di costoFatturazione cloud a consumo, al minutoPiano locale gratuito; una sola app, vedi pagina prezzi
Funziona offlineNoSì (modelli locali)
Per chi èSviluppatori che integrano la trascrizione in app o serverUna persona che detta in qualsiasi app
ConfigurazioneProgetto cloud, credenziali, codiceInstalla, accedi, scegli un modello

Nessun numero specifico di Google in quella tabella, di proposito. È la forma che conta: server vs macchina, codice vs scorciatoia, contatore vs gratis. Se quelle righe ti indirizzano verso l'API, bene, continua a leggere la prossima sezione. Se ti indirizzano verso l'app, il pulsante di download è in fondo.

Quando Google Speech-to-Text è lo strumento giusto

Sceglierei l'API di Google, non la nostra app, in alcuni casi chiari. È la sezione che gli articoli AI saltano, quindi eccola spiegata chiaramente.

Stai costruendo un prodotto, non dettando dentro uno

Se sei un ingegnere che cabla la trascrizione in un backend (una pipeline di analisi per un call center, una funzione di sottotitolazione automatica, un'interfaccia vocale per il tuo software), vuoi un'API, e quella di Google è matura. La nostra app desktop non può essere richiamata dal tuo server. Non ha endpoint, né SDK, né alcun modo perché il tuo codice le chieda del testo. È voluto; è un'app per una persona, non un servizio per un programma.

Devi elaborare in batch registrazioni lunghe su larga scala

Otto ore di audio in un singolo lavoro asincrono è esattamente ciò per cui è costruito il riconoscimento asincrono di Google. Se hai diecimila chiamate registrate da macinare durante la notte, vuoi un servizio che scala sui server di qualcun altro, non un portatile che esegue un modello alla volta.

Ti serve lo streaming in tempo reale dentro il tuo codice

Se la tua applicazione deve mostrare risultati intermedi mentre qualcuno parla (sottotitoli dal vivo su una videochiamata che stai costruendo), il riconoscimento in streaming è la superficie API per questo. La nostra app incolla un blocco di testo finito dopo che rilasci il tasto, comportamento sbagliato per una funzione di sottotitoli dal vivo e giusto per la dettatura.

Ti servono controllo programmatico e log di audit

Quote per richiesta, fatturazione lato server, un registro centrale di chi ha trascritto cosa: un'API cloud gestita ti dà l'impalcatura operativa di cui ha bisogno un deployment regolamentato o su larga scala. Un'app desktop tiene tutto questo sulla macchina del singolo, che è il compromesso opposto.

Se uno qualsiasi di questi sei tu, chiudi questa scheda e apri la documentazione di Google. Noi non facciamo lato server. Non è falsa modestia; è un prodotto diverso.

Quando Whisper nella nostra app è lo strumento giusto

Il rovescio della medaglia. Non stai costruendo software. Stai cercando di smettere di digitare.

Vuoi dettare email, appunti, messaggi, commenti al codice, e vederli comparire in qualsiasi app in cui ti trovi già. Preferiresti che il tuo audio non andasse sui server di nessuno. Non vuoi un contatore al minuto in funzione mentre pensi. Lo vuoi gratuito per cominciare, e non vuoi scrivere una riga di codice per usarlo.

Pasted
L'overlay post-dettatura che spediamo — com'è una dettatura gratuita e completamente locale nell'istante in cui finisce.

Scegli Parakeet per velocità e inglese; scegli un modello Whisper multilingue quando ti serve la traduzione, lingue meno comuni o un controllo più fine. La pipeline locale non costa nulla; il piano Cloud (trascrizione OpenAI con la tua chiave) è facoltativo e con prezzo indicato nella pagina prezzi.

Per il lato offline, locale e gratuito di questa domanda, ho approfondito i compromessi più ampi in trascrizione locale vs cloud. E se stai scegliendo tra i due motori locali che spediamo, Whisper vs Parakeet analizza velocità contro copertura linguistica.

Se ricordi una cosa sola

Google Speech-to-Text è un'API per ingegneri; Whisper nella nostra app è dettatura per le persone. Chiedere quale sia "migliore" è come chiedere se il motore di un'auto sia migliore di un'auto. Dipende interamente dal fatto che tu stia costruendo la cosa o guidandola.

Scegli quello che corrisponde al tuo lavoro

Se il tuo lavoro è dettare nelle app che usi già, in modo privato, offline, gratuito per cominciare, installa Whisper e premi un tasto. Se il tuo lavoro è integrare la trascrizione nel software, sai già dov'è la documentazione di Google.

Trascrizione locale gratuita per sempre. Nessun metodo di pagamento alla registrazione. Il piano Cloud è facoltativo e con chiave personale.

Foto di Denys Medvediev

Denys Medvediev

Sono io quello che legge la nostra email di supporto, molto probabilmente dettando le risposte.

Letture di approfondimento