Di Denys Medvediev

Approfondimento

Whisper è gratuito?

Sì — Whisper di OpenAI è open-source con licenza MIT, quindi il modello è libero da scaricare e usare, anche a fini commerciali. Il rovescio della medaglia è l'esecuzione: configurazione, dipendenze e hardware proprio. La via più semplice e gratuita è far girare Whisper in locale tramite un'app desktop.

Ultimo aggiornamento: giugno 2026

Lucchetto aperto posato su una tastiera di laptop, che evoca il software open-source e gratuito

Whisper è gratuito. OpenAI ha rilasciato sia il codice sia i pesi del modello con la permissiva licenza MIT, quindi chiunque può scaricare, eseguire e persino usare commercialmente il modello di riconoscimento vocale senza alcun costo. L'unico intoppo è la configurazione: far girare Whisper da soli significa Python, ffmpeg e hardware proprio. Un'app desktop elimina questo problema.

Le persone chiedono «Whisper è gratuito?» e si aspettano una fregatura, perché nel 2026 quasi nulla di buono è davvero gratis. Quindi vado dritto al punto, prima di qualsiasi caveat: sì. OpenAI ha rilasciato Whisper con la licenza MIT — codice e pesi del modello entrambi — che è tra le licenze software più permissive che esistano. Puoi scaricarlo, eseguirlo, modificarlo, integrarlo nel tuo prodotto e venderlo, e OpenAI non ti chiede né un centesimo né un credito.

Questa è la notizia principale ed è vera. Quello che la notizia non dice è la differenza tra «il modello è gratuito» e «usare il modello è gratuito». Non sono la stessa cosa. Il modello è un file. Trasformare quel file in parole sullo schermo richiede configurazione, un po' di pazienza con la riga di comando e un computer che regga il carico computazionale. Nulla di nascosto — è semplicemente lavoro, e il lavoro è il vero costo della versione open-source.

Ecco cosa la maggior parte delle pagine che inseguono questa parola chiave tende a confondere. Nella conversazione esistono due Whisper. Uno è il modello open-source che OpenAI ha pubblicato su GitHub — gratuito, MIT, tuo da eseguire. L'altro è l'API di trascrizione ospitata da OpenAI, che usa la stessa famiglia di modelli ma ti fattura al minuto. Stesso nome, conto molto diverso.

Quindi «Whisper è gratuito?» si divide in tre risposte oneste. Il modello in sé: gratuito, punto. Farlo girare da soli: gratuito in denaro, ma si paga con la configurazione e il proprio hardware. Farlo ospitare da qualcun altro: quello costa, che si tratti dell'API di OpenAI o del piano cloud a pagamento di un'app. Questa guida percorre tutti e tre i casi, mostra la via gratuita più semplice ed è onesta su ciò che davvero non è gratis.

Cos'è davvero Whisper

Forma d'onda audio su uno schermo accanto a un microfono, che rappresenta il parlato convertito in testo

Whisper è un modello di riconoscimento vocale che OpenAI ha rilasciato alla fine del 2022. Gli dai dell'audio, lui ti restituisce del testo. Lo fa bene — è stato addestrato su un'enorme quantità di audio multilingue, quindi gestisce accenti, rumori di fondo e decine di lingue meglio del software di dettatura con cui la maggior parte di noi ha litigato per anni. È anche in grado di tradurre il parlato in altre lingue in testo inglese, un'abilità che gli strumenti più vecchi non hanno mai padroneggiato davvero.

La parola chiave è «modello». Whisper non è un'app su cui fare doppio clic. È il cervello — un file di pesi addestrati più il codice per eseguirli. Da solo non ha finestre, pulsanti né accesso al microfono. È il motore, non l'automobile. Molti prodotti che conosci sono, in silenzio, semplicemente Whisper con una verniciata sopra, il che va benissimo, ma vale la pena sapere che il motore sotto è lo stesso componente gratuito in tutti quanti.

Questa distinzione è la ragione per cui la domanda genera confusione. Quando qualcuno dice «Whisper costa $30 al mese», non intende il modello — intende un'app che ha impacchettato il modello e fa pagare l'impacchettamento. Quando qualcuno dice «Whisper è gratuito», intende il motore che OpenAI ha regalato. Entrambe le affermazioni sono vere allo stesso tempo, ma riguardano cose diverse — ed è esattamente per questo che hai cercato una risposta chiara.

Sì, la licenza MIT lo rende davvero gratuito

Non è il «gratuito» del marketing, dove «gratis» significa una prova che scade o un piano che ti tormenta con i pop-up. OpenAI ha rilasciato il codice e i pesi di Whisper con la licenza MIT. La licenza MIT è una licenza open-source permissiva e ben consolidata: ti consente di usare, copiare, modificare e distribuire il software, anche a fini commerciali, con essenzialmente un'unica condizione — mantenere l'avviso di copyright allegato. Nessun canone, nessuna royalty, nessun costo per postazione, nessuna richiesta di autorizzazione.

In termini pratici: puoi scaricare Whisper per uso personale, usarlo per un'azienda, integrarlo in un prodotto che vendi e trascrivere un podcast per un cliente, tutto senza pagare OpenAI. Anche i pesi del modello — la parte addestrata che è costosa da produrre — sono gratuiti, non solo il codice wrapper. Ed è questa la parte che la gente fatica a credere, perché le aziende di solito tengono i pesi addestrati sotto chiave. OpenAI, qui, non l'ha fatto.

Cancel
Whisper in esecuzione in locale: l'overlay di registrazione appare mentre parli, senza alcun contatore al minuto che gira in sottofondo.

Vale la pena fare un caveat onesto affinché nessuno mi citi fuori contesto. «Gratuito sotto MIT» riguarda la licenza, non una promessa che non costi nulla da gestire. L'elettricità non è gratis. Un computer non è gratis. Il tuo tempo non è gratis. Ma il software e il modello — le parti per cui un'azienda normalmente ti chiede un abbonamento — quelli sono davvero, permanentemente, senza asterischi, gratuiti. (Il tipo di gratuito che ti fa rileggere la licenza due volte perché sei sicuro di esserti perso qualcosa. Non te ne sei perso nulla.)

Il rovescio della medaglia: farlo girare da soli

È qui che la versione gratuita rivela il suo costo, pagato in tempo invece che in denaro. Eseguire Whisper nel modo grezzo e open-source significa passare dalla riga di comando. L'installazione standard è un pacchetto Python, il che significa che prima devi avere Python configurato correttamente. Whisper ha anche bisogno di ffmpeg, uno strumento audio separato, installato e nel percorso di sistema. Su alcune macchine ti servirà anche Rust solo per compilare una dipendenza del tokenizer. Nulla di esotico per uno sviluppatore. Per tutti gli altri, è un pomeriggio intero.

Poi c'è l'hardware. Whisper fa calcoli pesanti, e i modelli più grandi e accurati ne fanno molti. Su una semplice CPU, il modello large può impiegare più tempo a trascrivere un clip di quanto duri il clip stesso. Per avere velocità, serve una GPU decente, che la maggior parte dei laptop non ha. Il costo reale della versione gratuita non sono i soldi — è un ambiente Python da mantenere, un comando da eseguire a mano per ogni file e un computer abbastanza veloce da non farti aspettare. (Ho visto una persona non tecnica seguire un post del blog «Configurazione di Whisper in 5 minuti». Non sono stati cinque minuti. È stato un sabato intero, con una telefonata a me.)

E c'è un'altra cosa che la versione grezza non offre: la dettatura in tempo reale. Whisper da riga di comando trascrive un file che hai già registrato. Non rimane in background, non aspetta un tasto di scelta rapida e non incolla il testo al cursore mentre parli. Per fare questo — la cosa che la maggior parte delle persone vuole davvero quando cerca — hai bisogno di un wrapper attorno al modello. La buona notizia è che il wrapper migliore è anch'esso gratuito, come spiega la sezione successiva.

Il modo gratuito e semplice: eseguire Whisper in un'app

Puoi tenere tutto il «gratis» del modello open-source e saltare completamente la tassa del «farlo girare da soli». È per questo che abbiamo costruito Whisper by Remskill — esegue lo stesso modello Whisper open-source in locale sulla tua macchina, senza Python, senza ffmpeg, senza riga di comando. L'intera pipeline locale è gratuita per qualsiasi account registrato, senza richiedere un metodo di pagamento alla registrazione. Ottieni il motore open-source senza i compiti a casa open-source. Ecco come si configura.

Passo 1 — Installa l'app e accedi.

Scarica dalla pagina di download, installa e crea un account gratuito. Nessuna carta. La pipeline di trascrizione locale si apre subito — niente Python, niente ffmpeg, niente di niente.

Saprai che ha funzionato quando l'icona nel tray appare e la procedura guidata propone di scegliere un modello.

Passo 2 — Scegli un modello locale.

L'app non sceglie per te. Per il locale, puoi scegliere Whisper (8 modelli, 99 lingue, traduzione in inglese) o Parakeet (più veloce, inglese più 24 lingue europee). Il modello si scarica una volta sola e gira interamente sulla tua macchina.

Saprai che ha funzionato quando un modello finisce di scaricarsi e compare come pronto.

Passo 3 — Conferma il tuo tasto di scelta rapida.

Su Windows il predefinito è Ctrl+Space, su Mac Command+Option tenuto premuto come push-to-talk. Su Mac, concedi l'autorizzazione Accessibilità quando richiesto, altrimenti l'incolla-al-cursore non riesce a raggiungere le altre app.

Saprai che ha funzionato quando una registrazione di prova si incolla in qualsiasi campo di testo.

Passo 4 — Metti il cursore dove vuoi e parla.

Clicca in qualsiasi casella di testo — un'email, un documento, una barra di ricerca — tieni premuto il tasto di scelta rapida, di' una frase, rilascia. La trascrizione appare dove si trova il cursore, trascritta da Whisper, sulla tua macchina, gratuitamente.

Saprai che ha funzionato quando la frase che hai detto compare nel campo come testo.

Whisper
La vera app desktop Whisper by Remskill nella schermata delle impostazioni, con i pannelli Trascrizione e AI aperti.

La parte lenta è il download unico del modello, non alcun rituale di configurazione. Dopodiché, lo stesso modello open-source che richiedeva un ambiente Python e un comando per ogni file si trova semplicemente nel tray e incolla testo quando premi un tasto. Se stai valutando le opzioni di dettatura su Windows o su Mac, questa è la versione in cui Whisper smette finalmente di essere un progetto e diventa un'app.

Whisper locale è gratuito, il cloud è la parte a pagamento

È qui che la risposta a «è gratuito?» ha bisogno di una linea di demarcazione netta. Eseguire Whisper in locale è gratuito — la tua macchina, il tuo CPU, nessun server, nessuna fattura al minuto. La parte a pagamento è il cloud: l'API di trascrizione ospitata da OpenAI fa pagare al minuto, e il livello cloud di qualsiasi app trasferisce quel costo. Nella nostra app, l'intera pipeline locale è gratuita; il layer Cloud è l'unica cosa che richiede Whisper Pro. Ecco come differiscono concretamente i tre percorsi, perché puoi davvero scegliere:

  • Parakeet locale — gratuitoIl motore TDT di NVIDIA, circa 600 MB, ed è l'opzione locale più veloce — da 5 a 10 volte più veloce di Whisper su CPU. Copre l'inglese più altre 24 lingue europee, 25 in totale. Nessuna traduzione in inglese. Se parli principalmente inglese e vuoi velocità su hardware modesto, questa è la scelta rapida, completamente offline e senza costi.
  • Whisper locale — gratuitoil vero modello Whisper open-source, in esecuzione sulla tua macchina senza alcun costo. Le versioni multilingue coprono 99 lingue e possono tradurre in inglese; le versioni solo-inglese sono solo inglese. Più lento di Parakeet sullo stesso hardware, ma la scelta giusta per cinese, giapponese, coreano o qualsiasi lavoro di traduzione. Il modello inglese predefinito pesa circa 480 MB.
  • Cloud (OpenAI, BYOK) — a pagamento al minutola migliore accuratezza e accesso web in tempo reale, usando la tua chiave OpenAI fatturata direttamente da OpenAI — la trascrizione usa gpt-4o-mini-transcribe per impostazione predefinita. Questa è la parte che costa denaro, addebitata al minuto da OpenAI, non da noi. Richiede internet. Il layer Cloud è l'unica cosa inclusa in Whisper Pro.

La verità semplice è che per la maggior parte della dettatura quotidiana, Whisper locale o Parakeet sono più che sufficienti, ed è il percorso gratuito dall'inizio alla fine. Entrambi girano interamente sulla tua macchina senza inviare nulla a un server. Il cloud vale il suo costo al minuto solo quando vuoi la massima accuratezza su una registrazione difficile o hai bisogno che il modello recuperi un dato dal web a metà frase. Se la tua domanda era strettamente «Whisper è gratuito?», la risposta che conta è: il percorso locale lo è — inizia da lì.

Modelli, accuratezza e pulizia del testo grezzo

Il modello gratuito non è un unico modello — è una famiglia, e quale scegli è la vera leva per l'accuratezza. I modelli più piccoli sono veloci e leggeri; il modello multilingue large è il più accurato e il più pesante. Nella versione open-source da riga di comando, scegli la dimensione del modello e accetti la velocità che ne deriva. In un'app scegli da un elenco e il modello si scarica una volta. Il punto più importante: l'accuratezza dipende dal modello e dal tuo microfono molto più che da qualsiasi cosa tu paghi. Un microfono USB da $20 fa più per le tue trascrizioni di qualsiasi aggiornamento.

Qualunque modello tu usi, la dettatura grezza esce come un muro di testo senza punteggiatura. Dici «okay quindi il modello è gratuito sotto MIT ma per farlo girare da soli serve python e ffmpeg» e questo è il blocco senza punteggiatura che qualsiasi motore vocale ti consegna. Pulirlo è un passaggio a parte. Whisper by Remskill può eseguire un passaggio AI sulla trascrizione: dì la frase di attivazione «Hey whisper» e il testo viene migliorato prima di arrivare — intercalari eliminati, punteggiatura corretta. Su un modello locale questo avviene tramite Ollama gratuitamente; in modalità cloud usa gpt-5-mini per impostazione predefinita.

Thinking...
Grezzo

okay quindi il modello è gratuito sotto mit ma per farlo girare da soli serve python e ffmpeg e ehm un computer decente altrimenti è lento

Pulito

Okay, quindi il modello è gratuito sotto MIT, ma per farlo girare da soli serve Python e ffmpeg, e un computer decente — altrimenti è lento.

Quindi la questione dell'accuratezza ha due leve gratuite e una a pagamento. Le leve gratuite: scegli un modello adatto al tuo hardware e dagli audio pulito da un microfono almeno decente. La leva a pagamento: la trascrizione cloud, che ti dà accesso ai modelli ospitati più recenti quando la qualità locale non basta. Per la stragrande maggioranza della dettatura, le leve gratuite sono quelle che contano. Chiunque ti prometta «trascrizioni perfette, zero sforzo» non sta essendo onesto con te — il modello è gratuito, ma un buon input fa ancora la maggior parte del lavoro.

Lo stesso flusso parla-poi-pulisci funziona ovunque, non solo qui — puoi dettare testo fluente in qualsiasi app con un solo tasto di scelta rapida, così un messaggio lungo diventa poche frasi pronunciate invece di un paragrafo da digitare.

Quando vale davvero la pena pagare per Whisper

Una bilancia che pesa due opzioni, illustrando quando il gratuito è sufficiente e quando pagare conviene

Dato che l'intero articolo dice «è gratuito», ti devo l'altra metà onesta: ci sono situazioni in cui pagare è la scelta giusta, e fingere il contrario sarebbe un argomento di vendita, non una risposta. Se il percorso locale gratuito fa al caso tuo, prendilo e chiudi la scheda — la maggior parte delle persone è già soddisfatta così. Ma alcune situazioni giustificano davvero un piano a pagamento.

Paga per il percorso cloud quando l'accuratezza su una registrazione difficile vale più dei tuoi soldi — un'intervista con un accento marcato, una registrazione sul campo rumorosa, una trascrizione legale dove una parola sbagliata ti costa cara. I modelli OpenAI ospitati superano quelli locali sui contenuti difficili, e stai pagando OpenAI al minuto esattamente per quel margine. Pagalo anche se vuoi che l'assistente recuperi un dato dal web a metà frase, cosa che un modello locale non può fare offline. E se hai davvero bisogno di zero configurazione su una macchina che non controlli — un laptop aziendale blindato dove non puoi installare Python o scaricare un modello — un servizio ospitato potrebbe essere l'unica porta aperta. Al di fuori di questi casi, il percorso locale gratuito non è una versione inferiore. È lo stesso modello open-source, che fa lo stesso lavoro, gratuitamente.

Opta per il pagamento quando il percorso gratuito integrato comincia a fare male: massima accuratezza su audio difficile, ricerche web in tempo reale o una macchina su cui non puoi eseguire nulla in locale. Al di sotto di quella soglia, il modello gratuito sul tuo hardware è la risposta giusta, e non ti dirò di pagare per quello che OpenAI ha già regalato. La versione gratuita esiste, funziona ed è lo stesso motore sotto.

E se il motivo per cui vuoi Whisper gratuito e locale è la privacy — tenere la tua voce lontana dai server altrui — vale la pena leggere il caso per il riconoscimento vocale completamente offline, perché è esattamente quello che ottieni eseguendo il modello sulla tua macchina.

Quindi: Whisper è gratuito? Il modello lo è, davvero, con licenza MIT e tutto tuo da eseguire. Usarlo gratuitamente significa o un pomeriggio alla riga di comando o un'app che ha già fatto quel pomeriggio per te. La parte a pagamento è sempre e solo il cloud — un hosting che non ti serve strettamente per la dettatura quotidiana. Ho scritto la maggior parte di questo articolo parlando in una casella di testo, con il modello locale gratuito che ascoltava, su un laptop che non mi ha mai chiesto una carta di credito per trascrivere una frase. Questa è tutta la risposta, ed è raro poterne dare una così.

Usa Whisper gratis senza configurazione

Tieni premuto il tasto, parla, rilascia. Il modello open-source trascrive sulla tua macchina, gratuitamente, e incolla il testo dove si trova il cursore.

Modalità locale gratuita per qualsiasi account registrato. Nessuna carta richiesta per iniziare.

Foto di Denys Medvediev

Denys Medvediev

Sono io che leggo le email di supporto, molto probabilmente dettando le risposte.

Approfondimenti