Di Denys Medvediev

Guida pratica

Come eseguire Whisper in locale

Esistono due modi onesti per far girare Whisper sul proprio computer: la via da sviluppatore, tramite Python e la riga di comando, oppure un'app desktop che fa tutto senza aprire un terminale. In entrambi i casi l'audio rimane sul tuo computer. Qui trovi spiegati entrambi i percorsi e quando scegliere l'uno o l'altro.

Ultimo aggiornamento: giugno 2026

Un laptop su una scrivania scura con righe di codice in una finestra di terminale, che evoca la configurazione da riga di comando

Eseguire Whisper in locale significa trascrivere l'audio direttamente sul proprio computer invece di affidarsi a un server cloud. Ci sono due strade: installare Whisper open-source di OpenAI con Python, pip e ffmpeg e lanciarlo da riga di comando, oppure usare un'app desktop come Whisper by Remskill che include già i modelli e detta al cursore senza terminale. In entrambi i casi l'audio resta sul dispositivo.

Whisper è il modello di trascrizione vocale open-source di OpenAI, rilasciato con licenza MIT, e il motivo per cui "come eseguire Whisper in locale" viene cercato così tanto è semplice: gira davvero sul tuo hardware, gratis. Nessuna chiave API, nessun addebito al minuto, nessun audio che lascia il laptop. È un affare genuinamente buono, e il progetto ufficiale su GitHub ti consegna tutto il necessario.

Il problema sta nel significato di «eseguirlo». La via ufficiale è uno strumento da riga di comando. Installi Python, esegui `pip install openai-whisper`, installi ffmpeg, poi punti un terminale verso un file audio. Perfetto se hai una cartella di registrazioni da elaborare in blocco. Molto meno utile se quello che volevi davvero era dettare un'email e vedere le parole apparire. Sono due lavori diversi, e li tratterò entrambi senza sconti.

Ecco il bivio che la maggior parte delle guide salta. «Eseguire Whisper in locale» può significare due cose completamente diverse a seconda di chi lo cerca. Per uno sviluppatore significa: scaricare il modello sul disco e trascrivere file da uno script. Per uno scrittore o un commerciale significa: smettere di digitare e far diventare la propria voce testo in qualsiasi app aperta.

La domanda vera quindi non è solo «come installo Whisper». È «quale Whisper locale mi serve: la CLI per lavori in batch e scripting, oppure un tasto rapido che detta al cursore?». Il primo è il progetto ufficiale OpenAI, ottimo nel suo campo. Il secondo è un'app desktop che usa la stessa famiglia di modelli senza riga di comando. Configurerò entrambi, mostrerò i conti dell'hardware e dirò chiaramente quando il terminale è la scelta migliore.

Cosa significa davvero «eseguire Whisper in locale»

Una persona che lavora su un laptop a una scrivania, a rappresentare l'elaborazione sul dispositivo anziché sul cloud

Eseguire Whisper in locale significa che la trascrizione avviene sul processore del tuo computer, non su un server remoto. Dai in pasto dell'audio, il modello lo converte in testo, e niente lascia la macchina. È questo il vantaggio. Il foglio stipendi del tuo capo letto ad alta voce, l'email alla scuola di tuo figlio, una chiamata registrata con un cliente: niente di tutto ciò finisce nei log di un fornitore esterno perché hai scelto di dettare invece di digitare. Prima il locale, o non vale la pena — questa è la mia opinione, e la supporterò con un dato più avanti.

Whisper di per sé è solo il modello. OpenAI lo ha addestrato e rilasciato i pesi con licenza MIT, ecco perché chiunque può scaricarlo e usarlo senza pagare. Esistono diverse dimensioni di modello, da uno minuscolo con 39 milioni di parametri fino a uno grande da 1,55 miliardi, e la scelta dipende da quanta precisione ti serve rispetto a ciò che il tuo hardware riesce a gestire. Il modello è identico sia che lo usi da terminale sia che lo carichi dentro un'app. Quello che cambia è il guscio che lo avvolge.

E il guscio è tutta la questione. Ne esistono due, entrambi legittimi. Lo strumento ufficiale da riga di comando OpenAI: gratuito, scriptabile, basato su Python, costruito per trascrivere file. E le app desktop che caricano lo stesso tipo di modello dietro una normale finestra, così premi un tasto e parli invece di digitare un comando. La verità banale è che la maggior parte delle persone che cercano questo argomento vogliono uno dei due e non sanno ancora quale. Le prossime due sezioni coprono esattamente queste due strade.

La via da sviluppatore: Python, pip e ffmpeg

Se ti trovi a tuo agio in un terminale, il progetto ufficiale è la risposta più pulita, ed è genuinamente gratuito. Ti servono tre cose: Python (il progetto supporta dalla 3.8 alla 3.11), il pacchetto Whisper, e ffmpeg, che è lo strumento audio su cui Whisper si appoggia per leggere i tuoi file. L'installazione richiede due comandi. `pip install -U openai-whisper` scarica il pacchetto e la sua dipendenza PyTorch. Poi ffmpeg, che varia a seconda del sistema operativo: `brew install ffmpeg` su Mac, `choco install ffmpeg` o `scoop install ffmpeg` su Windows, `sudo apt install ffmpeg` su Ubuntu.

Una volta installato, lo esegui su un file. `whisper audio.mp3 --model turbo` trascrive la registrazione e scrive il testo. Aggiungi `--language Japanese` per saltare il rilevamento automatico, oppure `--task translate` per far uscire una registrazione non in inglese direttamente in inglese. È questo il cuore dello strumento: file in entrata, testo in uscita, e lo fa bene. Puntalo su una cartella di note vocali da elaborare di notte e macina tutto senza che tu debba guardare.

La realtà dell'hardware è dove le aspettative si scontrano con un muro. Le dimensioni ufficiali dei modelli sono: tiny (39M parametri), base (74M), small (244M), medium (769M), large (1,55B) e turbo (809M). La VRAM richiesta da ciascuno racconta la storia vera: circa 1 GB per tiny, circa 2 GB per small, circa 5 GB per medium e circa 10 GB per il modello large. Questi numeri sono pensati per una GPU. I modelli più piccoli girano su CPU, ma una GPU dedicata è quello che rende gestibili i modelli più grandi. Una volta ho disegnato una bella configurazione «eseguo large sul mio laptop», poi l'ho vista strisciare sulla grafica integrata. Il diagramma è sempre sbagliato al secondo commit. La CPU alla fine finisce; il modello large su un laptop sottile non è un piano per il martedì pomeriggio.

La via senza terminale: eseguire Whisper in un'app desktop

Se non vuoi mai vedere un prompt dei comandi, questa è l'altra strada onesta. Whisper by Remskill è un'app desktop per Windows 10 o versioni successive e Mac con Apple Silicon che esegue Whisper in locale per te: i modelli si scaricano dall'app, senza pip, senza ffmpeg, senza Python. Supporta anche Parakeet, un secondo motore locale di cui parlerò tra poco. L'intera pipeline locale è gratuita per qualsiasi account registrato, senza richiedere un metodo di pagamento all'iscrizione. Ecco la sequenza.

Passo 1 — Installa Whisper e accedi.

Scarica dalla pagina di download, installa e crea un account gratuito. Nessuna carta. La pipeline di trascrizione locale è disponibile subito.

Sai che ha funzionato quando l'icona dell'app appare nella barra delle applicazioni e la procedura guidata propone di scegliere un modello.

Passo 2 — Scegli una modalità di trascrizione e scarica un modello.

L'app non sceglie per te. Hai tre opzioni: Cloud (OpenAI, chiave tua), Parakeet locale oppure Whisper locale. Per eseguire tutto sul tuo computer, scegli uno dei due motori locali e lascia che il modello si scarichi dall'app.

Sai che ha funzionato quando il modello termina il download e risulta pronto.

Passo 3 — Conferma il tasto rapido.

Su Windows il predefinito è Ctrl+Space, su Mac è Command+Option tenuto premuto come push-to-talk. Su Mac, concedi il permesso Accessibilità quando richiesto; senza di esso, l'incolla-al-cursore non riesce a raggiungere le altre app.

Sai che ha funzionato quando una registrazione di prova viene incollata in qualsiasi campo di testo.

Passo 4 — Posiziona il cursore ovunque e parla.

Clicca in qualsiasi campo di testo — un'email, un documento, una chat — tieni premuto il tasto rapido, pronuncia una frase, rilascia. La trascrizione appare dove si trova il cursore.

Sai che ha funzionato quando la frase che hai detto appare nel campo di testo come testo scritto.

Whisper
La vera app desktop Whisper nella schermata delle impostazioni, con i pannelli Trascrizione e AI aperti.

La parte lenta è il download del modello, uguale alla via da CLI: i pesi sono i pesi. Tutto il resto sono i quattro passi sopra. La differenza è che non c'è nessun terminale tra te e il modello, e invece di file-in-testo-out ottieni un tasto rapido che detta ovunque si trovi il cursore. Stesso Whisper sotto, lavoro diverso sopra.

Quale modello scegliere e di che hardware hai bisogno

Entrambe le vie chiedono di scegliere un modello, e la scelta si riduce allo stesso compromesso: i modelli più grandi sono più precisi e più lenti, quelli più piccoli sono più veloci e leggeri. Con la CLI ufficiale, il modello large vuole circa 10 GB di VRAM e quello small circa 2 GB, quindi la scheda grafica fissa il limite superiore. Nell'app desktop, i modelli Whisper si dividono in solo-inglese e multilingua: il modello inglese predefinito occupa circa 480 MB su disco, quello multilingua più grande circa 3 GB. Le versioni multilingua coprono 99 lingue e possono tradurre in inglese; le versioni solo-inglese coprono solo l'inglese.

L'altro motore locale dell'app vale la pena di conoscerlo, perché aggira il problema hardware per molte persone. Parakeet è il modello TDT di NVIDIA, circa 600 MB, e gira da 5 a 10 volte più veloce di Whisper su CPU. Copre l'inglese più 24 altre lingue europee, 25 in totale, senza traduzione in inglese. Se detti principalmente in inglese e non hai una GPU potente, Parakeet è la scelta locale veloce. Se hai bisogno del cinese, giapponese, coreano o della traduzione, quello è il territorio multilingua di Whisper, dove Parakeet non può arrivare. Mentre parli, una piccola capsula mostra che l'app sta ascoltando:

Cancel
L'overlay di registrazione: una piccola capsula che appare mentre parli, per farti sapere che l'app sta ascoltando.

La cosa migliore che puoi fare per la precisione non è un modello più grande. Un microfono USB da $20 fa più per la tua trascrizione che saltare due taglie di modello: audio pulito in ingresso batte un modello più pesante alimentato dalla pappa del microfono del laptop. Prima spendi i soldi sul microfono, poi preoccupati del modello. È l'unico consiglio hardware che metterei nero su bianco con piena convinzione.

Locale o cloud: quale modalità per quale lavoro

Se la tua macchina è Apple Silicon o il tuo PC è degli ultimi anni, prova prima in locale. Il cloud è la via di uscita di emergenza, non la scelta predefinita. Ma l'app desktop ti obbliga a scegliere tra tre percorsi, e preferisco che tu scelga bene, quindi ecco come differiscono.

Ecco come differiscono i tre percorsi, dato che l'app te lo chiede:

  • Parakeet localeIl motore TDT di NVIDIA, circa 600 MB, e l'opzione locale più veloce: da 5 a 10 volte più rapido di Whisper su CPU. Copre l'inglese più 24 altre lingue europee, 25 in totale. Nessuna traduzione in inglese. Se detti in inglese o in un'altra lingua europea e vuoi velocità senza GPU, questa è la scelta completamente offline.
  • Whisper localepiù lento di Parakeet sulla stessa macchina, ma le versioni multilingua coprono 99 lingue e possono tradurre in inglese. Le versioni solo-inglese coprono solo l'inglese, non 99. Sceglilo per il cinese, giapponese, coreano o qualsiasi lavoro di traduzione, cose che Parakeet non sa fare. Il modello inglese predefinito occupa circa 480 MB; quello multilingua più grande circa 3 GB.
  • Cloud (OpenAI, BYOK)la migliore precisione e accesso al web, usando la tua chiave OpenAI addebitata direttamente da OpenAI. La trascrizione gira su gpt-4o-mini-transcribe per impostazione predefinita. Richiede internet, quindi è l'unico percorso in cui l'audio lascia il tuo computer. La modalità Cloud fa parte di Whisper Pro.

La verità banale è che per la dettatura quotidiana il locale è più che sufficiente, e entrambi i motori locali girano completamente sul tuo computer senza inviare nulla a un server. Il cloud guadagna il suo posto quando vuoi la massima precisione su una registrazione difficile, o hai bisogno che il modello recuperi un dato dal web a metà frase. Qualunque strada tu abbia scelto per eseguire Whisper in locale — la CLI o l'app — la storia della privacy è la stessa: l'audio resta dov'è. Se restare offline è il motivo principale per cui sei qui, riconoscimento vocale offline approfondisce proprio questo.

Precisione, punteggiatura e pulizia della trascrizione grezza

Qualunque cosa esegua Whisper, la dettatura grezza esce come un testo senza pause. Dici «okay quindi trascrivi la registrazione dello standup poi manda il riassunto al team prima di pranzo» e quello è il muro non punteggiato che qualsiasi motore vocale ti restituisce. La CLI ufficiale ti dà quel testo e si ferma lì: la pulizia è compito tuo, in uno script o a mano. Va bene per la trascrizione in batch dove processerai comunque l'output in seguito.

L'app desktop può fare il passaggio di pulizia per te prima che il testo arrivi. Di' la frase di attivazione «Hey whisper» e un passaggio AI elimina i riempitivi, corregge i testi non punteggiati e aggiunge la punteggiatura. Su un modello locale gira tramite Ollama sul tuo computer; in modalità cloud è gpt-5-mini per impostazione predefinita. La differenza tra grezzo e pulito è la differenza tra una trascrizione da modificare e una da inviare direttamente:

Thinking...
Grezzo

okay quindi trascrivi la registrazione dello standup poi manda il riassunto al team prima di pranzo um e metti in cc il responsabile

Pulito

Okay, quindi trascrivi la registrazione dello standup, poi manda il riassunto al team prima di pranzo, e metti in CC il responsabile.

La precisione dipende principalmente dal modello e dal microfono, e del microfono ho già parlato. Sul fronte modello, le versioni multilingua più grandi di Whisper sono solide in 99 lingue, e la modalità cloud aggiunge la trascrizione di punta di OpenAI quando una registrazione è davvero difficile. Ma per audio pulito e parlato normale, anche i modelli piccoli reggono bene, e inseguire il modello più grande su hardware debole ti dà un output più lento per una precisione che probabilmente non noterai. Abbina il modello al lavoro, non alle specifiche tecniche su carta.

Se il tuo obiettivo principale è parlare invece di digitare tutto il giorno, lo stesso flusso parla-poi-pulisci è quello che ti permette di trasformare la voce in testo su Windows senza mai aprire un terminale, che è appunto il punto della via senza CLI.

Quando la riga di comando è la scelta giusta

Due percorsi che si dividono, a illustrare la scelta tra la riga di comando e un'app desktop

A volte il terminale è davvero lo strumento migliore, e fare finta del contrario per venderti un'app sarebbe disonesto. La CLI ufficiale OpenAI è gratuita, con licenza MIT, e costruita per un lavoro che l'app desktop non fa: trascrivere file, in blocco, da uno script. Se è questo il tuo lavoro, salta l'app.

Scegli la riga di comando quando hai una cartella di registrazioni da elaborare in batch durante la notte, quando vuoi Whisper all'interno di una pipeline Python più grande o di un server che controlli, quando hai bisogno di un flag specifico del modello che l'interfaccia grafica non espone, o semplicemente perché vivi già nel terminale e non vuoi un'altra finestra aperta. È la scelta giusta anche su Linux, per cui l'app desktop non è disponibile. La CLI gira ovunque funzionino Python e ffmpeg. Niente di tutto questo è una critica all'app: è solo un tipo diverso di problema.

Scegli l'app desktop quando il lavoro è dettatura, non elaborazione di file: vuoi dettare nella tua email, nei tuoi documenti, nella chat, e vedere le parole apparire al cursore con un solo tasto. La CLI non può incollare al cursore in un altro programma: non è mai stato il suo compito. Quindi la divisione onesta è questa: file e scripting, usa il terminale; parlare invece di digitare, usa l'app. La maggior parte delle persone, una volta chiaro quale delle due volevano, sa immediatamente da che parte stare.

La stessa logica locale senza cloud vale anche se lo stai configurando su Mac: la guida in da voce a testo su Mac copre il lato Apple Silicon, incluso il permesso Accessibilità di cui il tasto rapido ha bisogno.

Whisper che gira sul tuo computer è uno dei migliori affari nel software in questo momento: un modello che OpenAI ha regalato, lo stesso che i grandi strumenti cloud usano in silenzio, seduto sul tuo disco senza costi. L'unica vera decisione è quale guscio si adatta alla tua giornata. Uso la CLI quando ho file da scorrere, e l'app nell'altro 95% del tempo, perché cambio programma una quarantina di volte all'ora e non voglio digitare un comando ogni volta. Ho dettato gran parte di questa guida con un tasto rapido, in una casella di testo che non era un terminale, con il modello che girava sullo stesso laptop per tutto il tempo.

Esegui Whisper in locale senza terminale

Tieni premuto il tasto rapido, parla, rilascia. Il modello gira sul tuo computer e la trascrizione appare dove si trova il cursore — senza Python, senza pip, senza ffmpeg.

Modalità locale gratuita per qualsiasi account registrato. Nessuna carta richiesta per iniziare.

Foto di Denys Medvediev

Denys Medvediev

Sono io che leggo la nostra email di supporto, molto probabilmente dettando le risposte.

Letture di approfondimento