Guida
Quale modello Whisper dovrei usare
Non esiste un unico modello Whisper giusto: quello giusto dipende da cosa ti interessa di più, se la velocità, la precisione, la lingua o lo spazio su disco. Questa guida associa ogni modello disponibile a un caso d'uso, così puoi scegliere in circa un minuto, e ti dice quando conviene lasciar perdere Whisper e usare Parakeet.
Ultimo aggiornamento: giugno 2026

Il miglior modello Whisper dipende dal lavoro: scegli un modello inglese piccolo per la dettatura quotidiana in inglese, un modello multilingue per le altre lingue, il modello large per la massima precisione, oppure Turbo per la velocità vicina alla qualità del large. Per la velocità prevalentemente in inglese, Parakeet batte Whisper. L'app li presenta tutti e lascia scegliere all'utente.
Questa è la domanda che mi fanno più di ogni altra, di solito formulata così: "Ho scaricato l'app, ora quale modello scelgo?". È una domanda legittima, e la prima risposta onesta è che non c'è un modello che vince su tutti. C'è un modello che vince per la tua macchina, la tua lingua e quanto ti dà fastidio aspettare mezzo secondo in più. Per questo l'app non sceglie al posto tuo. Ti mostra le opzioni e si fa da parte.
Sembra una scappatoia finché non vedi la differenza. Il modello inglese più piccolo pesa circa 140 MB e gira su un portatile del 2016. Il miglior modello multilingue pesa circa 3 GB e vuole 16 GB di RAM. Tra questi due ci sono altre sei scelte più un motore separato chiamato Parakeet. Scegli male e finisci per aspettare troppo o trascrivere nella lingua sbagliata. Scegli bene e ti dimentichi che il modello esista, che è proprio l'obiettivo.
Ecco la cornice che fa quadrare tutta la lista. Ogni modello è un compromesso tra quattro cose: velocità, precisione, quante lingue conosce e quanto disco e RAM consuma. Non puoi avere il massimo su tutti e quattro. Un modello da 3 GB è più preciso e conosce più lingue, ma è più lento e non sta su una macchina da 8 GB. Un modello da 140 MB è istantaneo, ma fa solo inglese e nemmeno benissimo.
Quindi la vera domanda non è "qual è il modello migliore". È "quale compromesso voglio". Una volta che sai se sei un dettatore solo-inglese su un portatile modesto, un traduttore che lavora su nove lingue, o qualcuno che vuole solo l'opzione locale più veloce che esista, la scelta viene da sé. Passerò in rassegna i modelli solo-inglese, quelli multilingue, dove Parakeet li batte tutti, e la raccomandazione in una riga se non hai voglia di leggere il resto.
Parti da una domanda: cosa ti interessa di più?

Prima di qualsiasi nome di modello, rispondi a una domanda: di queste cose, quale conta di più per te adesso, la velocità, la precisione, la copertura linguistica o lo spazio su disco? Puoi sceglierne solo una come priorità, perché i modelli si scambiano l'una con l'altra. Chi si tormenta su questa scelta di solito non ha ancora deciso cosa vuole ottimizzare, ed è per questo che la lista sembra paralizzante. Non lo è. Sono quattro risposte brevi travestite da otto nomi.
Se vuoi velocità e parli inglese, finirai su un modello inglese piccolo o, più probabilmente, su Parakeet. Se ti serve una lingua diversa dall'inglese, sei nella famiglia multilingue, che ti piaccia o no. Se vuoi la trascrizione più precisa che puoi ottenere in locale e hai la RAM per farlo, quello è il modello large. E se lo spazio su disco è poco, il modello più piccolo è il tuo amico e quello da 3 GB è fuori discussione. Questo è l'intero albero decisionale, e il resto di questa guida si limita a riempire i nomi.
Una cosa che l'app fa di proposito: non ti impone mai un'impostazione predefinita. Non c'è nessun badge "consigliato" che ti spinge verso il modello che per caso ci fa fare bella figura in un benchmark. Vedi Cloud, vedi Parakeet, vedi gli otto modelli Whisper divisi in solo-inglese e multilingue, e scegli. Se hai già configurato il riconoscimento vocale su Windows o su Mac in passato, questa è la stessa schermata, puntata su una domanda diversa.
I modelli solo-inglese, dal portatile vecchiotto alla massima precisione
Se detti sempre e solo in inglese, i modelli solo-inglese sono la scelta efficiente: tolgono la macchineria multilingue e spendono quel budget sull'inglese. Sono quattro, e si dispongono in modo ordinato da "portatile vecchio" a "il miglior inglese che puoi far girare in locale". Premi il tasto di scelta rapida, parli, rilasci, e la trascrizione si incolla al cursore indipendentemente da quale hai scelto; l'unica differenza è la velocità e quanto spesso azzecca una parola difficile. Una piccola capsula compare mentre parli, così sai che ti sta ascoltando:
Il più piccolo è Base, circa 140 MB. È quello da scegliere su un portatile del 2016 o su una macchina da 8 GB dove vuoi una dettatura che funziona e basta, senza pensare alla RAM. Sopra c'è Small, circa 480 MB, l'opzione inglese bilanciata: più lento di Parakeet, ma supporta la traduzione verso l'inglese e l'orientamento sulle parole chiave, cosa che Parakeet non fa. Poi Medium, circa 1,5 GB, che vuole 16 GB di RAM e ti dà la massima precisione in inglese semplice della famiglia. (In un benchmark pubblico il modello inglese medium si attesta intorno al 3% di tasso di errore sulle parole con audio pulito; Small è più vicino al 5%. I numeri reali dipendono molto più dal tuo microfono che da quale di questi scegli.)
Il quarto confonde le persone, quindi lasciami essere chiaro. Turbo, che è il modello distil-large-v3, pesa anch'esso circa 1,5 GB ed è descritto come 6 volte più veloce del modello large con il 99% della sua precisione. Sembra un pasto gratis, e per l'inglese quasi lo è: è la scelta quando vuoi una precisione in inglese vicina alla migliore senza la penalità di velocità del modello large completo. Il trucco è l'etichetta "solo-inglese": questi quattro conoscono l'inglese e solo l'inglese. Nel momento in cui ti serve una seconda lingua, sei uscito completamente da questa famiglia, che è la sezione successiva.
I modelli multilingue, per le altre 98 lingue
Nel momento in cui il tuo audio non è in inglese, ti serve un modello multilingue. Le build multilingue di Whisper coprono 99 lingue con rilevamento automatico, e sono l'unico percorso locale capace di tradurre il parlato in inglese mentre trascrive. I modelli solo-inglese non possono farlo, e nemmeno Parakeet. Quindi se detti in ucraino, butti giù una nota in giapponese, o vuoi che una registrazione in spagnolo esca come testo in inglese, questa famiglia è la risposta, punto.
Anche qui sono quattro, e rispecchiano le taglie dei solo-inglese. Small, circa 480 MB, è la base multilingue veloce: il modello predefinito complessivo con cui l'app viene fornita, perché è la scommessa iniziale più sicura quando nessuno conosce ancora la tua lingua. Medium, circa 1,5 GB, scambia velocità per una qualità nettamente migliore. Large v3, circa 3 GB, è la migliore precisione che puoi ottenere in locale e la scelta giusta per il lavoro multilingue professionale, a patto di avere 16 GB di RAM da dargli. E Large v3 Turbo, circa 1,62 GB, è la fascia multilingue veloce: gran parte della qualità del modello large a una frazione dell'attesa.
Una parola sul conteggio delle lingue, perché il numero da brochure e quello reale differiscono a seconda di cosa intendi. I modelli multilingue coprono davvero 99 lingue; i modelli solo-inglese ne coprono esattamente una. Se parli soprattutto inglese e ogni tanto inciampi in una seconda lingua europea, hai un'opzione più veloce di tutte queste, ed è Parakeet, che è la prossima cosa da capire, perché è il modello che le persone più spesso scelgono per errore o saltano per errore.
Quando Parakeet batte Whisper, e quando no

Parakeet non è affatto un modello Whisper: è il motore TDT di NVIDIA, circa 600 MB, ed è l'opzione locale più veloce che l'app offre, descritta come da 5 a 10 volte più veloce di Whisper su CPU. Se hai una CPU più vecchia o da portatile senza una GPU di scorta, quel divario di velocità è la differenza tra una dettatura che sembra istantanea e una che ti fa aspettare. Per il lavoro quotidiano in inglese, Parakeet è il primo a cui ricorro.
Copre l'inglese più altre 24 lingue europee, 25 in totale, quindi per molti utenti europei è più che sufficiente. Quello che deliberatamente non fa è la roba esclusiva di Whisper: niente traduzione verso l'inglese, niente orientamento sulle parole chiave, niente prompt di vocabolario personalizzato. Se il tuo lavoro è monolingue inglese (o una di quelle 24 lingue europee) e vuoi solo velocità, Parakeet vince e la questione è chiusa. C'è altro al riguardo nell'analisi del modello Parakeet se vuoi il quadro completo.
Whisper vince nel momento in cui esci da quella scatola. Ti serve cinese, giapponese o coreano? Whisper multilingue, perché Parakeet non li parla. Devi tradurre una registrazione in inglese? Whisper multilingue, l'unico percorso locale che lo fa. Vuoi orientare il modello verso un elenco di nomi di prodotto o gergo perché smetta di storpiarli? Whisper, tramite le parole chiave. La regola generale: Parakeet per la velocità in inglese, Whisper per le lingue, la traduzione e il controllo. L'app offre entrambi perché nessuno dei due è la risposta giusta per tutti.
Dimensione, velocità e precisione: come funziona davvero il compromesso
Aiuta vedere le tre forze affiancate, perché ogni modello è solo un punto diverso sullo stesso triangolo. I file più grandi sono più precisi e più lenti; i file più piccoli sono più veloci e più leggeri sulla RAM; e i motori speciali piegano la curva. Ecco la versione onesta di ciascuna forza, dato che l'app ti fa scegliere e preferisco che tu scelga conoscendo il costo.
Tre modi di leggere la lista, a seconda di cosa ti stringe:
- Se il problema è la velocità — punta prima su Parakeet: circa 600 MB e da 5 a 10 volte più veloce di Whisper su CPU. Su una macchina senza GPU, in locale non c'è niente che lo eguagli per l'inglese di tutti i giorni. Il costo è niente traduzione verso l'inglese e niente parole chiave.
- Se il problema è la precisione o la lingua — vai più in grande nella famiglia Whisper. Large v3, circa 3 GB, è la migliore precisione in locale e copre 99 lingue, ma vuole 16 GB di RAM. Le varianti Turbo ti danno gran parte di quella qualità con molta meno attesa. Small e Medium sono la via di mezzo sensata.
- Se il problema è lo spazio su disco o la RAM — resta piccolo (Base, circa 140 MB), o salta del tutto il locale e usa la modalità Cloud, che gira su qualsiasi hardware perché è solo una chiamata di rete a OpenAI con la tua chiave. Cloud fa parte di Whisper Pro e ha bisogno di internet.
La verità noiosa è che per la maggior parte delle persone, su una macchina recente, la differenza tra i modelli di taglia media è più piccola della differenza che fa il tuo microfono. Un microfono USB da 20 $ fa di più per la precisione che passare da Small a Large: i benchmark pubblici di Whisper lo confermano, e l'ho visto succedere sulla mia scrivania più di una volta. Quindi non tormentarti su Medium contro Large il primo giorno. Scegli qualcosa che sta nella tua RAM, comincia a dettare, e aggiorna il modello più avanti se una parola continua a uscire sbagliata. Il modello che terrai davvero è quello abbastanza veloce da fartelo dimenticare.
Provane uno, poi cambia in due clic se è sbagliato
Ecco la parte che toglie la pressione a tutta la decisione: non ti stai sposando con il modello che scegli per primo. Cambiare sono due clic nelle Impostazioni, e l'unico costo reale è il download del modello a cui passi. Quindi la strategia giusta non è fare ricerche per un'ora, ma fare una scommessa ragionevole, dettarci per un giorno, e cambiare se ti dà fastidio. L'intera pipeline locale è gratuita per qualsiasi account con accesso effettuato, senza che ti venga chiesto un metodo di pagamento all'iscrizione, quindi provare qualche modello non ti costa nulla a parte lo spazio su disco.
Passo 1 — Apri le Impostazioni e trova il pannello Trascrizione.
È lì che vive la lista dei modelli, divisa in solo-inglese e multilingue, con Parakeet e Cloud accanto. Niente è preselezionato come "il migliore".
Saprai di essere nel posto giusto quando vedi la lista dei modelli con le dimensioni accanto a ogni nome.
Passo 2 — Fai la tua prima scommessa partendo dalla sezione qui sopra.
Inglese e vuoi velocità: Parakeet. Inglese e vuoi precisione: Small o Medium English. Altre lingue: un modello multilingue. RAM al limite: Base.
Saprai che ha funzionato quando il modello finisce di scaricarsi e si mostra come pronto.
Passo 3 — Dettaci per un giorno.
Usalo su lavoro vero, non su una frase di prova. Impari di più da un pomeriggio di appunti reali che da qualsiasi grafico di benchmark.
Saprai che è il modello giusto quando smetti di farci caso e parli e basta.
Passo 4 — Cambia se è sbagliato.
Troppo lento, scegli qualcosa di più piccolo o Parakeet. Manca una lingua o storpia le parole, passa al multilingue o a uno più grande. Due clic, un download, fatto.
Saprai che ha funzionato quando il nuovo modello si carica e la tua prossima registrazione lo usa.
Le persone la trattano come una porta a senso unico, e non lo è. Il primo modello che ho usato non è quello che ho tenuto; ho iniziato con un modello multilingue per abitudine, ho capito che dettavo in inglese tutto il giorno, e sono passato a Parakeet per la velocità. Mi sono bastati due clic e un download della durata di un caffè. Tratta la tua prima scelta come una bozza.
La raccomandazione veloce, se sei saltato alla fine
Se non leggi nient'altro, eccolo qui. Inglese, lo vuoi veloce, macchina modesta: Parakeet. Inglese, vuoi la migliore precisione locale: il modello Medium English, oppure Turbo se vuoi quella precisione senza l'attesa. Un'altra lingua, o ti serve la traduzione: un modello multilingue — Small per iniziare, Large v3 se la precisione conta e hai 16 GB di RAM. Spazio su disco o RAM al limite: Base. Vuoi la precisione di alto livello con accesso al web e ti va bene usare la tua chiave OpenAI: Cloud. Questa è tutta la mappa.
Qualunque tu scelga, la trascrizione grezza esce come un flusso continuo, ed è vero per ogni motore vocale, non solo per il nostro. Dici "okay allora imposta il modello della riunione su medium e ricordami di testare il large più tardi", e quello è il muro senza punteggiatura che ti torna indietro. Whisper può eseguire un passaggio di pulizia con l'IA per sistemare la punteggiatura e togliere le esitazioni prima che il testo arrivi: pronuncia la frase di attivazione "Hey whisper" e fa prima un po' d'ordine. Su un modello locale gira tramite Ollama; in modalità cloud è gpt-5-mini come impostazione predefinita.
okay allora imposta il modello della riunione su medium e ricordami di testare il large più tardi ehm magari parakeet per le cose veloci
Okay, allora imposta il modello della riunione su Medium e ricordami di testare il Large più tardi — magari Parakeet per le cose veloci.
Un'avvertenza onesta che sta bene alla fine di ogni guida "quale modello": se tutto quello che fai è infilare una nota di 30 parole in un campo di testo, potresti non aver bisogno di scegliere alcun modello. Su Windows, la barra integrata di Digitazione vocale si apre con tasto Windows + H ovunque ci sia il cursore: punteggia da sola ed è gratuita, anche se passa per i server di Microsoft e ha bisogno di internet. Su Mac, la Dettatura nelle Impostazioni di Sistema fa lo stesso, e su Apple Silicon il testo generico può essere elaborato sul dispositivo. Sotto la soglia in cui precisione e lunghezza cominciano a pesare, usa quello che hai già sulla tua macchina. Cominciamo a valere il download quando fai volumi seri, vuoi la privacy offline, o ti serve una lingua e un controllo che gli strumenti integrati non offrono. Non ti dirò di installare un'app per dettare la lista della spesa.
Il modello Whisper "migliore" è quello a cui smetti di pensare. Scegli il compromesso che ti interessa, fai una prima scommessa, e cambia in due clic se ti dà fastidio. Ho rilasciato sistemi in cui lo schema dell'architettura era sbagliato già al secondo commit, quindi ho un sano rispetto per il "provalo e aggiusta". La tua scelta del modello ha una posta più bassa di quella, ed è molto più facile da annullare. Comincia da qualche parte. Il download è la parte lenta; decidere non dovrebbe esserlo.
Scegli un modello e comincia a parlare
Fai una prima scommessa, detta per un giorno, cambia in due clic se è sbagliato. L'app ti mostra ogni opzione e ti lascia scegliere.
Modalità locale gratuita per qualsiasi account con accesso effettuato. Nessuna carta richiesta per iniziare.



