Approfondimento
Il modello NVIDIA Parakeet
Parakeet è il modello di sintesi vocale open di NVIDIA. La versione attuale, parakeet-tdt-0.6b-v3, pesa circa 600 MB, funziona offline ed è da 5 a 10 volte più veloce di Whisper su CPU. Ecco cos'è e come si confronta.
Ultimo aggiornamento: giugno 2026

Il modello NVIDIA Parakeet è un modello open di riconoscimento vocale basato su un encoder FastConformer e un decoder Token-and-Duration Transducer. La versione attuale, parakeet-tdt-0.6b-v3, ha circa 600 milioni di parametri, trascrive 25 lingue europee incluso l'inglese ed è da 5 a 10 volte più veloce di Whisper su CPU. Non traduce in inglese.
La maggior parte delle persone incontra la parola "Parakeet" aspettandosi un pappagallino e se ne va con un modello di trascrizione vocale. È di NVIDIA, è open con una licenza permissiva, e la versione che conta per la dettatura quotidiana si chiama parakeet-tdt-0.6b-v3. Lo "0.6b" è il numero di parametri — circa 600 milioni. Su disco occupa circa 600 MB. Abbastanza poco da vivere sul laptop senza mai contattare un server.
Mi interessa per una ragione poco glamour: lo distribuiamo noi. Parakeet è uno dei motori locali dentro Whisper, fianco a fianco con i modelli Whisper di OpenAI, e la domanda che ricevo di più è "quale scegliere, e perché il pappagallo è così veloce." Questa è la versione diretta: cos'è davvero Parakeet, come il suo decoder lo rende rapido, e il punto esatto in cui ti passerei a Whisper invece.
Ecco la cosa che il gergo delle schede tecniche nasconde. Parakeet è un modello di trascrizione e solo di trascrizione. Ascolta l'audio e scrive le parole, punteggiatura e maiuscole incluse. Non riassume, non traduce in inglese e non accetta hotword. Quello che fa, lo fa molto velocemente.
Quindi il confronto utile non è "Parakeet contro Whisper, chi vince." È "a cosa serve ciascuno." Parakeet è la scelta veloce per inglese e lingue europee, completamente offline. Whisper è la scelta per 99 lingue, traduzione in inglese e controllo fine, ma è più lento sullo stesso hardware. Ti spiego la velocità, ti do l'elenco delle lingue senza giri di parole, e ti mostro come usare Parakeet gratis, in locale, in circa due minuti.
Cos'è davvero il modello Parakeet

Parakeet è una famiglia di modelli di riconoscimento automatico del parlato pubblicata da NVIDIA. Quello che distribuiamo, e quello che la maggior parte delle persone intende, è parakeet-tdt-0.6b-v3, rilasciato nell'agosto 2025 con licenza CC-BY-4.0. "0.6b" equivale a 600 milioni di parametri. Il download è di circa 600 MB. Dentro Whisper arriva come modello ONNX eseguito da transcribe-rs, il nostro layer di trascrizione in puro Rust, il che significa nessun runtime Python e nessun processo separato da gestire.
Il suo compito è circoscritto ed è onesto al riguardo. Parakeet prende l'audio e restituisce testo con punteggiatura e maiuscole automatiche, più timestamp a livello di parola se richiesti. Rileva la lingua da solo — non glielo dici tu. Quello che non fa è altrettanto importante: nessuna traduzione in inglese, nessun biasing del vocabolario personalizzato, nessuna lista di hotword "prioritizza queste parole". Trascrive. È tutto il contratto.
La parte interessante del nome è "TDT", ed è il motivo per cui il modello è veloce e non solo piccolo. TDT sta per Token-and-Duration Transducer. L'encoder è un FastConformer, l'approccio efficiente di NVIDIA all'architettura Conformer usata dalla maggior parte dei modelli vocali moderni. L'abbinamento — encoder veloce, decoder intelligente — è l'ingegneria dietro al numero che fa notizia, e vale una sezione a sé.
Come un Token-and-Duration Transducer va veloce
I vecchi modelli transducer scorrono l'audio un fotogramma minuscolo alla volta e, a ogni fotogramma, chiedono "c'è un nuovo pezzo di parola qui, oppure no." La maggior parte delle volte la risposta è "no" — emettono uno spazio vuoto, avanzano di un fotogramma e chiedono di nuovo. Quel ciclo di emissione di vuoti è la maggior parte del lavoro e del tempo sprecato. È l'equivalente, per i modelli vocali, di leggere una frase un pixel alla volta.
Un Token-and-Duration Transducer cambia la domanda. Invece di prevedere solo il token successivo, prevede il token e quanti fotogrammi saltare prima del prossimo. Quando c'è un tratto di vocale lunga o una pausa, il modello lo supera in un solo passo invece di macinare fotogramma per fotogramma. Meno passi di decodifica, stesse parole in uscita. Quella previsione di durata è il trucco a cui punta il nome "TDT", ed è da lì che viene la velocità.
Dalla tua sedia, niente di tutto questo si vede. Tieni premuto un tasto rapido, parli, rilasci, e il testo appare nel cursore — la capsula overlay qui sopra è l'unica cosa che vedi mentre ascolta. La matematica del decoder è idraulica nascosta. Ma è il motivo per cui Parakeet finisce un blocco audio mentre un modello Whisper paragonabile sta ancora masticando i vuoti, e su una CPU quella differenza è tra "istantaneo" e "aspetta un attimo."
Parakeet vs. Whisper, senza il marketing
La gente lo tratta come un incontro di boxe. Non lo è. Sono due strumenti con forme diverse, e dentro la nostra app puoi tenerli entrambi installati e cambiare per ogni registrazione. Il modo più chiaro di tenerlo in testa: Parakeet ottimizza per velocità e semplicità offline; Whisper ottimizza per copertura e controllo.
Parakeet è più veloce — da 5 a 10 volte più veloce di Whisper su CPU, stando a quanto dichiara NVIDIA e a quanto vediamo noi stessi. Copre 25 lingue, tutte europee, inglese compreso. Aggiunge punteggiatura e maiuscole automaticamente. Quello che cede: non può tradurre altre lingue in inglese, non ha biasing di hotword o vocabolario personalizzato, e non tocca le decine di lingue non europee — cinese, giapponese, coreano, arabo, hindi — che le versioni multilingue di Whisper gestiscono senza battere ciglio.
Whisper, nelle versioni multilingue di OpenAI, raggiunge 99 lingue e traduce ognuna di esse in inglese. Espone anche le leve che Parakeet non ha: beam-size, un prompt iniziale, biasing di hotword per nomi e gergo. Il costo è il tempo reale sullo stesso hardware, e i modelli più grandi richiedono più RAM. La regola empirica è semplice: se parli inglese o un'altra lingua europea e la vuoi subito, Parakeet. Se hai bisogno di traduzione, di una lingua non europea o di controllo fine, Whisper. La verità banale è che la maggior parte di chi li prova entrambi finisce per tenerli entrambi.
I numeri veri: velocità e 25 lingue

Partiamo dalla velocità, perché è il motivo per cui Parakeet esiste nella nostra app. Il numero dichiarato da NVIDIA è da 5 a 10 volte più veloce di Whisper su CPU, e corrisponde a quello che vediamo noi. Sull'Open ASR Leaderboard pubblico il modello raggiunge un fattore in tempo reale nell'ordine delle migliaia — significa che può trascrivere molto più velocemente della riproduzione audio quando ha a disposizione una GPU potente. Tu non avrai quella GPU. Ma anche su una CPU normale di un laptop, il decoder che salta la durata mantiene una dettatura breve con la sensazione dell'istantaneo invece del ritardato.
Ora l'elenco delle lingue, detto con precisione perché non ti sorprenda dopo. Parakeet v3 gestisce 25 lingue, tutte europee, inglese compreso — quindi inglese più 24 altre, non 99. L'insieme va dalle ovvie (inglese, francese, tedesco, spagnolo, italiano, portoghese, olandese, polacco) attraverso le lingue nordiche e baltiche fino a russo e ucraino. Rileva automaticamente quella che stai parlando. Se una pagina di modello o un forum ti dice che Parakeet fa 99 lingue, lo sta confondendo con Whisper. Ne fa 25, e le fa velocemente.
Due altri limiti che vale la pena dire a voce alta, perché sono quelli su cui la gente inciampa. Parakeet non ha una modalità traduci-in-inglese — trascrive quello che hai detto nella lingua in cui lo hai detto, punto. E non accetta hotword, quindi se la tua dettatura è piena di nomi di prodotti insoliti o cognomi particolari, non puoi pre-alimentarli. Nessuno dei due è un difetto; sono semplicemente i bordi di un modello veloce e focalizzato. (L'accuratezza sull'inglese semplice è genuinamente buona — sul benchmark standard di parlato pulito è sotto il 2% di word error rate — ma "buono" e "adattabile al tuo gergo tecnico" sono promesse diverse.)
Usa Parakeet gratis, in locale, in due minuti
Non ti serve un account NVIDIA, Python installato, né una GPU per provarlo. Ti serve un Mac con Apple Silicon o un PC Windows 10 o superiore, un microfono funzionante e qualche minuto. L'intera pipeline locale — Parakeet compreso — è gratuita per qualsiasi account registrato, senza chiedere un metodo di pagamento all'iscrizione. Ecco la sequenza.
Passo 1 — Installa Whisper e accedi.
Scarica dalla pagina di download, installa e crea un account gratuito. Nessuna carta. L'intera pipeline di trascrizione locale si apre subito.
Sai che ha funzionato quando l'icona della tray dell'app appare e la procedura guidata ti offre di scegliere un modello.
Passo 2 — Scegli Parakeet locale.
L'app presenta tre percorsi e non sceglie per te: Cloud, Parakeet locale, Whisper locale. Scegli Parakeet locale e lascia che il modello da circa 600 MB si scarichi una volta.
Sai che ha funzionato quando Parakeet finisce di scaricarsi e compare come pronto.
Passo 3 — Conferma il tasto rapido.
Su Windows il default è Ctrl+Space, su Mac è Command+Option tenuto premuto come push-to-talk. Su Mac, concedi il permesso di Accessibilità quando richiesto; senza di esso, l'incolla-al-cursore non riesce a raggiungere le altre app.
Sai che ha funzionato quando una registrazione di prova si incolla in qualsiasi campo di testo.
Passo 4 — Posiziona il cursore ovunque e parla.
Clicca in qualsiasi campo di testo — un'email, un documento, una chat — tieni premuto il tasto rapido, di' una frase, rilascia. Parakeet la trascrive e il testo appare dove si trova il cursore.
Sai che ha funzionato quando la frase che hai detto è nel campo come testo, un attimo dopo che hai rilasciato.
La parte lenta è quel download iniziale del modello. Tutto il resto segue i quattro passi qui sopra, e una volta che Parakeet è su disco non chiama mai casa — audio e trascrizione restano entrambi sulla tua macchina. Se hai già configurato la dettatura su Windows o su Mac, è lo stesso flusso con un motore più veloce sotto.
Accuratezza, flusso continuo e pulizia del testo
La dettatura grezza di qualsiasi motore, Parakeet compreso, viene fuori come un flusso senza pause. Dici "okay allora sposta il daily alle dieci archivia la bozza parakeet e scrivi a marco" e ottieni quel muro senza punteggiatura. Parakeet aggiunge la sua punteggiatura e le maiuscole, il che è già più di quello che fanno molti modelli, ma non eliminerà i tuoi "ehm" né riformulerà un pensiero confuso in una riga pulita.
È qui che un passaggio AI vale il suo peso. Di' la frase di attivazione "Hey whisper" e il testo trascritto viene migliorato prima di atterrare — riempitivi rimossi, periodi spezzati, il disordine parlato trasformato in qualcosa che invieresti davvero. In locale questo passa attraverso Ollama sulla tua macchina; in modalità cloud è gpt-5-mini per default. Parakeet fa l'ascolto, il miglioramento fa il riordino.
okay allora sposta il daily alle dieci archivia la bozza parakeet e scrivi a marco ehm prima di pranzo
Okay, allora sposta il daily alle dieci, archivia la bozza Parakeet e scrivi a Marco prima di pranzo.
Sull'accuratezza in sé, Parakeet è genuinamente solido sull'inglese pulito — sotto il 2% di word error rate sul benchmark standard, che è nel quartiere di Whisper, non al di sotto. La nota onesta è quella che nessuno mette nel marketing: nessun modello aggiusta l'audio cattivo. Un microfono USB da $20 fa più per l'accuratezza della tua trascrizione che cambiare motore. L'ho imparato nel modo noioso, dopo aver incolpato il modello per una settimana di registrazioni incomprensibili che si sono rivelate essere il microfono integrato del mio laptop che captava la lavastoviglie.
Quella stessa abitudine parla-poi-pulisce rende ottimamente anche al di là di una singola app — puoi scrivere email e documenti interi con la voce usando un solo tasto rapido, così un lungo paragrafo diventa qualche frase parlata invece di qualcosa che mastichi sulla tastiera.
Quando scegliere Whisper invece di Parakeet

Ti farei un torto se ti vendessi Parakeet come la risposta a tutto. È la scelta veloce, non quella universale, e ci sono casi chiari in cui passerei oltre per uno dei modelli Whisper — o per la dettatura gratuita già sulla tua macchina.
Scegli Whisper invece di Parakeet quando vale una di queste condizioni. Hai bisogno di una lingua fuori dalle 25 di Parakeet — cinese, giapponese, coreano, arabo, hindi, qualsiasi cosa non europea — perché Parakeet semplicemente non le copre. Hai bisogno della traduzione in inglese, per cui Parakeet non ha modalità. Oppure detti gergo tecnico pesante, nomi insoliti o termini di prodotto e vuoi il biasing di hotword per bloccarli, funzione che solo Whisper espone. Per ognuno di questi casi, le versioni multilingue di Whisper con la loro portata a 99 lingue sono lo strumento giusto, anche se girano più lentamente sullo stesso laptop.
E a volte lo strumento giusto non è proprio il nostro. Se lasci solo una nota da 20 parole in un campo di testo, il tuo sistema operativo lo fa già gratuitamente: il tasto Windows + H apre la Digitazione vocale ovunque sia il cursore (ha bisogno di internet, quindi non è offline), e su Mac la Dettatura in Impostazioni di Sistema → Tastiera scrive ovunque tu possa, elaborata sul dispositivo su Apple Silicon. Al di sotto della soglia in cui velocità, privacy offline o un passaggio AI pulito contano davvero, usa quello che è gratuito. Non ti dirò di installare un motore per un promemoria di una riga.
Se stai scegliendo una configurazione su una macchina Apple in particolare, i compromessi tra Parakeet, Whisper e la dettatura integrata di Apple sono illustrati in le migliori opzioni di sintesi vocale per Mac, che affronta la stessa scelta velocità-versus-copertura dal lato Mac.
Parakeet è un modello da 600 MB che prende il nome da un uccello e fa una cosa sola — trasformare il parlato europeo in testo, velocemente, sulla tua macchina — e si rifiuta di fingere di fare di più. Trovo quella compostezza stranamente rassicurante in un anno in cui ogni strumento afferma di fare tutto. Ho dettato la prima bozza disordinata di questo articolo con Parakeet in esecuzione in locale, poi ho lasciato che il passaggio AI sistemasse il flusso, poi sono passato a un modello Whisper per una riga citata in ucraino che Parakeet avrebbe gestito benissimo ma che volevo tradurre. Due motori, un tasto rapido, nessun server. È tutto il senso di averli entrambi.
Prova Parakeet sulla tua macchina
Tieni premuto il tasto rapido, parla, rilascia. Parakeet trascrive in locale e il testo appare nel cursore — in ogni app che apri.
Modalità locale gratuita per qualsiasi account registrato. Nessuna carta richiesta per iniziare.



