Di Denys Medvediev

Approfondimento

Quanto è preciso Whisper, davvero

Whisper è molto preciso su audio in inglese chiaro e se la cava bene nelle lingue principali, ma non è perfetto. Il fattore che incide di più sulla tua precisione è il microfono e una stanza silenziosa, non il modello che scegli. Un passaggio AI corregge la punteggiatura e le parole di riempimento alla fine.

Ultimo aggiornamento: giugno 2026

Forma d'onda audio blu su uno schermo scuro, che rappresenta il parlato misurato per la precisione della trascrizione

Whisper è abbastanza preciso per la dettatura quotidiana e le note professionali, con un tasso di errore sulle parole (WER) di circa il 3% su inglese letto in modo chiaro con il modello medium. La precisione cala con gli accenti, il rumore di fondo, il gergo tecnico e i parlanti sovrapposti. Il miglioramento più grande che la maggior parte delle persone può ottenere è un microfono migliore e una stanza silenziosa, non un modello più grande.

«Quanto è preciso Whisper» è una di quelle domande che hanno una risposta onesta e una risposta di marketing, e non coincidono. La risposta di marketing è «incredibilmente preciso, all'avanguardia». La risposta onesta è «molto buono su una registrazione pulita, notevolmente peggiore su una scadente, e la differenza tra le due dipende soprattutto dal microfono». Ho visto lo stesso modello trascrivere una frase alla perfezione attraverso un microfono USB da $20 e stravolgerne un'altra attraverso il microfono del laptop in una cucina rumorosa.

Quindi questo non è un post da classifica benchmark. È la risposta che darei a un amico che mi chiede se può fidarsi della digitazione vocale per lavoro vero. Versione breve: sì, con alcune avvertenze che puoi controllare. Versione lunga qui sotto, incluso l'unico numero che conta davvero e le tre cose che distruggono silenziosamente la precisione a prescindere da quanto sia buono il modello.

Ecco la cosa che la maggior parte delle pagine sulla «precisione di Whisper» salta. La precisione non è un numero fisso. È un numero che cambia con le dimensioni del modello, la lingua che stai parlando e — più di entrambi questi fattori — la qualità dell'audio in ingresso. Un modello piccolo su una registrazione pulita batte un modello enorme su una registrazione ovattata, ogni volta.

Il modo in cui i ricercatori misurano questo è il tasso di errore sulle parole, di solito scritto WER. È la percentuale di parole che il sistema sbaglia. Il WER pubblicato di Whisper su inglese pulito è basso. Il tuo WER in un pomeriggio di martedì con la lavastoviglie in funzione è un'altra storia. Spiegherò cosa significa il numero, cosa ottiene davvero Whisper, cosa lo abbassa e il rimedio noioso ed economico che aiuta più di qualsiasi aggiornamento del modello.

Cosa significa davvero «precisione»: il word error rate

Primo piano di una forma d'onda audio in un editor su un monitor scuro, che illustra il parlato misurato per gli errori

Quando le persone dicono che un sistema di trascrizione è «preciso al 95%», quasi sempre intendono il tasso di errore sulle parole, o WER. È la misura onesta più semplice che esista: prendi un brano noto, fallo trascrivere al sistema, poi conta le parole che ha sbagliato. Un WER del 5% significa che 5 parole su 100 sono uscite sbagliate — una sostituzione, una cancellazione o una parola inserita che non è stata detta. Più basso è meglio. Zero sarebbe perfetto, e niente di reale raggiunge lo zero.

Quest'ultima parte è importante, quindi la dico chiaramente. Nessun motore vocale è perfetto, e qualsiasi prodotto che lo afferma sta arrotondando per una presentazione. Anche gli esseri umani non sono trascrittori perfetti — i trascrittori umani professionisti si attestano intorno al 4% di WER su audio pulito, e peggio su registrazioni difficili. Quindi quando leggi che Whisper fa «WER del 3%», è più o meno al livello umano su quel tipo di audio, non magia. È uno strumento che funziona bene la maggior parte del tempo e sbaglia a volte, come ogni strumento.

Un'altra sfumatura che vale trenta secondi. Il WER conta ogni parola allo stesso modo, il che non corrisponde a come percepisci effettivamente gli errori. Whisper che sente «c'è» invece di «ce» è un errore di 1 parola che si nota a malapena. Sentire male il nome di un cliente o un dosaggio farmacologico è un errore di 1 parola che rovina la frase. Quindi il numero di titolo ti dice la forma delle cose; non ti dice se la parola che conta è sopravvissuta. Ecco perché una rilettura finale non passa mai di moda, per quanto basso sia il WER.

Quindi quanto è preciso Whisper in pratica

Su inglese letto in modo chiaro, Whisper è genuinamente forte. I benchmark documentati pubblicamente mettono il modello medium a circa il 3% di tasso di errore su un set di test standard con parlato pulito, e il modello più piccolo a circa il 5%. In termini semplici, su una registrazione decente di qualcuno che parla chiaramente, si tratta di una o due parole sbagliate ogni poche frasi — di solito un omofono o una virgola fuori posto, non un significato stravolto. Per dettare email, appunti e bozze, è ampiamente oltre la soglia in cui ti fa risparmiare tempo invece di fartelo perdere.

Il meccanismo nell'app è lo stesso indipendentemente da quanto sia precisa la trascrizione. Premi un tasto di scelta rapida, parli, rilasci, e la trascrizione si incolla al cursore nell'app che ha il focus. Una piccola capsula appare mentre parli così sai che sta ascoltando. Quello che vedi in quella capsula è la registrazione in diretta — la questione della precisione si decide nel mezzo secondo dopo che hai rilasciato, quando il modello trasforma quell'audio in testo.

Cancel
L'overlay di registrazione: una piccola capsula che appare mentre parli, così sai che Whisper sta ascoltando.

La caveat onesta sta proprio accanto al buon numero. Quei valori benchmark sono parlato letto in modo pulito in un laboratorio. La tua cucina, il tuo accento, la tua abitudine di lasciar cadere le frasi a metà — niente di tutto questo è nel set di test. Il benchmark ti dice il soffitto. Il resto di questa guida riguarda quanto vicino a quel soffitto arrivi davvero, e le leve che lo decidono. Spoiler: la più grande non è il modello.

Cosa sposta davvero il numero su o giù

Tre cose influenzano la tua precisione nel mondo reale molto più del badge del modello: l'audio, la lingua e le parole stesse. La qualità audio viene prima con un ampio margine. Un microfono integrato del laptop che capta l'eco della stanza, un ventilatore e un bambino che chiede perché la luna a volte non c'è darà a qualsiasi modello un problema più difficile di un microfono da podcast in una stanza silenziosa. Lo stesso modello, la stessa frase, può passare da quasi perfetto a notevolmente sbagliato solo per via della registrazione. Questa è la leva che quasi nessuno regola ed è quella che ripaga di più.

La lingua è la seconda leva. Le versioni multilingue di Whisper coprono 99 lingue, ma quella copertura non è uniforme. L'inglese è il più supportato, le principali lingue europee e asiatiche sono forti, e le lingue a basse risorse — quelle con meno dati di addestramento su internet — sono più deboli e più soggette a errori. La traduzione in inglese è disponibile solo nelle versioni multilingue di Whisper; le versioni solo-inglese non la fanno, e nemmeno le 25 lingue di Parakeet. Quindi «supporta 99 lingue» è vero ma non significa che tutte e 99 siano ugualmente precise. Testa la tua lingua specifica sul tuo audio prima di fidarti per qualcosa di importante.

La terza leva è il contenuto. Gli accenti spostano il numero — Whisper gestisce un'ampia gamma senza alcun passaggio di «addestramento», ma un accento marcato su gergo tecnico è il caso peggiore per qualsiasi motore. Anche il vocabolario di dominio lo mette in difficoltà: nomi di prodotti insoliti, termini medici o legali, cognomi che non ha mai visto. E i parlanti sovrapposti sono il vero muro invalicabile — Whisper è costruito per una voce alla volta, quindi due persone che parlano sopra l'altra produrranno un disastro. Su Whisper locale puoi reagire con vocabolario personalizzato e hotword biasing, spingendolo verso i nomi e i termini che usi davvero. Parakeet non offre hotword, ed è una ragione valida per scegliere Whisper se il tuo lavoro è pieno di nomi propri.

Modello più grande, più precisione, meno velocità

C'è un vero compromesso tra precisione e velocità, e l'app te lo fa vedere invece di nasconderlo. Come regola generale, più grande è il modello Whisper, più è preciso e più lento gira. Il modello Small solo inglese è circa 480 MB ed è veloce; Medium è circa 1,5 GB ed è più preciso; il Large v3 multilingue è circa 3 GB e offre la massima precisione, ma richiede 16 GB di RAM e una macchina recente per sentirsi reattivo. Scegli il modello più grande che il tuo hardware regge comodamente, non il più grande che esiste.

L'eccezione interessante è Turbo. La versione Turbo di Whisper (distil-large-v3) è documentata come circa 6 volte più veloce di Large v3 mantenendo circa il 99% della sua precisione. È il punto dolce su cui atterrano molte persone: quasi la qualità del modello più grande senza l'attesa. È circa 1,5 GB. Se vuoi una buona precisione e non vuoi fissare uno spinner, Turbo è il punto di mezzo pragmatico.

Ecco la parte che ricadra l'intero compromesso. Il divario di precisione tra un modello piccolo e il più grande è reale ma più piccolo di quanto immagineresti — qualche punto percentuale di WER su audio pulito. Il divario di precisione tra un microfono del laptop e un buon microfono USB sullo stesso modello è più grande. Quindi prima di scaricare 3 GB inseguendo l'ultimo punto di precisione, collega un microfono migliore e registra da qualche parte silenziosa. La noiosa verità è che la maggior parte dei reclami «il modello ha sbagliato» sono in realtà «la stanza ha sbagliato».

Locale o cloud: dove vive la migliore precisione

L'app non sceglie un percorso per te. Ne presenta tre e ti lascia scegliere in base a ciò che cerchi — velocità, copertura linguistica o precisione di alto livello. Per la precisione nello specifico, ecco come si allineano, perché la differenza è reale e vale la pena capirla prima di affidare una registrazione a uno di loro.

I tre percorsi, classificati in base a come si traduce effettivamente la precisione:

  • Parakeet localeIl motore TDT di NVIDIA, circa 600 MB, l'opzione locale più veloce a 5-10 volte più veloce di Whisper su CPU. La precisione è buona — non ai livelli di Large-v3, ma più che sufficiente per la dettatura quotidiana in inglese. Copre l'inglese più 24 lingue europee, 25 in totale. Niente traduzione in inglese, niente hotword. Sceglilo quando la velocità è importante e parli principalmente inglese.
  • Whisper localepiù lento di Parakeet sulla stessa macchina, ma le versioni multilingue raggiungono 99 lingue, traducono in inglese e ti permettono di orientarti verso vocabolario personalizzato e hotword — i controlli di precisione che contano per nomi propri e gergo. La versione più grande (Large v3) è l'opzione locale più precisa. Sceglilo per lavoro multilingue, traduzione o controllo fine.
  • Cloud (OpenAI, BYOK)precisione di alto livello e accesso web usando la tua chiave OpenAI, fatturato direttamente da OpenAI. La trascrizione gira su gpt-4o-mini-transcribe per impostazione predefinita. Richiede internet, quindi è l'unico percorso in cui il tuo audio lascia la tua macchina. Il livello Cloud fa parte di Whisper Pro.

La classifica onesta per la precisione grezza è più o meno: cloud in cima, Large v3 locale un secondo posto ravvicinato, Parakeet un terzo capace per l'inglese. Ma «precisione massima» vince solo se il tuo audio è abbastanza pulito da meritarla. Passare al cloud una registrazione ovattata dall'altra parte della stanza non batterà Whisper locale su una registrazione pulita. Per la maggior parte della dettatura, entrambi i motori locali girano completamente sulla tua macchina senza inviare nulla a un server, ed è più che sufficiente. Ricorri al cloud quando hai una registrazione genuinamente difficile o hai bisogno di recuperare un'informazione dal web a metà frase.

Quattro modi per migliorare la tua precisione

Il soffitto di Whisper è fissato dal modello. Il tuo pavimento è fissato da tutto ciò che gli sta intorno, ed è lì che la maggior parte delle persone perde precisione. La buona notizia è che i rimedi sono economici e richiedono pochi minuti. Ecco i quattro che contano, in ordine di quanto aiutano.

Passo 1 — Risolvi prima il microfono.

Un microfono USB da $20 fa più per la precisione di qualsiasi aggiornamento del modello. Tienilo vicino, non in asse con la bocca così non produce pop, e lontano dalla ventola del laptop. Questo è il singolo cambiamento con il rendimento più alto che puoi fare.

Saprai che ha funzionato quando la stessa frase che usciva storpiata con il microfono del laptop esce pulita.

Passo 2 — Silenzia la stanza.

Chiudi la porta, metti in pausa la musica, aspetta che finisca il ciclo della lavastoviglie. Il rumore di fondo e l'eco sono ciò che sono davvero la maggior parte dei momenti «il modello sbaglia». Una stanza silenziosa è gratis.

Saprai che ha funzionato quando le parole di riempimento e le frasi mezze-captate smettono di apparire nella trascrizione.

Passo 3 — Adatta il modello al lavoro.

Scegli il modello più grande che la tua macchina regge comodamente, o Turbo per una precisione quasi massima alla velocità. Per nomi e gergo su Whisper locale, aggiungi vocabolario personalizzato e hotword così si orienta verso i tuoi termini.

Saprai che ha funzionato quando un modello finisce di scaricarsi, mostra «pronto», e i tuoi nomi propri cominciano ad atterrare giusti.

Passo 4 — Lascia che un passaggio AI lo pulisca.

La dettatura grezza è un flusso continuo con parole di riempimento. Whisper può eseguire un passaggio di pulizia AI che corregge la punteggiatura, elimina le «ehm» e sistema la frase prima che arrivi. Di' la frase di attivazione «Hey whisper» per attivarlo.

Saprai che ha funzionato quando il testo incollato si legge come prosa modificata, non come una trascrizione.

Whisper
La vera app desktop Whisper nella schermata delle impostazioni, con i pannelli Trascrizione e AI aperti.

Quest'ultimo passaggio vale la pena di vedere, perché cambia cosa significa persino «precisione» per il tuo output. La trascrizione può essere parola per parola perfetta e comunque leggersi come un flusso continuo, perché è così che parlano le persone. Il passaggio di pulizia corregge la leggibilità che il WER non misura mai. Su un modello locale gira attraverso Ollama; in modalità cloud è gpt-5-mini per impostazione predefinita. Ecco la stessa frase prima e dopo il passaggio:

Thinking...
L'overlay durante il passaggio di pulizia AI, prima che il testo sistemato atterri al cursore.
Grezzo

um allora la precisione dipende principalmente dal microfono non dal modello e tipo una stanza silenziosa aiuta più di quanto la gente pensi

Pulito

La precisione dipende principalmente dal microfono, non dal modello — e una stanza silenziosa aiuta più di quanto si pensi.

Nota come la pulizia non ha cambiato il significato di una singola parola; ha aggiunto la punteggiatura e rimosso le parole di riempimento che la trascrizione grezza portava con sé. Questa è la parte che le persone confondono con la precisione e non dovrebbero. Il compito del modello è sentirti correttamente. Il compito del passaggio AI è far leggere bene le parole corrette. Rimetti a posto il microfono e la stanza, e entrambi i compiti diventano più facili. Se vuoi il flusso parla-poi-pulisci in qualsiasi app, lo stesso tasto di scelta rapida detta prosa pulita in qualsiasi app, non solo in una.

Il verdetto onesto sulla precisione di Whisper

Una bilancia su una superficie scura, che illustra una valutazione onesta di punti di forza e limiti

Quindi, la risposta diretta. Whisper è abbastanza preciso da fidarsi per lavoro reale — email, appunti, bozze, riepiloghi di riunioni — su audio pulito in una lingua ben supportata. Non è perfetto, e non lo ha mai affermato. Accenti, rumore di fondo, gergo pesante e parlanti sovrapposti abbassano tutti il numero, e nessun badge di modello salva completamente una registrazione scadente. Se sei arrivato qui sperando in «100% preciso», la risposta onesta è che niente lo è, e chiunque lo venda sta vendendo una presentazione.

Quando non dovresti preoccuparti di inseguire la precisione di livello Whisper? Se detti solo qualche testo occasionale di 30 parole, il tuo sistema operativo lo fa già gratis. Su Windows, premi il tasto Windows + H per aprire Digitazione vocale ovunque si trovi il cursore — aggiunge la punteggiatura da solo, anche se passa attraverso i server Microsoft e richiede internet, quindi non è offline. Su Mac, Dettatura nelle Impostazioni di sistema digita in qualsiasi campo, e su Apple Silicon il testo generale può essere elaborato sul dispositivo. Per brevi sessioni, queste opzioni vanno bene, e non ti dirò di installare nulla per un promemoria di una riga. Uno strumento dedicato guadagna il suo posto con note più lunghe, lavoro multilingue, privacy offline e i controlli di precisione — hotword, scelta del modello, un passaggio di pulizia — che le funzionalità integrate non ti danno.

Se stai valutando i motori locali l'uno contro l'altro, la scelta precisione-versus-velocità è l'intera decisione, ed è spiegata chiaramente in quale modello Whisper usare e la panoramica del modello Parakeet. Per la maggior parte delle persone la risposta non è glamour: un modello di dimensioni medie, un buon microfono, una stanza silenziosa e un passaggio di pulizia. Quella combinazione ti porta a un soffio dal benchmark sull'audio che registri davvero.

Se la precisione è la tua preoccupazione perché vuoi evitare completamente il cloud, i compromessi in riconoscimento vocale offline spiegano come reggono i modelli locali senza una rete nel ciclo.

Ho trascorso una settimana all'inizio convinto che un aggiornamento del modello avrebbe sistemato le mie trascrizioni, ho scaricato 3 GB e ho recuperato forse un punto di WER. Poi ho comprato un microfono USB da $20 e mi sono spostato dal tavolo della cucina, e le trascrizioni sono diventate notevolmente più pulite lo stesso pomeriggio. Il modello non era mai stato il problema. Era la stanza. Whisper è molto preciso; se lo vedi dipende da cosa ci dai in pasto.

Sentilo di persona con la tua voce

Scarica Whisper, collega un buon microfono e detta un paragrafo. La precisione è molto più facile da valutare sul tuo audio che sul benchmark di qualcun altro.

Modalità locale gratuita per qualsiasi account registrato. Nessuna carta richiesta per iniziare.

Foto di Denys Medvediev

Denys Medvediev

Sono io che leggo le nostre email di supporto, molto probabilmente dettando le risposte.

Ulteriori letture