Di Denys Medvediev

Risoluzione dei problemi

Perché la mia dettatura è così imprecisa?

Di solito la dettatura è imprecisa per via della configurazione, non perché il software sia rotto: un microfono scadente, una stanza rumorosa, la lingua sbagliata o il modello sbagliato.

Ultimo aggiornamento: giugno 2026

Primo piano di un microfono a condensatore da studio, a corredo di una discussione sul perché la dettatura vocale sbaglia

Di solito la dettatura è imprecisa per via della configurazione, non perché il software sia rotto. I colpevoli principali sono un microfono scadente, una stanza rumorosa, la lingua impostata male e un modello che non si adatta alla tua macchina. Un audio pulito in una stanza silenziosa con la lingua giusta porta la maggior parte delle persone intorno al 95% di accuratezza: circa una parola sbagliata su venti.

Una volta ho visto un parente scagliare le cuffie dall'altra parte della stanza. Era fine anni '90, il computer era un desktop con Windows 98 e 64 MB di RAM, e il software era Dragon NaturallySpeaking. L'addestramento durava 45 minuti: leggevi ad alta voce un elenco di parole per "calibrarlo". Poi funzionava, più o meno, forse al 70% di accuratezza, con quattro secondi di ritardo per frase. Quindici minuti per dettare un paragrafo di una lettera di auguri. Le cuffie sono sopravvissute. L'esperimento di dettatura no.

Lo tiro fuori perché la frustrazione nella tua domanda è vecchia, ma la causa è cambiata. La dettatura moderna non ha bisogno di un rituale di calibrazione di 45 minuti. Quando oggi sbaglia le parole, non è quasi mai perché il modello è stupido. È perché l'audio che arriva al modello è peggiore di quanto pensi, e una quantità sorprendente di tutto questo si risolve in meno di un minuto. L'accuratezza di Whisper in modalità locale si attesta tra il 95% e il 99% su audio inglese pulito, ma quel numero presuppone alcune cose che spesso non sono vere.

Questa è una diagnosi, non un elenco di rimedi. Capiremo quale di cinque cose sta rovinando la tua trascrizione, all'incirca nell'ordine in cui ciascuna è davvero la causa. Se vuoi la guida approfondita su microfono e parole personalizzate, la nostra guida per correggere la dettatura che digita le parole sbagliate copre quel terreno. Questo articolo ti aiuta a trovare prima la causa, così aggiusti la cosa giusta.

Quale accuratezza è davvero realistica

Primo piano di un grafico a barre blu su carta, a corredo di aspettative realistiche sui tassi di trascrizione

Ecco il numero che nessuno mette sulla propria pagina di marketing. Il riconoscimento vocale si misura in tasso di errore sulle parole, o WER — la quota di parole che il sistema sbaglia, contando sostituzioni, omissioni e inserimenti rispetto a ciò che hai detto davvero. Più basso è, meglio è. Un WER pari a zero è una trascrizione perfetta; l'accuratezza sulle parole è semplicemente uno meno il WER.

Sul benchmark inglese pulito LibriSpeech, il modello inglese medium di Whisper registra circa il 3% di WER, cioè all'incirca il 97% di accuratezza. Il modello inglese small si attesta intorno al 5,1% di WER, circa il 95%. Sono numeri da audio pulito: una stanza silenziosa, un buon microfono, una lettura attenta. La vita reale aggiunge rumore, accenti, voci sovrapposte e gergo, e ognuna di queste cose fa legittimamente salire il WER.

Quindi cosa è normale? Circa il 95% su un audio inglese decente: una parola sbagliata su venti. Non è un difetto. È lo strumento che funziona come previsto. Se sei all'85% in una cucina rumorosa con il microfono integrato del portatile, il software non è rotto: le condizioni sono al di sotto di ciò di cui il modello ha bisogno. La soluzione sono le condizioni, non un modello più grande. Metti l'asticella a "una piccola correzione per paragrafo" e gran parte della rabbia scompare dall'esperienza.

I cinque sospetti, in ordine di probabilità

Lente d'ingrandimento su una superficie blu, che evoca la caccia a ciò che rovina la trascrizione

Quando la dettatura va male, la causa è quasi sempre una di cinque cose. Scorri questo elenco in ordine. Le prime due coprono la maggior parte dei casi.

  1. L'impostazione della lingua. Stai parlando una lingua; lo strumento ne ascolta un'altra, o tira a indovinare.
  2. Il microfono. Un microfono integrato del portatile a un metro di distanza sente la stanza più della tua bocca.
  3. La stanza. Rumore di fondo, una TV, una cucina con eco: il modello trascrive tutto.
  4. Il modello. Ne hai scelto uno troppo pesante per il tuo hardware, quindi è lento o va in affanno.
  5. L'aspettativa. L'audio va bene e lo strumento va bene; ti stai misurando con il 100%, che nessuno raggiunge.

Un autotest da 60 secondi: detta le stesse due frasi tre volte: una in una stanza silenziosa vicino al microfono, una dall'altra parte della stanza, una con la musica accesa. Se l'accuratezza oscilla parecchio tra queste prove, il tuo problema è l'audio (sospetti 2 e 3), e nessuna modifica al software batterà l'avvicinare il microfono e chiudere la porta. Se è scarsa anche nella prova silenziosa e ravvicinata, guarda l'impostazione della lingua e il modello. Quel singolo test risolve il dubbio della maggior parte delle persone in un minuto.

Causa 1: l'impostazione della lingua sbagliata

Due mappamondi su sfondo grigio, a rappresentare la scelta della lingua e dell'accento giusti

Questo è il rimedio da dieci secondi che nessuno verifica per primo. Se sai che lingua stai parlando, selezionala esplicitamente nelle impostazioni invece di lasciare lo strumento sul rilevamento automatico. Quando imposti una lingua specifica, lo strumento smette di cercare di indovinare quale lingua sta sentendo e dedica tutto lo sforzo a indovinare bene le parole: notevolmente più veloce e più affidabile.

Le trappole da disallineamento sono reali. I modelli multilingue di Whisper coprono 99 lingue con il rilevamento automatico, ma i modelli solo inglese sono bloccati sull'inglese: dai loro un'altra lingua e ottieni un risultato senza senso. Parakeet in locale gestisce l'inglese più 24 lingue europee e nient'altro al di fuori di quel set, quindi dettare in giapponese non funzionerà mai, per quanto pulito sia il tuo microfono. E se davvero passi da una lingua all'altra a metà frase, ti serve un modello Whisper multilingue con rilevamento automatico, non uno solo inglese. Adatta l'impostazione alle parole che escono dalla tua bocca e una bella fetta di "imprecisione" sparisce prima ancora di toccare qualsiasi altra cosa.

Causa 2: il tuo microfono fa più danni del tuo accento

Microfono a condensatore con filtro anti-pop in uno studio, a illustrare l'attrezzatura che plasma la qualità dell'audio

Le persone danno la colpa al loro accento. È quasi sempre il microfono. Per anni ho dato la colpa al mio: si è scoperto che la mia voce andava bene ed era il microfono da 0 dollari del portatile il problema. Ecco l'opinione che difenderò: l'"IA" non aggiusta un audio scadente. Un microfono USB da 20 dollari fa di più per l'accuratezza di qualsiasi aggiornamento del modello: il microfono e una stanza silenziosa sono le due leve più importanti per l'accuratezza, più del modello che scegli. Spendi i soldi sull'hardware prima di spenderli su un download più grande.

Il meccanismo è banale e fisico. Un microfono integrato del portatile sta a trenta centimetri o più dalla tua bocca e raccoglie la scrivania, la ventola e la stanza. Un'asta delle cuffie o un microfono USB a quindici centimetri di distanza sente la tua voce e poco altro. Lo strumento può trascrivere solo ciò che gli arriva, e un segnale impastato, lontano e rumoroso gli dà meno materiale su cui lavorare: così tira a indovinare, e indovinare è il modo in cui ottieni le parole sbagliate. Non rispiegherò qui tutto il manuale su microfono e vocabolario; il nostro approfondimento su la dettatura che digita le parole sbagliate tratta in dettaglio il posizionamento del microfono, il guadagno d'ingresso e il vocabolario personalizzato. Per questo articolo il punto è più ristretto: se il tuo test a tre prove ha mostrato l'accuratezza che crolla con la distanza, il sospetto è il microfono, non la tua voce.

Causa 3: la stanza, non le parole

Microfono con filtro anti-pop in uno studio musicale insonorizzato, un ambiente a basso rumore per una cattura nitida

Un microfono non può non-sentire una stanza. Se c'è una TV accesa, una lavastoviglie in funzione, un open space alle tue spalle, o dei bambini che discutono le regole di un gioco da tavolo a due metri di distanza, il modello trascrive quell'energia insieme alla tua voce. Non sa quale suono sia quello che intendevi.

La soluzione è imbarazzantemente poco tecnologica: chiudi la porta, spegni la musica, allontanati dalla ventola. Le superfici morbide aiutano: una stanza con un tappeto e delle tende è più gentile con un microfono di una cucina piastrellata con pareti spoglie, dove la tua voce rimbalza e arriva due volte. Non ti serve la schiuma acustica. Ti serve che la lavastoviglie finisca il ciclo. Ho dettato email della scuola mentre preparavo i cestini del pranzo e il modello stava al passo benissimo, ma è perché la cucina era silenziosa, non perché il software sia magico. Nel momento in cui parte il frullatore, l'accuratezza cala, e quello non è un bug da segnalare.

Causa 4: il modello è sbagliato per il tuo hardware

Whisper
La vera app Whisper: presenta tre strade e ti lascia scegliere il modello adatto alla tua macchina. Clicca pure nelle Impostazioni; è dal vivo.

Questa è quella che i concorrenti trattano come una scatola nera, e conta. Più grande non è sempre meglio. Scegli un modello troppo pesante per la tua macchina e gira lento, resta indietro, e l'esperienza sembra rotta anche quando l'accuratezza sulla carta va bene.

Whisper by Remskill non sceglie un modello al posto tuo. Presenta tre strade e ti lascia scegliere: modalità Cloud usando la tua chiave OpenAI, Parakeet in locale, o Whisper in locale. La modalità Cloud gira su qualsiasi hardware perché è solo una chiamata di rete. In locale, i conti riguardano la RAM. Su una macchina da 8 GB, Parakeet (~600 MB), il modello Base o il modello Small girano comodamente, mentre il modello Medium farà fatica. I modelli Whisper più grandi — Large v3 a ~3 GB, o Turbo — vogliono 16 GB o più e beneficiano di più di una GPU dedicata. L'opzione multilingue con la migliore accuratezza è Large v3, che supporta 99 lingue ma ha bisogno di quel margine di 16 GB.

Il flusso premi-per-parlare è lo stesso qualunque strada tu scelga: tieni premuto il tasto di scelta rapida, parla, rilascia, e il testo viene incollato al cursore. Il tasto di scelta rapida predefinito è Ctrl+Space su Windows e la combinazione Command+Option su macOS, entrambi modificabili nelle Impostazioni. Non sai quale modello sia adatto al tuo portatile? La nostra guida alla scelta del modello Whisper giusto associa ciascuno all'hardware di cui ha bisogno. La regola pratica: un modello che ci sta e gira veloce batte uno più grande che balbetta.

Quando il problema è davvero lo strumento, e quando è solo fisica

A volte hai fatto tutto bene — microfono vicino, stanza silenziosa, lingua corretta, modello sensato — e sbaglia comunque una parola su quindici. Quello può essere il vero limite. Accenti marcati che il modello ha incontrato poco, gergo tecnico fitto, due persone che parlano una sopra l'altra, un altoparlante del telefono dall'altra parte: queste cose fanno legittimamente salire il WER, e nessuna impostazione le risolve del tutto. Per i nomi e il gergo di settore, Whisper in locale e la modalità Cloud ti permettono di aggiungere un elenco di Parole Personalizzate che orienta il riconoscimento verso l'ortografia giusta; Parakeet non accetta quei suggerimenti. Ma "impara la mia voce più la uso" è un mito dell'era Dragon: il riconoscimento vocale moderno non si adatta alla tua voce individuale nel tempo, e nessuna quantità di ripetizioni lo addestra. La leva è l'audio e le impostazioni, non la pazienza.

Quando lasciar perdere Whisper per questo

Se tutto ciò che fai è buttare giù un messaggio di 20 parole o una nota veloce, non scaricare nulla. Il tuo sistema operativo detta già. Su un Mac, Apple Dictation è integrato e gratuito: premi il tasto Microfono o la scorciatoia da tastiera, e nelle configurazioni supportate elabora sul dispositivo. Si ferma da solo dopo 30 secondi di silenzio, quindi si adatta più a brevi raffiche che alla scrittura di testi lunghi. In Word, Microsoft Dictate fa lo stesso con un microfono e una connessione a internet.

Ricorri a uno strumento dedicato quando detti interi paragrafi, vuoi che funzioni offline, o ti serve accuratezza su nomi e gergo che gli strumenti integrati sbagliano: la nostra panoramica delle alternative ad Apple Dictation copre le opzioni. Per una risposta di una riga, lo strumento integrato gratuito è la scelta giusta.

Il più delle volte la risposta a "perché la mia dettatura è così imprecisa" non è una confessione sulla tua voce. È mezzo metro di distanza dal microfono e una lavastoviglie che ti eri dimenticato fosse in funzione. Aggiusta l'audio, imposta la lingua giusta, scegli un modello che il tuo portatile possa reggere, e poi giudicalo rispetto al 95%, non al 100%. Il parente con le cuffie e Dragon stava combattendo il 1999. Tu no. Tu stai combattendo per lo più la tua cucina.

Vuoi scoprirlo in un minuto?

Scarica Whisper ed esegui il test a tre prove: in un minuto saprai se è lo strumento, la stanza, o solo fisica.

Foto di Denys Medvediev

Denys Medvediev

Sono quello che legge la nostra email di supporto, molto probabilmente dettando le risposte.