Risoluzione dei problemi
La dettatura scrive le parole sbagliate? 5 soluzioni
La dettatura scrive le parole sbagliate quando il modello sente male un suono e fa un'ipotesi. Cinque cause, quattro risolvibili in dieci minuti.
Ultimo aggiornamento: giugno 2026

La dettatura scrive le parole sbagliate quando il modello vocale fraintende un suono e riscrive la frase attorno alla sua ipotesi. Le cause più comuni sono un microfono debole, rumore di fondo, un omofono che il modello non riesce a distinguere, la lingua impostata in modo errato o un nome che non ha mai incontrato. Prima correggi l'audio, poi insegna allo strumento il tuo vocabolario.
Dici "aggiorna il server di staging". Lo schermo mostra "aggredisci il cantante del ring". Correggi. Frase successiva, stessa cosa. Alla terza correzione stai scrivendo più veloce di quanto parli, il che vanifica l'intero scopo. Ho visto questo ciclo esatto frustrare una scrittrice, un commerciale e mia madre, che ha provato la dettatura una volta e poi è tornata a scrivere con due dita per puro dispetto. La buona notizia è che quasi ogni parola sbagliata risale a una di cinque cause, e quattro di esse puoi risolverle nei prossimi dieci minuti.
Ecco la parte che nessuno ti dice. La maggior parte degli strumenti di dettatura non sono rotti quando fanno così. Stanno indovinando, in tempo reale, in condizioni difficili, senza sapere come si chiama il tuo collega né che "Kubernetes" è una parola. La modalità locale di Whisper ha un'impostazione che risolve quest'ultimo problema alla radice — un campo Parole personalizzate dove elenchi i nomi e il gergo che ti aspetti che riconosca, così li scrive correttamente invece di inventarsi qualcosa che ci assomiglia. È gratuito e funziona offline. Ci arriveremo. Ma la noiosa verità è che il microfono conta più del software, quindi partiamo da lì.
La tua dettatura non è rotta. Sta indovinando.

Il riconoscimento vocale non sente le lettere. Sente i suoni e scommette sulle parole più probabili che quel suono produce — poi aggiusta la scommessa man mano che arriva altro audio. È per questo che la dettatura a volte riscrive testo che hai già detto. Fraintende una parola verso la fine della frase, decide che una parola precedente doveva essere qualcos'altro per far tornare la grammatica, e la cambia silenziosamente.
"Sera" e "cera". "Porto" e "morto". "Vela" e "pela". Questi sono omofoni — parole che suonano in modo molto simile — e nessuna quantità di pronuncia chiara li risolve, perché la chiarezza non era mai il problema. Il modello deve indovinare dal contesto, e a volte indovina male.
Poi ci sono parole che il modello non ha mai incontrato davvero. Il cognome del tuo responsabile. Un codice prodotto. "Remskill". Il modello non sa come scrivere ciò che non conosce, quindi sostituisce la parola reale più vicina che conosce. Non è un bug. È un gap di vocabolario, e ha una soluzione specifica che vedremo più avanti.
Il microfono è il principale sospettato

Prima di incolpare il software, guarda cosa gli stai dando in pasto. Il microfono integrato di un laptop sta vicino alla ventola, punta verso il soffitto e cattura la stanza tanto quanto la tua voce. Spazzatura in entrata, parole sbagliate in uscita.
Questa è l'unica opinione su cui metterei in gioco tutto l'articolo: "l'IA" non risolve un audio scadente. Un microfono USB da $20 fa più per l'accuratezza di qualsiasi aggiornamento del modello tu possa fare. Ho passato una settimana a caricare modelli più grandi e più lenti per correggere le mie parole sbagliate, prima di accorgermi che il microfono del laptop era puntato verso la ventola. Il microfono era il problema dall'inizio. Costruisco questo software per lavoro. Spendi prima i soldi sull'hardware. Il modello è la parte economica.
Il test di verifica: detta le stesse tre frasi con il microfono integrato, poi con una cuffia o un microfono USB. Se il numero di parole sbagliate scende, il microfono era il problema e hai finito. La maggior parte delle persone smette di leggere qui, e va bene così.
Rumore di fondo e acustica della stanza

Una lavastoviglie a due stanze di distanza. La telefonata di un collega. Quel tipo di ufficio open space dove senti qualcuno sgranocchiare patatine dall'altra parte della stanza. Il modello non sa distinguere la tua voce dal rumore — trascrive qualunque suono sia più forte, e a volte vincono le patatine.
La panoramica AI di Google su questo esatto problema elenca il rumore di fondo come causa principale, accanto agli accenti e agli omofoni. La soluzione è poco glamour: chiudi la porta, spegni la ventola, allontanati dalla finestra aperta. Una stanza silenziosa fa più di qualsiasi algoritmo intelligente.
Verifica: prova la stessa dettatura in uno spazio silenzioso rispetto al tuo solito. Se gli errori diminuiscono nel silenzio, il rumore era il colpevole. Se non riesci a ottenere una stanza silenziosa, un microfono direzionale o con cancellazione del rumore che ascolta solo ciò che sta direttamente di fronte è la mossa migliore successiva — e siamo tornati all'hardware, che è dove dovrebbero andare i soldi comunque.
Lingua errata o disallineamento dell'accento

Se la tua dettatura è impostata sul rilevamento automatico e passi da una lingua all'altra, il modello spreca risorse nell'identificare la lingua prima di identificare le parole — e un'ipotesi sbagliata sulla lingua compromette tutto ciò che segue. Imposta la lingua esplicitamente quando puoi.
In Whisper, si trova in Impostazioni, Trascrizione, Lingua. Scegliere direttamente la lingua parlata salta la fase di rilevamento e aiuta il modello a captare le tue parole con più precisione. Lascialo sul rilevamento automatico solo se passi davvero da una lingua all'altra durante la sessione. I modelli multilingue di Whisper coprono 99 lingue con il rilevamento automatico; le versioni solo in inglese si bloccano sull'inglese, il che è esattamente quello che vuoi se parli solo inglese.
Il disallineamento dell'accento è il cugino di questo problema. Un modello in inglese americano addestrato principalmente su parlanti statunitensi inciamperà su un accento regionale forte. Impostare la variante regionale più vicina offerta dallo strumento e fornirgli un segnale pulito riduce il divario.
Come risolverlo su Windows, Mac e iPhone
La dettatura integrata di ogni piattaforma ha le sue peculiarità e i suoi limiti. Su Windows, la Digitazione vocale si apre con il tasto Windows più H, ma il cursore deve trovarsi in un campo di testo e serve una connessione internet — lo strumento integrato invia l'audio al cloud per trascriverlo. Se sta scrivendo sciocchezze, controlla prima la connessione; i forum di supporto Apple per lo stesso problema di parole sbagliate mettono "verifica la connessione internet" in cima alla lista. (Per una guida più dettagliata, consulta la nostra guida su voice to text non funziona su Windows.)
Su Mac, attiva la Dettatura con il tasto Microfono nella riga dei tasti funzione, la scorciatoia Dettatura, oppure da Modifica e poi Avvia dettatura. Una cosa da chiarire: la Dettatura attuale di macOS ti permette di dettare testo di qualsiasi lunghezza senza timeout — si ferma solo dopo circa 30 secondi di silenzio, che le persone scambiano per un limite fisso. Se le parole sbagliate persistono, la nostra guida alla risoluzione dei problemi di voice-to-text su Mac procede passo dopo passo. Su iPhone, i forum Apple suggeriscono anche di disattivare il testo predittivo, che a volte contraddice ciò che la dettatura ha riconosciuto correttamente.
Il limite più difficile: Windows Voice Typing (Win+H) non offre alcun modo per aggiungere parole personalizzate o addestrare il dizionario. La superficie di dettatura separata di Word permette di costruire un piccolo dizionario di dettatura, ma lo strumento che la maggior parte delle persone usa — Win+H — non può imparare il tuo vocabolario. Il che ci porta all'unica soluzione che fa davvero la differenza sul problema dei nomi e del gergo errati.
Insegnagli le tue parole: vocabolario personalizzato
Questa è la soluzione che gli strumenti integrati non possono darti. Quando esegui un modello Whisper nella modalità locale di Whisper, hai a disposizione un campo Parole personalizzate — un elenco separato da virgole di nomi, termini di prodotto e gergo che ti aspetti che riconosca. Digiti "Kubernetes, PostgreSQL, Remskill, Mario Rossi" e la trascrizione si orienta verso la scrittura corretta di queste parole quando compaiono nel tuo parlato. Si trova in Impostazioni, Trascrizione, nel piano locale gratuito — niente carta di credito, niente cloud.
Una precisazione importante: Parole personalizzate è una funzionalità del modello Whisper. Parakeet, l'opzione locale più veloce, non accetta parole personalizzate né suggerimenti di prompt — la sua stessa descrizione lo dice chiaramente. Quindi se insegnare il tuo vocabolario allo strumento è importante per te, scegli un modello Whisper, non Parakeet.
Ho capito quanto sia importante grazie alla mia figlia più piccola. Le ho mostrato la dettatura una volta — premi, parla, rilascia. Ha subito scritto una email di 90 parole alla nonna su un dente che aveva perso e il tasso di cambio della fatina dei denti, senza fare domande. Poi è tornata seccata perché continuava a storpiare il nome della sua migliore amica. Non sapeva cosa fosse un gap di vocabolario. Sapeva solo che il nome veniva sbagliato. Ho aggiunto il nome a Parole personalizzate, e le lamentele sono cessate. La persona media non vuole capire perché la dettatura sbaglia un nome. Vuole un campo dove digitare quel nome. Quel campo è il punto centrale di questa sezione.
Una seconda leva, se la vuoi: Whisper espone un'impostazione Profilo — Veloce, Bilanciato o Accurato — che controlla quanto attentamente il modello ascolta. Accurato è più lento ma cattura di più. E scegliere un modello più grande tra gli otto che Whisper offre, da Base a circa 140 MB fino a Large v3 a circa 3 GB, scambia velocità per accuratezza. Nessuno di questi è "la scelta giusta" per tutti — sono parametri regolabili, e il problema delle parole sbagliate decide quale girare. Se non sei sicuro su quale caricare, la nostra guida alla scelta di un modello Whisper illustra i compromessi.
Un passaggio di pulizia che sistema il resto
Anche dopo che l'audio è pulito e il vocabolario è caricato, qualche errore residuo si infiltra. Whisper può eseguire un passaggio opzionale di pulizia AI sulla trascrizione grezza prima che arrivi al cursore — corregge grammatica, punteggiatura e maiuscole, ed elimina le parole di riempimento come "ehm" e "cioè". Funziona sul tuo dispositivo gratuitamente, oppure in modalità Cloud con OpenAI se hai fornito la tua chiave.
Questa è la rete di sicurezza, non la prima mossa. Correggi il microfono, silenzia la stanza, imposta la lingua, insegnagli le tue parole — poi lascia che il passaggio di pulizia sistemi il resto. Cercare di far compensare alla correzione AI del testo le carenze di un microfono integrato soffocato dalla ventola significa risolvere il problema sbagliato con lo strumento costoso. Lo so, perché ho rilasciato il passaggio di pulizia prima e il selettore di lingua dopo, nell'ordine esattamente sbagliato, e poi ho usato la mia app per un mese chiedendomi perché. Per chi vuole un controllo più fine, la nostra guida ai prompt di Whisper approfondisce come modellare l'output.
Il tasto rapido per registrare è Ctrl+Space su Windows e Command+Option su Mac, entrambi personalizzabili in Impostazioni se vanno in conflitto con qualcosa che usi già.
Quando lo strumento integrato non può essere riparato
A volte la risposta non è una correzione — è uno strumento diverso, o nessuno strumento. Se mandi solo di tanto in tanto un testo di 30 parole, Apple Dictation e Windows Voice Typing sono gratuiti e integrati, e inseguire la precisione perfetta è eccessivo. Usa ciò che è già disponibile.
Ma c'è un limite reale. Windows Voice Typing richiede internet e non può imparare il tuo vocabolario. Se il tuo problema di parole sbagliate è specificamente che lo strumento continua a storpiare nomi, termini di prodotto o gergo tecnico — e non puoi aggiungere queste parole da nessuna parte — lo strumento integrato non può davvero essere sistemato per il tuo caso d'uso. È il confine in cui uno strumento insegnabile e offline guadagna il suo posto. E se trascrivi principalmente riunioni con più persone invece di dettare la tua scrittura, si tratta di una categoria di strumento completamente diversa — trascrizione di riunioni, non dettatura. Non sforzare un'app di dettatura in un lavoro per cui non è stata creata.
Quanto deve essere accurata la dettatura?
Stabilisci aspettative realistiche. Audio pulito, una lingua nota e un vocabolario caricato ti porteranno al punto in cui le correzioni sono l'eccezione, non la regola. I benchmark pubblici di Whisper registrano un tasso di errore sulle parole di circa il 3% su discorso letto pulito con il modello medium in inglese. La vita reale — il tuo accento, la tua stanza, il tuo gergo — è un po' più alta. È normale.
L'obiettivo non è zero errori. L'obiettivo è meno errori di quanti ne avrebbe prodotti la digitazione nello stesso tempo, e quella soglia è più bassa di quanto la gente pensi. Dettare a 145 parole al minuto batte scrivere a 40 anche quando ti fermi a correggere una parola o due. Se correggi ogni altra parola, qualcosa nell'elenco sopra è ancora rotto. Se correggi ogni decima parola, hai già vinto.
Se la tua dettatura continua a scrivere le parole sbagliate, correggi l'audio, imposta la lingua e insegnagli i tuoi nomi — poi lasciala fare il suo lavoro mentre tu fai altro. La mia figlia più piccola la chiama ancora "il computer che parla". Non sa nulla del campo vocabolario, del selettore di lingua o degli otto modelli che si nascondono dietro il premi-parla-rilascia. Questa è la versione che funziona davvero — quando le parole sbagliate si fermano e smetti di accorgerti dello strumento.
Vuoi che i nomi vengano scritti correttamente?
Scarica Whisper, aggiungi la tua prima parola personalizzata e guarda le parole sbagliate sparire già dalla prima frase.



