Guida
Convertitore da audio a testo, spiegato
Strumenti web gratuiti, app desktop offline e cloud con la tua chiave personale: tutti trasformano il suono in testo. La scelta che conta è dove viene elaborato il tuo audio.
Ultimo aggiornamento: giugno 2026

Un convertitore da audio a testo trasforma una registrazione o il parlato dal vivo in testo modificabile e ricercabile, usando un modello di riconoscimento vocale. La scelta che conta è dove viene elaborato l'audio: gli strumenti web gratuiti caricano i file su un server, mentre un'app desktop come Whisper può trascrivere interamente sul tuo computer, offline, e incollare il risultato ovunque si trovi il cursore.
La maggior parte degli strumenti gratuiti da audio a testo ti ferma ai primi 10-30 minuti di trascrizione, poi chiede la carta. Questo è giusto. I server costano. La parte che nessuno dice ad alta voce è che il tuo audio ha dovuto prima viaggiare fino a quei server. Un memo vocale di un medico, la registrazione di un consiglio di amministrazione, un file di preparazione a un'udienza per l'affidamento: tutti caricati su un fornitore che non hai mai conosciuto.
Su questo ho un'opinione, e ci arrivo tra poco.
Un convertitore da audio a testo fa un solo lavoro: ascolta il suono e scrive le parole. Le differenze interessanti sono nel come ascolta (un modello), nel dove ascolta (il tuo dispositivo o un server) e in cosa fa del testo dopo (lo mette in un file oppure lo incolla dove stai già scrivendo). I tre convertitori gratuiti meglio posizionati per questa ricerca sono tutti del tipo carica-il-file-e-aspetta. Whisper by Remskill è un altro tipo di animale. È pensato prima di tutto per la dettatura: premi un tasto rapido, parli e il testo compare al cursore in qualsiasi app.
Questa guida spiega come funzionano i convertitori, ripercorre il percorso in tre passi per un file registrato e ti dice quando un convertitore web è la scelta giusta e quando non lo è. Dopo un anno passato a leggere le email del nostro supporto, posso dirti che la maggior parte arriva da persone che hanno scelto uno strumento cloud per audio che non avrebbe mai dovuto lasciare il loro portatile.
Un convertitore da audio a testo trasforma le registrazioni in parole modificabili
Sotto il cofano ogni convertitore fa girare la stessa cosa: un modello di riconoscimento vocale. Prende la forma d'onda del tuo audio e predice le parole, un pezzo alla volta. L'accuratezza vive nel modello. Il grande modello aperto dietro a molti di questi strumenti è Whisper di OpenAI, che supporta 99 lingue nelle sue varianti multilingue. La stessa API Speech-to-Text di OpenAI espone whisper-1 oltre ai più recenti gpt-4o-transcribe e gpt-4o-mini-transcribe.
Il risultato è testo semplice e modificabile. Puoi correggere un nome, cercare una frase, metterlo in un'email. È tutto qui il senso. Il suono è difficile da scorrere, il testo è facile. Whisper produce lo stesso testo modificabile, ma invece di consegnarti un download può incollarlo direttamente nell'app in cui ti trovi. L'app integrata qui sopra è il vero frontend desktop, non un mockup.
La scelta del modello è la decisione che riguarda l'accuratezza, e il modello aperto Whisper e Google Cloud Speech-to-Text finiscono in posizioni diverse; il nostro confronto tra Whisper e Google Speech-to-Text mette i due motori fianco a fianco su accuratezza, copertura linguistica e su dove finisce il tuo audio.
Come convertire un file audio in testo in tre passi
Per un file registrato il percorso è breve. I convertitori web gratuiti lo riassumono così: carica, clicca, scarica.
Scegli dove gira. I convertitori cloud richiedono di caricare il file sul loro server. Whisper esegue la trascrizione sul tuo dispositivo in modalità locale, quindi il file non lascia mai il computer.
Scegli un modello per la tua lingua. I file solo in inglese sono più rapidi con un modello più piccolo. L'audio multilingue o con lingue miste richiede un modello multilingue che copra 99 lingue.
Ottieni il testo e modificalo. La trascrizione torna come testo semplice. Correggi i refusi che un modello commette sempre sui nomi propri e hai finito.
Un dettaglio da conoscere: le API cloud hanno limiti di dimensione. L'endpoint di trascrizione di OpenAI limita i caricamenti a 25 MB per richiesta. Una lunga registrazione di una riunione in WAV li supera in fretta. L'elaborazione locale non ha questo limite, oltre al tuo disco e alla tua pazienza.
File registrati o dettatura dal vivo: di quale hai bisogno?
Ecco la domanda che la maggior parte delle pagine sui convertitori salta. Stai trascrivendo un file che già esiste, oppure stai cercando di scrivere qualcosa di nuovo con la voce?
Se hai una registrazione (un'intervista, una lezione, un podcast), un convertitore di file è lo strumento giusto. Caricalo, ottieni la trascrizione, vai avanti. I tre principali strumenti gratuiti gestiscono questo, con un limite giornaliero di minuti sul piano gratuito.
Se stai scrivendo una nuova email, una nota o un documento, non vuoi affatto un file. Vuoi che le parole compaiano mentre parli. Questa è la dettatura, ed è un meccanismo diverso. Con Whisper tieni premuto un tasto rapido, parli e rilasci. Su Windows il valore predefinito è Ctrl+Space, mentre su macOS è una combinazione push-to-talk Command+Option (tieni premuti entrambi, rilascia uno dei due tasti per fermarti). Il testo trascritto si incolla al cursore in qualsiasi applicazione. Nessun caricamento, nessun download, nessun cambio di scheda. L'overlay qui sopra è ciò che vedi mentre sta ascoltando.
La maggior parte delle persone che cerca un convertitore da audio a testo vuole la prima cosa e scopre di volere anche la seconda. Registri meno cose di quante ne scrivi. L'anno scorso ho passato due settimane a caccia di un convertitore di file migliore quando in realtà avevo bisogno di smettere di scrivere risposte un dito alla volta durante l'allenamento di nuoto di mia figlia.
Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Il bivio che conta arriva qui, ed è quello su cui gli strumenti gratuiti sono più silenziosi. Un convertitore web elabora il tuo audio sui suoi server. AudioConvert.ai dice che i file vengono eliminati entro 24 ore. Anche HappyScribe e NoteGPT caricano nel cloud. È lo standard, e per un podcast pubblico va benissimo.
Ora l'opinione che avevo promesso. La conversione audio solo cloud è un disastro per la privacy in attesa di essere trascritto. Un team con cui ho lavorato una volta aveva fatto costruire da un consulente un prototipo interno di dettatura che chiamava un'IA cloud per ogni frase. Il manager ha aperto il pannello dei costi a fine trimestre e si è trovato una bolletta a cinque cifre, dovuta in gran parte alla trascrizione delle registrazioni degli standup quattro volte di fila, perché la logica di retry era troppo aggressiva. La risposta del direttore finanziario è stata secca: oppure potremmo non pagare per caricare riunioni che hanno già i loro appunti. I soldi erano il problema piccolo. Quello più grande era che mesi di chiamate interne ora vivevano sui server di qualcun altro.
La modalità locale di Whisper risponde a questo. In modalità locale tutto l'audio viene elaborato sul tuo computer e nulla lascia il dispositivo; dopo un download del modello una tantum (da circa 140 MB fino a 3 GB a seconda del modello) funziona completamente offline. Sul dispositivo girano due motori: i modelli Whisper e Parakeet di NVIDIA, che è da 5 a 10 volte più veloce di Whisper su CPU ma copre solo l'inglese più 24 lingue europee, senza traduzione in inglese. Se preferisci il cloud, Whisper ha una modalità OpenAI con la tua chiave personale che usa gpt-4o-mini-transcribe o gpt-4o-transcribe (gli stessi modelli esposti dall'API), fatturati direttamente da OpenAI, senza alcun ricarico da parte nostra. Il punto è che scegli tu. Gli strumenti web gratuiti scelgono per te, e la risposta è sempre il loro server. Per saperne di più su come restare del tutto fuori dal cloud, vedi la nostra guida al riconoscimento vocale offline.
Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua
L'accuratezza è soprattutto una questione di modello, e il modello è una questione di lingua. I convertitori gratuiti pubblicizzano numeri grossi. AudioConvert.ai dichiara fino al 99% di accuratezza su audio pulito, HappyScribe dice fino al 96%. Sono affermazioni di marketing dei fornitori senza alcun metodo pubblicato, quindi trattale come il dépliant, non come il benchmark.
Ciò che sposta l'accuratezza è far combaciare il modello con il tuo audio. Whisper offre 8 modelli locali divisi tra solo inglese e multilingue. Le versioni solo inglese (da Base a ~140 MB fino a Medium a ~1,5 GB) bloccano il selettore di lingua sull'inglese e fanno bene quell'unico lavoro. Le versioni multilingue (Small, Medium, Large v3 a ~3 GB e una Large v3 Turbo) coprono 99 lingue con rilevamento automatico. Ucraino e inglese mescolati nella stessa frase? Serve un modello multilingue. Un memo vocale pulito in inglese? Il modello Base inglese è più rapido e leggero.
La verità noiosa che nessuna scheda di modello ammette: un microfono a clip economico fa più per l'accuratezza di qualsiasi aggiornamento del modello. Audio spazzatura in entrata, testo spazzatura in uscita. Nessuna quantità di IA aggiusta una registrazione fatta accanto a una lavastoviglie in funzione. Ho passato un weekend a regolare le impostazioni del modello per ripulire il mio stesso audio impastato prima di rendermi conto che il problema era il microfono del portatile a quindici centimetri da una ventola. Ho un master. Il pannello delle impostazioni qui sopra è il punto in cui scegli il modello e la lingua.
Quando saltare un convertitore web (e usare qualcos'altro)

A volte un convertitore web è la scelta migliore, e preferisco dirtelo piuttosto che vederti combattere con lo strumento sbagliato. Se hai una breve registrazione (uno spezzone di intervista di cinque minuti, un singolo memo vocale) e non ti importa che passi per un server, un convertitore gratuito come HappyScribe ti dà i primi 10 minuti gratis senza carta. Apri la pagina, carica, fatto. Installare un'app desktop per questo è eccessivo.
Salta il convertitore web quando è vera una di tre cose: l'audio è sensibile (medico, legale, finanziario), il file è abbastanza grande da raggiungere il limite cloud di 25 MB, oppure stai scrivendo qualcosa di nuovo invece di trascrivere qualcosa di vecchio. I primi due casi vogliono l'elaborazione locale. Il terzo vuole la dettatura, non un convertitore. Per la trascrizione in stile riunione con più interlocutori e riassunti, uno strumento dedicato a quella categoria si adatta meglio di entrambi: è un lavoro diverso, trattato nella nostra panoramica dei software di trascrizione.
Quanto costa
Whisper è gratuito per tutti per l'intera pipeline locale (entrambi i motori di trascrizione, la pulizia del testo con l'IA, la cronologia e il tasto rapido personalizzato) senza alcun metodo di pagamento necessario per registrarsi. La parte cloud con la tua chiave personale è il piano Pro a pagamento, e OpenAI ti fattura direttamente i minuti effettivi che trascrivi. I convertitori web gratuiti di questa ricerca funzionano con un limite freemium di minuti: HappyScribe offre 10 minuti gratis, AudioConvert.ai dà 30 minuti al giorno. Whisper è disponibile oggi su Windows e su macOS con Apple Silicon. Per i numeri esatti dei piani, la pagina dei prezzi li riporta nero su bianco.
I convertitori gratuiti sono bravi in ciò che fanno: trascini un file, aspetti, copi il testo. Usane uno per lo spezzone di podcast che non ti dispiace condividere. Ma le registrazioni che contano di più sono di solito quelle che caricheresti meno volentieri, ed è in quel momento che un convertitore che gira sul tuo portatile smette di essere un semplice di più.
Prova una registrazione che non lascia mai il tuo dispositivo
Sabato scorso mia figlia più piccola ha dettato un'email di 90 parole a sua nonna e mi ha chiesto dove fossero finite le parole. Da nessuna parte, le ho detto. Sono rimaste proprio qui. Quella risposta è l'intera ragione per cui ho costruito tutto questo.
Gratuito per l'intera pipeline locale. Nessun metodo di pagamento necessario per registrarsi.



