How do I convert audio to text?

Pick a converter, give it your audio, and read back the text. Web tools want you to upload a file; a desktop app like Whisper can transcribe a recording locally or dictate live at the cursor with a hotkey. The text comes back editable.

Can AI transcribe audio to text accurately?

Yes, on clear audio. Vendors quote 96 to 99% on clean recordings, though those are marketing figures, not independent benchmarks. Accuracy drops on noisy audio, heavy accents, and overlapping speakers. A decent microphone helps more than a bigger model.

Does audio to text work offline?

With the right tool, yes. Whisper's local mode processes everything on your computer and needs no internet after a one-time model download of about 140 MB to 3 GB. The free web converters in this search all require an upload, so they need a connection.

Is there a free audio to text converter?

Several, with limits. HappyScribe offers 10 free minutes with no card; AudioConvert.ai gives 30 minutes a day. Whisper's entire local pipeline is free for authenticated users with no payment method at signup.

What audio formats can I convert to text?

Most tools take the common ones. The OpenAI transcription API accepts mp3, mp4, mpeg, mpga, m4a, wav, and webm. NoteGPT lists MP3, WAV, MP4, and AVI. Cloud uploads also hit a 25 MB ceiling per request on the OpenAI endpoint.

Does it support multiple languages?

Depends on the model. Whisper's multilingual models cover 99 languages with auto-detect; its English-only builds are locked to English. The faster Parakeet engine covers English plus 24 European languages, with no Asian languages and no translate-to-English.

Can I transcribe audio from a video file?

Yes. Transcription only cares about the audio track, so the OpenAI endpoint accepts mp4. For a video on your own drive, local transcription keeps the file off any server while it works.

Di Denys Medvediev13 marzo 2026

Guida

Convertitore da audio a testo, spiegato

Strumenti web gratuiti, app desktop offline e cloud con la tua chiave personale: tutti trasformano il suono in testo. La scelta che conta è dove viene elaborato il tuo audio.

Ultimo aggiornamento: giugno 2026

Primo piano di un'interfaccia audio digitale che mostra una forma d'onda sonora luminosa su uno schermo scuro

Un convertitore da audio a testo trasforma una registrazione o il parlato dal vivo in testo modificabile e ricercabile, usando un modello di riconoscimento vocale. La scelta che conta è dove viene elaborato l'audio: gli strumenti web gratuiti caricano i file su un server, mentre un'app desktop come Whisper può trascrivere interamente sul tuo computer, offline, e incollare il risultato ovunque si trovi il cursore.

La maggior parte degli strumenti gratuiti da audio a testo ti ferma ai primi 10-30 minuti di trascrizione, poi chiede la carta. Questo è giusto. I server costano. La parte che nessuno dice ad alta voce è che il tuo audio ha dovuto prima viaggiare fino a quei server. Un memo vocale di un medico, la registrazione di un consiglio di amministrazione, un file di preparazione a un'udienza per l'affidamento: tutti caricati su un fornitore che non hai mai conosciuto.

Su questo ho un'opinione, e ci arrivo tra poco.

Un convertitore da audio a testo fa un solo lavoro: ascolta il suono e scrive le parole. Le differenze interessanti sono nel come ascolta (un modello), nel dove ascolta (il tuo dispositivo o un server) e in cosa fa del testo dopo (lo mette in un file oppure lo incolla dove stai già scrivendo). I tre convertitori gratuiti meglio posizionati per questa ricerca sono tutti del tipo carica-il-file-e-aspetta. Whisper by Remskill è un altro tipo di animale. È pensato prima di tutto per la dettatura: premi un tasto rapido, parli e il testo compare al cursore in qualsiasi app.

Questa guida spiega come funzionano i convertitori, ripercorre il percorso in tre passi per un file registrato e ti dice quando un convertitore web è la scelta giusta e quando non lo è. Dopo un anno passato a leggere le email del nostro supporto, posso dirti che la maggior parte arriva da persone che hanno scelto uno strumento cloud per audio che non avrebbe mai dovuto lasciare il loro portatile.

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Whisper

L'app Whisper vera e propria: esplora le Impostazioni per vedere come si configurano la trascrizione locale e quella cloud.

Sotto il cofano ogni convertitore fa girare la stessa cosa: un modello di riconoscimento vocale. Prende la forma d'onda del tuo audio e predice le parole, un pezzo alla volta. L'accuratezza vive nel modello. Il grande modello aperto dietro a molti di questi strumenti è Whisper di OpenAI, che supporta 99 lingue nelle sue varianti multilingue. La stessa API Speech-to-Text di OpenAI espone whisper-1 oltre ai più recenti gpt-4o-transcribe e gpt-4o-mini-transcribe.

Il risultato è testo semplice e modificabile. Puoi correggere un nome, cercare una frase, metterlo in un'email. È tutto qui il senso. Il suono è difficile da scorrere, il testo è facile. Whisper produce lo stesso testo modificabile, ma invece di consegnarti un download può incollarlo direttamente nell'app in cui ti trovi. L'app integrata qui sopra è il vero frontend desktop, non un mockup.

La scelta del modello è la decisione che riguarda l'accuratezza, e il modello aperto Whisper e Google Cloud Speech-to-Text finiscono in posizioni diverse; il nostro confronto tra Whisper e Google Speech-to-Text mette i due motori fianco a fianco su accuratezza, copertura linguistica e su dove finisce il tuo audio.

Come convertire un file audio in testo in tre passi

Per un file registrato il percorso è breve. I convertitori web gratuiti lo riassumono così: carica, clicca, scarica.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

Un convertitore web tipico: trascina un file, attendi il caricamento, scarica la trascrizione.

Scegli dove gira. I convertitori cloud richiedono di caricare il file sul loro server. Whisper esegue la trascrizione sul tuo dispositivo in modalità locale, quindi il file non lascia mai il computer.

Scegli un modello per la tua lingua. I file solo in inglese sono più rapidi con un modello più piccolo. L'audio multilingue o con lingue miste richiede un modello multilingue che copra 99 lingue.

Ottieni il testo e modificalo. La trascrizione torna come testo semplice. Correggi i refusi che un modello commette sempre sui nomi propri e hai finito.

CancelTranscribing

Whisper che trascrive una registrazione in locale: il file non lascia mai il tuo dispositivo.

Un dettaglio da conoscere: le API cloud hanno limiti di dimensione. L'endpoint di trascrizione di OpenAI limita i caricamenti a 25 MB per richiesta. Una lunga registrazione di una riunione in WAV li supera in fretta. L'elaborazione locale non ha questo limite, oltre al tuo disco e alla tua pazienza.

File registrati o dettatura dal vivo: di quale hai bisogno?

Ecco la domanda che la maggior parte delle pagine sui convertitori salta. Stai trascrivendo un file che già esiste, oppure stai cercando di scrivere qualcosa di nuovo con la voce?

Se hai una registrazione (un'intervista, una lezione, un podcast), un convertitore di file è lo strumento giusto. Caricalo, ottieni la trascrizione, vai avanti. I tre principali strumenti gratuiti gestiscono questo, con un limite giornaliero di minuti sul piano gratuito.

Cancel

L'overlay di registrazione dal vivo di Whisper: tieni premuto il tasto rapido, parla, rilascia.

Se stai scrivendo una nuova email, una nota o un documento, non vuoi affatto un file. Vuoi che le parole compaiano mentre parli. Questa è la dettatura, ed è un meccanismo diverso. Con Whisper tieni premuto un tasto rapido, parli e rilasci. Su Windows il valore predefinito è Ctrl+Space, mentre su macOS è una combinazione push-to-talk Command+Option (tieni premuti entrambi, rilascia uno dei due tasti per fermarti). Il testo trascritto si incolla al cursore in qualsiasi applicazione. Nessun caricamento, nessun download, nessun cambio di scheda. L'overlay qui sopra è ciò che vedi mentre sta ascoltando.

La maggior parte delle persone che cerca un convertitore da audio a testo vuole la prima cosa e scopre di volere anche la seconda. Registri meno cose di quante ne scrivi. L'anno scorso ho passato due settimane a caccia di un convertitore di file migliore quando in realtà avevo bisogno di smettere di scrivere risposte un dito alla volta durante l'allenamento di nuoto di mia figlia.

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

File di rack server in un data center con apparecchiature attive, a rappresentare l'elaborazione audio nel cloud

Il bivio che conta arriva qui, ed è quello su cui gli strumenti gratuiti sono più silenziosi. Un convertitore web elabora il tuo audio sui suoi server. AudioConvert.ai dice che i file vengono eliminati entro 24 ore. Anche HappyScribe e NoteGPT caricano nel cloud. È lo standard, e per un podcast pubblico va benissimo.

Ora l'opinione che avevo promesso. La conversione audio solo cloud è un disastro per la privacy in attesa di essere trascritto. Un team con cui ho lavorato una volta aveva fatto costruire da un consulente un prototipo interno di dettatura che chiamava un'IA cloud per ogni frase. Il manager ha aperto il pannello dei costi a fine trimestre e si è trovato una bolletta a cinque cifre, dovuta in gran parte alla trascrizione delle registrazioni degli standup quattro volte di fila, perché la logica di retry era troppo aggressiva. La risposta del direttore finanziario è stata secca: oppure potremmo non pagare per caricare riunioni che hanno già i loro appunti. I soldi erano il problema piccolo. Quello più grande era che mesi di chiamate interne ora vivevano sui server di qualcun altro.

La modalità locale di Whisper risponde a questo. In modalità locale tutto l'audio viene elaborato sul tuo computer e nulla lascia il dispositivo; dopo un download del modello una tantum (da circa 140 MB fino a 3 GB a seconda del modello) funziona completamente offline. Sul dispositivo girano due motori: i modelli Whisper e Parakeet di NVIDIA, che è da 5 a 10 volte più veloce di Whisper su CPU ma copre solo l'inglese più 24 lingue europee, senza traduzione in inglese. Se preferisci il cloud, Whisper ha una modalità OpenAI con la tua chiave personale che usa gpt-4o-mini-transcribe o gpt-4o-transcribe (gli stessi modelli esposti dall'API), fatturati direttamente da OpenAI, senza alcun ricarico da parte nostra. Il punto è che scegli tu. Gli strumenti web gratuiti scelgono per te, e la risposta è sempre il loro server. Per saperne di più su come restare del tutto fuori dal cloud, vedi la nostra guida al riconoscimento vocale offline.

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

L'accuratezza è soprattutto una questione di modello, e il modello è una questione di lingua. I convertitori gratuiti pubblicizzano numeri grossi. AudioConvert.ai dichiara fino al 99% di accuratezza su audio pulito, HappyScribe dice fino al 96%. Sono affermazioni di marketing dei fornitori senza alcun metodo pubblicato, quindi trattale come il dépliant, non come il benchmark.

Ciò che sposta l'accuratezza è far combaciare il modello con il tuo audio. Whisper offre 8 modelli locali divisi tra solo inglese e multilingue. Le versioni solo inglese (da Base a ~140 MB fino a Medium a ~1,5 GB) bloccano il selettore di lingua sull'inglese e fanno bene quell'unico lavoro. Le versioni multilingue (Small, Medium, Large v3 a ~3 GB e una Large v3 Turbo) coprono 99 lingue con rilevamento automatico. Ucraino e inglese mescolati nella stessa frase? Serve un modello multilingue. Un memo vocale pulito in inglese? Il modello Base inglese è più rapido e leggero.

Whisper

Il selettore di modello e lingua nell'app Whisper vera e propria: versioni solo inglese e multilingue fianco a fianco.

La verità noiosa che nessuna scheda di modello ammette: un microfono a clip economico fa più per l'accuratezza di qualsiasi aggiornamento del modello. Audio spazzatura in entrata, testo spazzatura in uscita. Nessuna quantità di IA aggiusta una registrazione fatta accanto a una lavastoviglie in funzione. Ho passato un weekend a regolare le impostazioni del modello per ripulire il mio stesso audio impastato prima di rendermi conto che il problema era il microfono del portatile a quindici centimetri da una ventola. Ho un master. Il pannello delle impostazioni qui sopra è il punto in cui scegli il modello e la lingua.

Quando saltare un convertitore web (e usare qualcos'altro)

Una scrivania ordinata con un taccuino, occhiali e penne, a suggerire alternative manuali per prendere appunti

A volte un convertitore web è la scelta migliore, e preferisco dirtelo piuttosto che vederti combattere con lo strumento sbagliato. Se hai una breve registrazione (uno spezzone di intervista di cinque minuti, un singolo memo vocale) e non ti importa che passi per un server, un convertitore gratuito come HappyScribe ti dà i primi 10 minuti gratis senza carta. Apri la pagina, carica, fatto. Installare un'app desktop per questo è eccessivo.

Salta il convertitore web quando è vera una di tre cose: l'audio è sensibile (medico, legale, finanziario), il file è abbastanza grande da raggiungere il limite cloud di 25 MB, oppure stai scrivendo qualcosa di nuovo invece di trascrivere qualcosa di vecchio. I primi due casi vogliono l'elaborazione locale. Il terzo vuole la dettatura, non un convertitore. Per la trascrizione in stile riunione con più interlocutori e riassunti, uno strumento dedicato a quella categoria si adatta meglio di entrambi: è un lavoro diverso, trattato nella nostra panoramica dei software di trascrizione.

Quanto costa

Whisper è gratuito per tutti per l'intera pipeline locale (entrambi i motori di trascrizione, la pulizia del testo con l'IA, la cronologia e il tasto rapido personalizzato) senza alcun metodo di pagamento necessario per registrarsi. La parte cloud con la tua chiave personale è il piano Pro a pagamento, e OpenAI ti fattura direttamente i minuti effettivi che trascrivi. I convertitori web gratuiti di questa ricerca funzionano con un limite freemium di minuti: HappyScribe offre 10 minuti gratis, AudioConvert.ai dà 30 minuti al giorno. Whisper è disponibile oggi su Windows e su macOS con Apple Silicon. Per i numeri esatti dei piani, la pagina dei prezzi li riporta nero su bianco.

I convertitori gratuiti sono bravi in ciò che fanno: trascini un file, aspetti, copi il testo. Usane uno per lo spezzone di podcast che non ti dispiace condividere. Ma le registrazioni che contano di più sono di solito quelle che caricheresti meno volentieri, ed è in quel momento che un convertitore che gira sul tuo portatile smette di essere un semplice di più.

Prova una registrazione che non lascia mai il tuo dispositivo

Sabato scorso mia figlia più piccola ha dettato un'email di 90 parole a sua nonna e mi ha chiesto dove fossero finite le parole. Da nessuna parte, le ho detto. Sono rimaste proprio qui. Quella risposta è l'intera ragione per cui ho costruito tutto questo.

Scarica Whisper Guarda come funziona

Gratuito per l'intera pipeline locale. Nessun metodo di pagamento necessario per registrarsi.

Denys Medvediev

Sono quello che legge le email del nostro supporto, molto probabilmente dettandone le risposte.

Approfondimenti

Domande frequenti

Scegli un convertitore, dagli il tuo audio e leggi il testo che ti restituisce. Gli strumenti web vogliono che carichi un file; un'app desktop come Whisper può trascrivere una registrazione in locale oppure dettare dal vivo al cursore con un tasto rapido. Il testo torna modificabile.

Di Denys Medvediev13 marzo 2026

Guida

Convertitore da audio a testo, spiegato

Strumenti web gratuiti, app desktop offline e cloud con la tua chiave personale: tutti trasformano il suono in testo. La scelta che conta è dove viene elaborato il tuo audio.

Ultimo aggiornamento: giugno 2026

Su questo ho un'opinione, e ci arrivo tra poco.

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Whisper

L'app Whisper vera e propria: esplora le Impostazioni per vedere come si configurano la trascrizione locale e quella cloud.

Come convertire un file audio in testo in tre passi

Per un file registrato il percorso è breve. I convertitori web gratuiti lo riassumono così: carica, clicca, scarica.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

Un convertitore web tipico: trascina un file, attendi il caricamento, scarica la trascrizione.

Scegli un modello per la tua lingua. I file solo in inglese sono più rapidi con un modello più piccolo. L'audio multilingue o con lingue miste richiede un modello multilingue che copra 99 lingue.

Ottieni il testo e modificalo. La trascrizione torna come testo semplice. Correggi i refusi che un modello commette sempre sui nomi propri e hai finito.

CancelTranscribing

Whisper che trascrive una registrazione in locale: il file non lascia mai il tuo dispositivo.

File registrati o dettatura dal vivo: di quale hai bisogno?

Ecco la domanda che la maggior parte delle pagine sui convertitori salta. Stai trascrivendo un file che già esiste, oppure stai cercando di scrivere qualcosa di nuovo con la voce?

Cancel

L'overlay di registrazione dal vivo di Whisper: tieni premuto il tasto rapido, parla, rilascia.

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

Whisper

Il selettore di modello e lingua nell'app Whisper vera e propria: versioni solo inglese e multilingue fianco a fianco.

Quando saltare un convertitore web (e usare qualcos'altro)

Quanto costa

Prova una registrazione che non lascia mai il tuo dispositivo

Scarica Whisper Guarda come funziona

Gratuito per l'intera pipeline locale. Nessun metodo di pagamento necessario per registrarsi.

Denys Medvediev

Sono quello che legge le email del nostro supporto, molto probabilmente dettandone le risposte.

Convertitore da audio a testo, spiegato

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Come convertire un file audio in testo in tre passi

File registrati o dettatura dal vivo: di quale hai bisogno?

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

Quando saltare un convertitore web (e usare qualcos'altro)

Quanto costa

Prova una registrazione che non lascia mai il tuo dispositivo

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Convertitore da audio a testo, spiegato

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Come convertire un file audio in testo in tre passi

File registrati o dettatura dal vivo: di quale hai bisogno?

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

Quando saltare un convertitore web (e usare qualcos'altro)

Quanto costa

Prova una registrazione che non lascia mai il tuo dispositivo

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Convertitore da audio a testo, spiegato

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Come convertire un file audio in testo in tre passi

File registrati o dettatura dal vivo: di quale hai bisogno?

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

Quando saltare un convertitore web (e usare qualcos'altro)

Quanto costa

Prova una registrazione che non lascia mai il tuo dispositivo

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Convertitore da audio a testo, spiegato

Un convertitore da audio a testo trasforma le registrazioni in parole modificabili

Come convertire un file audio in testo in tre passi

File registrati o dettatura dal vivo: di quale hai bisogno?

Locale o cloud: dove viene elaborato il tuo audio (e perché conta)

Scegliere l'accuratezza: quale modello gestisce il tuo accento e la tua lingua

Quando saltare un convertitore web (e usare qualcos'altro)

Quanto costa

Prova una registrazione che non lascia mai il tuo dispositivo

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque