Can I generate subtitles from audio only, with no video?

Yes. VEED, Kapwing, Descript, and the open-source Whisper CLI all transcribe directly from an audio file — MP3, WAV, M4A, FLAC. No video track is required; the tool times the speech on its own.

How do I get an SRT file from an MP3 or WAV?

Upload the file to a web tool and choose SRT at export, or run the OpenAI Whisper CLI locally with `--output_format srt`. You can also just leave the default, which produces all formats including .srt.

What's the difference between subtitles, captions, and closed captions?

Subtitles assume you can hear the audio and mostly carry dialogue. Captions and closed captions also describe non-speech sound, like music or a door slamming, for viewers who can't hear it. SRT and VTT files can serve either purpose depending on what you write in them.

How accurate are AI-generated subtitles?

Good, not flawless. Kapwing advertises 99% accuracy as its own marketing figure. In practice, clean single-speaker audio gets close while names, jargon, and crosstalk still need a human pass. Always read the output before you ship it.

Can I generate subtitles offline for free?

Yes. The OpenAI Whisper command-line tool runs entirely on your machine and writes .srt and .vtt files at no cost. The multilingual models cover 99 languages; the English-only .en builds cover one.

Can the tool handle multiple speakers?

Most subtitle generators transcribe every voice but don't label who said what unless they offer speaker diarization as a separate feature. If you need "Speaker 1 / Speaker 2" tags, check that the specific tool lists diarization before you commit.

Can I translate the subtitles into another language?

Some tools can. Kapwing translates subtitles into 100+ languages; Descript covers 22+. The open-source Whisper CLI can translate non-English speech into English subtitles but doesn't translate between two non-English languages.

Di Denys Medvediev23 aprile 2026

Tutorial

Audio a sottotitoli: cosa funziona davvero

Un generatore di sottotitoli da audio trasforma un file sonoro in un SRT o VTT con timestamp. Ecco il flusso di lavoro reale, gli strumenti che esportano davvero un file e l'opzione gratuita offline che non carica mai il tuo audio.

Ultimo aggiornamento: giugno 2026

Forme d'onda audio visualizzate su uno schermo, che illustrano la conversione di un file sonoro in una traccia di sottotitoli

Un generatore di sottotitoli da audio prende un file sonoro — un MP3, un WAV o l'esportazione di un podcast — e produce un file di sottotitoli con timestamp. Ogni riga di testo riporta un momento di inizio e uno di fine. Strumenti web come VEED, Kapwing e Descript lo fanno nel browser. Il tool open-source OpenAI Whisper da riga di comando lo fa offline, sul tuo computer.

Una volta ho passato quaranta minuti ad aggiungere manualmente i sottotitoli a un clip podcast di dieci minuti, mettendo in pausa ogni tre secondi per digitare e indovinare i timestamp. Ho una laurea magistrale in ingegneria del software. Il calcolo è impietoso in ogni caso. I sottotitoli manuali richiedono più volte la durata dell'audio. Un moderno generatore di sottotitoli fa lo stesso lavoro nel tempo che ci vuole per ascoltarlo più una pausa caffè. La cosa che nessuno ti dice subito è che lo strumento giusto dipende da una domanda sola: ti serve un file temporizzato da scaricare, o bastano le parole?

"Generatore di sottotitoli" si usa per due lavori diversi, e lo strumento sbagliato ti costa un pomeriggio. Il settore si divide in tool browser che esportano file temporizzati e tool offline che fanno lo stesso gratis se sei disposto a usare il terminale. Questa guida spiega come funziona il flusso di lavoro, quali strumenti producono un vero file .srt solo dall'audio, cosa significano SRT, VTT e TXT, e quando un'app di dettatura come la nostra non è quella giusta. Alla fine saprai quale tool aprire in base al risultato che vuoi. La maggior parte della confusione che leggo nella nostra casella di supporto viene da persone che hanno scelto uno strumento per scrivere quando avevano bisogno di un file di sottotitoli. Un anno di quei messaggi è uno dei motivi principali per cui questo articolo esiste.

Ti servono i timestamp, non solo le parole

Un file di sottotitoli non è una trascrizione. Una trascrizione sono le parole. Un file di sottotitoli sono le parole più la temporizzazione. Ogni blocco di sottotitoli dice: «mostra questa riga dalle 00:01:04 alle 00:01:07». Quella temporizzazione è il cuore del lavoro. Consente a un video player di mostrare le parole giuste al secondo giusto.

La maggior parte degli strumenti «da voce a testo», incluso il nostro, restituisce solo le parole. Incolla un paragrafo pulito al cursore e si ferma lì. Un generatore di sottotitoli da audio deve fare di più: suddivide il parlato in blocchi brevi della lunghezza giusta per i sottotitoli, allinea ogni blocco all'orologio dell'audio e scrive tutto in un formato di file preciso leggibile da un player. Se il tuo risultato finale è un file da caricare su YouTube, in un editor video o su una piattaforma per corsi, hai bisogno dei timestamp. Se il tuo risultato finale è testo in un documento, non ne hai bisogno, e non dovresti pagare un tool per i sottotitoli solo per ottenerlo.

Come generare sottotitoli da un file audio in tre passi

Laptop con software di editing audio e cuffie su una scrivania in uno spazio di lavoro domestico

Il flusso di lavoro è praticamente identico in quasi tutti gli strumenti, web o offline.

Carica o punta al file audio. La maggior parte degli strumenti accetta MP3, WAV, M4A e FLAC, senza bisogno di un video. VEED accetta MP3, WAV, registrazioni di podcast, audio di interviste e memo vocali. Se hai solo un video come sorgente, lo strumento estrae l'audio per te.

Lascia che trascriva e temporalizzi il parlato. Lo strumento fa passare l'audio attraverso un modello vocale, scompone il risultato in righe della lunghezza giusta per i sottotitoli e assegna a ciascuna un tempo di inizio e di fine. La versione manuale richiede più volte la durata dell'audio. La versione automatica impiega circa il tempo del file.

Rivedi ed esporta il file. Leggi la trascrizione una volta (l'output del modello è buono, non perfetto), correggi i nomi che ha storpiato, poi esporta. Qui scegli il formato: SRT, VTT o semplice TXT.

È tutto il ciclo. Le differenze tra gli strumenti si riducono a prezzo, copertura linguistica, dove va a finire il tuo audio e se il terzo passaggio è gratuito.

SRT vs VTT vs TXT: quale file ti serve

Tre formati compaiono in ogni menu di esportazione e le persone scelgono quello sbagliato in continuazione.

SRT (SubRip) è il file di sottotitoli standard. È un file di testo semplice composto da blocchi numerati, ciascuno con un intervallo di timecode e una o due righe di testo. YouTube, la maggior parte degli editor video e quasi tutti i player lo supportano. Se non sai quale scegliere, scegli SRT.
VTT (WebVTT) è il cugino web di SRT. Stessa idea, sintassi leggermente diversa, con in più il supporto per la formattazione e il posizionamento. Usa VTT quando un sito web o un video player HTML5 lo richiede per nome.
TXT contiene solo le parole, senza timestamp. È il formato che vuoi quando scrivi un articolo, dai in pasto un riassunto o citi un'intervista. È anche l'unico dei tre che uno strumento di dettatura può darti.

La mia regola pratica: SRT per i video, TXT per i documenti, VTT quando una piattaforma web lo richiede esplicitamente. La maggior parte degli strumenti esporta tutti e tre: VEED, Kapwing e Descript.

Gli strumenti che trasformano l'audio in file di sottotitoli

Ecco dove si posiziona ciascun tool browser, con le affermazioni sulle funzionalità prese direttamente dalla pagina di ciascuno.

VEED è un generatore automatico di sottotitoli per web e mobile che trascrive da un file solo audio e ti permette di scaricare il risultato come SRT, VTT o TXT. È gratuito per iniziare. Scaricare il file dei sottotitoli e sottotitolare video più lunghi richiede un piano a pagamento.
Kapwing pubblicizza «sottotitoli al 99% accurati, generati in pochi secondi». Questa è una cifra di marketing di Kapwing, non un benchmark indipendente. Accetta qualsiasi file video o audio, inclusi gli MP3, può tradurre i sottotitoli in oltre 100 lingue ed esporta SRT, VTT e TXT. Gli account gratuiti ottengono fino a 10 minuti di sottotitoli e una filigrana; il piano Pro rimuove la filigrana.
Descript genera sottotitoli in oltre 22 lingue, accetta file solo audio ed esporta i sottotitoli soft come SRT o VTT tramite Pubblica, poi Esporta, poi Sottotitoli. Funziona con un modello freemium con un livello gratuito di un'ora di media al mese.

Ecco come si confrontano questi quattro strumenti sugli aspetti verificabili prima di impegnarti. Nessun dato su accuratezza o velocità, perché nessuno li ha testati testa a testa sullo stesso audio:

Strumento	Piattaforma	Locale o cloud	Funziona offline	Modello di prezzo	Lingue	Ideale per
VEED	Web, mobile	Cloud	No	Gratuito per iniziare, a pagamento per esportare	Elenca 40+ opzioni, nessun totale dichiarato	Un passaggio rapido nel browser con download
Kapwing	Web	Cloud	No	Piano gratuito (filigrana), Pro	Traduce in 100+	Sottotitoli rapidi con traduzione
Descript	Web	Cloud	No	Freemium, un'ora di media gratuita	22+	Modificare audio e sottotitoli insieme
OpenAI Whisper CLI	Windows, macOS, Linux	Locale	Sì	Gratuito, open source	99 multilingua, 1 per le build .en	Gratuito, privato, senza upload

Tutti e tre i tool browser inviano il tuo audio sul server di qualcun altro. Per un clip di marketing va bene. Per una chiamata registrata con un cliente o qualsiasi cosa contenga dati sensibili, continua a leggere.

Questi strumenti condividono un'interfaccia che assomiglia più o meno a questa:

interview-audio.mp3Sottotitoli automatici

SRTVTTTXTScarica

Carica, clicca genera, scegli un formato, scarica. Quella barra, non la nostra, è l'aspetto di un generatore di sottotitoli da audio.

Gratuito e offline: generare SRT con Whisper open source

Codice su uno schermo in modalità scura, che evoca un flusso di lavoro da riga di comando per i sottotitoli

Se preferisci non caricare nulla, il tool open-source da riga di comando di OpenAI scrive file di sottotitoli sul tuo computer gratuitamente. Il suo flag --output_format accetta txt, vtt, srt, tsv, json o all, e il valore predefinito è all. Quindi un solo comando, whisper interview.mp3 --model turbo, produce un file .srt offline, senza account e senza upload.

Whisper open source è un progetto diverso da Whisper by Remskill, e vale la pena essere chiari al riguardo. È il modello da riga di comando di OpenAI che gira sul tuo computer e produce file di sottotitoli temporizzati. Viene fornito con sei dimensioni di modello (tiny, base, small, medium, large e turbo) con varianti solo inglese per i quattro più piccoli. I modelli multilingua coprono 99 lingue; le varianti .en sono solo inglese.

Ecco l'opinione che sostengo: per qualsiasi cosa sensibile, l'audio non dovrebbe mai lasciare il tuo laptop. Un colloquio di valutazione registrato, le note dettate da un medico, una deposizione legale — nulla di tutto ciò appartiene ai log di elaborazione di un fornitore solo perché avevi bisogno dei timestamp.

Ho visto una volta un team accumulare una fattura cloud-AI a cinque cifre in un solo trimestre trascrivendo le registrazioni degli standup. La reazione del CFO nella review successiva non fu «ottimizziamo il prompt». Fu «perché stiamo mandando audio delle riunioni a un server?». Il tuo laptop ha già una CPU e un microfono. Per il materiale privato, Whisper CLI offline è la risposta, e non costa nulla.

Esiste un port locale più veloce chiamato whisper.cpp, una build C/C++ di Whisper senza dipendenze che gira solo su CPU con una licenza aperta. Le persone riferiscono che può scrivere anche file di sottotitoli, ma per il percorso .srt verificato ti rimanderei all'OpenAI Whisper CLI ufficiale, e tratterei whisper.cpp come l'upgrade di velocità una volta che ti sei ambientato.

Quando Whisper by Remskill è lo strumento sbagliato per questo

Pasted

L'overlay di Whisper nel suo stato completo — incolla un paragrafo pulito al cursore, non un file di sottotitoli temporizzato. Il widget blu si sovrappone a qualsiasi app.

Ecco la parte che la maggior parte dei blog di prodotto salta. Se il tuo obiettivo è un file .srt o .vtt scaricabile, la nostra app è lo strumento sbagliato, e preferisco dirtelo ora piuttosto che farti sprecare un download.

Whisper by Remskill è prima di tutto per la dettatura. Tieni premuto un tasto (Ctrl+Space su Windows, Command+Option su macOS), parla, rilasci, e la trascrizione viene incollata al cursore in qualunque app sia aperta. Non suddivide il parlato in blocchi di sottotitoli, non allinea il testo a un orologio audio e non scrive un file di sottotitoli temporizzato. Dagli un'intervista e otterrai un paragrafo pulito, non un SRT. Ho immaginato il menu di esportazione in testa decine di volte e poi non l'ho realizzato, perché i sottotitoli temporizzati sono un prodotto a sé e farli male non aiuta nessuno.

Usa gli strumenti qui sopra per i file di sottotitoli. Ricorri alla nostra app per il compito adiacente: trasformare la tua voce in testo nel momento in cui ne hai bisogno. Un'email, una bozza, un testo che scriverai a mano in un post sui social. Funziona su due motori puri in Rust, OpenAI Whisper e NVIDIA Parakeet, senza Python e senza upload. Lavori diversi, strumenti diversi. Scegliere quello giusto è il punto centrale di questo articolo.

Prima di aprire qualsiasi cosa, rispondi alla domanda che decide tutto: stai producendo un file o stai producendo parole? Un file vuol dire timestamp, che vuol dire un vero generatore di sottotitoli. VEED o Kapwing per un passaggio rapido nel browser, il Whisper CLI per qualcosa di gratuito e privato. Le parole vuol dire una trascrizione, e quello è uno strumento diverso. Ho costruito un'app di dettatura e ti indirizzerei comunque altrove quando altrove è la scelta giusta. La settimana scorsa mia figlia di sette anni mi ha chiesto cosa faccio al lavoro, e la risposta onesta è che aiuto le persone a smettere di digitare, cosa che lei ha trovato profondamente poco interessante. Il pomeriggio che risparmierai è quello che ho passato io a sottotitolare quel podcast a mano, tre secondi alla volta.

Vuoi invece la metà della dettatura?

Se il tuo lavoro è avere le parole al cursore, non un file di sottotitoli, Whisper trasforma la tua voce in testo nel momento in cui ne hai bisogno, completamente offline.

Scopri come funziona Whisper Vedi i prezzi

Dettatura locale gratuita per ogni utente registrato. Per i file di sottotitoli, usa gli strumenti sopra.

Denys Medvediev

Sono quello che legge le nostre email di supporto, molto probabilmente dettando le risposte.

Approfondimenti

Domande frequenti

Sì. VEED, Kapwing, Descript e il Whisper CLI open source trascrivono tutti da un file audio: MP3, WAV, M4A, FLAC. Non è necessaria alcuna traccia video; lo strumento temporizza il parlato da solo.

Di Denys Medvediev23 aprile 2026

Tutorial

Audio a sottotitoli: cosa funziona davvero

Ultimo aggiornamento: giugno 2026

Ti servono i timestamp, non solo le parole

Come generare sottotitoli da un file audio in tre passi

Il flusso di lavoro è praticamente identico in quasi tutti gli strumenti, web o offline.

È tutto il ciclo. Le differenze tra gli strumenti si riducono a prezzo, copertura linguistica, dove va a finire il tuo audio e se il terzo passaggio è gratuito.

SRT vs VTT vs TXT: quale file ti serve

Tre formati compaiono in ogni menu di esportazione e le persone scelgono quello sbagliato in continuazione.

SRT (SubRip) è il file di sottotitoli standard. È un file di testo semplice composto da blocchi numerati, ciascuno con un intervallo di timecode e una o due righe di testo. YouTube, la maggior parte degli editor video e quasi tutti i player lo supportano. Se non sai quale scegliere, scegli SRT.
VTT (WebVTT) è il cugino web di SRT. Stessa idea, sintassi leggermente diversa, con in più il supporto per la formattazione e il posizionamento. Usa VTT quando un sito web o un video player HTML5 lo richiede per nome.
TXT contiene solo le parole, senza timestamp. È il formato che vuoi quando scrivi un articolo, dai in pasto un riassunto o citi un'intervista. È anche l'unico dei tre che uno strumento di dettatura può darti.

La mia regola pratica: SRT per i video, TXT per i documenti, VTT quando una piattaforma web lo richiede esplicitamente. La maggior parte degli strumenti esporta tutti e tre: VEED, Kapwing e Descript.

Gli strumenti che trasformano l'audio in file di sottotitoli

Ecco dove si posiziona ciascun tool browser, con le affermazioni sulle funzionalità prese direttamente dalla pagina di ciascuno.

VEED è un generatore automatico di sottotitoli per web e mobile che trascrive da un file solo audio e ti permette di scaricare il risultato come SRT, VTT o TXT. È gratuito per iniziare. Scaricare il file dei sottotitoli e sottotitolare video più lunghi richiede un piano a pagamento.
Kapwing pubblicizza «sottotitoli al 99% accurati, generati in pochi secondi». Questa è una cifra di marketing di Kapwing, non un benchmark indipendente. Accetta qualsiasi file video o audio, inclusi gli MP3, può tradurre i sottotitoli in oltre 100 lingue ed esporta SRT, VTT e TXT. Gli account gratuiti ottengono fino a 10 minuti di sottotitoli e una filigrana; il piano Pro rimuove la filigrana.
Descript genera sottotitoli in oltre 22 lingue, accetta file solo audio ed esporta i sottotitoli soft come SRT o VTT tramite Pubblica, poi Esporta, poi Sottotitoli. Funziona con un modello freemium con un livello gratuito di un'ora di media al mese.

Strumento	Piattaforma	Locale o cloud	Funziona offline	Modello di prezzo	Lingue	Ideale per
VEED	Web, mobile	Cloud	No	Gratuito per iniziare, a pagamento per esportare	Elenca 40+ opzioni, nessun totale dichiarato	Un passaggio rapido nel browser con download
Kapwing	Web	Cloud	No	Piano gratuito (filigrana), Pro	Traduce in 100+	Sottotitoli rapidi con traduzione
Descript	Web	Cloud	No	Freemium, un'ora di media gratuita	22+	Modificare audio e sottotitoli insieme
OpenAI Whisper CLI	Windows, macOS, Linux	Locale	Sì	Gratuito, open source	99 multilingua, 1 per le build .en	Gratuito, privato, senza upload

Questi strumenti condividono un'interfaccia che assomiglia più o meno a questa:

interview-audio.mp3Sottotitoli automatici

SRTVTTTXTScarica

Carica, clicca genera, scegli un formato, scarica. Quella barra, non la nostra, è l'aspetto di un generatore di sottotitoli da audio.

Gratuito e offline: generare SRT con Whisper open source

Quando Whisper by Remskill è lo strumento sbagliato per questo

Pasted

L'overlay di Whisper nel suo stato completo — incolla un paragrafo pulito al cursore, non un file di sottotitoli temporizzato. Il widget blu si sovrappone a qualsiasi app.

Vuoi invece la metà della dettatura?

Se il tuo lavoro è avere le parole al cursore, non un file di sottotitoli, Whisper trasforma la tua voce in testo nel momento in cui ne hai bisogno, completamente offline.

Scopri come funziona Whisper Vedi i prezzi

Dettatura locale gratuita per ogni utente registrato. Per i file di sottotitoli, usa gli strumenti sopra.

Denys Medvediev

Sono quello che legge le nostre email di supporto, molto probabilmente dettando le risposte.

Audio a sottotitoli: cosa funziona davvero

Ti servono i timestamp, non solo le parole

Come generare sottotitoli da un file audio in tre passi

SRT vs VTT vs TXT: quale file ti serve

Gli strumenti che trasformano l'audio in file di sottotitoli

Gratuito e offline: generare SRT con Whisper open source

Quando Whisper by Remskill è lo strumento sbagliato per questo

Vuoi invece la metà della dettatura?

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Audio a sottotitoli: cosa funziona davvero

Ti servono i timestamp, non solo le parole

Come generare sottotitoli da un file audio in tre passi

SRT vs VTT vs TXT: quale file ti serve

Gli strumenti che trasformano l'audio in file di sottotitoli

Gratuito e offline: generare SRT con Whisper open source

Quando Whisper by Remskill è lo strumento sbagliato per questo

Vuoi invece la metà della dettatura?

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Audio a sottotitoli: cosa funziona davvero

Ti servono i timestamp, non solo le parole

Come generare sottotitoli da un file audio in tre passi

SRT vs VTT vs TXT: quale file ti serve

Gli strumenti che trasformano l'audio in file di sottotitoli

Gratuito e offline: generare SRT con Whisper open source

Quando Whisper by Remskill è lo strumento sbagliato per questo

Vuoi invece la metà della dettatura?

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Audio a sottotitoli: cosa funziona davvero

Ti servono i timestamp, non solo le parole

Come generare sottotitoli da un file audio in tre passi

SRT vs VTT vs TXT: quale file ti serve

Gli strumenti che trasformano l'audio in file di sottotitoli

Gratuito e offline: generare SRT con Whisper open source

Quando Whisper by Remskill è lo strumento sbagliato per questo

Vuoi invece la metà della dettatura?

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque