Di Denys Medvediev

Tutorial

Audio a sottotitoli: cosa funziona davvero

Un generatore di sottotitoli da audio trasforma un file sonoro in un SRT o VTT con timestamp. Ecco il flusso di lavoro reale, gli strumenti che esportano davvero un file e l'opzione gratuita offline che non carica mai il tuo audio.

Ultimo aggiornamento: giugno 2026

Forme d'onda audio visualizzate su uno schermo, che illustrano la conversione di un file sonoro in una traccia di sottotitoli

Un generatore di sottotitoli da audio prende un file sonoro — un MP3, un WAV o l'esportazione di un podcast — e produce un file di sottotitoli con timestamp. Ogni riga di testo riporta un momento di inizio e uno di fine. Strumenti web come VEED, Kapwing e Descript lo fanno nel browser. Il tool open-source OpenAI Whisper da riga di comando lo fa offline, sul tuo computer.

Una volta ho passato quaranta minuti ad aggiungere manualmente i sottotitoli a un clip podcast di dieci minuti, mettendo in pausa ogni tre secondi per digitare e indovinare i timestamp. Ho una laurea magistrale in ingegneria del software. Il calcolo è impietoso in ogni caso. I sottotitoli manuali richiedono più volte la durata dell'audio. Un moderno generatore di sottotitoli fa lo stesso lavoro nel tempo che ci vuole per ascoltarlo più una pausa caffè. La cosa che nessuno ti dice subito è che lo strumento giusto dipende da una domanda sola: ti serve un file temporizzato da scaricare, o bastano le parole?

"Generatore di sottotitoli" si usa per due lavori diversi, e lo strumento sbagliato ti costa un pomeriggio. Il settore si divide in tool browser che esportano file temporizzati e tool offline che fanno lo stesso gratis se sei disposto a usare il terminale. Questa guida spiega come funziona il flusso di lavoro, quali strumenti producono un vero file .srt solo dall'audio, cosa significano SRT, VTT e TXT, e quando un'app di dettatura come la nostra non è quella giusta. Alla fine saprai quale tool aprire in base al risultato che vuoi. La maggior parte della confusione che leggo nella nostra casella di supporto viene da persone che hanno scelto uno strumento per scrivere quando avevano bisogno di un file di sottotitoli. Un anno di quei messaggi è uno dei motivi principali per cui questo articolo esiste.

Ti servono i timestamp, non solo le parole

Un file di sottotitoli non è una trascrizione. Una trascrizione sono le parole. Un file di sottotitoli sono le parole più la temporizzazione. Ogni blocco di sottotitoli dice: «mostra questa riga dalle 00:01:04 alle 00:01:07». Quella temporizzazione è il cuore del lavoro. Consente a un video player di mostrare le parole giuste al secondo giusto.

La maggior parte degli strumenti «da voce a testo», incluso il nostro, restituisce solo le parole. Incolla un paragrafo pulito al cursore e si ferma lì. Un generatore di sottotitoli da audio deve fare di più: suddivide il parlato in blocchi brevi della lunghezza giusta per i sottotitoli, allinea ogni blocco all'orologio dell'audio e scrive tutto in un formato di file preciso leggibile da un player. Se il tuo risultato finale è un file da caricare su YouTube, in un editor video o su una piattaforma per corsi, hai bisogno dei timestamp. Se il tuo risultato finale è testo in un documento, non ne hai bisogno, e non dovresti pagare un tool per i sottotitoli solo per ottenerlo.

Come generare sottotitoli da un file audio in tre passi

Laptop con software di editing audio e cuffie su una scrivania in uno spazio di lavoro domestico

Il flusso di lavoro è praticamente identico in quasi tutti gli strumenti, web o offline.

1

Carica o punta al file audio. La maggior parte degli strumenti accetta MP3, WAV, M4A e FLAC, senza bisogno di un video. VEED accetta MP3, WAV, registrazioni di podcast, audio di interviste e memo vocali. Se hai solo un video come sorgente, lo strumento estrae l'audio per te.

2

Lascia che trascriva e temporalizzi il parlato. Lo strumento fa passare l'audio attraverso un modello vocale, scompone il risultato in righe della lunghezza giusta per i sottotitoli e assegna a ciascuna un tempo di inizio e di fine. La versione manuale richiede più volte la durata dell'audio. La versione automatica impiega circa il tempo del file.

3

Rivedi ed esporta il file. Leggi la trascrizione una volta (l'output del modello è buono, non perfetto), correggi i nomi che ha storpiato, poi esporta. Qui scegli il formato: SRT, VTT o semplice TXT.

È tutto il ciclo. Le differenze tra gli strumenti si riducono a prezzo, copertura linguistica, dove va a finire il tuo audio e se il terzo passaggio è gratuito.

SRT vs VTT vs TXT: quale file ti serve

Tre formati compaiono in ogni menu di esportazione e le persone scelgono quello sbagliato in continuazione.

  • SRT (SubRip) è il file di sottotitoli standard. È un file di testo semplice composto da blocchi numerati, ciascuno con un intervallo di timecode e una o due righe di testo. YouTube, la maggior parte degli editor video e quasi tutti i player lo supportano. Se non sai quale scegliere, scegli SRT.
  • VTT (WebVTT) è il cugino web di SRT. Stessa idea, sintassi leggermente diversa, con in più il supporto per la formattazione e il posizionamento. Usa VTT quando un sito web o un video player HTML5 lo richiede per nome.
  • TXT contiene solo le parole, senza timestamp. È il formato che vuoi quando scrivi un articolo, dai in pasto un riassunto o citi un'intervista. È anche l'unico dei tre che uno strumento di dettatura può darti.

La mia regola pratica: SRT per i video, TXT per i documenti, VTT quando una piattaforma web lo richiede esplicitamente. La maggior parte degli strumenti esporta tutti e tre: VEED, Kapwing e Descript.

Gli strumenti che trasformano l'audio in file di sottotitoli

Ecco dove si posiziona ciascun tool browser, con le affermazioni sulle funzionalità prese direttamente dalla pagina di ciascuno.

  • VEED è un generatore automatico di sottotitoli per web e mobile che trascrive da un file solo audio e ti permette di scaricare il risultato come SRT, VTT o TXT. È gratuito per iniziare. Scaricare il file dei sottotitoli e sottotitolare video più lunghi richiede un piano a pagamento.
  • Kapwing pubblicizza «sottotitoli al 99% accurati, generati in pochi secondi». Questa è una cifra di marketing di Kapwing, non un benchmark indipendente. Accetta qualsiasi file video o audio, inclusi gli MP3, può tradurre i sottotitoli in oltre 100 lingue ed esporta SRT, VTT e TXT. Gli account gratuiti ottengono fino a 10 minuti di sottotitoli e una filigrana; il piano Pro rimuove la filigrana.
  • Descript genera sottotitoli in oltre 22 lingue, accetta file solo audio ed esporta i sottotitoli soft come SRT o VTT tramite Pubblica, poi Esporta, poi Sottotitoli. Funziona con un modello freemium con un livello gratuito di un'ora di media al mese.

Ecco come si confrontano questi quattro strumenti sugli aspetti verificabili prima di impegnarti. Nessun dato su accuratezza o velocità, perché nessuno li ha testati testa a testa sullo stesso audio:

StrumentoPiattaformaLocale o cloudFunziona offlineModello di prezzoLingueIdeale per
VEEDWeb, mobileCloudNoGratuito per iniziare, a pagamento per esportareElenca 40+ opzioni, nessun totale dichiaratoUn passaggio rapido nel browser con download
KapwingWebCloudNoPiano gratuito (filigrana), ProTraduce in 100+Sottotitoli rapidi con traduzione
DescriptWebCloudNoFreemium, un'ora di media gratuita22+Modificare audio e sottotitoli insieme
OpenAI Whisper CLIWindows, macOS, LinuxLocaleGratuito, open source99 multilingua, 1 per le build .enGratuito, privato, senza upload

Tutti e tre i tool browser inviano il tuo audio sul server di qualcun altro. Per un clip di marketing va bene. Per una chiamata registrata con un cliente o qualsiasi cosa contenga dati sensibili, continua a leggere.

Questi strumenti condividono un'interfaccia che assomiglia più o meno a questa:

interview-audio.mp3Sottotitoli automatici
SRTVTTTXTScarica

Carica, clicca genera, scegli un formato, scarica. Quella barra, non la nostra, è l'aspetto di un generatore di sottotitoli da audio.

Gratuito e offline: generare SRT con Whisper open source

Codice su uno schermo in modalità scura, che evoca un flusso di lavoro da riga di comando per i sottotitoli

Se preferisci non caricare nulla, il tool open-source da riga di comando di OpenAI scrive file di sottotitoli sul tuo computer gratuitamente. Il suo flag --output_format accetta txt, vtt, srt, tsv, json o all, e il valore predefinito è all. Quindi un solo comando, whisper interview.mp3 --model turbo, produce un file .srt offline, senza account e senza upload.

Whisper open source è un progetto diverso da Whisper by Remskill, e vale la pena essere chiari al riguardo. È il modello da riga di comando di OpenAI che gira sul tuo computer e produce file di sottotitoli temporizzati. Viene fornito con sei dimensioni di modello (tiny, base, small, medium, large e turbo) con varianti solo inglese per i quattro più piccoli. I modelli multilingua coprono 99 lingue; le varianti .en sono solo inglese.

Ecco l'opinione che sostengo: per qualsiasi cosa sensibile, l'audio non dovrebbe mai lasciare il tuo laptop. Un colloquio di valutazione registrato, le note dettate da un medico, una deposizione legale — nulla di tutto ciò appartiene ai log di elaborazione di un fornitore solo perché avevi bisogno dei timestamp.

Ho visto una volta un team accumulare una fattura cloud-AI a cinque cifre in un solo trimestre trascrivendo le registrazioni degli standup. La reazione del CFO nella review successiva non fu «ottimizziamo il prompt». Fu «perché stiamo mandando audio delle riunioni a un server?». Il tuo laptop ha già una CPU e un microfono. Per il materiale privato, Whisper CLI offline è la risposta, e non costa nulla.

Esiste un port locale più veloce chiamato whisper.cpp, una build C/C++ di Whisper senza dipendenze che gira solo su CPU con una licenza aperta. Le persone riferiscono che può scrivere anche file di sottotitoli, ma per il percorso .srt verificato ti rimanderei all'OpenAI Whisper CLI ufficiale, e tratterei whisper.cpp come l'upgrade di velocità una volta che ti sei ambientato.

Quando Whisper by Remskill è lo strumento sbagliato per questo

Pasted
L'overlay di Whisper nel suo stato completo — incolla un paragrafo pulito al cursore, non un file di sottotitoli temporizzato. Il widget blu si sovrappone a qualsiasi app.

Ecco la parte che la maggior parte dei blog di prodotto salta. Se il tuo obiettivo è un file .srt o .vtt scaricabile, la nostra app è lo strumento sbagliato, e preferisco dirtelo ora piuttosto che farti sprecare un download.

Whisper by Remskill è prima di tutto per la dettatura. Tieni premuto un tasto (Ctrl+Space su Windows, Command+Option su macOS), parla, rilasci, e la trascrizione viene incollata al cursore in qualunque app sia aperta. Non suddivide il parlato in blocchi di sottotitoli, non allinea il testo a un orologio audio e non scrive un file di sottotitoli temporizzato. Dagli un'intervista e otterrai un paragrafo pulito, non un SRT. Ho immaginato il menu di esportazione in testa decine di volte e poi non l'ho realizzato, perché i sottotitoli temporizzati sono un prodotto a sé e farli male non aiuta nessuno.

Usa gli strumenti qui sopra per i file di sottotitoli. Ricorri alla nostra app per il compito adiacente: trasformare la tua voce in testo nel momento in cui ne hai bisogno. Un'email, una bozza, un testo che scriverai a mano in un post sui social. Funziona su due motori puri in Rust, OpenAI Whisper e NVIDIA Parakeet, senza Python e senza upload. Lavori diversi, strumenti diversi. Scegliere quello giusto è il punto centrale di questo articolo.

Prima di aprire qualsiasi cosa, rispondi alla domanda che decide tutto: stai producendo un file o stai producendo parole? Un file vuol dire timestamp, che vuol dire un vero generatore di sottotitoli. VEED o Kapwing per un passaggio rapido nel browser, il Whisper CLI per qualcosa di gratuito e privato. Le parole vuol dire una trascrizione, e quello è uno strumento diverso. Ho costruito un'app di dettatura e ti indirizzerei comunque altrove quando altrove è la scelta giusta. La settimana scorsa mia figlia di sette anni mi ha chiesto cosa faccio al lavoro, e la risposta onesta è che aiuto le persone a smettere di digitare, cosa che lei ha trovato profondamente poco interessante. Il pomeriggio che risparmierai è quello che ho passato io a sottotitolare quel podcast a mano, tre secondi alla volta.

Vuoi invece la metà della dettatura?

Se il tuo lavoro è avere le parole al cursore, non un file di sottotitoli, Whisper trasforma la tua voce in testo nel momento in cui ne hai bisogno, completamente offline.

Dettatura locale gratuita per ogni utente registrato. Per i file di sottotitoli, usa gli strumenti sopra.

Foto di Denys Medvediev

Denys Medvediev

Sono quello che legge le nostre email di supporto, molto probabilmente dettando le risposte.

Approfondimenti