Tutorial
Trascrivere video di YouTube: 3 modi
Tre metodi coprono quasi tutto: apri il pannello della trascrizione già presente nel video, incolla il link in un generatore gratuito, oppure detta i tuoi appunti a voce. I primi due richiedono solo un browser.
Ultimo aggiornamento: giugno 2026

Per trascrivere i video di YouTube, tre metodi coprono quasi tutto: apri il pannello Mostra trascrizione del video stesso per qualsiasi video con sottotitoli, incolla il link in un generatore di trascrizioni online gratuito per un testo più pulito e per scaricarlo, oppure cattura e detta i tuoi appunti con uno strumento desktop. I primi due richiedono solo un browser.
La settimana scorsa ho passato venti minuti a cercare di copiare tre frasi da un intervento a una conferenza di quaranta minuti. Non a trascriverlo tutto. Tre frasi, dette intorno al diciottesimo minuto, che volevo citare in una mail. Avanti e indietro sulla barra come se stessi disinnescando una bomba. La verità noiosa è che la maggior parte delle persone che cerca uno strumento per trascrivere i video di YouTube non ha bisogno dell'intera trascrizione. Ha bisogno di leggere invece di guardare, di prendere una citazione, o di trasformare un video in appunti che potrà cercare più tardi.
I video di YouTube si accumulano nelle schede come i libri da leggere si accumulano sullo scaffale, e guardarne uno a velocità normale è il modo più lento per estrarne le informazioni. In questo momento i risultati di ricerca sono un muro di widget incolla-il-link, tutti quasi identici, tutti che promettono trascrizioni gratuite in pochi secondi. Quasi tutti funzionano bene. La domanda è quale metodo si adatta a ciò che stai facendo. Questa guida ne illustra tre: la trascrizione integrata di YouTube, i generatori gratuiti dove incolli l'URL, e uno strumento di dettatura desktop per la parte che quei generatori non possono toccare. Alla fine saprai quale scegliere in meno di dieci secondi, e non ti ritroverai a scorrere una timeline a denti stretti. Leggo io le mail di supporto, quindi ho visto un sacco di persone scegliere prima quello sbagliato. Di solito subito dopo che l'avevo scelto sbagliato io.
Il metodo gratuito è già dentro YouTube
Se il video ha i sottotitoli, hai già la trascrizione. Non ti serve uno strumento, un account o una carta di credito. Apri il video, guarda sotto, nell'area della descrizione, e clicca su Mostra trascrizione. Si apre un pannello accanto al player con tutto il testo, e mentre il video va avanti il pannello scorre fino alla riga che viene pronunciata. Clicca su una riga qualsiasi e il video salta a quel punto.
È il metodo che la maggior parte degli articoli relega in fondo, probabilmente perché non c'è niente da vendere intorno ad esso. Funziona su desktop e su mobile. C'è un però: il video deve avere i sottotitoli in partenza. La maggior parte dei canali popolari ce li ha, generati automaticamente o aggiunti dall'autore, ma un vecchio video di un piccolo creator potrebbe non averli.
Verifica che abbia funzionato: il pannello della trascrizione mostra il testo che scorre in sincronia con l'audio. Se non si apre affatto, il video non ha sottotitoli, e passi al secondo metodo.
Un'altra cosa che alla gente sfugge. Il pannello della trascrizione ha un piccolo menu per disattivare i timestamp, il che rende il testo molto più facile da copiare come prosa pulita. Quell'interruttore sta nel pannello, non nella documentazione di supporto. È ampiamente documentato, ma non nella pagina di aiuto ufficiale di YouTube. Vale la pena saperlo prima di incollare un muro di numeri in un documento.
Incolla un link, ottieni un testo più pulito
Quando vuoi la trascrizione fuori da YouTube (per scaricarla, passarla a un riassuntore, o leggere un video che con il pannello integrato ti fa penare), un generatore gratuito dove incolli l'URL è la mossa giusta. Lo schema è sempre lo stesso. Copia l'URL di YouTube, incollalo in una casella, riavrai il testo.
Il generatore di trascrizioni YouTube gratuito di Tactiq prende un URL incollato, non chiede installazioni, né registrazione, né email, e ti permette di scaricare il risultato come file .txt. Dice apertamente che il riconoscimento vocale automatico non è sempre accurato al 100%, il che è la cosa onesta da dire. Il generatore di NoteGPT fa lo stesso trucco dell'incolla-il-link, restituisce una trascrizione con timestamp, supporta più lingue, ti permette di copiare con o senza i timestamp, e ci aggiunge la sintesi con l'AI. Il risultato in prima posizione, youtubetotranscript.com, nelle sue FAQ pubblicizza traduzione, limiti di lunghezza e un'API. Considerali pubblicizzati, non testati.
Verifica che abbia funzionato: puoi selezionare, copiare o scaricare il testo della trascrizione. Se lo strumento si blocca o non restituisce nulla, di solito il video non ha sottotitoli da cui attingere. Questi generatori leggono la traccia dei sottotitoli già esistente su YouTube, non ascoltano l'audio.
È tutta lì, in quell'ultima frase, la limitazione. Ed è qui che entra in gioco il terzo metodo.
Quello che gli strumenti col link non possono fare
Ognuno dei metodi qui sopra dipende dal fatto che YouTube abbia una traccia di sottotitoli da consegnare. Niente sottotitoli, niente trascrizione. Questo copre la maggior parte dei video pubblici, ma lascia un vuoto: l'audio che non è affatto un video pubblico di YouTube. Un link privato che qualcuno ti ha condiviso. Una diretta che ancora non ha sottotitoli. Un clip nel player di un corso. Le tue riprese, prima di caricarle.
Lascia anche un secondo vuoto, più silenzioso. A volte non vuoi le parole del video. Vuoi le tue parole sul video. L'appunto che scriveresti mentre guardi. Il riassunto con parole tue. Le tre frasi che detteresti a un collega per spiegargli perché quell'intervento conta.
È qui che uno strumento vocale desktop si guadagna il suo posto, e vale la pena essere precisi su ciò che fa e ciò che non fa. Whisper by Remskill è un'app di dettatura guidata da una scorciatoia. Premi la scorciatoia, parla nel microfono, e le tue parole compaiono come testo nel punto del cursore, in qualunque app tu sia. Non prende un link di YouTube e ti trascrive il video. Quello è il compito dei generatori incolla-il-link, non il nostro. Quello che fa è permetterti di guardare un video e catturare i tuoi appunti parlando invece di digitare, che per molte persone è il vero compito nascosto dietro al "trascrivi questo video".
Detta i tuoi appunti mentre il video va
Ecco il flusso di lavoro che uso io. Avvia il video. Quando c'è qualcosa che vale la pena tenere, tieni premuta la scorciatoia, dì l'appunto ad alta voce, rilascia. Il testo compare nel tuo documento. Niente cambi di scheda, niente pause per scrivere, niente filo del discorso perso.
Su Windows la scorciatoia predefinita è Ctrl+Space. Su macOS è una combinazione push-to-talk con soli tasti modificatori: tieni premuti insieme Command+Option, rilascia uno dei due per fermarti. Puoi cambiarla nelle Impostazioni se va in conflitto con qualcos'altro. L'overlay di registrazione ti mostra che sta ascoltando, così non sei mai lì a chiederti se ti ha sentito.
La trascrizione funziona in due modi, e scegli tu. La modalità locale gira sulla tua macchina attraverso due motori puramente in Rust: OpenAI Whisper, con modelli da circa 140 MB fino a circa 3 GB e 99 lingue nelle varianti multilingue, e NVIDIA Parakeet TDT, un unico modello da circa 600 MB che copre 25 lingue (l'inglese più altre 24 europee), il più veloce dei due. In modalità locale niente lascia il tuo laptop. La modalità cloud usa la tua chiave OpenAI, con gpt-4o-mini-transcribe o gpt-4o-transcribe per lo speech-to-text, per quando vuoi i modelli più recenti e l'accesso al web.
La pipeline locale è gratuita per qualsiasi utente registrato; il cloud è il livello Whisper Pro.
Ed è la parte in cui ammetto il mio pregiudizio. La maggior parte degli strumenti di produttività sono problemi di digitazione travestiti. Un'app per gli appunti, un gestore degli appunti, un secondo cervello con undici database annidati: sotto a tutto c'è lo stesso gesto, muovere le dita sui tasti per catturare qualcosa che già sai come dire. La dettatura salta la tastiera. Parlando si fanno circa 145 parole al minuto contro circa 40 della digitazione, quindi un appunto su un video che ti richiedeva un minuto da scrivere ti richiede circa quindici secondi da dire. La soluzione a un problema di digitazione di solito non è un'app più elegante. È non digitare.
Verifica che abbia funzionato: riesci a guardare l'intero video e a ritrovarti con una pagina di appunti senza mai toccare la tastiera, tranne che per scorrere.
Timestamp, file SRT e altre lingue
Tre cose che la gente chiede e che non vengono tutte dallo stesso posto, quindi lasciatemele mettere in ordine.
Timestamp. Il pannello integrato di YouTube e NoteGPT ti danno entrambi righe con timestamp che puoi copiare con o senza i numeri. Se vuoi i timestamp legati ai sottotitoli già esistenti del video, usa quelli. Uno strumento di dettatura da microfono non sa dove ti trovi nel video di qualcun altro.
File di sottotitoli SRT e VTT. Questo è un lavoro di esportazione di sottotitoli. La stessa API speech-to-text di OpenAI può produrre i formati srt e vtt con il modello whisper-1, e strumenti di editing come Descript producono file di sottotitoli dai media che carichi. Whisper by Remskill incolla testo semplice nel punto del cursore. È fatto per portare le parole nelle tue app, non per creare un file .srt. Strumento giusto, lavoro giusto.
Altre lingue. I generatori incolla-il-link gestiscono più lingue attingendo alla traccia dei sottotitoli di YouTube. Se stai dettando i tuoi appunti multilingue, il motore locale Whisper copre 99 lingue con i suoi modelli multilingue e può tradurre il parlato in inglese; Parakeet ne copre 25 e non traduce. Per la configurazione passo passo della dettatura, la guida all'app voice-to-text spiega tutto.
Interviste e conversazioni registrate. Lo stesso flusso di trascinamento del file gestisce le interviste registrate, dove di solito vuoi un testo pulito di chi parla da una lunga chiacchierata. La nostra guida su come trascrivere automaticamente le interviste copre proprio questo caso dall'inizio alla fine.
Quando saltare del tutto Whisper
Se il tuo unico scopo è leggere come testo un video pubblico di YouTube, salta Whisper e non pensarci due volte. La trascrizione integrata di YouTube è gratuita, immediata e già installata nel tuo browser.
Se ti serve un file scaricabile o una copia più pulita, un generatore gratuito come Tactiq lo fa senza account e senza email ed esporta un .txt.
Se stai inserendo sottotitoli in un video che stai montando, un editor di peso come Descript (che pubblicizza più di 30 lingue e fino al 95% di accuratezza sui media caricati) è la categoria giusta, non noi. Noi siamo per la parte che quegli strumenti non toccano: catturare le tue parole, a voce, mentre guardi.
Il pomeriggio in cui ho perso venti minuti per tre frasi, mia figlia maggiore è passata, mi ha visto scorrere gli stessi dieci secondi per la quarta volta, e mi ha chiesto perché non lo leggessi e basta. Le ho detto che il video non aveva una trascrizione. Lei ha detto che adesso tutto ha una trascrizione, papà, e se n'è andata a fare i compiti, che un'ora dopo avrebbe negoziato di non fare. Aveva praticamente ragione. La trascrizione di solito è già lì: sotto al video, dietro a un link, o a una scorciatoia di distanza, con parole tue.
Provalo sul tuo prossimo video
Scarica Whisper e detta il tuo prossimo giro di appunti sui video invece di digitarli.
Gratuito per tutta la pipeline locale. Nessuna carta alla registrazione.



