Guida
Trascrizione in tempo reale, spiegata
Due app portano lo stesso nome ma fanno cose opposte. Ecco come distinguere i sottotitoli live dalla dettatura quasi istantanea, e scegliere quella che fa al caso tuo.
Ultimo aggiornamento: giugno 2026

Un'app di trascrizione in tempo reale converte le parole pronunciate in testo nel momento in cui parli, senza bisogno di caricare un file e aspettare. Ne esistono due tipi: i sottotitoli live continui che trasmettono una trascrizione durante le riunioni, e la dettatura quasi istantanea che trascrive al rilascio di un tasto rapido e incolla il testo al cursore. Quale delle due ti serve dipende dal fatto che tu stia seguendo una conversazione o scrivendo qualcosa.
Un team finanziario con cui ho lavorato una volta ha costruito il proprio strumento di "trascrizione in tempo reale". Un consulente esterno ha collegato GPT-4 al microfono di ogni laptop e lo ha lasciato girare. A fine trimestre, il manager ha aperto la dashboard cloud e si è trovato davanti una fattura a cinque cifre. Gran parte era dovuta a un team che aveva trascritto le registrazioni degli standup quattro volte, perché la logica di "smart retry" era troppo aggressiva. Il consulente ha detto che avrebbero dovuto ottimizzare il prompt. Il CFO ha detto qualcosa di più breve. La frase "trascrizione in tempo reale" aveva significati diversi per ognuno di loro.
Questa confusione è il problema centrale di questa categoria. Due persone dicono "app di trascrizione in tempo reale" e intendono due cose completamente diverse. Una vuole vedere le parole scorrere sullo schermo mentre un collega parla in una chiamata Zoom. L'altra vuole tenere premuto un tasto, pronunciare una frase, rilasciarlo e vederla comparire nell'email che sta già scrivendo. Questo articolo chiarisce la differenza, mostra come funziona la versione locale veloce e ti dice quando conviene usare uno strumento per le riunioni. Alla fine saprai quale categoria si adatta al tuo problema. La maggior parte delle persone sceglie quella sbagliata il primo giorno. Lo so perché gran parte delle email di supporto che leggo vengono da chi ha fatto esattamente questo, e ho passato il mio primo mese a rispondere a ognuna a mano prima di pensare di spiegare la differenza fin dall'inizio.
La distinzione conta perché le due soluzioni eccellono in compiti opposti. I sottotitoli live sono pensati per non fermarsi mai: seguono una riunione per un'ora mentre tu leggi. La dettatura è pensata per finire in fretta: parli per quindici secondi, il testo arriva, continui a lavorare. Un'email di vendita a freddo è dodici varianti di ottanta parole — circa dodici minuti a voce contro quarantacinque a mano. Il riassunto di una lezione è una registrazione di novanta minuti compressa in una nota di seicento parole. Stessa ricerca, due strumenti diversi.
Cosa significa davvero 'tempo reale'

Esistono due definizioni oneste di "tempo reale", e le app che lo dichiarano si dividono in due categorie.
La prima è la sottotitolazione live continua. La trascrizione appare parola per parola mentre l'audio è ancora in riproduzione: una riunione, una lezione, un video. Leggi il testo mentre scorre. Otter lo fa durante le chiamate, con sottotitoli live per Zoom e Google Meet. Maestra pubblicizza trascrizione e traduzione in tempo reale in oltre 125 lingue con un livello live gratuito. Windows 11 ha i Sottotitoli live integrati, on-device e offline, in circa 21 lingue. Questi strumenti guardano un flusso audio e lo narrano.
La seconda è la dettatura quasi istantanea. Tieni premuto un tasto rapido, pronunci una frase o un paragrafo, lo rilasci e il testo finito appare esattamente dove si trova già il cursore. Nessun sottotitolo in streaming. Una breve pausa di uno o due secondi, poi l'intero blocco arriva. È quello che fa Whisper by Remskill. Trascrive al rilascio del tasto rapido e incolla al cursore; il microfono rimane aperto 500 millisecondi dopo che hai lasciato andare, per catturare l'ultima parola che la gente tende a smorzare.
Entrambi sono "in tempo reale" nel senso che conta per un essere umano: non registri un file, non lo carichi, non aspetti. Ma risolvono problemi diversi. I sottotitoli live sono uno strumento di lettura: stai consumando il discorso di qualcun altro. La dettatura è uno strumento di scrittura: stai producendo il tuo. Confonderli significa pagare un abbonamento per le note delle riunioni per rispondere a un'email di una riga, oppure lottare con un'app di dettatura per sottotitolare un webinar che non è mai stata pensata per seguire.
Una terza cosa viene raggruppata qui, ma non è affatto in tempo reale: la trascrizione di file. Registri un'intervista, carichi l'audio e lo strumento ti restituisce una trascrizione qualche minuto dopo. Strumenti come Rev e Trint sono costruiti più per quel tipo di lavoro, ed è un compito diverso: modificare una registrazione finita, non catturare il parlato mentre accade. Vale la pena nominarla per poterla escludere. Se stai aspettando una barra di avanzamento del caricamento, non stai usando un'app in tempo reale, qualunque cosa dica il marketing.
Quindi la categoria ha una forma precisa, una volta che la vedi. Leggere il parlato che accade ora: sottotitoli live. Scrivere il parlato che stai producendo ora: dettatura. Rivedere una registrazione precedente: trascrizione di file. Il termine di ricerca "app di trascrizione in tempo reale" sovrappone i primi due e trascina dentro il terzo per caso. Capire in quale categoria rientri è la cosa più utile che puoi fare prima di installare qualsiasi cosa.
Premi un tasto, ottieni testo al cursore
Ecco il ciclo di dettatura, dall'inizio alla fine. Premi il tasto rapido: Ctrl+Space su Windows, oppure Command+Option tenuti insieme su macOS — un accordo push-to-talk dove tieni entrambi i tasti premuti mentre parli e ne rilasci uno per fermarti. Parli. Lasci andare. Un piccolo pannello mostra l'app che sta trascrivendo, e uno o due secondi dopo il testo è nella qualunque app in cui ti trovavi già: l'email, il documento, la chat, il commento nel codice.
Nessuna finestra su cui passare. Nessun "copia dalla scheda di trascrizione e incollalo". Il testo arriva al cursore perché è esattamente questo il punto. Stavi scrivendo, e ora stai scrivendo più velocemente. Il pannello qui sopra è l'app live, non uno screenshot; quello stato di trascrizione è quello che vedi nel mezzo secondo tra il rilascio del tasto e la comparsa delle parole.
Ecco perché il "tempo reale" si percepisce in modo diverso rispetto a un flusso di sottotitoli. Un sottotitolo è qualcosa che guardi succedere a qualcun altro. La dettatura è qualcosa che succede alla tua frase, abbastanza in fretta da non perdere il filo di quello che stavi dicendo. Il buffer di coda da 500 millisecondi esiste per questo motivo. Le persone abbassano la voce alla fine di una frase, e tagliare il microfono nell'istante in cui si rilascia il tasto taglierebbe l'ultima parola. Un dettaglio piccolo. È la differenza tra "grazie per aver organizzato il tri" e una frase completa.
È utile capire perché i tempi sono quelli che sono. Quando rilasci il tasto, l'audio che hai appena pronunciato è già catturato in memoria. Il modello elabora quel breve clip — una frase o un paragrafo, non un flusso live — ed è per questo che il risultato arriva come un blocco finito anziché scorrere parola per parola. Un clip breve è rapido da elaborare; questo è il trucco. Uno strumento di sottotitolazione live deve continuare a decodificare un flusso aperto e mostrare ipotesi parziali che rivede man mano che arriva altro audio. La dettatura salta tutto questo. Aspetta che tu abbia finito, poi trascrive una volta sola, in un passaggio pulito.
È quella scelta di design che ti mantiene in stato di flusso. Nella mia esperienza, la cosa che rompe la dettatura è il ritardo: quando la pausa supera uno o due secondi, mi accorgo che la mia attenzione torna all'app in cui ero e perdo il filo della frase che stavo formulando. È un'opinione maturata usando il ciclo ogni giorno, non una specifica pubblicata. Clip brevi più un motore locale veloce mantengono corta la pausa. È quella pausa che vale la pena accorciare, ed è per questo che il ciclo sembra scrivere piuttosto che dettare-e-aspettare.
Se vuoi la versione approfondita di come funziona l'intero flusso, abbiamo scritto un articolo separato su come Whisper trasforma la pressione di un tasto in testo incollato. Questa è la versione breve: premi, parla, rilascia, fatto.
Perché Parakeet è l'opzione locale più veloce
La trascrizione locale una volta significava lenta. Questo è cambiato quando è arrivato il modello Parakeet di NVIDIA. Nell'app Whisper, la descrizione interna di Parakeet è "5-10× faster than Whisper on CPU", con copertura per l'inglese più 24 lingue europee, su circa 600 MB di spazio. Quella velocità è ciò che rende la dettatura locale quasi istantanea anziché quasi quanto un caffè. È l'unico motivo per cui il ciclo con tasto rapido descritto sopra funziona senza un server nel mezzo.
Non sei bloccato su un solo motore. Whisper by Remskill include due opzioni locali. Parakeet supporta 25 lingue (inglese più 24 europee) ma non le lingue asiatiche e non la traduzione verso l'inglese. Il motore faster-whisper copre più terreno: le versioni multilingue gestiscono 99 lingue con rilevamento automatico, mentre le versioni .en sono solo per l'inglese, una lingua sola, in cambio di dimensioni ridotte e maggiore velocità. I modelli Whisper vanno da un Base inglese di circa 140 MB fino a un Large v3 multilingue di circa 3 GB, con un Large v3 Turbo da circa 1,62 GB nel mezzo per chi vuole la maggior parte della precisione con una frazione dell'attesa.
L'app non sceglie per te, e questo è intenzionale. Il componente qui sopra è la vera schermata delle impostazioni. Scegli Parakeet se parli principalmente inglese e vuoi velocità pura, oppure un modello Whisper se hai bisogno di copertura per 99 lingue o di traduzione verso l'inglese. Ho passato un pomeriggio imbarazzante a cercare di selezionare automaticamente il motore "migliore" per gli utenti, prima di ammettere che l'unica persona che sa qual è quello giusto è chi sta parlando. Il compromesso è reale: Parakeet è il più veloce e il più piccolo, ma non supporta cinese, giapponese o coreano, e non può tradurre. I modelli Whisper multilingue possono fare tutto questo, al costo di un modello più grande e di un'attesa più lunga per clip. Nessuno dei due è "migliore" in astratto; uno è migliore per la tua bocca specifica e le tue lingue specifiche.
Esiste anche un percorso cloud che usa la tua chiave OpenAI: trascrizione tramite gpt-4o-mini-transcribe o gpt-4o-transcribe, con pulizia del testo gestita da gpt-5-mini per impostazione predefinita. Il cloud ha bisogno di internet; i motori locali no. Il percorso cloud è la via di uscita, non il punto di partenza. Se un laptop di quattro anni fa fa girare i motori locali senza problemi — e la maggior parte lo fa — non avrai mai bisogno di un server nel ciclo per un paragrafo di email.
Fermati un momento su questo punto. La dettatura solo cloud è un disastro per la privacy. Il foglio stipendi del tuo capo, l'email alla scuola di tuo figlio, la memoria legale sul treno: nessuna di queste cose dovrebbe finire nei log di un fornitore solo perché volevi scrivere con la voce. La modalità locale funziona sul dispositivo e lavora offline dopo il download iniziale del modello; nulla viene inviato ad alcun server durante la trascrizione locale. Il trimestre a cinque cifre di quel team finanziario è successo perché le parole hanno lasciato l'edificio. Era evitabile.
Se vuoi l'argomento più lungo, ecco la nostra tesi per la sintesi vocale offline che non chiama mai casa.
Sottotitoli live per le riunioni vs. dettatura al cursore

Scegli lo strumento in base a quello che stai facendo, non in base a quale dice "tempo reale" più forte.
Se sei in una riunione e hai bisogno che la conversazione venga catturata in tempo reale (più partecipanti, un'ora di durata, con un riepilogo alla fine) vuoi la sottotitolazione live continua. È un lavoro di lettura e registrazione. Otter, Maestra, i sottotitoli integrati di Google Meet, Windows 11 Live Captions: seguono un flusso e lo trascrivono. Windows 11 sottotitola qualsiasi audio in riproduzione sullo schermo, on-device e offline, ma lo fa in sola lettura. Non digita le parole nell'app in cui stai lavorando.
Questa distinzione di Windows manda in confusione molta gente. Live Captions legge l'audio in riproduzione (un video, una chiamata, la voce di un collega attraverso gli altoparlanti) e lo mostra sullo schermo perché tu lo legga. Non inserisce il testo nel documento che stai scrivendo. Questa è la linea tra uno strumento di lettura e uno strumento di scrittura: stesso motore di trascrizione on-device sotto il cofano, una destinazione diversa per le parole. Uno le invia a una barra dei sottotitoli che leggi. L'altro le invia al cursore a cui stai scrivendo.
Se stai scrivendo un'email, un documento, un messaggio Slack, una nota di commit, vuoi la dettatura. Stai producendo le parole, non trascrivendo quelle di qualcun altro. Le vuoi al cursore, veloci, e poi fuori dai piedi. Questo è il ciclo con tasto rapido. Uno strumento di sottotitolazione live ti trascriverà in un certo senso, ma scaricherà il testo nella sua finestra e ti lascerà a copiarlo, vanificando la velocità che cercavi.
Alcuni casi concreti rendono la distinzione ovvia. Un addetto alle vendite che detta note nel CRM tra una chiamata e l'altra (cinquanta parole, una pressione di tasto, trenta secondi) usa la dettatura. Un team che fa una chiamata di pianificazione settimanale e ha bisogno di una trascrizione ricercabile e dei punti d'azione da tenere usa la sottotitolazione live. Uno studente che vuole trasformare una lezione di novanta minuti in un riassunto di seicento parole vuole la sottotitolazione durante la lezione e poi uno strumento per comprimerla. Un genitore che risponde all'email di un insegnante mentre prepara i panini vuole la dettatura, perché sta scrivendo una risposta, non registrando la cucina. La stessa persona può averne bisogno di entrambi nello stesso giorno. Sono ancora due strumenti diversi.
La regola: ascoltare il parlato → sottotitoli live; scrivere a voce → dettatura. Alcune app sfumano il confine, ma la maggior parte della frustrazione in questa categoria nasce dall'usare uno strumento per riunioni per scrivere, o uno strumento di scrittura per sottotitolare una riunione. Whisper si trova nel campo della scrittura: quasi istantaneo, cursore prima di tutto, push-to-talk. È lo stesso ciclo che tu stia dettando in Gmail o in qualsiasi altro campo di testo.
Le altre app di trascrizione in tempo reale che vale la pena conoscere
Non devi credere sulla parola alla mia descrizione della categoria. Ecco una lettura onesta in una riga per i principali attori, così puoi inquadrare ognuno prima di decidere.
- Otter copre la trascrizione delle riunioni con sottotitoli live per Zoom e Google Meet, app su iOS, Android e Web, e trascrizione AI in inglese, spagnolo, francese, tedesco, giapponese e cinese. Il livello gratuito ti limita a 300 minuti di trascrizione al mese.
- Maestra pubblicizza trascrizione e traduzione in tempo reale in oltre 125 lingue, più sottotitoli e doppiaggio, con un livello di trascrizione live che l'azienda dichiara gratuito. Costruita per sottotitoli e didascalie, non per la dettatura al cursore.
- Notta converte audio e video in testo in tempo reale e dichiara il supporto per 58 lingue con traduzione. Uno strumento per riunioni e registrazioni, basato su cloud.
- Rev e Trint si posizionano più attorno ai media registrati che alla dettatura al cursore. Rev è noto soprattutto per la trascrizione di riunioni e registrazioni; Trint è ampiamente usato nel giornalismo e nei flussi di lavoro delle redazioni per lavorare con interviste registrate. Entrambi sono strumenti di lettura e modifica, non un ciclo tieni-un-tasto-e-digita-nella-tua-app.
Nota il pattern: la maggior parte di questi sono strumenti per riunioni e registrazioni che vivono nel cloud. Questo è l'intero mercato delle "app di trascrizione live". Il campo della dettatura al cursore — lo strumento di scrittura — è la categoria più piccola e silenziosa, ed è quella di cui ha bisogno la maggior parte delle persone che cercano questo termine senza conoscerne il nome.
Per mettere questi strumenti a confronto sugli aspetti che puoi verificare, non su punteggi di velocità o precisione inventati:
| Strumento | Piattaforma | Locale / Cloud | Funziona offline | Modello di prezzo | Lingue | Ideale per |
|---|---|---|---|---|---|---|
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Locale + cloud opzionale (BYOK) | Sì, modalità locale | Livello locale gratuito; add-on cloud a pagamento | 99 (Whisper multilingue) / 25 (Parakeet) | Dettatura al cursore |
| Otter | iOS, Android, Web | Cloud | No | Livello gratuito + piani a pagamento | 6 | Sottotitoli live per riunioni |
| Maestra | Web | Cloud | No | Livello live gratuito + piani a pagamento | 125+ | Sottotitoli, doppiaggio, didascalie |
| Notta | Web, mobile | Cloud | No | Livello gratuito + piani a pagamento | 58 (dichiarate) | Note di riunioni e registrazioni |
| Windows 11 Live Captions | Windows 11 | Locale (on-device) | Sì | Integrato nel sistema operativo | ~21 | Sottotitoli a schermo da leggere |
Vale la pena spendere una frase per capire perché il mercato ha questa forma. Le riunioni sono dove si trovano i soldi. Un'azienda pagherà per postazione per catturare ogni chiamata, riassumerla e inserire i punti d'azione in un project tracker. È una voce di spesa ricorrente e deducibile. La scrittura personale a voce no. Così la metà rumorosa e ben finanziata della categoria è costruita per le sale riunioni, mentre la metà che aiuta una persona a rispondere alle email più in fretta riceve meno attenzione di marketing. La frase "app di trascrizione in tempo reale" si sovrappone a entrambe, ed è per questo che la gente atterra su uno strumento per riunioni quando cercava uno strumento di digitazione. Se vuoi una panoramica più ampia del settore per categoria, manteniamo una guida al software di trascrizione per categoria.
Quando saltare Whisper e usare uno strumento per riunioni
Lo dico chiaramente, perché l'alternativa è venderti la cosa sbagliata. Se il tuo compito è catturare una riunione live (diverse persone che parlano, un'ora di durata, un riepilogo ordinato alla fine) non usare Whisper per quello. Usa Otter. È costruito per questo, con sottotitoli live per Zoom e Google Meet e app su ogni piattaforma, e il livello gratuito ti dà 300 minuti al mese per testarlo. Per sottotitoli multilingue o doppiaggio, il livello live di Maestra copre oltre 125 lingue. E se hai bisogno solo di sottotitolare l'audio già in riproduzione sullo schermo Windows, Windows 11 Live Captions è gratuito, on-device e già installato. Noi facciamo uno strumento di scrittura. Quando ti serve uno strumento di lettura, quelli sono i pick migliori, e preferiamo che tu usi quello giusto. (Per il confronto diretto sul caso delle riunioni, abbiamo scritto un confronto completo sulle alternative a Otter.ai.)
Quanto costa
Whisper by Remskill è gratuito per ogni utente registrato sull'intero flusso locale (Parakeet, tutti i modelli Whisper, pulizia AI on-device, cronologia, preset, tasti rapidi personalizzati) senza che venga richiesto un metodo di pagamento alla registrazione. Il livello a pagamento, Whisper Pro, aggiunge la superficie cloud: trascrizione OpenAI con chiave propria e ricerca web. I numeri esatti si trovano sulla pagina dei prezzi, e non si muovono con note a piè di pagina del tipo "a partire da". Per fare un confronto: il livello gratuito di Otter si ferma a 300 minuti al mese, con piani a pagamento oltre quella soglia. Il punto del flusso locale gratuito è che puoi testare l'intero ciclo di scrittura — tasto, parla, incolla — prima di decidere se il cloud vale un centesimo.
Due persone leggeranno questo articolo e vorranno due app diverse. Una sta per sottotitolare uno standup. L'altra sta per rispondere a trenta email prima di portare i bambini a scuola, una pressione di tasto alla volta. L'unico errore è prendere lo strumento sbagliato perché entrambi dicevano "tempo reale" sulla scatola, e poi aprire una dashboard cloud tra tre mesi chiedendosi da dove viene la fattura. Scegli in base a quello che stai facendo. Ascoltare il parlato, o scriverlo. Tutto il resto viene da sé.
Prova il ciclo di scrittura sul tuo laptop
Scarica Whisper, tieni premuto il tasto, di' una frase, guarda il testo arrivare dove si trova già il cursore.
Gratuito sull'intero flusso locale. Nessun metodo di pagamento alla registrazione.



