Guida
Strumenti di trascrizione AI, spiegati
Cos'è davvero uno strumento di trascrizione AI, come funziona la pipeline da voce a testo, quanto è accurato sul serio quando l'audio non viene da uno studio, e l'unica decisione (locale o cloud) che conta più del logo che scegli.
Ultimo aggiornamento: giugno 2026

Uno strumento di trascrizione AI è un software che trasforma l'audio parlato in testo scritto usando modelli di riconoscimento vocale. Ascolta una registrazione o il parlato in tempo reale, prevede le parole più probabili e produce una trascrizione. La stessa tecnologia si chiama anche speech to text o riconoscimento vocale automatico, e la maggior parte degli strumenti moderni usa un modello della famiglia OpenAI Whisper.
Dieci anni fa ho visto un parente provare a dettare una lettera di auguri su un PC con Windows 98. Il software richiedeva prima 45 minuti di "addestramento", poi girava forse al 70% di accuratezza con quattro secondi di ritardo a frase. Un paragrafo richiedeva quindici minuti. Le cuffie sono volate dall'altra parte della stanza. Le cuffie sono sopravvissute; l'esperimento no. Oggi mia figlia di sette anni detta un'email alla nonna in 90 secondi e dopo la dimostrazione non fa più una sola domanda. Quella distanza è tutta la storia della trascrizione AI, e si è colmata più in fretta di quanto quasi chiunque avesse previsto.
Ecco la parte che le pagine di marketing saltano: lo speech to text era un problema di ricerca, poi nel 2022 è arrivato il modello open source Whisper e, in silenzio, ha smesso di esserlo per la maggior parte delle persone. Oggi uno strumento di trascrizione AI significa un modello abbastanza buono da togliersi quasi sempre di mezzo, avvolto in un software che decide dove finisce il tuo audio e cosa succede al testo dopo. Questo articolo spiega come funziona quella pipeline, quanto è accurata quando l'audio non viene da uno studio di podcast, e l'unica decisione (locale o cloud) che conta più del logo che scegli. Leggo tutte le email di supporto che riceviamo, e le persone scontente hanno quasi sempre sbagliato proprio quella decisione, non lo strumento.
Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.
Togli di mezzo le dashboard e il branding da "motore di conoscenza conversazionale", e ogni strumento di questa categoria fa una sola cosa: audio in entrata, testo in uscita. Le differenze sono tutto ciò che gira attorno a quel nucleo: dove gira il modello, cosa fa con la trascrizione e quanto chiede per farlo.
Dominano tre forme di prodotto. Il prendi-appunti per riunioni entra nella tua chiamata, registra tutti e sputa fuori un riassunto con gli action item. Otter è l'esempio classico, con 300 minuti di trascrizione gratuiti al mese. Il servizio di caricamento file ti permette di trascinare un file audio e scaricare la trascrizione più tardi. Rev e Sonix stanno qui, e Rev vende anche trascrittori umani come ripiego ad alta accuratezza. Lo strumento di dettatura sta in background e incolla il testo ovunque sia il cursore nel momento in cui smetti di parlare. Quest'ultimo è ciò che fa Whisper by Remskill: premi una scorciatoia globale, parla, e il testo trascritto compare nell'app in cui ti trovi già.
Stesso lavoro di fondo. Tre esperienze quotidiane completamente diverse. Gran parte della confusione in questa categoria nasce dal confrontare un prendi-appunti per riunioni con uno strumento di dettatura come se fossero in competizione. Non lo sono, non più di quanto un autobus sia in competizione con una bicicletta.
Come funziona davvero la trascrizione AI (e dove ancora inciampa)
Il meccanismo è più semplice di quanto il branding lasci intendere. Il microfono cattura il suono come forma d'onda, un flusso di numeri che descrive la pressione dell'aria nel tempo. Il modello spezza quel flusso in brevi frammenti, converte ciascun frammento in una rappresentazione numerica delle sue caratteristiche acustiche, e poi prevede, token dopo token, la sequenza di testo più probabile che ha prodotto quei suoni. Sta facendo statistica sull'audio, non comprendendo significati. Ho passato la mia prima settimana su questo progetto a disegnare la pipeline come un ordinato diagramma a riquadri prima ancora di aver lanciato il modello una volta. Il diagramma era sbagliato già al secondo commit. Al modello del mio diagramma non importava nulla.
Quel dettaglio è il motivo per cui la trascrizione AI inciampa dove inciampa. Il modello prevede le parole più probabili, non quelle corrette. Dagli voce pulita e dizione chiara, e probabile e corretto coincidono. Dagli sovrapposizioni di voci, un accento marcato che ha visto di rado durante l'addestramento, gergo di settore o un microfono scadente, e le due cose divergono. La versione onesta, che l'AI Overview su questa esatta ricerca dice ad alta voce, è che questi strumenti possono allucinare parole mai pronunciate, scambiare un interlocutore per un altro e, in silenzio, trascrivere male una frase in qualcosa che si legge benissimo e significa l'opposto.
Vale la pena conoscere un trucco di traduzione. I modelli multilingue di Whisper possono trascrivere 99 lingue, e possono tradurre il parlato non inglese in testo inglese in un solo passaggio. Le varianti solo inglese del modello, le build .en, rinunciano a tutto questo e fanno solo inglese, il che le rende un po' più precise in quel compito. Niente di tutto ciò richiede di "addestrare" alcunché. Se uno strumento ti chiede ancora di leggere uno script di calibrazione prima di funzionare, gira su assunti del 1999.
Quanto è accurato, davvero? La risposta onesta.

La risposta onesta è: abbastanza accurato da farti risparmiare tempo vero, non abbastanza accurato da pubblicare senza rileggere. Il nostro intervallo dichiarato per la trascrizione locale va dal 95% al 99%, con i modelli più grandi che si attestano più in alto. Ma un singolo numero di accuratezza, da solo, è quasi privo di significato, perché il numero che conta è quello del tuo audio: il tuo accento, la tua stanza, il tuo microfono, il tuo vocabolario.
Diffida delle affermazioni tonde e senza condizioni. Una pagina prodotto che dichiara "99% di accuratezza" senza una parola sulla qualità dell'audio sta citando un caso migliore, non una promessa. Quando Rev pubblicizza il 99%, quella cifra è legata ai suoi trascrittori umani, non al suo modello AI. La versione di marketing appiattisce una curva in un singolo punto lusinghiero.
Ecco l'upgrade di accuratezza più economico che nessuno ti vende: un microfono. Passare dal microfono integrato del laptop a un semplice microfono USB fa più per la tua trascrizione che saltare da un modello piccolo al più grande. L'AI non sistema l'audio scadente. Si limita a tirare a indovinare con più sicurezza. Ho passato due serate a fare benchmark del modello più grande che riuscivo a scaricare prima di accorgermi che parlavo verso la cerniera del laptop a un metro di distanza; un microfono da dodici dollari ha sistemato più cose dei due gigabyte in più. Spendi i venti dollari in hardware prima di passare una serata a scaricare un modello da tre gigabyte. Per il lavoro ad alto rischio, rileggi la trascrizione. Per un messaggio su Slack, mandalo e basta.
Locale vs cloud: dove finisce il tuo audio conta
Dove finisce il tuo audio è la decisione che conta di più, e non ha nulla a che fare con l'accuratezza.
Uno strumento di trascrizione cloud manda il tuo audio ai server di un'azienda, lì esegue il modello e ti rispedisce il testo. Uno strumento locale scarica il modello una volta e lo esegue sulla tua macchina. Dopodiché funziona offline, e niente lascia il tuo computer. Whisper by Remskill fa entrambe le cose, e il passaggio è un solo interruttore. In modalità locale, l'audio viene elaborato interamente sulla tua macchina e niente viene inviato ad alcun server. In modalità cloud, l'audio va direttamente dal tuo computer a OpenAI tramite la tua chiave API, e noi non siamo mai nel mezzo.
Pianto qui una bandierina, perché le pagine di marketing non lo faranno: la dettatura solo cloud è un disastro per la privacy in attesa di essere trascritto. Un team con cui ho lavorato una volta aveva fatto costruire da un consulente un prototipo interno di dettatura cloud-AI. Chiamava l'API per ogni frase, comprese registrazioni di standup che ri-trascriveva quattro volte perché la logica di "smart retry" era troppo aggressiva. Il manager ha aperto la dashboard dei costi a fine trimestre e si è trovato una bolletta a cinque cifre. La soluzione del consulente è stata "ottimizziamo il prompt". La soluzione del CFO è stata "smettiamo di mandare a un server le riunioni di cui abbiamo già gli appunti". Il foglio degli stipendi del tuo capo, l'email alla scuola di tuo figlio, la memoria legale che stai redigendo — niente di tutto ciò ha posto nei log di un fornitore solo perché volevi scrivere con la voce. Il tuo laptop ha già un microfono e una CPU. Per la maggior parte dei paragrafi, non ha bisogno di un server nel mezzo. Se vuoi il ragionamento completo, l'abbiamo messo nero su bianco nella nostra guida allo speech to text offline.
Detto questo, il cloud non è il cattivo della storia. È un compromesso. La modalità cloud ti dà i modelli OpenAI più recenti, l'accesso al web e zero carico hardware. Il locale ti dà privacy e affidabilità offline. Il punto non è che uno sia quello giusto. È che dovresti scegliere apposta, non scoprire dopo i fatti che le tue registrazioni vivono sul disco di qualcun altro.
Gli altri strumenti che vale la pena conoscere
Vedrai gli stessi nomi in ogni classifica, e ricadono in corsie ben definite.
| Strumento | Corsia | L'unica cosa da sapere |
|---|---|---|
| Otter.ai | Appunti riunioni | 300 minuti gratis al mese, riassunti ed etichette degli interlocutori; sei lingue indicate. |
| Rev | Caricamento file + umano | Il piano AI gratuito è di 45 minuti al mese; vende trascrittori umani per l'audio ad alto rischio. |
| OpenAI Whisper | Modello open source | Licenza MIT; il motore che fa girare la maggior parte degli altri strumenti, non un'app finita. |
| API cloud di OpenAI | API per sviluppatori | Limite di caricamento di 25 MB; gpt-4o-transcribe e whisper-1; pagamento al minuto. |
| Notta, Sonix, Fireflies, Descript, Riverside | Misti | Orientati a riunioni ed editing; controlla la pagina di ogni strumento per i limiti attuali. |
Una nota su quell'ultima riga: questi cinque hanno ciascuno dettagli di prezzo e di lingua che cambiano spesso, quindi non citerò numeri che non ho verificato oggi sulle loro pagine. Lo schema, però, regge: la maggior parte di questi sono strumenti per riunioni o editing, e la maggior parte usa un modello della famiglia Whisper sotto il branding.
Whisper by Remskill sta in una corsia diversa da tutti loro. È uno strumento di dettatura, non un prendi-appunti per riunioni. Ci siamo chiamati come il modello open source che usiamo; se hai confrontato le app di dettatura solo cloud, la nostra analisi delle alternative a Otter.ai e la più ampia guida ai software di trascrizione coprono le corsie più nel dettaglio.
Quando rinunciare del tutto a uno strumento di trascrizione AI

A volte lo strumento giusto è nessuno strumento. Se l'audio è ad alto rischio e legalmente vincolante (una deposizione in tribunale, una cartella clinica, un deposito soggetto a normativa), paga un umano. Il servizio umano di Rev esiste proprio perché un tasso di errore del cinque percento su un contratto è una causa legale, non un refuso. E se tutto ciò che ti serve è una risposta di 30 parole, la dettatura già integrata nel tuo telefono o nel tuo Mac è gratis e va benissimo; non scaricare niente. La trascrizione AI si guadagna il suo posto nel mezzo: più lunga di un messaggio, meno a rischio di una deposizione, abbastanza frequente da valere una scorciatoia. Fuori da quella fascia, rivolgiti a una persona o alla cosa gratuita già presente sul tuo dispositivo.
Quanto costa
I prezzi di questa categoria vanno dal gratuito al sinceramente costoso, e lo scarto ti dice cosa sta vendendo ciascuno strumento. I piani gratuiti sono reali ma a consumo — Otter limita il suo piano gratuito a 300 minuti al mese, il piano AI gratuito di Rev a 45 minuti, e il modello open source Whisper è gratis per sempre se sei disposto a farlo girare tu stesso. Le API cloud fanno pagare al minuto, il che va benissimo finché un ciclo di retry impazzito non trasforma un trimestre in una fattura a cinque cifre. Whisper by Remskill è gratuito per l'intera pipeline locale una volta che hai un account, senza alcun metodo di pagamento per iniziare; le funzioni cloud stanno dietro Whisper Pro. I numeri esatti, i piani e cosa include Pro sono sulla pagina dei prezzi — preferisco che controlli la cifra aggiornata piuttosto che fidarti di un numero che ho scritto in un post del blog.
Quando avrai finito di leggere questo, mia figlia potrebbe aver dettato tre email e avermi chiesto due volte perché a volte la luna non c'è. La tecnologia non è più la parte difficile. L'unica vera scelta che resta è se le tue parole restano sulla tua macchina o fanno un viaggio su quella di qualcun altro — ed è una scelta che vale la pena fare prima di premere registra, non dopo.
Vuoi provarlo senza mandare la tua voce da nessuna parte?
Scarica Whisper, scegli la modalità locale, tieni premuta la scorciatoia e guarda la trascrizione comparire nell'app in cui ti trovi già. Niente lascia la tua macchina.
Trascrizione locale gratuita per ogni utente registrato. Pro aggiunge le funzioni cloud con una prova separata.



