What is the best AI tool for transcription?

There isn't one — there's a best one *for your job*. For live meeting notes with summaries, a notetaker like Otter fits. For dropping in a file and getting a transcript back, a service like Rev works. For dictating into whatever app you're already using, a hotkey-driven dictation tool fits. Pick the lane first, then the tool.

Is there a free AI transcription tool?

Yes, several. Otter offers 300 free minutes a month, Rev offers 45, and the open-source OpenAI Whisper model is free if you run it yourself. Whisper by Remskill's entire local pipeline is free once you sign in, with no card required to start.

Can AI transcribe audio accurately?

For clear audio, yes — in the 95% to 99% range on local models, higher with larger ones. Accuracy drops with crosstalk, heavy accents, jargon, and bad microphones. For anything high-stakes, read the transcript before you rely on it.

Does AI transcription work offline?

It can, if the tool runs the model on your machine. Whisper by Remskill works offline in local mode after a one-time model download — nothing is sent to any server. Cloud-based tools need an internet connection because the model runs on a server.

Is my audio private when I use a cloud transcription tool?

Only as private as that vendor's policy. Cloud tools send your audio to their servers. With Whisper by Remskill's cloud mode, audio travels straight from your machine to OpenAI through your own key, and we never see it. For true privacy, use a local tool where audio never leaves your computer.

Can AI transcription tell speakers apart?

Some can. Meeting notetakers like Otter label speakers, and OpenAI offers a diarization model in its API. Dictation tools don't, because they assume one speaker — you. Match the feature to the task.

Do these tools need me to "train" them first?

Modern ones don't. Whisper-family models work out of the box across accents and languages. If a tool still makes you read a calibration script before it works, its design predates the model that made that step unnecessary.

Di Denys Medvediev9 marzo 2026

Guida

Strumenti di trascrizione AI, spiegati

Cos'è davvero uno strumento di trascrizione AI, come funziona la pipeline da voce a testo, quanto è accurato sul serio quando l'audio non viene da uno studio, e l'unica decisione (locale o cloud) che conta più del logo che scegli.

Ultimo aggiornamento: giugno 2026

Primo piano di un'interfaccia audio digitale che mostra una forma d'onda sonora vivace, evocando la voce catturata per la trascrizione

Uno strumento di trascrizione AI è un software che trasforma l'audio parlato in testo scritto usando modelli di riconoscimento vocale. Ascolta una registrazione o il parlato in tempo reale, prevede le parole più probabili e produce una trascrizione. La stessa tecnologia si chiama anche speech to text o riconoscimento vocale automatico, e la maggior parte degli strumenti moderni usa un modello della famiglia OpenAI Whisper.

Dieci anni fa ho visto un parente provare a dettare una lettera di auguri su un PC con Windows 98. Il software richiedeva prima 45 minuti di "addestramento", poi girava forse al 70% di accuratezza con quattro secondi di ritardo a frase. Un paragrafo richiedeva quindici minuti. Le cuffie sono volate dall'altra parte della stanza. Le cuffie sono sopravvissute; l'esperimento no. Oggi mia figlia di sette anni detta un'email alla nonna in 90 secondi e dopo la dimostrazione non fa più una sola domanda. Quella distanza è tutta la storia della trascrizione AI, e si è colmata più in fretta di quanto quasi chiunque avesse previsto.

Ecco la parte che le pagine di marketing saltano: lo speech to text era un problema di ricerca, poi nel 2022 è arrivato il modello open source Whisper e, in silenzio, ha smesso di esserlo per la maggior parte delle persone. Oggi uno strumento di trascrizione AI significa un modello abbastanza buono da togliersi quasi sempre di mezzo, avvolto in un software che decide dove finisce il tuo audio e cosa succede al testo dopo. Questo articolo spiega come funziona quella pipeline, quanto è accurata quando l'audio non viene da uno studio di podcast, e l'unica decisione (locale o cloud) che conta più del logo che scegli. Leggo tutte le email di supporto che riceviamo, e le persone scontente hanno quasi sempre sbagliato proprio quella decisione, non lo strumento.

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Togli di mezzo le dashboard e il branding da "motore di conoscenza conversazionale", e ogni strumento di questa categoria fa una sola cosa: audio in entrata, testo in uscita. Le differenze sono tutto ciò che gira attorno a quel nucleo: dove gira il modello, cosa fa con la trascrizione e quanto chiede per farlo.

Pasted

L'overlay di registrazione di Whisper nel suo stato completo — un piccolo widget fluttuante che restituisce il testo finito nel momento in cui smetti di parlare. La vera UI rilasciata, non uno screenshot.

Dominano tre forme di prodotto. Il prendi-appunti per riunioni entra nella tua chiamata, registra tutti e sputa fuori un riassunto con gli action item. Otter è l'esempio classico, con 300 minuti di trascrizione gratuiti al mese. Il servizio di caricamento file ti permette di trascinare un file audio e scaricare la trascrizione più tardi. Rev e Sonix stanno qui, e Rev vende anche trascrittori umani come ripiego ad alta accuratezza. Lo strumento di dettatura sta in background e incolla il testo ovunque sia il cursore nel momento in cui smetti di parlare. Quest'ultimo è ciò che fa Whisper by Remskill: premi una scorciatoia globale, parla, e il testo trascritto compare nell'app in cui ti trovi già.

Stesso lavoro di fondo. Tre esperienze quotidiane completamente diverse. Gran parte della confusione in questa categoria nasce dal confrontare un prendi-appunti per riunioni con uno strumento di dettatura come se fossero in competizione. Non lo sono, non più di quanto un autobus sia in competizione con una bicicletta.

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

Il meccanismo è più semplice di quanto il branding lasci intendere. Il microfono cattura il suono come forma d'onda, un flusso di numeri che descrive la pressione dell'aria nel tempo. Il modello spezza quel flusso in brevi frammenti, converte ciascun frammento in una rappresentazione numerica delle sue caratteristiche acustiche, e poi prevede, token dopo token, la sequenza di testo più probabile che ha prodotto quei suoni. Sta facendo statistica sull'audio, non comprendendo significati. Ho passato la mia prima settimana su questo progetto a disegnare la pipeline come un ordinato diagramma a riquadri prima ancora di aver lanciato il modello una volta. Il diagramma era sbagliato già al secondo commit. Al modello del mio diagramma non importava nulla.

CancelTranscribing

Lo stato di trascrizione dell'overlay — il modello che trasforma una forma d'onda in testo, sulla tua macchina, mentre aspetti il secondo scarso che ci vuole.

Quel dettaglio è il motivo per cui la trascrizione AI inciampa dove inciampa. Il modello prevede le parole più probabili, non quelle corrette. Dagli voce pulita e dizione chiara, e probabile e corretto coincidono. Dagli sovrapposizioni di voci, un accento marcato che ha visto di rado durante l'addestramento, gergo di settore o un microfono scadente, e le due cose divergono. La versione onesta, che l'AI Overview su questa esatta ricerca dice ad alta voce, è che questi strumenti possono allucinare parole mai pronunciate, scambiare un interlocutore per un altro e, in silenzio, trascrivere male una frase in qualcosa che si legge benissimo e significa l'opposto.

Vale la pena conoscere un trucco di traduzione. I modelli multilingue di Whisper possono trascrivere 99 lingue, e possono tradurre il parlato non inglese in testo inglese in un solo passaggio. Le varianti solo inglese del modello, le build .en, rinunciano a tutto questo e fanno solo inglese, il che le rende un po' più precise in quel compito. Niente di tutto ciò richiede di "addestrare" alcunché. Se uno strumento ti chiede ancora di leggere uno script di calibrazione prima di funzionare, gira su assunti del 1999.

Quanto è accurato, davvero? La risposta onesta.

Una lente d'ingrandimento sopra un documento stampato, che illustra l'esame ravvicinato dell'accuratezza della trascrizione

La risposta onesta è: abbastanza accurato da farti risparmiare tempo vero, non abbastanza accurato da pubblicare senza rileggere. Il nostro intervallo dichiarato per la trascrizione locale va dal 95% al 99%, con i modelli più grandi che si attestano più in alto. Ma un singolo numero di accuratezza, da solo, è quasi privo di significato, perché il numero che conta è quello del tuo audio: il tuo accento, la tua stanza, il tuo microfono, il tuo vocabolario.

Diffida delle affermazioni tonde e senza condizioni. Una pagina prodotto che dichiara "99% di accuratezza" senza una parola sulla qualità dell'audio sta citando un caso migliore, non una promessa. Quando Rev pubblicizza il 99%, quella cifra è legata ai suoi trascrittori umani, non al suo modello AI. La versione di marketing appiattisce una curva in un singolo punto lusinghiero.

Ecco l'upgrade di accuratezza più economico che nessuno ti vende: un microfono. Passare dal microfono integrato del laptop a un semplice microfono USB fa più per la tua trascrizione che saltare da un modello piccolo al più grande. L'AI non sistema l'audio scadente. Si limita a tirare a indovinare con più sicurezza. Ho passato due serate a fare benchmark del modello più grande che riuscivo a scaricare prima di accorgermi che parlavo verso la cerniera del laptop a un metro di distanza; un microfono da dodici dollari ha sistemato più cose dei due gigabyte in più. Spendi i venti dollari in hardware prima di passare una serata a scaricare un modello da tre gigabyte. Per il lavoro ad alto rischio, rileggi la trascrizione. Per un messaggio su Slack, mandalo e basta.

Locale vs cloud: dove finisce il tuo audio conta

Dove finisce il tuo audio è la decisione che conta di più, e non ha nulla a che fare con l'accuratezza.

Uno strumento di trascrizione cloud manda il tuo audio ai server di un'azienda, lì esegue il modello e ti rispedisce il testo. Uno strumento locale scarica il modello una volta e lo esegue sulla tua macchina. Dopodiché funziona offline, e niente lascia il tuo computer. Whisper by Remskill fa entrambe le cose, e il passaggio è un solo interruttore. In modalità locale, l'audio viene elaborato interamente sulla tua macchina e niente viene inviato ad alcun server. In modalità cloud, l'audio va direttamente dal tuo computer a OpenAI tramite la tua chiave API, e noi non siamo mai nel mezzo.

Whisper

La vera app Whisper, in funzione dal vivo — sia la superficie Locale che quella Cloud in un'unica finestra. Apri le Impostazioni e scegli un motore; il passaggio tra locale e cloud è un solo interruttore.

Pianto qui una bandierina, perché le pagine di marketing non lo faranno: la dettatura solo cloud è un disastro per la privacy in attesa di essere trascritto. Un team con cui ho lavorato una volta aveva fatto costruire da un consulente un prototipo interno di dettatura cloud-AI. Chiamava l'API per ogni frase, comprese registrazioni di standup che ri-trascriveva quattro volte perché la logica di "smart retry" era troppo aggressiva. Il manager ha aperto la dashboard dei costi a fine trimestre e si è trovato una bolletta a cinque cifre. La soluzione del consulente è stata "ottimizziamo il prompt". La soluzione del CFO è stata "smettiamo di mandare a un server le riunioni di cui abbiamo già gli appunti". Il foglio degli stipendi del tuo capo, l'email alla scuola di tuo figlio, la memoria legale che stai redigendo — niente di tutto ciò ha posto nei log di un fornitore solo perché volevi scrivere con la voce. Il tuo laptop ha già un microfono e una CPU. Per la maggior parte dei paragrafi, non ha bisogno di un server nel mezzo. Se vuoi il ragionamento completo, l'abbiamo messo nero su bianco nella nostra guida allo speech to text offline.

Detto questo, il cloud non è il cattivo della storia. È un compromesso. La modalità cloud ti dà i modelli OpenAI più recenti, l'accesso al web e zero carico hardware. Il locale ti dà privacy e affidabilità offline. Il punto non è che uno sia quello giusto. È che dovresti scegliere apposta, non scoprire dopo i fatti che le tue registrazioni vivono sul disco di qualcun altro.

Gli altri strumenti che vale la pena conoscere

Vedrai gli stessi nomi in ogni classifica, e ricadono in corsie ben definite.

Strumento	Corsia	L'unica cosa da sapere
Otter.ai	Appunti riunioni	300 minuti gratis al mese, riassunti ed etichette degli interlocutori; sei lingue indicate.
Rev	Caricamento file + umano	Il piano AI gratuito è di 45 minuti al mese; vende trascrittori umani per l'audio ad alto rischio.
OpenAI Whisper	Modello open source	Licenza MIT; il motore che fa girare la maggior parte degli altri strumenti, non un'app finita.
API cloud di OpenAI	API per sviluppatori	Limite di caricamento di 25 MB; gpt-4o-transcribe e whisper-1; pagamento al minuto.
Notta, Sonix, Fireflies, Descript, Riverside	Misti	Orientati a riunioni ed editing; controlla la pagina di ogni strumento per i limiti attuali.

Gli stessi nomi in ogni classifica, ordinati nelle loro corsie. La maggior parte sono strumenti per riunioni o editing, e la maggior parte usa un modello della famiglia Whisper sotto il branding.

Una nota su quell'ultima riga: questi cinque hanno ciascuno dettagli di prezzo e di lingua che cambiano spesso, quindi non citerò numeri che non ho verificato oggi sulle loro pagine. Lo schema, però, regge: la maggior parte di questi sono strumenti per riunioni o editing, e la maggior parte usa un modello della famiglia Whisper sotto il branding.

Whisper by Remskill sta in una corsia diversa da tutti loro. È uno strumento di dettatura, non un prendi-appunti per riunioni. Ci siamo chiamati come il modello open source che usiamo; se hai confrontato le app di dettatura solo cloud, la nostra analisi delle alternative a Otter.ai e la più ampia guida ai software di trascrizione coprono le corsie più nel dettaglio.

Quando rinunciare del tutto a uno strumento di trascrizione AI

Una scrivania con una statuetta della giustizia, un diploma e dei documenti, che evoca il lavoro ad alto rischio dove vince la trascrizione manuale

A volte lo strumento giusto è nessuno strumento. Se l'audio è ad alto rischio e legalmente vincolante (una deposizione in tribunale, una cartella clinica, un deposito soggetto a normativa), paga un umano. Il servizio umano di Rev esiste proprio perché un tasso di errore del cinque percento su un contratto è una causa legale, non un refuso. E se tutto ciò che ti serve è una risposta di 30 parole, la dettatura già integrata nel tuo telefono o nel tuo Mac è gratis e va benissimo; non scaricare niente. La trascrizione AI si guadagna il suo posto nel mezzo: più lunga di un messaggio, meno a rischio di una deposizione, abbastanza frequente da valere una scorciatoia. Fuori da quella fascia, rivolgiti a una persona o alla cosa gratuita già presente sul tuo dispositivo.

Quanto costa

I prezzi di questa categoria vanno dal gratuito al sinceramente costoso, e lo scarto ti dice cosa sta vendendo ciascuno strumento. I piani gratuiti sono reali ma a consumo — Otter limita il suo piano gratuito a 300 minuti al mese, il piano AI gratuito di Rev a 45 minuti, e il modello open source Whisper è gratis per sempre se sei disposto a farlo girare tu stesso. Le API cloud fanno pagare al minuto, il che va benissimo finché un ciclo di retry impazzito non trasforma un trimestre in una fattura a cinque cifre. Whisper by Remskill è gratuito per l'intera pipeline locale una volta che hai un account, senza alcun metodo di pagamento per iniziare; le funzioni cloud stanno dietro Whisper Pro. I numeri esatti, i piani e cosa include Pro sono sulla pagina dei prezzi — preferisco che controlli la cifra aggiornata piuttosto che fidarti di un numero che ho scritto in un post del blog.

Quando avrai finito di leggere questo, mia figlia potrebbe aver dettato tre email e avermi chiesto due volte perché a volte la luna non c'è. La tecnologia non è più la parte difficile. L'unica vera scelta che resta è se le tue parole restano sulla tua macchina o fanno un viaggio su quella di qualcun altro — ed è una scelta che vale la pena fare prima di premere registra, non dopo.

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Scarica Whisper, scegli la modalità locale, tieni premuta la scorciatoia e guarda la trascrizione comparire nell'app in cui ti trovi già. Niente lascia la tua macchina.

Scarica Whisper Scopri come funziona

Trascrizione locale gratuita per ogni utente registrato. Pro aggiunge le funzioni cloud con una prova separata.

Denys Medvediev

Sono quello che legge la nostra email di supporto, molto probabilmente dettando le risposte.

Approfondimenti

Domande frequenti

Non ce n'è uno solo — c'è quello migliore per il tuo lavoro. Per appunti di riunioni dal vivo con riassunti, va bene un prendi-appunti come Otter. Per trascinare un file e riavere una trascrizione, funziona un servizio come Rev. Per dettare nell'app che stai già usando, va bene uno strumento di dettatura azionato da scorciatoia. Scegli prima la corsia, poi lo strumento.

Di Denys Medvediev9 marzo 2026

Guida

Strumenti di trascrizione AI, spiegati

Ultimo aggiornamento: giugno 2026

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Pasted

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

CancelTranscribing

Lo stato di trascrizione dell'overlay — il modello che trasforma una forma d'onda in testo, sulla tua macchina, mentre aspetti il secondo scarso che ci vuole.

Quanto è accurato, davvero? La risposta onesta.

Locale vs cloud: dove finisce il tuo audio conta

Dove finisce il tuo audio è la decisione che conta di più, e non ha nulla a che fare con l'accuratezza.

Whisper

Gli altri strumenti che vale la pena conoscere

Vedrai gli stessi nomi in ogni classifica, e ricadono in corsie ben definite.

Strumento	Corsia	L'unica cosa da sapere
Otter.ai	Appunti riunioni	300 minuti gratis al mese, riassunti ed etichette degli interlocutori; sei lingue indicate.
Rev	Caricamento file + umano	Il piano AI gratuito è di 45 minuti al mese; vende trascrittori umani per l'audio ad alto rischio.
OpenAI Whisper	Modello open source	Licenza MIT; il motore che fa girare la maggior parte degli altri strumenti, non un'app finita.
API cloud di OpenAI	API per sviluppatori	Limite di caricamento di 25 MB; gpt-4o-transcribe e whisper-1; pagamento al minuto.
Notta, Sonix, Fireflies, Descript, Riverside	Misti	Orientati a riunioni ed editing; controlla la pagina di ogni strumento per i limiti attuali.

Gli stessi nomi in ogni classifica, ordinati nelle loro corsie. La maggior parte sono strumenti per riunioni o editing, e la maggior parte usa un modello della famiglia Whisper sotto il branding.

Quando rinunciare del tutto a uno strumento di trascrizione AI

Quanto costa

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Scarica Whisper, scegli la modalità locale, tieni premuta la scorciatoia e guarda la trascrizione comparire nell'app in cui ti trovi già. Niente lascia la tua macchina.

Scarica Whisper Scopri come funziona

Trascrizione locale gratuita per ogni utente registrato. Pro aggiunge le funzioni cloud con una prova separata.

Denys Medvediev

Sono quello che legge la nostra email di supporto, molto probabilmente dettando le risposte.

Strumenti di trascrizione AI, spiegati

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

Quanto è accurato, davvero? La risposta onesta.

Locale vs cloud: dove finisce il tuo audio conta

Gli altri strumenti che vale la pena conoscere

Quando rinunciare del tutto a uno strumento di trascrizione AI

Quanto costa

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Strumenti di trascrizione AI, spiegati

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

Quanto è accurato, davvero? La risposta onesta.

Locale vs cloud: dove finisce il tuo audio conta

Gli altri strumenti che vale la pena conoscere

Quando rinunciare del tutto a uno strumento di trascrizione AI

Quanto costa

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Approfondimenti

Domande frequenti

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Strumenti di trascrizione AI, spiegati

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

Quanto è accurato, davvero? La risposta onesta.

Locale vs cloud: dove finisce il tuo audio conta

Gli altri strumenti che vale la pena conoscere

Quando rinunciare del tutto a uno strumento di trascrizione AI

Quanto costa

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque

Strumenti di trascrizione AI, spiegati

Uno strumento di trascrizione AI trasforma la voce in testo. È tutto qui.

Come funziona davvero la trascrizione AI (e dove ancora inciampa)

Quanto è accurato, davvero? La risposta onesta.

Locale vs cloud: dove finisce il tuo audio conta

Gli altri strumenti che vale la pena conoscere

Quando rinunciare del tutto a uno strumento di trascrizione AI

Quanto costa

Vuoi provarlo senza mandare la tua voce da nessuna parte?

Approfondimenti

Domande frequenti

Continua a leggere

Dettatura vocale in Word

La scorciatoia per la digitazione vocale su ogni OS

Alternativa alla digitazione vocale di Google: detta ovunque