Di Denys Medvediev

Guida

Dettatura in tempo reale per chi scrive

Un'app di dettatura in tempo reale per scrittori ti permette di parlare e vedere le parole comparire al cursore un attimo dopo. Con Whisper tieni premuto un tasto, parli, lasci andare, e la trascrizione si incolla nel documento in cui stai scrivendo — con i modelli locali ci vuole circa un secondo e mezzo.

Ultimo aggiornamento: giugno 2026

Le mani di uno scrittore appoggiate accanto a una tastiera e a un documento aperto su una scrivania scura, evocando la stesura tramite voce

Un'app di dettatura in tempo reale trasforma il parlato in testo direttamente al cursore, con pochissimo ritardo. Whisper funziona con la pressione del tasto: tieni premuto un tasto, dici una frase, lasci andare, e la trascrizione si incolla nell'editor sullo schermo. Con i modelli locali, il tempo tra il rilascio del tasto e la comparsa del testo è di circa 1,4 secondi. Funziona offline, gratis, in qualsiasi app desktop.

Ho creato Whisper perché scrivere sulla tastiera era la parte più lenta del processo. Non il pensare, non il correggere — proprio l'atto fisico di muovere le dita abbastanza in fretta da stare al passo con una frase già conclusa nella mia testa. La voce risolve questo problema. Si parla a circa 145 parole al minuto; si scrive forse a 40. Quel divario è tutto il senso del progetto.

Ma "tempo reale" è un'espressione che porta con sé molte aspettative, e la maggior parte delle pagine che vendono dettatura agli scrittori ti lasciano immaginare la cosa sbagliata. Quindi, prima che tu scarichi qualsiasi cosa, voglio essere chiaro su cosa significhi davvero qui il "tempo reale", come si percepisce il ritardo, e dove questo strumento si inserisce in una vera sessione di scrittura — testi lunghi, post per il blog, narrativa, quella email che rimandi da giorni.

Ecco la versione onesta che la maggior parte delle pagine di marketing omette. Whisper funziona con pressione del tasto. Tieni premuto un tasto, dici una o tre frasi complete, poi lasci andare. La trascrizione si incolla al cursore al rilascio — non parola per parola mentre parli, come lo schermo di uno stenografo in aula. L'unità è l'enunciato, non la sillaba.

Questa distinzione conta perché crea l'aspettativa giusta. Se ti stai immaginando le parole che compaiono sulla pagina in sincronia con le tue labbra, stai pensando ai sottotitoli live — uno strumento diverso per un compito diverso. Quello che Whisper dà a uno scrittore è più veloce di così nella pratica: dici un pensiero, compare, dici il prossimo. Con un modello locale, il ciclo completo dura circa 1,4 secondi. Abbastanza veloce da smettere di notarlo e cominciare semplicemente a scrivere.

Cosa significa davvero "tempo reale" per uno scrittore

Uno scrittore che digita su un laptop con un taccuino vicino, a illustrare il flusso di stesura che la voce sostituisce

Gli scrittori si avvicinano alla dettatura per lo stesso motivo per cui l'ho fatto io: la bozza è nella testa e la tastiera è d'intralcio. Una prima bozza deve essere veloce e grezza. La tastiera la rende lenta e curata, che è esattamente il contrario di quello che serve. Parlare ti permette di catturare la versione disordinata alla velocità con cui pensi, e il lavoro di revisione — quello che vuole davvero le tue dita — viene dopo.

Quindi quando uno scrittore cerca "dettatura in tempo reale", quello che vuole di solito è questo: dire una frase e vederla apparire prima di aver perso quella successiva. Questo è il vero metro di giudizio. Non la trasmissione letterale lettera per lettera — un ritardo inferiore ai due secondi, in modo che le parole ci siano prima che il pensiero svanisca. Whisper ci riesce. Dal momento in cui rilasci il tasto a quando il testo appare nel documento passano circa 1,4 secondi su un modello locale su un M1 Air, poco più di due secondi su un PC Windows di fascia media con un modello più grande. (Ho visto il flusso spezzarsi quando la latenza supera i due secondi — il cervello si riaggangia allo schermo e perdi il filo. Quindi quel numero è quello su cui mi concentro ossessivamente.)

L'altra cosa che uno scrittore vuole è non dover mai lasciare il documento. Una bozza lunga è uno stato di flusso, e quel flusso non sopravvive all'apertura di una finestra di trascrizione separata, alla pressione di "registra", all'attesa, al copia-incolla. Whisper incolla al cursore nell'app in cui stai già lavorando — Scrivener, Word, Google Docs nel browser, un editor di testo semplice, il tuo CMS. Non cambi finestra. Tieni premuto un tasto e continui a scrivere. È questo che lo fa sentire in tempo reale, anche se tecnicamente incolla al rilascio.

Tieni premuto il tasto, parla, lascia andare — il testo si incolla da solo

Il meccanismo è noioso, e questo è il massimo complimento che posso fare a un software. Tieni premuto un tasto, parli, lasci andare, e la trascrizione si incolla al cursore in qualsiasi finestra abbia il focus. Whisper mantiene una piccola coda — 250 millisecondi — dopo che hai lasciato andare, così l'ultima parola non viene troncata. Poiché incolla al cursore del sistema operativo, il tuo manoscritto è semplicemente "una casella di testo". Scrivener, Final Draft, Word, una bozza di Substack nel browser — stesso comportamento, senza configurazione per ogni app.

Una piccola capsula appare mentre parli, così sai che sta ascoltando, poi mostra il breve passaggio di trascrizione prima che le parole compaiano. Questo è tutto il ciclo. Non c'è una finestra separata su cui fare alt-tab, nessun pulsante "registra" da trovare, nessun file da esportare. Il cursore è nel paragrafo, parli, la frase appare nel paragrafo:

Cancel
L'overlay di registrazione: una piccola capsula che appare mentre parli, così sai che Whisper sta ascoltando.

Il tasto rapido è l'unica cosa su cui vale la pena concentrarsi fin dall'inizio. Su Windows è Ctrl+Space; su Mac è Command+Option, un push-to-talk solo con modificatori che tieni premuto mentre parli. Entrambi si possono cambiare nelle Impostazioni, il che conta per gli scrittori perché molte app di scrittura usano i tasti per i propri comandi. (Mia figlia minore una volta mi ha detto che un tasto rapido "non funzionava" nella sua app di disegno. Era un conflitto, non un bug — ed è così che ho capito che la persona media non sa nemmeno cosa sia un conflitto di tasti rapidi. Quindi ora tutti i tasti sono personalizzabili.) Se hai già configurato la dettatura su Windows o su Mac, è la stessa memoria muscolare puntata sulla tua app di scrittura.

Configuralo in due minuti (Windows o Mac)

Ti serve un Mac con Apple Silicon o un PC con Windows 10 o versione successiva, un microfono funzionante e l'editor in cui scrivi aperto. L'intera pipeline locale è gratuita per qualsiasi account registrato, senza bisogno di un metodo di pagamento alla registrazione. Ecco la sequenza.

Passo 1 — Installa Whisper ed entra.

Scarica dalla pagina di download, installa e crea un account gratuito. Nessuna carta. L'intera pipeline di trascrizione locale è subito disponibile.

Saprai che ha funzionato quando l'icona dell'app nella barra di sistema appare e la procedura guidata di configurazione ti propone di scegliere un modello.

Passo 2 — Scegli il percorso di trascrizione.

L'app non sceglie per te. Hai tre opzioni: Cloud (OpenAI, con la tua chiave), Local Parakeet o Local Whisper. Per stendere bozze in modo privato, inizia con il locale — trovi maggiori dettagli su quale scegliere tra due sezioni.

Saprai che ha funzionato quando un modello finisce di scaricarsi e risulta pronto.

Passo 3 — Conferma il tasto rapido.

Su Windows il valore predefinito è Ctrl+Space, su Mac è Command+Option tenuto premuto come push-to-talk. Su Mac, concedi il permesso di Accessibilità quando richiesto; senza di esso, l'incolla al cursore non può raggiungere la tua app di scrittura.

Saprai che ha funzionato quando una registrazione di prova si incolla in qualsiasi campo di testo.

Passo 4 — Metti il cursore nella bozza e parla.

Apri il documento, clicca dove vuoi che arrivi la prossima frase, tieni premuto il tasto, dilla, lascia andare. La trascrizione appare al cursore, nel mezzo del paragrafo e tutto il resto.

Saprai che ha funzionato quando la frase che hai detto compare nella bozza come testo.

Whisper
La vera app desktop Whisper nella schermata delle impostazioni, con i pannelli Trascrizione e AI aperti.

La parte lenta è il download del modello, non la configurazione. Tutto il resto sono i quattro passi qui sopra. Una volta avviato, mettere una frase sulla pagina smette di essere un compito di battitura e diventa un compito di conversazione — e per una bozza lunga la differenza è tra un pomeriggio e una serata.

da voce a testo su Windows · su Mac

Come si sente davvero dettare una bozza

Il trucco per dettare testi è smettere di voler dettare testi perfetti. I nuovi scrittori cercano di parlare con le virgole e le interruzioni di paragrafo e finiscono per andare più lento della battitura. Il modo veloce è parlare per pensieri interi — dici la frase come la diresti a un amico, lasci andare, dici la prossima. Lascia che la prima passata sia grezza. Stai catturando la bozza, non componendo un testo. Un post da 1.500 parole che mi richiede novanta minuti a scrivere mi richiede circa la metà del tempo a dirlo, e la maggior parte del risparmio viene dal non fermarsi a correggere nel mezzo di una frase.

Il ritmo push-to-talk si adatta a come gli scrittori pensano davvero. Tieni premuto il tasto per un'idea, lasci andare, guardi cosa è comparso, decidi la prossima frase, tieni premuto di nuovo. Le pause tra le pressioni sono tempo di riflessione, non tempo morto — lo strumento non registra i tuoi "ehm" mentre fissi il muro cercando dove va la scena. Per la narrativa in particolare, questo è più vicino a come suonano i dialoghi nella tua testa di quanto lo sia mai la battitura; reciti la battuta, e poi ce l'hai sulla pagina da tagliare.

Due note pratiche per le sessioni lunghe. Primo, ditta a blocchi di una o tre frasi, non interi paragrafi in un fiato — le sequenze più brevi si incollano più in fretta e sono più facili da correggere se una parola viene fuori storta. Secondo, il microfono conta più di quanto immagineresti. Un microfono USB da pochi euro fa più per la precisione di qualsiasi aggiornamento del modello, perché l'audio pulito è ciò su cui il modello lavora davvero. Questa è la verità noiosa che nessuno che ti vende "precisione AI" vuole essere il primo a dire. Una volta che le parole scorrono così in fretta, puoi stendere intere bozze a voce e trattare la tastiera come uno strumento di revisione — che è quello in cui è sempre stata più brava.

Locale o cloud: quale modalità per uno scrittore

Per la stesura delle bozze, prova prima la modalità locale. Un manoscritto in corso, una proposta non ancora inviata, una pagina di diario — nulla di tutto ciò ha bisogno di lasciare il tuo laptop per diventare testo. Se il tuo Mac è Apple Silicon o il tuo PC è degli ultimi anni, il locale gestisce la dettatura di ogni giorno senza problemi, e il cloud diventa la via d'uscita piuttosto che l'impostazione predefinita. Ecco come differiscono i tre percorsi, perché l'app ti chiede di scegliere e preferisco che tu scelga bene:

  • Local ParakeetIl motore TDT di NVIDIA, circa 600 MB, e l'opzione locale più veloce — da 5 a 10 volte più rapida di Whisper su CPU. Copre l'inglese più altre 24 lingue europee, 25 in totale. Non traduce verso l'inglese. Se scrivi in inglese o in un'altra lingua europea, questa è la scelta rapida e completamente offline, quella che mantiene la latenza bassa.
  • Local Whisperpiù lento di Parakeet sullo stesso computer, ma le versioni multilingue coprono 99 lingue e possono tradurre verso l'inglese. Le versioni solo inglese supportano solo l'inglese, non 99 lingue. Sceglilo se scrivi in cinese, giapponese o coreano (che Parakeet non supporta), hai bisogno di traduzione, o vuoi la polarizzazione per parole chiave per nomi di personaggi e termini inventati. Il modello inglese predefinito pesa circa 480 MB.
  • Cloud (OpenAI, BYOK)la migliore precisione e accesso al web, usando la tua chiave OpenAI fatturata direttamente da OpenAI. La trascrizione usa gpt-4o-mini-transcribe per impostazione predefinita. Richiede internet, quindi è l'unico percorso che lascia il tuo computer, ed è parte di Whisper Pro.

La verità noiosa è che per la maggior parte dei testi il locale è più che sufficiente — entrambi i motori locali girano interamente sul tuo computer senza inviare nulla a un server. Il cloud guadagna il suo posto quando vuoi la massima precisione su una registrazione difficile o hai bisogno di recuperare un fatto dal web a metà frase. Il cloud è anche il percorso a latenza più bassa con una buona connessione, intorno a 1,1 secondi, perché il viaggio di rete batte il calcolo locale su un laptop più lento. Inizia con il locale; passa al cloud solo quando il locale non ti basta.

Un'opinione che difendo: la dettatura solo cloud è un disastro per la privacy in attesa di essere trascritto. Ho visto una volta un team interno accumulare un conto cloud a cinque cifre in un trimestre, in gran parte per un ciclo di "retry intelligente" che riscriveva le stesse registrazioni quattro volte. Il CFO ha aperto la dashboard durante la revisione trimestrale e nella stanza è calato un silenzio pesante. La tua prima bozza non ha bisogno di finire nei log di un fornitore per diventare testo. Il tuo laptop ha già un microfono e una CPU.

Trasformare una bozza parlata in prosa pulita

La dettatura grezza viene fuori come un flusso di coscienza non punteggiato. Dici "allora il capitolo inizia alla stazione ferroviaria lei è in ritardo ha perso la coincidenza ehm e da lì parte tutto", ed è il muro senza punteggiatura che qualsiasi motore vocale ti consegna. Per una bozza va bene — tanto devi correggere comunque. Ma c'è un percorso più rapido verso qualcosa di leggibile.

La Digitazione vocale di Windows aggiunge punteggiatura mentre parli, e macOS Dictation gestisce le basi quando dici "virgola" o "punto". Per una pulizia più intensa — eliminare gli "ehm", sistemare i periodi senza punteggiatura, trasformare un paragrafo parlato in qualcosa che tieni — Whisper può eseguire un passaggio AI. Di' la frase di attivazione "Hey whisper" e il testo viene migliorato prima di arrivare. Con un modello locale, questo passa attraverso Ollama; in modalità cloud è gpt-5-mini per impostazione predefinita.

Thinking...
Grezzo

allora il capitolo inizia alla stazione ferroviaria lei è in ritardo ha perso la coincidenza ehm e da lì parte tutto

Pulito

Allora, il capitolo inizia alla stazione ferroviaria. Lei è in ritardo — ha perso la coincidenza — e da lì parte tutto.

Una parola di avvertimento che gli scrittori in particolare dovrebbero ascoltare: la pulizia AI è un passaggio di punteggiatura e rimozione di filler, non un coautore. Corregge la meccanica; non riscrive la tua voce, e non dovresti lasciarglielo fare. Per la narrativa o qualsiasi cosa con uno stile ben definito, uso il miglioramento locale più leggero o lo salto del tutto nella prima bozza e correggo a mano dopo — perché tutto il senso del dettare in fretta è che la bozza grezza è tua. Usa la pulizia per rendere gli appunti leggibili. La scrittura vera falla tu.

Questo stesso flusso parla-poi-pulisci funziona ovunque tu tenga del testo — è esattamente come detto appunti e cattura idee tra una sessione di scrittura e l'altra, così un pensiero di ricerca o un'idea narrativa passa dall'aside parlato a una riga ordinata senza perdere il ritmo.

Quando un'app di dettatura in tempo reale è lo strumento sbagliato

Due frecce tracciate col gesso sul marciapiede che indicano direzioni diverse, a illustrare una scelta di strumenti

A volte la risposta onesta è che vuoi qualcos'altro, e preferisco dirtelo piuttosto che venderti la cosa sbagliata. Whisper è dettatura push-to-talk nell'app in cui stai scrivendo. Non è sottotitolazione live, non è trascrizione di interviste e non è uno strumento per il telefono.

Se hai davvero bisogno di parole che scorrono sullo schermo mentre parli — sottotitolare un intervento dal vivo, i sottotitoli che scorrono durante uno streaming, una traccia di sottotitoli per l'accessibilità — quello è vero sottotitolaggio live, una categoria separata costruita per la trasmissione continua, non per la dettatura premi-e-rilascia. Usa uno strumento di sottotitolazione. Se hai un'intervista registrata o una riunione di due ore da trasformare in trascritto, quello è trascrizione di file con etichette dei parlanti — un servizio come Otter.ai o Rev si adatta meglio di un tasto di dettatura; categoria diversa, non fare fare a uno strumento di scrittura un lavoro di trascrizione. E se detti solo brevi appunti di 30 parole in movimento, il microfono della tastiera del tuo telefono è gratuito e già in tasca; Whisper è uno strumento desktop per Windows e macOS, quindi non c'è nessuna app da installare per quello.

Ricorri a un'app di dettatura in tempo reale quando il lavoro è stendere bozze: testi lunghi, un post, un capitolo, un'email che continui a rimandare — scritto alla scrivania, nell'app che già usi, dove parlare batte la battitura e vuoi le parole al cursore un secondo dopo. Al di sotto di questo, usa quello che è gratuito. Non ti dirò di avviare un'app desktop per inviare un messaggio di una riga.

La maggior parte degli scrittori che sento sono su una piattaforma o sull'altra, quindi se vuoi la guida specifica per piattaforma, la configurazione in software di dettatura pensato per scrittori copre il flusso di lavoro dall'inizio alla fine, dalla scelta del modello al tenere le mani lontane dalla tastiera per un'intera sessione.

"Tempo reale" per uno scrittore non significa lettere che strisciano sulla pagina in sincronia con la tua bocca. Significa che dici una frase e c'è prima che tu abbia perso la prossima — circa un secondo e mezzo, nell'app in cui sei già, senza inviare nulla da nessuna parte. Questo è il trucco, ed è silenzioso. Ho dettato gran parte di questa guida una frase alla volta, rilasciando il tasto tra un pensiero e l'altro, guardando le parole comparire mentre capivo la riga successiva. La tastiera era lì per tutto il tempo, utile solo per le correzioni. Che è esattamente il posto che voglio per lei.

Di' la tua prossima bozza sulla pagina

Tieni premuto il tasto, dici una frase, lasci andare. Le parole arrivano al cursore in qualsiasi cosa tu stia scrivendo — circa un secondo e mezzo dopo, senza inviare nulla da nessuna parte.

Modalità locale gratuita per qualsiasi account registrato. Nessuna carta necessaria per iniziare.

Foto di Denys Medvediev

Denys Medvediev

Sono quello che legge le email di supporto, molto probabilmente dettando le risposte.

Approfondimenti