Di Denys Medvediev

Guida

OpenAI Whisper per Windows

OpenAI Whisper è un modello speech-to-text gratuito e open source rilasciato sotto licenza MIT. Su Windows di norma si usa tramite Python e la riga di comando per trascrivere file audio. Whisper by Remskill racchiude quei modelli in un'app desktop, così puoi dettare dal vivo direttamente in qualsiasi applicazione.

Ultimo aggiornamento: giugno 2026

Un portatile Windows su una scrivania mostra un editor di codice, evocando uno spazio di dettatura ordinato

OpenAI Whisper è un modello speech-to-text gratuito e open source, rilasciato sotto licenza MIT. Su Windows di norma si usa tramite Python e la riga di comando, trascrivendo i file audio che gli indichi. Whisper by Remskill racchiude quei modelli in un'app desktop, così puoi dettare dal vivo direttamente in qualsiasi applicazione.

OpenAI Whisper è un modello gratuito e open source. Su una macchina Windows appena installata, la versione ufficiale richiede Python, ffmpeg e la riga di comando per trascrivere i file. Se hai già un file, strumenti gratuiti con interfaccia grafica come Buzz o Whisper Desktop fanno al caso tuo. Se invece vuoi parlare e vedere le tue parole comparire al cursore in qualsiasi app, Whisper by Remskill racchiude gli stessi modelli senza niente da compilare e con un piano locale gratuito.

Cosa si intende davvero con "OpenAI Whisper per Windows"

La verità un po' noiosa è che "OpenAI Whisper" sono due cose diverse che portano lo stesso nome, e i risultati di ricerca le confondono ogni giorno.

La prima cosa è il modello. Whisper è un modello di riconoscimento vocale che OpenAI ha reso open source sotto licenza MIT: sia il codice sia i pesi addestrati sono liberi da scaricare e usare. È disponibile in sei dimensioni (tiny, base, small, medium, large e turbo), quattro delle quali hanno una variante solo per l'inglese, scambiando velocità con accuratezza. È multilingue e può tradurre il parlato in inglese con un solo flag. Tutto questo è davvero notevole, ed è davvero gratuito.

La seconda cosa è il modo in cui lo usi concretamente. Il Whisper ufficiale è un pacchetto Python. Lo installi con pip, installi accanto lo strumento da riga di comando ffmpeg e poi gli dai in pasto un file audio da un terminale. Se "terminale", "pip" e "ffmpeg" suonano già come un sabato che non avevi previsto di passare così, hai trovato esattamente il vuoto di cui parla tutto questo articolo. La riga di comando è lo strumento con cui scrivi comandi al computer invece di cliccare. La maggior parte delle persone su Windows non l'ha mai aperta di proposito.

Quindi, quando qualcuno digita "OpenAI Whisper per Windows" su Google, di solito cerca una di due risposte. O: come faccio a far trascrivere i miei file da questo modello gratuito senza una laurea in informatica? Oppure: voglio solo parlare e vedere comparire le mie parole, questa roba lo fa? Sono bisogni diversi e richiedono strumenti diversi. Risponderò a entrambi, e sarò onesto su quale strumento vince in ciascun caso.

Il modello gratuito è fantastico. Il trucco è nella configurazione.

Ecco la parte che le pagine di prodotto saltano. Whisper come modello non costa nulla. Whisper come esperienza, su una macchina Windows appena installata, ti costa un pomeriggio.

Per usare l'OpenAI Whisper ufficiale installi Python, poi installi il pacchetto Whisper, poi installi ffmpeg e ti assicuri che Windows lo trovi, poi apri un terminale e lanci un comando per ogni file. Niente di tutto questo è difficile per uno sviluppatore. Ma per tutti gli altri è un muro: lo scrittore, l'avvocato, lo studente, il venditore, mia madre, che ha accettato di provare la dettatura alla terza dimostrazione e avrebbe accettato esattamente zero dimostrazioni che includessero la frase "aggiungi ffmpeg al tuo PATH".

Esistono punti di partenza più accoglienti, e vale la pena conoscerli. Whisper.cpp è un porting puro in C/C++ dello stesso modello: licenza MIT, veloce, solo CPU e senza alcun Python. Ma devi comunque compilarlo dai sorgenti o eseguirlo da riga di comando. È un pezzo di ingegneria bellissimo, pensato proprio per chi si diverte con i compilatori. Il resto di questo articolo è per chi invece non si diverte.

Quando vuoi il Whisper da riga di comando (o un trascrittore di file)

Ora ti mando da un'altra parte, perché questa è la parte onesta.

Se quello che hai davvero è un file audio (un'intervista registrata, una puntata di podcast, una chiamata su Teams che hai salvato, un memo vocale), allora la nostra app è lo strumento sbagliato, e preferisco dirtelo piuttosto che venderti qualcosa che non fa al caso tuo. Noi facciamo dettatura dal vivo: parli e le parole compaiono al cursore. Non prendiamo un file esistente per trascriverlo. Lavoro diverso.

Per quel lavoro, tre strumenti gratuiti sono davvero validi, ed è proprio per questo che sono nati:

  • Buzz trascrive e traduce file audio offline, basato su OpenAI Whisper, con licenza MIT, e gira su Windows. Se vuoi una vera finestra con dei pulsanti invece di un terminale, parti da qui.
  • Whisper Desktop (Const-me) è un'app Windows con interfaccia grafica. La decomprimi, avvii WhisperDesktop.exe, le indichi un file e trascrive usando la tua GPU tramite DirectCompute. Ha licenza MPL-2.0 ed è veloce su una scheda grafica decente.
  • whisper.cpp è l'opzione essenziale se ti trovi a tuo agio con la riga di comando e vuoi pura velocità senza Python.

Non è una diplomazia di facciata. Indirizzarti allo strumento giusto anche quando non è il nostro è esattamente il motivo per cui dovresti credere al resto. Se hai un file, vai a usare Buzz. Se hai un microfono e una frase in testa, continua a leggere.

Cosa fa concretamente Whisper by Remskill su Windows

Abbiamo preso gli stessi modelli Whisper open source, più un secondo motore, e li abbiamo racchiusi in un'app Windows, così non c'è niente da compilare e niente da digitare in un terminale.

Installi una sola app, circa 25 MB. Accedi. Premi la scorciatoia, che per impostazione predefinita è Ctrl + Space ed è completamente rimappabile. Parli. Rilasci. Il testo compare al cursore nell'app in cui stavi già lavorando: Word, Outlook, il browser, Slack, un editor di codice, la casella di ricerca. Nessun file, nessun terminale, nessuna GPU richiesta; tutta la trascrizione locale gira sulla tua CPU.

Whisper
L'app Whisper by Remskill dal vivo — barra laterale, pannello di trascrizione e schede delle istruzioni AI. Questa è l'interfaccia reale, non uno screenshot.

Sotto il cofano scegli tra tre percorsi, perché non scegliamo noi un modello al posto tuo:

  • Whisper locale (8 modelli) è l'open source Whisper per cui sei qui, incluso e pronto all'uso. Ottimizzato per l'inglese dal Base (~140 MB) fino al Medium (~1,5 GB), più le build multilingue fino a Large v3 (~3 GB). Le build multilingue coprono 99 lingue e possono tradurre in inglese.
  • Parakeet (NVIDIA TDT, ~600 MB) è un motore separato, da 5 a 10 volte più veloce di Whisper su CPU, che copre l'inglese più altre 24 lingue europee. Niente traduzione in inglese. Scegli questo se vuoi velocità e lavori per lo più in inglese.
  • Cloud (OpenAI, BYOK) ti permette di usare la tua chiave OpenAI per la massima accuratezza e la ricerca sul web; noi non prendiamo alcuna commissione. Questa è l'unica funzione Pro.

La pipeline locale (ogni modello Whisper, Parakeet, pulizia AI tramite Ollama, cronologia, preset, scorciatoia personalizzata, download dei modelli) è gratuita per qualsiasi utente registrato, senza carta alla registrazione. Il percorso Cloud è il piano Pro a pagamento; trovi i numeri nella pagina dei prezzi.

Perché una vera app di dettatura per Windows è più difficile di pip install

Ecco la cosa di cui nessuno ti avverte quando dice "basta avvolgere Whisper in un'interfaccia".

Il modello è la parte facile. Far funzionare bene una scorciatoia su Windows non lo è. La prima versione del nostro gestore delle scorciatoie attivava il callback di stop-registrazione sei volte per una sola pressione reale di un tasto. Funzionava perfettamente su un Mac. Funzionava perfettamente su un'installazione Windows pulita. Andava in pezzi sulle macchine reali dei clienti, quelle con un metodo di input linguistico attivo, che su Windows genera eventi fantasma di rilascio di Ctrl + Space in momenti imprevedibili. Ci sono voluti giorni di telemetria, poi un debounce di 50ms che non bastava, poi un debounce di 300ms che alla fine è bastato. Ho imparato sul framework dei metodi di input di Windows più di quanto chiunque dovrebbe, e ho un master. Il verdetto di mia figlia maggiore, quando le ho spiegato tutto: "è per questo che le email di papà ci mettono un'eternità".

Pasted
L'overlay post-dettatura come viene rilasciato — l'aspetto di una dettatura gratuita e completamente locale nel momento esatto in cui finisce.

Questa è la differenza tra un modello e un prodotto. Il Whisper gratuito ti dà la trascrizione di un file. Un'app di dettatura deve sopravvivere al vero desktop Windows, nelle app reali, mentre fai qualcos'altro. Il modello quella battaglia non la vede mai. Noi sì, e per circa una settimana l'abbiamo persa.

Quando lo strumento integrato di Windows è tutto ciò che ti serve

Di' alle persone quando non comprare la tua cosa, e forse ti crederanno sul resto. Quindi: se detti solo qualche breve nota di tanto in tanto, potresti non aver bisogno di niente di tutto questo. Windows 11 ha uno strumento di digitazione vocale integrato che apri con Win + H. È gratuito e va benissimo per un paio di righe, anche se invia il tuo audio al riconoscimento vocale online di Microsoft invece di funzionare sulla tua macchina. Per una rapida risposta su Teams, è più che sufficiente.

Iniziamo a valere l'installazione più o meno dal punto in cui scrivi testi veri (email lunghe, memorie, riassunti di lezioni, commenti al codice, varianti di testi marketing) e vuoi che restino sulla tua macchina, in 99 lingue, con la stessa scorciatoia ovunque. Se la tua giornata è fatta di chat da due righe, hai finito. Se la tua giornata è fatta di scrittura, tieni l'app.

Approfondimenti

OpenAI Whisper è un modello gratuito e open source, e su Windows di norma richiede Python, ffmpeg e un terminale per trascrivere i file. Se hai un file, Buzz o Whisper Desktop lo fanno gratis con una vera finestra. Se invece quello che vuoi davvero è parlare e vedere le tue parole comparire al cursore in qualsiasi app, senza compilazioni, senza riga di comando, in locale sulla tua CPU, è proprio questo che abbiamo creato.

Per una trattazione più approfondita del panorama gratis-contro-a-pagamento, leggi voce a testo su Windows. Per scegliere tra i nostri due motori locali, leggi Whisper vs Parakeet.

Detta la tua prima frase in circa un minuto

Scarica Whisper by Remskill per Windows, accedi senza carta richiesta, premi Ctrl + Space e parla. La pipeline locale è gratuita per tutto il tempo in cui la usi.

Trascrizione locale gratuita per sempre. Nessun metodo di pagamento alla registrazione. Il piano Cloud è l'unica funzione a pagamento.

Foto di Denys Medvediev

Denys Medvediev

Sono quello che legge le email del nostro supporto, molto probabilmente dettando le risposte.