Kirjoittaja: Denys Medvediev

Selitys

Kuinka ajaa Whisper paikallisesti

On kaksi rehellistä tapaa ajaa Whisper omalla koneella: kehittäjäreitti Pythonin ja komentorivistä tai työpöytäsovellus, joka hoitaa kaiken ilman terminaalia. Kumpikin pitää äänesi tietokoneella. Tässä käydään molemmat läpi ja kerrotaan, milloin kumpikin on oikea valinta.

Päivitetty viimeksi: kesäkuu 2026

Kannettava tietokone pimeällä pöydällä, jonka näytöllä näkyy koodirivejä terminaali-ikkunassa – kuvaa komentorivipohjaista asennusta

Whisperin ajaminen paikallisesti tarkoittaa, että ääni litteroidaan omalla koneellasi eikä pilvipalvelimella. Tapoja on kaksi: asenna OpenAI:n avoimen lähdekoodin Whisper Pythonilla, pipillä ja ffmpegillä ja aja se komentoriviltä, tai käytä Whisper by Remskill -sovellusta, joka pakkaa mallit sisäänsä ja kirjoittaa kursorin kohdalle ilman terminaalia. Kumpikin pitää äänen laitteella.

Whisper on OpenAI:n avoimen lähdekoodin puheentunnistusmalli, julkaistu MIT-lisenssillä, ja syy miksi "kuinka ajaa Whisper paikallisesti" haetaan niin usein on se, että se todella pyörii omalla laitteistollasi ilmaiseksi. Ei API-avainta, ei minuuttikohtaista laskua, ei ääntä poistuu läppäristä. Se on aidosti hyvä diili, ja virallinen projekti GitHubissa antaa sinulle kaiken.

Mutta "aja se" tarkoittaa eri ihmisille eri asioita. Virallinen reitti on komentorivityökalu. Asennat Pythonin, ajat `pip install openai-whisper`, asennat ffmpegin ja osoitat terminaalin äänitiedostoon. Täydellinen, jos sinulla on kansio tallennuksia jonotettavaksi. Vähemmän täydellinen, jos halusit vain puhua sähköpostiisi ja nähdä sanat siinä. Nämä ovat kaksi eri tehtävää, ja käyn molemmat rehellisesti läpi.

Tässä on se haarukka, jonka useimmat sivut ohittavat. "Aja Whisper paikallisesti" voi tarkoittaa kahta täysin eri asiaa sen mukaan, kuka kysyy. Kehittäjälle se tarkoittaa: lataa malli levylle ja litteroi tiedostoja skriptistä. Kirjoittajalle tai myyjälle se tarkoittaa: lopeta kirjoittaminen ja muuta puheeni tekstiksi siinä sovelluksessa, jossa olen.

Todellinen kysymys ei siis ole pelkästään "miten asennan Whisperin". Se on "kumpaa paikallista Whisperiä etsin — CLI:n erätöihin ja skriptaukseen, vai pikanäppäimen, joka kirjoittaa kursorini kohdalle". Ensimmäinen on virallinen OpenAI-projekti ja se on erinomainen siinä, mitä se tekee. Toinen on työpöytäsovellus, joka ajaa samaa malliperhettä ilman komentoriviä. Asennan molemmat, näytän laitteistolaskelmat ja kerron suoraan, milloin terminaali on parempi valinta.

Mitä "Whisperin ajaminen paikallisesti" oikeasti tarkoittaa

Henkilö työskentelee kannettavalla tietokoneella pöydässä – kuvaa laitteella tapahtuvaa käsittelyä pilven sijaan

Whisperin ajaminen paikallisesti tarkoittaa, että litterointi tapahtuu tietokoneesi omalla prosessorilla, ei jossain palvelimella. Syötät sille ääntä, malli muuttaa sen tekstiksi, eikä mitään lähde koneelta. Se on vetovoima. Pomoosi liittyvä palkkataulukko luettuna ääneen, sähköposti lapsesi koululle, tallennettu asiakaspuhelu — mikään siitä ei koske toimittajan lokeja, koska halusit kirjoittaa äänellä. Laite ensin tai ei ollenkaan, sen verran pidän kiinni mielipiteestäni, ja laitan siihen numeron alempana.

Whisper itsessään on vain malli. OpenAI harjoitti sen ja julkaisi painot MIT-lisenssillä, minkä takia kuka tahansa voi ladata ja ajaa sen maksamatta. Malleja on useita kokoja, pienimmästä 39 miljoonan parametrin mallista suurimpaan 1,55 miljardin parametrin malliin, ja valitset sen mukaan kuinka paljon tarkkuutta tarvitset suhteessa laiteresursseihin. Malli on sama, ajatpa sitä terminaalista tai sovelluksesta. Se, mikä muuttuu, on sen ympärillä oleva kerros.

Ja tuo kerros on koko kysymys. Niitä on kaksi, molemmat laillisia. Virallinen OpenAI:n komentorivityökalu: ilmainen, skriptattava, Python-pohjainen, rakennettu tiedostojen litterointiin. Ja työpöytäsovellukset, jotka lataavat saman tyyppisen mallin tavallisen ikkunan taakse, jotta painat näppäintä ja puhut kirjoittamisen sijaan. Tylsä totuus on, että useimmat tätä avainsanaa hakevat haluavat toista näistä kahdesta eivätkä vielä tiedä kumpaa. Seuraavat kaksi osiota käyvät läpi juuri nämä kaksi reittiä.

Kehittäjäreitti: Python, pip ja ffmpeg

Jos olet kotona terminaalissa, virallinen projekti on siistin vastaus ja se on aidosti ilmainen. Tarvitset kolme asiaa koneellasi: Pythonin (projekti tukee versioita 3.8–3.11), itse Whisper-paketin ja ffmpegin, joka on äänityökalu, jota Whisper käyttää tiedostojesi lukemiseen. Asennus on kaksi komentoa. `pip install -U openai-whisper` hakee paketin ja sen PyTorch-riippuvuuden. Sitten ffmpeg, joka riippuu käyttöjärjestelmästäsi — `brew install ffmpeg` Macilla, `choco install ffmpeg` tai `scoop install ffmpeg` Windowsilla, `sudo apt install ffmpeg` Ubuntussa.

Kun se on asennettu, ajat sen tiedostoa vasten. `whisper audio.mp3 --model turbo` litteroi tallennuksen ja kirjoittaa tekstin ulos. Lisää `--language Japanese` ohittaaksesi automaattisen tunnistuksen, tai `--task translate` saadaksesi muun kuin englanninkielisen tallennuksen englanninkielisenä ulos. Se on sen ydin. Se on tiedosto sisään, teksti ulos -työkalu, ja se on siinä hyvä. Osoita sitä yön yli kansiolle äänimuistioita ja se jauhaa läpi jokaisen ilman, että sinun tarvitsee valvoa.

Laitteistotodellisuus on se, missä odotukset törmäävät seinään. Viralliset mallien koot ovat tiny (39M parametria), base (74M), small (244M), medium (769M), large (1,55B) ja turbo (809M). VRAM-vaatimukset kertovat todellisen tarinan: noin 1 GB tinylle, noin 2 GB smallille, noin 5 GB mediumille ja noin 10 GB large-mallille. Nämä luvut on kirjoitettu GPU:ta varten. Voit ajaa pienempiä malleja CPU:lla, mutta erillinen GPU on se, mikä tekee suuremmista malleista sietäviä. Piirsin kerran siistin "aja vain large läppärillä" -asetuksen, sitten katsoin sen ryömivän integroidulla grafiikalla. Kaavio on aina väärässä toiseen committiin mennessä. CPU viimein valmistuu; large-malli ohuella kannettavalla ei ole tiistai-iltapäivän suunnitelma.

Terminaaliton reitti: aja Whisper työpöytäsovelluksessa

Jos et ikinä halua nähdä komentoriviä, tämä on toinen rehellinen polku. Whisper by Remskill on Windows 10:lle tai uudemmalle ja Apple Silicon -Maceille tarkoitettu työpöytäsovellus, joka ajaa Whisperin paikallisesti puolestasi — mallit latautuvat sovelluksen sisällä, ei pippiä, ei ffmpegiä, ei Pythonia. Se ajaa myös Parakeetia, toista paikallista moottoria, johon palaan. Koko paikallinen putkilinja on ilmainen kaikille kirjautuneille käyttäjille, eikä maksutapaa kysytä rekisteröitymisessä. Tässä on järjestys.

Vaihe 1 — Asenna Whisper ja kirjaudu sisään.

Lataa lataussivulta, asenna ja luo ilmainen tili. Ei korttia. Paikallinen litterointiputkilinja avautuu heti.

Tiedät onnistuneesi, kun sovelluksen kuvake ilmestyy ilmaisinalueelle ja ohjattu asennus tarjoaa mallin valintaa.

Vaihe 2 — Valitse litterointireitti ja lataa malli.

Sovellus ei valitse puolestasi. Saat kolme vaihtoehtoa: Cloud (OpenAI, oma avain), Local Parakeet tai Local Whisper. Jos haluat ajaa asiat omalla koneellasi, valitse toinen paikallisista moottoreista ja anna mallin latautua sovelluksen sisällä.

Tiedät onnistuneesi, kun malli on latautunut ja näkyy valmiina.

Vaihe 3 — Vahvista pikanäppäimesi.

Windows-oletusarvo on Ctrl+Space, Macilla Command+Option pidettynä push-to-talk-tilassa. Macilla myönnä Accessibility-lupa kehotettaessa; ilman sitä liittäminen kursorin kohdalle ei pääse muihin sovelluksiin.

Tiedät onnistuneesi, kun testitallennus liitetään mihin tahansa tekstikenttään.

Vaihe 4 — Aseta kursori mihin tahansa ja puhu.

Napsauta mitä tahansa tekstikenttää — sähköpostia, asiakirjaa, chat-ruutua — pidä pikanäppäintä pohjassa, sano lause, vapauta. Litteraatti ilmestyy kursorin kohdalle.

Tiedät onnistuneesi, kun puhuttu lauseesi on tekstikenttässä tekstinä.

Whisper
Oikea Whisper-työpöytäsovellus asetusruudulla, Litterointi- ja Tekoälypaneelit avattuna.

Hidas osa on mallin lataus, sama kuin CLI-reitillä — painot ovat painoja. Kaikki muu on neljä vaihetta yllä. Ero on, että terminaalia ei ole sinun ja mallin välissä, ja tiedosto sisään, teksti ulos -toiminnon sijaan saat pikanäppäimen, joka kirjoittaa minne tahansa kursorisi sattuu olemaan. Sama Whisper alla, eri tehtävä päällä.

Mikä malli ja millainen laitteisto tarvitaan

Molemmat reitit pyytävät sinua valitsemaan mallin, ja valinta tiivistyy samaan kompromissiin: suuremmat mallit ovat tarkempia ja hitaampia, pienemmät nopeampia ja kevyempiä. Virallisessa CLI:ssä large-malli vaatii noin 10 GB VRAM:ia ja small noin 2 GB, joten näytönohjain asettaa katon. Työpöytäsovelluksessa Whisper-mallit jakautuvat vain englantia tukeviin ja monikielisiin, joista oletusarvoinen englanninkielinen malli on noin 480 MB levyllä ja suurin monikielinen noin 3 GB. Monikieliset versiot kattavat 99 kieltä ja voivat kääntää englanniksi; vain englantia tukevat versiot ovat pelkästään englanninkielisiä.

Sovelluksen toinen paikallinen moottori on syytä tuntea tässä, koska se kiertää laitteisto-ongelman monilta. Parakeet on NVIDIA:n TDT-malli, noin 600 MB, ja se on 5–10 kertaa nopeampi kuin Whisper CPU:lla. Se kattaa englannin lisäksi 24 muuta eurooppalaista kieltä, 25 yhteensä, ilman käännöstä englanniksi. Jos puhut pääasiassa englantia eikä sinulla ole vahvaa GPU:ta, Parakeet on nopea paikallinen valinta. Jos tarvitset kiinaa, japania, koreaa tai käännöstä, se on Whisperin monikielinen alue eikä Parakeet sinne pääse. Puhuessasi pieni kapseli näyttää, että sovellus kuuntelee:

Cancel
Tallennuksen näyttöpäällyste: pieni kapseli, joka ilmestyy puhuessasi, jotta tiedät sovelluksen kuuntelevan.

Paras yksittäinen tapa parantaa tarkkuutta ei ole suurempi malli lainkaan. 20 dollarin USB-mikrofoni tekee enemmän litterointisi eteen kuin kahden mallikoon hyppäys — puhdas ääni sisään voittaa raskaamman mallin, jolle syötetään kannettavan mikrofonin mössöä. Käytä rahat ensin mikrofoniin, sitten mieti mallia. Se on ainoa laitteistovinkki, jonka laitan paperille ja pidän kiinni.

Paikallinen vai pilvi: kumpi sopii mihinkin tehtävään

Jos koneesi on Apple Silicon tai PC:si on viimeisten muutaman vuoden ajalta, kokeile ensin paikallista. Pilvi on varaventtiili, ei oletusasetus. Mutta sovellus pyytää sinua valitsemaan kolmesta reitistä ja haluaisin sinun valitsevan hyvin, joten tässä on se, miten ne eroavat.

Tässä on, miten kolme reittiä eroavat, koska sovellus pakottaa sinua valitsemaan:

  • Local ParakeetNVIDIA:n TDT-moottori, noin 600 MB, ja nopein paikallinen vaihtoehto — 5–10 kertaa nopeampi kuin Whisper CPU:lla. Kattaa englannin lisäksi 24 muuta eurooppalaista kieltä, 25 yhteensä. Ei käännöstä englanniksi. Jos kirjoitat englanniksi tai jollakin muulla eurooppalaisella kielellä ja haluat nopeutta ilman GPU:ta, tämä on täysin offline-valinta.
  • Local Whisperhitaampi kuin Parakeet samalla koneella, mutta monikieliset versiot kattavat 99 kieltä ja voivat kääntää englanniksi. Vain englantia tukevat versiot ovat pelkästään englanninkielisiä, eivät 99. Valitse tämä kiinan, japanin, korean tai minkä tahansa käännöstyön vuoksi, johon Parakeet ei pysty. Oletusarvoinen englanninkielinen malli on noin 480 MB; suurin monikielinen on noin 3 GB.
  • Cloud (OpenAI, BYOK)paras tarkkuus ja verkkoyhteys, omalla OpenAI-avaimellasi suoraan OpenAI:n laskuttamana. Litterointi kulkee oletuksena gpt-4o-mini-transcribe-mallin kautta. Vaatii internet-yhteyden, joten se on ainoa reitti, joka lähtee koneeltasi. Pilviominaisuus kuuluu Whisper Pro:hon.

Tylsä totuus on, että jokapäiväiseen sanelukseen paikallinen riittää mainiosti, ja molemmat paikalliset moottorit pyörivät täysin koneellasi ilman mitään palvelimelle lähetettävää. Pilvi ansaitsee paikkansa, kun tarvitset huipputarkkuutta hankalaan tallenteeseen tai mallin pitää hakea fakta verkosta kesken lauseen. Kumman reitin ikinä valitsitkin Whisperin paikalliseen ajoon — CLI:n tai sovelluksen — yksityisyyden tarina on sama: ääni pysyy paikallaan. Jos offline-pysyminen on koko syy miksi olet täällä, offline-puheentunnistus menee syvemmälle siihen.

Tarkkuus, välimerkit ja raakalitteraatin siistiminen

Mitä tahansa Whisper ajaakin, raaka sanelu tulee ulos pitkänä nauhana. Sanot "okei niin litteroi standup-tallennus sitten lähetä yhteenveto tiimille ennen lounasta" ja se on välimerkkitön möhkäle, jonka mikä tahansa puheentunnistusmoottori antaa sinulle. Virallinen CLI antaa sinulle tuon tekstin ja pysähtyy siihen — siistiminen on sinun tehtäväsi, skriptissä tai käsin. Se on hyvä erälitterointiin, jossa joka tapauksessa käsittelet tulostetta myöhemmin.

Työpöytäsovellus voi tehdä siistimiskierroksen puolestasi ennen kuin teksti laskeutuu. Sano aktivointilause "Hey whisper" ja tekoäly poistaa täytekorvakkeet, korjaa pitkät lausejonot ja lisää välimerkit. Paikallisella mallilla tämä kulkee Ollaman kautta koneellasi; pilvitilassa se on oletuksena gpt-5-mini. Ero raakatekstin ja siistin välillä on ero litteraatin, jota täytyy muokata, ja sellaisen, jonka voi lähettää suoraan:

Thinking...
Raaka

okei niin litteroi standup-tallennus sitten lähetä yhteenveto tiimille ennen lounasta öm ja laita manageri kopioon

Siisti

Okei, litteroi standup-tallennus, lähetä yhteenveto tiimille ennen lounasta ja laita manageri kopioon.

Tarkkuus on enimmäkseen malli-ja-mikrofoni -kysymys, ja mikrofonin kävin jo läpi. Mallipuolella suuremmat monikieliset Whisper-versiot ovat vahvoja 99 kielellä, ja pilvitila lisää OpenAI:n huippulitteroinnin, jos tallennus on aidosti hankala. Mutta puhtaalle äänelle ja normaalille puheelle jopa pienet mallit ovat vakaita, ja suurimman mallin jahkaaminen heikolla laitteistolla ostaa sinulle hitaampaa tulostetta tarkkuudella, jota et todennäköisesti huomaa. Sovita malli tehtävään, ei spesifikaatioiden leuhkimiseen.

Jos päätavoitteesi on puhua kirjoittamisen sijaan koko päivän, sama puhu-sitten-siisti -kulku on se, mikä mahdollistaa sen, että voit muuttaa puheen tekstiksi Windowsissa avaamatta terminaalia kertaakaan, mikä on CLI-vapaan reitin koko pointti.

Milloin komentorivi on oikea valinta

Kaksi haarautuvaa polkua – kuvaa valintaa komentorivistä ja työpöytäsovelluksesta

Joskus terminaali on aidosti parempi työkalu, ja väittää muuta myydäkseni sinulle sovelluksen olisi epärehellistä. Virallinen OpenAI CLI on ilmainen, MIT-lisenssoitu ja rakennettu tehtävään, johon työpöytäsovellus ei pysty: litteroi tiedostoja, isossa erässä, skriptistä. Jos se on sinun tehtäväsi, ohita sovellus.

Ota komentorivi käyttöön, kun sinulla on kansio tallennuksia prosessoitavaksi yön yli, kun haluat Whisperin isompaan Python-putkistoon tai palvelimelle, jonka hallitset, kun tarvitset tietyn malliparametrin, jota käyttöliittymä ei paljasta, tai kun asut jo terminaalissa etkä halua toista ikkunaa auki. Se on myös oikea valinta Linuxilla, jolle työpöytäsovellusta ei toimiteta. CLI pyörii missä tahansa, missä Python ja ffmpeg toimivat. Mikään tästä ei ole pahaksi puhe sovelluksesta — se on vain erilainen ongelmanmuoto.

Ota työpöytäsovellus, kun tehtävä on sanelu, ei tiedostojen käsittely: haluat puhua sähköpostiin, asiakirjoihin, chattiin ja halutat sanojen ilmestyvän kursorin kohdalle yhdellä näppäimellä. CLI ei voi liittää kursorisi kohdalle toisessa ohjelmassa; se ei koskaan ollut sen tehtävä. Rehellinen jako on siis — tiedostot ja skriptaus, käytä terminaalia; puhuminen kirjoittamisen sijaan, käytä sovellusta. Useimmat ihmiset, kun he ovat selvillä siitä, kumpaa haluavat, tietävät heti, kummalla puolella ovat.

Sama laitteella tapahtuva, pilvitön logiikka pätee myös Macilla — puhe tekstiksi Macilla -opas käy läpi Apple Silicon -puolen, mukaan lukien Accessibility-lupa, jota pikanäppäin tarvitsee.

Whisper omalla koneella on yksi ohjelmistomaailman parhaista diileistä juuri nyt — malli, jonka OpenAI antoi ilmaiseksi, sama jonka suuret pilvipalvelut hiljaa kutsuvat, levyllä ilmaiseksi. Ainoa todellinen päätös on, kumpi kerros sopii päiväsi. Ajan CLI:tä, kun minulla on tiedostoja pureskeltavaksi, ja sovellusta muun 95 % ajasta, koska vaihdan ohjelmia noin neljäkymmentä kertaa tunnissa enkä halua kirjoittaa komentoa jokaiseen kertaan. Sanelin suurimman osan tästä oppaasta pikanäppäimellä, tekstikenttään joka ei ollut terminaali, mallin pyöriessä samalla kannettavalla koko ajan.

Aja Whisper paikallisesti ilman terminaalia

Pidä pikanäppäintä, puhu, vapauta. Malli pyörii koneellasi ja litteraatti laskeutuu kursorisi kohdalle — ei Pythonia, ei pipiä, ei ffmpegiä.

Ilmainen paikallinen moodi kaikille kirjautuneille. Ei korttia aloittamiseen.

Kuva Denys Medvedievistä

Denys Medvediev

Olen se, joka lukee tukisähköpostimme — todennäköisesti sanelen vastaukset.

Lisälukemista