Kirjoittaja: Denys Medvediev

Opas

Puheentunnistusohjelmisto bloggaajille

Useimmat blogiluonnokset syntyvät hitaasti, koska kirjoittaminen on hidasta. Puheentunnistus ratkaisee luonnoksen ongelman, ei editoria: paina pikanäppäintä, puhu, ja siisti teksti ilmestyy kursorisi kohdalle WordPressissä, Ghostissa, Substackissa, Mediumissa tai Notionissa. Ei asennettavia lisäosia, toimii offline.

Viimeksi päivitetty: kesäkuu 2026

Kannettava tietokone ja kahvikuppi puisella pöydällä ikkunan äärellä, bloggaajan tavanomainen kirjoituspiste

Puheentunnistusohjelmisto muuttaa puhutun ensiluonnoksen kirjoitetuksi tekstiksi suoraan mihin tahansa editoriin. Järjestelmänlaajuinen työkalu kuten Whisper toimii pikanäppäimellä: puhu, vapauta, ja sanat liitetään kursorin kohdalle WordPressissä, Ghostissa, Substackissa, Mediumissa tai Notionissa. CMS-lisäosaa ei tarvita, se toimii offline, ja paikallinen tila on ilmainen.

Blogikirjoitus on kaksi työtä yhden deadline-päivämäärän alla. On ajattelu — mitä oikeasti haluaa sanoa — ja on kirjoittaminen, joka on se hidas osa, missä ideat jonottavat vuoroaan. Kirjoitan itse jonkin verran sivutoimisesti, ja kuilu "tiedän mitä tässä kappaleessa lukee" ja "kappale on ruudulla" oli aina kirjoittaminen. Niinpä aloin puhua ensiluonnoksen sen sijaan.

Ihmiset hakevat "puheentunnistusohjelmistoa bloggaajille" ja päätyvät listoille, joissa kaikki sovellukset haluavat elää yhden editorin sisällä — WordPress-lisäosa täällä, Chrome-laajennus tuolla. Rehellinen vastaus on yksinkertaisempi ja hieman tylsä. Et halua puheentunnistusta CMS:si sisälle. Haluat sen koko koneen päälle, niin että sama pikanäppäin täyttää Gutenberg-lohkon, Substack-julkaisun ja vastauksen sinulle kirjoittaneelle lukijalle. Yksi työkalu, jokainen editori.

Tässä se asia, jonka listausartikkelit ohittavat. Editorisi — Gutenberg, Ghost-kirjoitin, Substack-kenttä, Medium, Notion-sivu — on tekstikenttä. Kursorin kohdalle liittävä puheentunnistus ei välitä, mikä kenttä on kyseessä. CMS ei ole integraatio. Kursori on.

Todellinen kysymys ei siis ole "millä blogialustalla on paras äänentunnistus". Yhdelläkään niistä ei ole hyvää sisäänrakennettua puheentunnistusta, eikä sinun tarvitse sellaista odottaa. Kysymys on "mitä puheentunnistustyökalua käytän kaikkien niiden päällä", ja vastaus riippuu siitä, haluatko sen ilmaiseksi, offline-tilassa ja samanlaisena jokaisessa editorissa. Selitän miksi, asennan sen kahdessa minuutissa, näytän siivousprosessin joka muuttaa puhutun möykyn luonnokseksi, ja kerron milloin puheentunnistus kannattaa jättää väliin ja käyttää toista työkalua.

Miksi bloggaajat turvautuvat puheentunnistukseen

Henkilö kirjoittaa kannettavalla tietokoneella, vieressä muistikirja ja kahvi, kesken blogikirjoituksen luonnoksen

Luonnos on pullonkaula, ei muokkaus. Useimmat tuntemani bloggaajat voivat hahmotella julkaisun kahdessa minuutissa ja käyttävät sitten tunnin hahmotelman muuttamiseen lauseiksi. Puhuminen on kirjoittamista nopeampaa — omalla kohdallani noin kolmesta neljään kertaa nopeampaa, ja tutkimus tukee tätä suuruusluokkaa, vaikka tarkka tulos riippuu käsistäsi ja aiheestasi. Puheentunnistuksen tarkoitus ei ole ohittaa kirjoittaminen. Se tarkoitus on saada sekava ensivedos pois päästä paperille ennen kuin lanka katkeaa.

On toinenkin syy, joka on tärkeämpi mitä kauemmin olet tehnyt tätä: kädet. Bloggaajat kirjoittavat paljon. Viikottainen uutiskirje, pari julkaisua, kommentit, sähköpostit — se kerääntyy hiljaiseksi, päivittäiseksi näppäinpainallusmääräksi. Puheentunnistus antaa käsillesi lepoa ja pitää tuotoksen käynnissä, mikä on tuottavuusvalinta, ei lääketieteellinen. En kerro, että se korjaa mitään; kerron, että luonnoksen puhuminen on tunti vähemmän kirjoittamista, ja raskaalla kirjoitusviikolla se on ero toimittamisen ja toimittamatta jättämisen välillä.

Ideat eivät jonota siististi. Hyvä aloituslause saapuu kahvia keittäessä, ei näppäimistön äärellä istuttaessa. Pikanäppäimellä sen kaappaamisen hinta laskee lähes nollaan — puhut kymmenen sekuntia ja lause on luonnoksessasi. Rehellinen muotoilu on, että ääni antaa sanat nopeasti. Muotoilu — otsikot, nostolainaukset, kappaleiden järjestys — on edelleen sinun työtäsi. Puheentunnistus poistaa vain sen osan, jossa olit menettämässä lauseen hitaalle näppäimistölle.

Paina pikanäppäintä, puhu, teksti ilmestyy editoriin

Tässä on koko mekaniikka, ja se on tylsä parhaalla mahdollisella tavalla. Painat pikanäppäintä, puhut, vapautat, ja litteraatti liitetään kursorisi kohdalle — mihin tahansa aktiiviseen tekstikenttään. Whisper pitää lyhyen häntäajan kun vapautat näppäimen, jotta viimeinen sanasi ei katkea. Koska se liittää käyttöjärjestelmän kursorin kohdalle, Gutenberg-lohko, Ghost-kappale, Substack-kirjoitin ja Medium-tarina ovat kaikki vain "mikä tahansa tekstikenttä". Sama pikanäppäin, sama toiminta, riippumatta siitä millä välilehdellä olet.

Siinä se osa, jonka laskeutumissivut tekevät liian monimutkaiseksi. WordPressiin ei asenneta lisäosaa, selaimeen ei kiinnitetä laajennusta, Ghostiin ei liitetä API-tokenia. Kursorisi on editorissa, puhut, sanat ilmestyvät editoriin. Pieni kapseli ilmestyy puhuessasi, joten tiedät sen kuuntelevan:

Cancel
Nauhoitusnäyttö: pieni kapseli, joka ilmestyy puhuessasi, jotta tiedät Whisperin nappaavan jokaisen sanan.

Pikanäppäin on se yksi asia, jonka kannattaa saada kuntoon heti aluksi. Windowsissa se on Ctrl+Space; Macilla se on Command+Option, vain muokkausnäppäimiä käyttävä push-to-talk, jota pidät pohjassa puhuessasi ja vapautat lopettaaksesi. Molempia voi muuttaa Asetuksissa, jos ne törmäävät jo käyttämääsi pikanäppäimeen. (Nuorempi tyttäreni kertoi minulle kerran, että pikanäppäin "ei toiminut" hänen piirustussovelluksessaan. Se oli konflikti, ei bugi, ja niin opin että tavallinen ihminen ei oikeasti tiedä mikä pikanäppäinkonflikti edes on. Siksi jokainen pikanäppäin on nyt muokattavissa.) Jos olet jo asettanut puheentunnistuksen Windowsissa tai Macilla, tämä on sama lihasmuisti suunnattuna CMS:ääsi.

Aseta se käyttöön kahdessa minuutissa (Windows tai Mac)

Tarvitset Apple Silicon -prosessorilla varustetun Macin tai Windows 10:n tai uudemman tietokoneen, toimivan mikrofonin ja blogieditorisi avoinna selainvälilehdellä tai sen työpöytäsovelluksessa. Koko paikallinen putki on ilmainen kirjautuneille käyttäjille, eikä maksuvälinettä kysytä rekisteröitymisen yhteydessä. Tässä on järjestys.

Vaihe 1 — Asenna Whisper ja kirjaudu sisään.

Lataa lataussivulta, asenna ja luo ilmainen tili. Ei korttia. Koko paikallinen litterointikanava avautuu heti.

Tiedät sen toimivan, kun sovelluksen kuvake ilmestyy ilmaisinalueelle ja asennusvelhossa tarjotaan mallin valintaa.

Vaihe 2 — Valitse litterointipolku.

Sovellus ei valitse puolestasi. Saat kolme vaihtoehtoa: Pilvi (OpenAI, tuo oma avain), Paikallinen Parakeet tai Paikallinen Whisper. Kirjoitusten luonnosteluun omalla koneellasi aloita paikallisesti — lisää siitä kahden osion päästä.

Tiedät sen toimivan, kun malli on latautunut valmiiksi ja näkyy valmiina.

Vaihe 3 — Vahvista pikanäppäimesi.

Windows käyttää oletuksena Ctrl+Space, Mac Command+Option push-to-talk-tilassa. Macilla myönnä Esteettömyys-lupa pyydettäessä; ilman sitä kursoriin liittäminen ei tavoita selainta tai editoria.

Tiedät sen toimivan, kun testinauhoite liitetään mihin tahansa tekstikenttään.

Vaihe 4 — Aseta kursori editoriin ja puhu.

Avaa julkaisusi WordPressissä, Ghostissa, Substackissa, Mediumissa tai Notionissa, klikkaa tekstirunkoon, pidä pikanäppäintä pohjassa, sano lause, vapauta. Litteraatti ilmestyy kursorin kohdalle.

Tiedät sen toimivan, kun puhuttu lauseesi istuu editorissa tekstinä.

Whisper
Oikea Whisper-työpöytäsovellus asetussivullaan, Litterointi- ja Tekoälypaneelit avoinna.

Hidas osa on mallin lataus, ei asennus. Kaikki muu on neljä yllä olevaa vaihetta. Kun se toimii, luonnoksen kirjoittaminen lakkaa olemasta kirjoitustehtävä ja muuttuu puhumistehtäväksi, eikä editori erota eroa.

puheesta tekstiksi Windowsissa · Macilla

Diktoi WordPressiin, Ghostiin, Substackiin, Mediumiin tai Notioniin

Näin se toimii editorista riippuen, koska bloggaajat kysyvät. WordPress Gutenbergissä klikkaa kappaleblokiin ja diktoi; sanat täyttävät blokin ja painat Enteriä seuraavaa blokkia varten kuten aina. Ghost-kirjoitin toimii samoin — kursori rungossa, puhut, teksti ilmestyy. Substackin julkaisuredaktori ja Mediumin tarina-editori ovat tavallisia RTF-kenttiä, joten puheentunnistus sijoittuu suoraan niihin. Notion käsittelee jokaisen blokin tekstikenttänä, joten pikanäppäin täyttää blokin, johon kursori on sijoitettu. Mikään näistä ei vaatinut lisäosaa, laajennusta tai CMS:n asetusmuutosta. Asensit yhden työkalun ja jokainen editori peri sen.

Syy miksi tämä toimii kaikkialla on syy miksi se kuulostaa liian yksinkertaiselta: työkalu liittää käyttöjärjestelmän kursorin kohdalle, ei tietyn sovelluksen rajapintaan. Niinpä sama näppäin, joka täyttää Gutenberg-blokin, täyttää myös sähköpostivastauksesi lukijalle, Slack-viestisi toimittajalle ja commit-viestin sivustosi taustalla olevassa repositoriossa. Yksi työkalu, jokainen tekstikenttä, sekä Windowsissa että Macilla. Et opi mitään uudelleen kun siirryt luonnoksen tekemisestä kommentteihin vastaamiseen.

Mitä puheentunnistus ei tee, on muotoilu, ja sanon sen suoraan mieluummin kuin annan sinun selvittää sen pahimmalla hetkellä. Se antaa sinulle sanat. H2-otsikot, lihavoinnit, nostolainaukset, blokkien järjestys — ne ovat edelleen sinua, niillä näppäimillä ja painikkeilla joita jo käytät. Kukaan joka myy sinulle "sano otsikko kaksi ja katso sen muotoilevan" myy demon, ei arkitodellisuutta. Saa proosa alas äänellä, muotoile julkaisu sitten kuten muotoilisit minkä tahansa luonnoksen. Jos asut pääasiassa yhdessä editorissa, alustakohtaiset oppaat Ghost-editorille ja Substack-editorille menevät syvemmälle sovelluskohtaisiin erityispiirteisiin.

Paikallinen vai pilvi: kumpi tila blogiluonnoksille

Bloggaamisessa kokeile ensin paikallista tilaa. Luonnoksesi ovat luonnoksiasi — julkaisematon kirjoitus, uutiskirje, josta et ole vielä varma, terävä mielipide jonka ehkä leikkaat ennen julkaisua. Olisi outoa tapaa reitittää jokainen karhea lause pilvipalvelimen kautta vain saadaksesi sen editoriin, kun kannettavassasi on jo mikrofoni ja suoritin. Jos Mac on Apple Silicon -prosessorilla tai tietokoneesi on muutaman vuoden sisältä, paikallinen tila hoitaa päivittäisen luonnostelun ongelmitta, ja pilvestä tulee pelastusrengas eikä oletusarvo.

Näin kolme polkua eroavat toisistaan, koska sovellus pyytää sinua valitsemaan ja haluaisin sinun valitsevan viisaasti:

  • Paikallinen ParakeetNVIDIAn TDT-moottori, noin 600 Mt, ja nopein paikallinen vaihtoehto — 5–10 kertaa nopeampi kuin Whisper suorittimella. Kattaa englannin ja 24 muuta eurooppalaista kieltä, yhteensä 25. Ei käännöstä englanniksi. Jos kirjoitat blogiasi englanniksi tai muulla eurooppalaisella kielellä, tämä on nopea, täysin offline-valinta.
  • Paikallinen WhisperHitaampi kuin Parakeet samalla koneella, mutta monikieliset versiot kattavat 99 kieltä ja voivat kääntää englanniksi. Vain englantia tukevat versiot tukevat vain englantia, eivät 99:ää. Valitse tämä, jos bloggaat kiinaksi, japaniksi, koreaksi tai tarvitset käännöstä, mitä Parakeet ei pysty tekemään. Oletuksena oleva englannin kielimalli on noin 480 Mt.
  • Pilvi (OpenAI, BYOK)Paras tarkkuus ja verkkoyhteys, käyttäen omaa OpenAI-avaintasi, jonka OpenAI laskuttaa suoraan. Litterointi käyttää oletuksena gpt-4o-mini-transcribe-mallia. Vaatii internet-yhteyden, joten se on ainoa polku joka lähtee koneeltasi. Pilviominaisuudet ovat osa Whisper Prota.

Tylsä totuus on, että useimpien bloggaajien kirjoittamalle proosalle paikallinen riittää mainiosti. Molemmat paikalliset moottorit pyörivät täysin koneellasi ilman mitään palvelimelle lähetettävää, mikä on oikea oletusarvo julkaisemattomalle työlle. Pilvi ansaitsee paikkansa, kun haluat huippuluokan tarkkuutta hankalaan nauhoitteeseen tai haluat mallin hakevan faktan verkosta kesken lauseen. Viikottaiselle kirjoitustottumukselle aloita paikallisesti ja kurkota pilveen vasta kun paikallinen ei riitä.

Puhutun luonnoksen muuttaminen siistiksi proosatekstiksi

Raaka puheentunnistus tulee ulos yhtenä juoksevana tekstinä. Sanot "okei eli johdannon pitäisi selittää miksi useimmat blogiluonnokset ovat hitaita ja sitten päästä pikanäppäinasiaan", ja siinä on se välimerkkitön seinä, jonka jokainen puheentunnistusmoottori antaa sinulle, täytesanoineen kaikkineen. Sen siivoominen on se kohta, missä polut erkautuvat.

Windowsin Voice Typing lisää välimerkit puhuessasi, ja macOS Dictation hoitaa perusvälimerkinnän kun sanot "pilkku" tai "piste". Raskaampaan siivoukseen — "öö"-täytesanojen poistamiseen, lausevirtojen korjaamiseen, puhutun kappaleen muuttamiseen jotain johon oikeasti liittäisit julkaisuusi — Whisper voi käyttää tekoälykäsittelyä. Sano aktivointifraasi "Hey whisper" ja teksti parannetaan ennen kuin se ilmestyy. Paikallisessa mallissa se kulkee Ollaman kautta; pilvitilassa oletuksena on gpt-5-mini.

Thinking...
Raaka

okei eli johdannon pitäisi selittää miksi useimmat blogiluonnokset ovat hitaita ja sitten öö päästä pikanäppäinasiaan ja miten se toimii missä tahansa editorissa tiedätkö

Siivottu

Johdannon pitäisi selittää, miksi useimmat blogiluonnokset ovat hitaita, ja sitten käsitellä pikanäppäintä ja miten se toimii missä tahansa editorissa.

Tämä on se osa, joka tekee puheentunnistuksesta käyttökelpoisen oikeaan julkaisemiseen eikä vain muistiinpanoihin. Siivottu puhuttu kappale ei ole valmis julkaisu — se on valmis ensiluonnos, joka oli aiemmin se kaikkein hitain osa. Luet sen vielä läpi, leikkaat harhailleen lauseen, tiivistät verbejä ja teet jokaiseen julkaisuun tarvittavan muokkauskierroksen. Ääni antaa sinulle siistin luonnoksen nopeasti; toimituksellinen arviointi on sinun, aivan kuten olisi kaikessa kirjoittamassasi. Rehellinen versio tästä on, että se lyhentää työn hidasta puoliskoa, eikä kirjoita julkaisua puolestasi.

Sama puhu-sitten-siivoa-virtaus maksaa itsensä takaisin heti kun lopetat luonnostelemisen ja aloitat kaiken muun blogiin liittyvän — voit myös kirjoittaa nopeammin äänelläsi sähköposteissasi, sosiaalisen median julkaisuissasi ja kuvateksteissä, kaikki samalla jo asettamallasi pikanäppäimellä.

Milloin puheentunnistus kannattaa jättää väliin

Kaksi tielle maalattua nuolta eri suuntiin, kuvastamassa valintaa työkalujen välillä

Joskus puheentunnistus ei ole oikea työkalu tehtävään, ja muuta väittäminen maksaisi sinulle iltapäivän. Selkein tapaus: et laadi luonnosta, vaan litteroit. Jos nauhoitit podcast-jakson, haastattelun tai pitkän äänimuistiinpanon ja haluat sen tekstin, se on eri työ. Puheentunnistus kirjoittaa sen, mitä sanot reaaliaikaisesti; se ei käsittele olemassa olevaa äänitiedostoa. Sitä varten käytä litterointipalvelua, joka on suunniteltu ottamaan tiedosto sisään ja antamaan litteraatti ulos — se on oikean muotoinen työkalu tähän tarkoitukseen, eikä tämä ole se.

Toinen tapaus on nopea kaappaaminen pois pöydän äärestä. Jos huomisen julkaisun lause saapuu bussissa, puhelimesi näppäimistössä on jo mikrofoni — napauta, puhu, valmis. Whisper on Windows- ja macOS-työpöytätyökalu, joten puhelimella näppäimistön mikrofoni on käytännöllisin reitti. Aidosti lyhyitä pätkiä varten pöydän ääressä sisäänrakennetut ovat ilmaisia: Windowsissa Windows-näppäin + H avaa Voice Typing missä tahansa kursorin on, vaikkakin se reitittää Microsoftin palvelimien kautta ja vaatii internet-yhteyden, joten se ei toimi offline. Macilla Dictation antaa puhua mihin tahansa tekstikenttään Järjestelmäasetuksista Näppäimistön alta, ja Apple Silicon -koneilla yleinen teksti voidaan käsitellä laitteella.

Käytä omistautunutta, järjestelmänlaajuista työkalua kun sisäänrakennetut alkavat vaivata: pitkät luonnokset, monikieliset julkaisut, offline-yksityisyys Windowsissa tai yhden pikanäppäimen halu, joka toimii samalla tavalla CMS:ssäsi, sähköpostissasi ja editorissasi. Sen rajan alapuolella käytä ilmaista tai oikean muotoista työkalua. En kerro sinulle, että käynnistäisit puheentunnistussovelluksen kaappaamaan yhden lauseen bussissa, enkä kerro, että se litteroi podcastisi — koska se ei sitä tee, ja olisit takaisin täällä tuohtuneena torstaina.

Jos suurin osa luonnostelemisestasi tapahtuu oikeasti yhdessä editorissa, alustakohtainen opas puheesta tekstiksi Substack-editorissa kattaa sovelluskohtaiset yksityiskohdat, jotka tämä yleiskatsaus ohittaa.

Yksikään blogialusta ei ole toimittanut hyvää puheentunnistusta, ja tämän kirjoitettuani olen melko varma, ettei yhdenkään tarvitsekaan. Kursori on integraatio. Puhu editoriin, saat siistin luonnoksen, muotoile se niillä näppäimillä ja painikkeilla jotka jo tunnet. Diktoin suurimman osan tästä oppaasta tekstikenttään, joka ei ollut CMS:ni, työkalulla joka ei välitä mikä kenttä on, ja liitin kaiken sitten lukemaasi julkaisuun. Kirjoittaminen, jonka olisin muuten tehnyt, on tunti jonka sain takaisin.

Kirjoita seuraava julkaisusi puhumalla

Pidä pikanäppäintä pohjassa, puhu, vapauta. Siisti luonnos ilmestyy mihin tahansa editoriin, johon kursorisi on sijoitettu — WordPressiin, Ghostiin, Substackiin, Mediumiin, Notioniin ja kaikkiin muihin sovelluksiin.

Ilmainen paikallinen tila kirjautuneille käyttäjille. Korttia ei vaadita aloittamiseen.

Kuva Denys Medvedievestä

Denys Medvediev

Olen se, joka lukee tukisähköpostimme, todennäköisimmin diktoimalla vastaukset.

Lisälukemista