Yazan: Denys Medvediev

Açıklayıcı

Whisper gerçekten ne kadar doğru

Whisper, net İngilizce seste çok doğru çalışıyor ve büyük dillerde de güçlü; ancak mükemmel değil. Kendi doğruluğunuzu etkileyen en büyük etken, seçtiğiniz model değil, mikrofonunuz ve sessiz bir oda. Yapay zeka geçişi ise noktalama işaretlerini ve dolgu sözcükleri sonradan temizliyor.

Son güncelleme: Haziran 2026

Koyu ekranda mavi ses dalgası, seslerin transkripsiyon doğruluğu açısından ölçüldüğünü temsil ediyor

Whisper, günlük dikte ve profesyonel notlar için yeterince doğru; orta model ile net İngilizce okumada yaklaşık %3 kelime hata oranı yakalıyor. Aksan, arka plan gürültüsü, jargon ve çakışan konuşmacılarla doğruluk düşüyor. Çoğu kişinin yapabileceği en büyük iyileştirme daha büyük bir model değil, daha iyi bir mikrofon ve sessiz bir oda.

"Whisper ne kadar doğru" sorusunun dürüst bir cevabı ve pazarlama bir cevabı var; ikisi aynı değil. Pazarlama cevabı: "inanılmaz derecede doğru, son teknoloji." Dürüst cevap ise: "temiz bir kayıtta çok iyi, kötü bir kayıtta fark edilir biçimde zayıf; bu ikisi arasındaki farkın büyük bölümü mikrofonunuzdan kaynaklanıyor." Aynı modelin bir cümleyi $20'lık USB mikrofonla kusursuz yazıya dökerken gürültülü bir mutfaktaki laptop mikrofonu aracılığıyla paramparça ettiğini bizzat gördüm.

Dolayısıyla bu bir karşılaştırma sıralaması yazısı değil. Bir arkadaşım gerçek işleri için sesle yazmaya güvenip güvenemeyeceğini sorsaydı vereceğim cevap bu. Kısaca: evet, kontrol edebildiğiniz çekincelerle birlikte. Uzun cevap aşağıda; gerçekten önem taşıyan tek sayı ve modelin kalitesi ne olursa olsun doğruluğu sessizce mahveden üç şey dahil.

Çoğu "Whisper doğruluğu" sayfasının atladığı şey şu: doğruluk tek bir sayı değil. Model boyutuna, konuştuğunuz dile ve bunların ikisinden de fazla olarak giren sesin kalitesine göre değişen bir sayı. Temiz bir kayıtta küçük bir model, her seferinde, gürültülü kayıtta büyük bir modeli geçer.

Araştırmacıların bunu ölçme yöntemi kelime hata oranı, genellikle WER olarak yazılır. Sistemin yanlış anladığı kelimelerin yüzdesidir. Whisper'ın temiz İngilizce üzerinde yayımlanan WER'i düşük. Çamaşır makinesi çalışırken geçirdiğiniz bir Salı öğleden sonrasındaki WER'iniz ise bambaşka bir hikaye. Sayının ne anlama geldiğini, Whisper'ın gerçekte ne skorladığını, onu neyin geri çektiğini ve herhangi bir model yükseltmesinden daha fazla işe yarayan sıkıcı, ucuz çözümü açıklayacağım.

"Doğruluk" gerçekte ne anlama gelir: kelime hata oranı

Koyu monitörde ses düzenleme dalgasının yakın çekimi, hatalar açısından ölçülen konuşmayı gösteriyor

İnsanlar bir transkripsiyon sisteminin "%95 doğru" olduğunu söylediğinde neredeyse her zaman kelime hata oranını, yani WER'i kasteder. Mevcut en basit dürüst ölçümdür: bilinen bir metni alır, sisteme yazdırır, ardından yanlış anladığı kelimeleri sayarsınız. %5 WER, her 100 kelimeden 5'inin yanlış çıktığı anlamına gelir; bir değiştirme, bir silme veya söylenmeyen bir kelimenin eklenmesi. Düşük olan daha iyi. Sıfır mükemmel olur ve hiçbir gerçek sistem sıfıra ulaşmaz.

Son kısım önemli, o yüzden açıkça söyleyeyim. Hiçbir konuşma motoru mükemmel değil ve aksini iddia eden her ürün bir slayt destesi için yuvarlıyor. İnsanlar da mükemmel transkriptçiler değil; profesyonel insan transkriptçiler temiz seste yaklaşık %4 WER civarında yer alıyor, zor kayıtlarda ise daha kötü. Dolayısıyla Whisper'ın "%3 WER" yaptığını okuduğunuzda bu, o tür seste kabaca insan seviyesinde veya yakınında demek; sihir değil. Çoğu zaman doğru, bazen yanlış olan bir araç, her araç gibi.

Otuz saniyelik bir nüans daha. WER her kelimeyi eşit sayar; bu, hataları gerçekte nasıl hissettiğinizle örtüşmez. Whisper'ın "their" yerine "there" duyması 1 kelimelik bir hata, neredeyse fark edilmez. Bir müşterinin adını veya ilaç dozunu yanlış anlaması da 1 kelimelik bir hata; ama cümleyi mahveder. Dolayısıyla başlık sayısı genel tabloyu gösterir; önem taşıyan tek kelimenin doğru çıkıp çıkmadığını söylemez. Bu yüzden son bir okuma, WER ne kadar düşük olursa olsun, her zaman geçerliliğini korur.

Peki Whisper pratikte ne kadar doğru

Net, okunan İngilizce üzerinde Whisper gerçekten güçlü. Kamuya açık belgeler orta modeli standart temiz konuşma test setinde yaklaşık %3 kelime hata oranına, küçük modeli ise yaklaşık %5'e yerleştiriyor. Açıkça ifade edersek: net bir kayıtta birinin açıkça konuştuğu durumda, birkaç cümlede bir veya iki yanlış kelimeyle karşılaşırsınız; genellikle bir homofon ya da kaçak virgül, anlam bozukluğu değil. E-posta, not ve taslak dikte etmek için bu, size zaman kazandırdığı eşiğin çok ötesinde.

Uygulamadaki mekanik, sonucun ne kadar doğru olduğundan bağımsız olarak aynı. Kısayol tuşuna basarsınız, konuşursunuz, bırakırsınız; transkript odak noktasındaki uygulamada imlecin olduğu yere yapıştırılır. Konuşurken küçük bir kapsül belirir, dinlediğini bilmenizi sağlar. O kapsülde gördüğünüz canlı kayıt; doğruluk sorusu ise bıraktıktan sonraki yarım saniyede, modelin sesi metne dönüştürdüğü anda belirlenir.

Cancel
Kayıt katmanı: konuşurken beliren küçük kapsül, Whisper'ın dinlediğini bilmenizi sağlar.

Dürüst uyarı iyi sayının hemen yanında duruyor. Bu karşılaştırma rakamları, laboratuvarda okunmuş temiz konuşmadan alınmış. Mutfağınız, aksanınız, cümle ortasında sesi kesme alışkanlığınız; bunların hiçbiri test setinde yok. Karşılaştırma size tavanı gösterir. Bu kılavuzun geri kalanı, o tavana gerçekte ne kadar yaklaştığınız ve bunu belirleyen kollar hakkında. Sürpriz: en büyüğü model değil.

Sayıyı gerçekte ne yukarı ne aşağı çeker

Gerçek dünya doğruluğunuzu model rozetinden çok daha fazla şekillendiren üç şey var: ses, dil ve kelimelerin kendisi. Ses kalitesi farkla birinci sırada. Oda yankısını, fanı ve Ay'ın neden bazen görünmediğini soran bir çocuğu yakalayan yerleşik laptop mikrofonu, sessiz bir odadaki podcast mikrofonuna kıyasla herhangi bir modele çok daha zor bir problem sunar. Aynı model, aynı cümle; yalnızca kayıt nedeniyle neredeyse mükemmelden fark edilir biçimde yanlışa gidebilir. Bu, neredeyse kimsenin ayarlamadığı ve en fazla karşılık veren koldur.

Dil ikinci koldur. Whisper'ın çok dilli sürümleri 99 dili kapsıyor, ancak bu kapsam düz değil. İngilizce en iyi desteklenen; büyük Avrupa ve Asya dilleri güçlü; az kaynaklı diller ise internet üzerinde daha az eğitim verisiyle daha zayıf ve hata yapmaya daha yatkın. İngilizceye çeviri yalnızca çok dilli Whisper'da mevcut; İngilizce-only sürümler bunu yapmıyor, Parakeet'in 25 dili de yapmıyor. Dolayısıyla "99 dili destekler" doğru; ama 99'unun eşit derecede doğru olduğu anlamına gelmiyor. Önemli bir şey için güvenmeden önce kendi sesinizle kendi dilinizi test edin.

Üçüncü kol içeriktir. Aksan sayıyı etkiler; Whisper herhangi bir "eğitim" adımı olmadan geniş bir yelpazeyi kutudan çıkar çıkmaz karşılar, ancak teknik jargon üzerindeki ağır aksan her motor için en kötü durumdur. Alan sözlüğü de tökezletir: alışılmamış ürün adları, tıbbi veya hukuki terimler, hiç görmediği soyadları. Çakışan konuşmacılar ise gerçek anlamda sert bir duvar; Whisper bir defada tek ses için tasarlanmış, bu yüzden üst üste konuşan iki kişi karmaşa üretir. Yerel Whisper'da özel kelime dağarcığı ve anahtar kelime yönlendirmesiyle buna karşı koyabilir, onu gerçekte kullandığınız adlara ve terimlere yönlendirebilirsiniz. Parakeet anahtar kelime sunmuyor ve bu, çalışmanız özel isimlerle doluysa Whisper'ı seçmek için geçerli bir neden.

Daha büyük model, daha fazla doğruluk, daha az hız

Doğruluk ve hız arasında gerçek bir denge var ve uygulama bunu gizlemek yerine görmesini sağlıyor. Genel kural olarak Whisper modeli ne kadar büyükse o kadar doğru ve o kadar yavaş çalışıyor. İngilizce-only Small model yaklaşık 480 MB ve hızlı; Medium yaklaşık 1,5 GB ve daha doğru; çok dilli Large v3 yaklaşık 3 GB ve sunulan en iyi doğruluk; ancak hızlı hissettirmek için 16 GB RAM ve yakın tarihli bir makine istiyor. Mevcut olanın en büyüğünü değil, donanımınızın rahatça çalıştırdığı en büyük modeli seçin.

İlginç istisna Turbo. Whisper'ın Turbo sürümü (distil-large-v3), doğruluğunun yaklaşık %99'unu korurken Large v3'ten yaklaşık 6 kat daha hızlı olduğu belgelenmiş. Bu, birçok kişinin geçtiği tatlı nokta: bekleme olmadan en büyük modelin kalitesine yakın. Yaklaşık 1,5 GB. Güçlü doğruluk istiyorsanız ve yüklenme çarkına bakmak istemiyorsanız Turbo pragmatik orta yoldur.

İşte denklemi yeniden çerçeveleyen kısım. Küçük model ile en büyük model arasındaki doğruluk farkı gerçek, ama tahmin edeceğinizden küçük; temiz seste birkaç WER puan farkı. Aynı model üzerinde laptop mikrofonu ile makul bir USB mikrofon arasındaki doğruluk farkı ise daha büyük. Dolayısıyla son bir doğruluk noktasının peşinde 3 GB indirmeden önce daha iyi bir mikrofon takın ve sessiz bir yerde kaydedin. Sıkıcı gerçek şu: "model yanlış anladı" şikayetlerinin büyük bölümü aslında "oda yanlış anladı."

Yerel mi bulut mu: en iyi doğruluğun adresi

Uygulama sizin için bir yol seçmiyor. Üç seçenek sunuyor; hız, dil kapsamı veya üst düzey doğruluk; neyi aradığınıza göre seçiyorsunuz. Özellikle doğruluk açısından nasıl sıralandıklarını şöyle açıklayayım, çünkü fark gerçek ve bunlardan birine kayıt bağlamadan önce anlamaya değer.

Doğruluğun gerçekte nasıl şekillendiğine göre sıralanmış üç yol:

  • Yerel ParakeetNVIDIA'nın TDT motoru, yaklaşık 600 MB, CPU'da Whisper'dan 5 ila 10 kat daha hızlı en hızlı yerel seçenek. Doğruluk iyi; Large-v3 kadar iyi değil ama günlük İngilizce dikte için fazlasıyla yeterli. İngilizce artı 24 Avrupa dili, toplamda 25 dil. İngilizceye çeviri yok, anahtar kelime yok. Hız önemli olduğunda ve çoğunlukla İngilizce konuştuğunuzda tercih edin.
  • Yerel WhisperAynı makinede Parakeet'ten daha yavaş; ancak çok dilli sürümler 99 dile ulaşıyor, İngilizceye çeviriyor ve özel kelime dağarcığı ile anahtar kelimelere yönelmenize olanak tanıyor; özel isimler ve jargon için önem taşıyan doğruluk kontrolleri bunlar. En büyük sürüm (Large v3) en doğru yerel seçenek. Çok dilli çalışma, çeviri veya ince kontrol için tercih edin.
  • Bulut (OpenAI, BYOK)Kendi OpenAI anahtarınızı kullanarak sınıfının en iyisi doğruluk ve web erişimi; doğrudan OpenAI tarafından faturalandırılır. Transkripsiyon varsayılan olarak gpt-4o-mini-transcribe üzerinde çalışır. İnternet gerektiriyor, dolayısıyla sesinizin makinenizden ayrıldığı tek yol bu. Bulut yüzeyi Whisper Pro'nun parçası.

Ham doğruluk açısından dürüst sıralama şöyle: bulut en üstte, yerel Large v3 yakın ikinci, Parakeet İngilizce için yetkin üçüncü. Ama "en iyi doğruluk" yalnızca sesiniz bunu hak edecek kadar temizse kazanır. Buluta odanın karşısından gelen boğuk bir kayıt beslemek, temiz yerel Whisper'ı yenemez. Çoğu dikte için her iki yerel motor da tamamen makinenizde çalışıyor; sunucuya hiçbir şey gönderilmiyor ve bu fazlasıyla yeterli. Gerçekten zor bir kaydınız olduğunda veya cümle ortasında web'den bir bilgiye ihtiyaç duyduğunuzda buluta uzanın.

Kendi doğruluğunuzu artırmanın dört yolu

Whisper'ın tavanı model tarafından belirlenir. Tabanınız ise etrafındaki her şey tarafından belirlenir; çoğu kişi doğruluğu tabanda kaybeder. İyi haber: düzeltmeler ucuz ve birkaç dakika alıyor. İşte önem sırasına göre dört tanesi.

Adım 1 — Önce mikrofonu düzeltin.

$20'lık bir USB mikrofon, herhangi bir model yükseltmesinden doğruluk açısından daha fazla şey yapar. Ağzınıza yakın tutun, patlama yaratmaması için ağzınızın ekseninin dışında ve laptop fanından uzakta konumlandırın. Bu, yapabileceğiniz en yüksek getirili tek değişiklik.

İşe yaradığını anlarsınız: laptop mikrofonunda karışık çıkan aynı cümle temiz çıkmaya başlar.

Adım 2 — Odayı sessizleştirin.

Kapıyı kapatın, müziği durdurun, bulaşık makinesi döngüsünün bitmesini bekleyin. Çoğu "model yanlış anladı" anının arkasında arka plan gürültüsü ve yankı var. Sessiz bir oda bedava.

İşe yaradığını anlarsınız: transkriptte dolgu sözcükler ve yarım yamalak ifadeler belirmeyi keser.

Adım 3 — Modeli işe göre eşleştirin.

Makinenizin rahatça çalıştırdığı en büyük modeli veya hızda üst düzey doğruluk için Turbo'yu seçin. Yerel Whisper'da adlar ve jargon için özel kelime dağarcığı ve anahtar kelimeler ekleyin, böylece kullandığınız terimlere yönelir.

İşe yaradığını anlarsınız: model indirmeyi bitirir, hazır görünür ve özel isimleriniz doğru çıkmaya başlar.

Adım 4 — Bir yapay zeka geçişinin temizlemesine izin verin.

Ham dikte, dolgu sözcüklerle dolu uzun bir cümledir. Whisper, noktalama işaretlerini düzelten, "hmm"leri atan ve cümleyi yapıştırılmadan önce düzelten bir yapay zeka temizleme geçişi çalıştırabilir. Tetiklemek için "Hey whisper" etkinleştirme ifadesini söyleyin.

İşe yaradığını anlarsınız: yapıştırılan metin transkript gibi değil, düzenlenmiş nesir gibi okunur.

Whisper
Gerçek Whisper masaüstü uygulaması ayarlar ekranında; Transkripsiyon ve Yapay Zeka panelleri açık.

Bu son adımı görmek değer, çünkü çıktınız için "doğruluk" kavramının ne anlama geldiğini değiştiriyor. Transkripsiyon kelime-mükemmel olabilir ve yine de uzun bir cümle gibi okunabilir; insanlar zaten böyle konuşur. Temizleme geçişi, WER'in hiçbir zaman ölçmediği okunabilirliği düzeltir. Yerel bir modelde Ollama üzerinden çalışır; bulut modunda varsayılan olarak gpt-5-mini. İşte geçiş öncesi ve sonrası aynı cümle:

Thinking...
Yapay zeka temizleme geçişi sırasındaki katman; düzenlenmiş metin imlecin olduğu yere yapıştırılmadan önce.
Ham

um yani doğruluk çoğunlukla modele değil mikrofona bağlı ve sessiz bir oda insanların düşündüğünden daha fazla yardımcı oluyor

Temizlenmiş

Doğruluk çoğunlukla modele değil mikrofona bağlı; sessiz bir oda ise insanların düşündüğünden daha fazla yardımcı oluyor.

Temizleme işleminin tek bir kelimenin anlamını değiştirmediğine dikkat edin; ham transkriptin taşıdığı noktalama işaretlerini ekledi ve dolgu sözcükleri düşürdü. İşte insanların doğrulukla karıştırmaması gereken kısım bu. Modelin görevi sizi doğru duymak. Yapay zeka geçişinin görevi doğru kelimelerin iyi okunmasını sağlamak. Mikrofonu ve odayı doğru ayarlayın, her iki iş de kolaylaşır. Herhangi bir uygulamada konuş-sonra-temizle akışını istiyorsanız, aynı kısayol tuşu herhangi bir uygulamaya temiz nesir dikte eder; yalnızca birine değil.

Whisper'ın doğruluğu hakkında dürüst karar

Koyu zemin üzerinde terazi, güçlü ve sınırlı yönlerin dürüstçe değerlendirilmesini temsil ediyor

Doğrudan cevap: Whisper, iyi desteklenen bir dilde temiz seste gerçek iş için güvenilecek kadar doğru; e-postalar, notlar, taslaklar, toplantı özetleri. Mükemmel değil ve bunu hiçbir zaman iddia etmiyor. Aksan, arka plan gürültüsü, ağır jargon ve çakışan konuşmacılar sayıyı aşağı çeker; hiçbir model rozeti kötü bir kaydı tam anlamıyla kurtaramaz. "%100 doğru" umuduyla geldiyseniz, dürüst cevap şu: hiçbir şey değil ve bunu satanlar bir slayt satıyor.

Ne zaman Whisper düzeyinde doğrulukla uğraşmaya değmez? Yalnızca arada bir 30 kelimelik metin dikte ediyorsanız, işletim sisteminiz bunu zaten ücretsiz yapıyor. Windows'ta, imlecin bulunduğu her yerde Ses Yazma'yı açmak için Windows tuşu + H'ye basın; kendi kendine noktalama yapıyor, ancak Microsoft'un sunucuları üzerinden geçiyor ve internet gerektiriyor, yani çevrimdışı değil. Mac'te Sistem Ayarları'ndaki Dikte her alana yazıyor; Apple Silicon'da genel metin cihazda işlenebilir. Kısa metinler için bunlar yeterli; tek satırlık bir hatırlatıcı için herhangi bir şey yüklemenizi önermeyeceğim. Özel bir araç, uzun notlarda, çok dilli çalışmada, çevrimdışı gizlilikte ve yerleşik uygulamaların sunmadığı doğruluk kontrollerinde; anahtar kelimeler, model seçimi, temizleme geçişi; hakkını kazanır.

Yerel motorları birbiriyle karşılaştırıyorsanız, doğruluk-hız kararı tek belirleyici ve bu konu hangi Whisper modelini kullanmalısınız ve Parakeet model analizi yazılarında açıkça ele alınıyor. Çoğu kişi için cevap gösterişsiz: orta büyüklükte bir model, makul bir mikrofon, sessiz bir oda ve bir temizleme geçişi. Bu kombinasyon, gerçekte kaydettiğiniz seste karşılaştırma değerinin bir kıl payı altına sizi taşır.

Doğruluk konusundaki kaygınız bulutu tamamen atlamak istemenizden kaynaklanıyorsa, çevrimdışı konuşmadan metne yazısı yerel modellerin ağ olmadan nasıl dayanıklı kaldığını ele alıyor.

Başlarda bir hafta boyunca model yükseltmesinin transkriptlerimi düzelteceğine inandım, 3 GB indirdim ve belki bir WER puanı geri aldım. Sonra $20'lık bir USB mikrofon aldım ve mutfak masasından uzaklaştım; transkriptler aynı öğleden sonra fark edilir biçimde temizlendi. Model hiçbir zaman sorun değildi. Sorun odaydı. Whisper çok doğru; bunu görüp görmemeniz ona ne beslediğinize bağlı.

Kendi sesinizde deneyin

Whisper'ı indirin, makul bir mikrofon takın ve bir paragraf dikte edin. Doğruluğu kendi sesinizde değerlendirmek, başkasının karşılaştırmasından çok daha kolaydır.

Giriş yapan her hesap için ücretsiz yerel mod. Başlamak için kart gerekmez.

Denys Medvediev fotoğrafı

Denys Medvediev

Destek e-postalarımızı okuyan benim; büyük ihtimalle yanıtları da dikte ederek yazıyorum.

Daha fazla okuma