Sorun giderme
Dikte özelliğim neden bu kadar hatalı?
Dikte genellikle yazılım bozuk olduğu için değil, kurulum yüzünden hatalı çalışır — kötü bir mikrofon, gürültülü bir oda, yanlış dil ya da yanlış model.
Son güncelleme: Haziran 2026

Dikte genellikle yazılım bozuk olduğu için değil, kurulum yüzünden hatalı çalışır. En büyük suçlular kötü bir mikrofon, gürültülü bir oda, yanlış dil ayarı ve makinenize uymayan bir modeldir. Doğru dille, sessiz bir odada temiz ses, çoğu insanı yaklaşık %95 doğruluğa ulaştırır — yani yirmi kelimede yaklaşık bir hata.
Bir keresinde bir akrabamın kulaklığı odanın öbür ucuna fırlattığına şahit oldum. 1990'ların sonuydu, bilgisayar 64MB RAM'li bir Windows 98 masaüstüydü ve yazılım da Dragon NaturallySpeaking'di. Eğitim 45 dakika sürüyordu — programı "kalibre etmek" için bir kelime listesini yüksek sesle okuyordunuz. Sonra bir şekilde çalışıyordu, belki %70 doğrulukla ve cümle başına dört saniye gecikmeyle. Bir yılbaşı mektubunun tek bir paragrafını dikte etmek on beş dakika. Kulaklık o günü atlattı. Dikte denemesi atlatamadı.
Bunu anlatma sebebim şu: sorunuzdaki hayal kırıklığı eski, ama sebebi değişti. Modern dikte 45 dakikalık bir kalibrasyon ritüeline ihtiyaç duymuyor. Artık kelimeleri yanlış yazdığında, bunun nedeni neredeyse hiçbir zaman modelin aptal olması değildir. Sebebi, modele ulaşan sesin sandığınızdan daha kötü olmasıdır — ve bunun şaşırtıcı bir kısmı bir dakikadan kısa sürede düzeltilebilir. Whisper'ın kendi yerel mod doğruluğu, temiz İngilizce seste %95 ile %99 arasındadır — ama bu rakam, çoğu zaman doğru olmayan birkaç şeyi varsayar.
Bu bir teşhis yazısı, bir çözüm listesi değil. Transkripsiyonunuzu beş şeyden hangisinin bozduğunu, her birinin gerçek sebep olma sıklığına göre kabaca sıralayarak bulacağız. Mikrofon ve özel kelimeler konusunda derinlemesine bir anlatım istiyorsanız, yanlış kelimeler yazan dikteyi düzeltme rehberimiz o konuyu sahipleniyor. Bu yazı önce sebebi bulmanıza yardım eder, böylece doğru şeyi düzeltirsiniz.
Gerçekçi doğruluk aslında nedir

İşte kimsenin pazarlama sayfasına koymadığı rakam. Konuşma tanıma, kelime hata oranı, yani WER ile ölçülür — sistemin yanlış aldığı kelimelerin oranı; gerçekte söylediklerinize karşı yer değiştirmeleri, silmeleri ve eklemeleri sayar. Düşük olması daha iyidir. Sıfır WER kusursuz bir döküm demektir; kelime doğruluğu ise basitçe bir eksi WER'dir.
Temiz LibriSpeech İngilizce kıyaslamasında, Whisper'ın medium İngilizce modeli yaklaşık %3 WER kaydeder — kabaca %97 doğruluk. small İngilizce modeli ise yaklaşık %5,1 WER civarında, yani yaklaşık %95'tir. Bunlar temiz ses rakamlarıdır: sessiz bir oda, iyi bir mikrofon, dikkatli bir okuyucu. Gerçek hayat gürültü, aksan, çapraz konuşma ve jargon ekler ve bunların her biri WER'i haklı olarak yukarı çeker.
Peki normal nedir? Düzgün İngilizce seste yaklaşık %95 — yirmi kelimede bir hata. Bu bir kusur değil. Bu, aracın tasarlandığı gibi çalışmasıdır. Gürültülü bir mutfakta dahili bir dizüstü bilgisayar mikrofonuyla %85'te oturuyorsanız, yazılım bozuk değildir — koşullar modelin ihtiyaç duyduğunun altındadır. Çözüm koşullar, daha büyük bir model değil. Çıtayı "paragraf başına bir küçük düzeltme" olarak ayarlayın ve öfkenin çoğu deneyimden akıp gider.
Beş şüpheli, olasılık sırasına göre

Dikte ters gittiğinde sebep neredeyse her zaman beş şeyden biridir. Bu listeyi sırayla gözden geçirin. İlk ikisi çoğu durumu yakalar.
- Dil ayarı. Siz bir dil konuşuyorsunuz; araç başka bir dili dinliyor ya da tahmin ediyor.
- Mikrofon. Bir metre uzakta duran dahili bir dizüstü mikrofonu, ağzınızdan çok odanızı duyuyor.
- Oda. Arka plan gürültüsü, bir televizyon, yankılı bir mutfak — model bunların hepsini yazıya döker.
- Model. Donanımınız için fazla ağır olan birini seçtiniz, bu yüzden yavaş çalışıyor ya da tıkanıyor.
- Beklenti. Ses iyi ve araç da iyi; siz hiçbir şeyin ulaşamadığı %100'e karşı ölçüyorsunuz.
60 saniyelik bir öz test: aynı iki cümleyi üç kez dikte edin — bir kez sessiz bir odada mikrofona yakın, bir kez odanın diğer ucundan, bir kez de müzik çalarken. Doğruluk bu denemeler arasında sert şekilde değişiyorsa sorununuz ses kaynaklıdır (2. ve 3. şüpheliler) ve hiçbir yazılım değişikliği mikrofonu yaklaştırıp kapıyı kapatmayı geçemez. Sessiz ve yakın çekim denemesinde bile kötüyse, dil ayarına ve modele bakın. Bu tek test çoğu insanı bir dakikada doğru yere yönlendirir.
Sebep 1: yanlış dil ayarı

Bu, kimsenin önce kontrol etmediği on saniyelik bir çözümdür. Hangi dili konuştuğunuzu biliyorsanız, aracı otomatik algılamada bırakmak yerine ayarlardan o dili açıkça seçin. Belirli bir dil seçtiğinizde, araç hangi dili duyduğunu tahmin etmeye çalışmayı bırakır ve tüm çabasını kelimeleri doğru almaya harcar — gözle görülür şekilde daha hızlı ve daha güvenilir.
Uyumsuzluk tuzakları gerçektir. Whisper'ın çok dilli modelleri otomatik algılamayla 99 dili kapsar, ancak yalnızca İngilizce modeller İngilizceye kilitlenmiştir — onlara başka bir dil verirseniz saçmalık alırsınız. Yerel Parakeet, İngilizce artı 24 Avrupa dilini destekler ve bu kümenin dışında hiçbir şeyi desteklemez; dolayısıyla mikrofonunuz ne kadar temiz olursa olsun ona Japonca dikte etmek asla işe yaramaz. Ve cümle ortasında gerçekten dil değiştiriyorsanız, yalnızca İngilizce bir model değil, otomatik algılamalı çok dilli bir Whisper modeli istersiniz. Ayarı ağzınızdan çıkan kelimelere uydurun ve daha hiçbir şeye dokunmadan "hatanın" bir kısmı kaybolsun.
Sebep 2: mikrofonunuz aksanınızdan daha çok zarar veriyor

İnsanlar aksanlarını suçlar. Neredeyse her zaman sorun mikrofondur. Yıllarca ben de kendiminkini suçladım — sesimin iyi olduğu, 0 dolarlık dizüstü mikrofonumun sorun olduğu ortaya çıktı. İşte savunacağım görüş: "yapay zekâ" kötü sesi düzeltmez. 20 dolarlık bir USB mikrofon, herhangi bir model yükseltmesinden daha çok doğruluk kazandırır — mikrofon ve sessiz bir oda, hangi modeli seçtiğinizden önce gelen en büyük iki doğruluk kaldıracıdır. Parayı daha büyük bir indirmeye harcamadan önce donanıma harcayın.
Mekanizma sıkıcı ve fizikseldir. Dahili bir dizüstü mikrofonu ağzınızdan otuz santim ya da daha uzakta durur ve masayı, fanı ve odayı toplar. Altı santim uzaktaki bir kulaklık çubuğu ya da bir USB mikrofon ise sesinizi duyar, fazlasını değil. Araç yalnızca kendisine ulaşanı yazıya dökebilir ve bulanık, uzak, gürültülü bir sinyal ona çalışacak daha az şey verir — bu yüzden tahmin eder ve yanlış kelimeleri tahminlerden alırsınız. Tüm mikrofon ve sözcük dağarcığı oyun kitabını burada yeniden anlatmayacağım; yanlış kelimeler yazan dikte üzerine derinlemesine yazımız mikrofon yerleşimini, giriş kazancını ve özel sözcük dağarcığını ayrıntılı olarak ele alıyor. Bu makale için mesele daha dar: üç denemelik testiniz doğruluğun mesafeyle çöktüğünü gösterdiyse, şüpheli sesiniz değil mikrofonunuzdur.
Sebep 3: kelimeler değil, oda

Bir mikrofon bir odayı duymazlıktan gelemez. Açık bir televizyon, çalışan bir bulaşık makinesi, arkanızda açık ofis düzeni ya da iki metre ötede bir masa oyununun kurallarını tartışan çocuklar varsa, model bu enerjiyi sesinizle birlikte yazıya döker. Hangi sesin kastettiğiniz olduğunu bilmez.
Çözüm utandıracak kadar basittir: kapıyı kapatın, müziği kapatın, fandan uzaklaşın. Yumuşak yüzeyler yardımcı olur — halısı ve perdesi olan bir oda, sesinizin sektiği ve iki kez ulaştığı çıplak duvarlı fayanslı bir mutfaktan mikrofona daha naziktir. Akustik süngere ihtiyacınız yok. Bulaşık makinesinin döngüsünü bitirmesine ihtiyacınız var. Beslenme çantalarını hazırlarken okul e-postaları dikte ettim ve model gayet iyi yetişti — ama bunun sebebi mutfağın sessiz olmasıydı, yazılımın sihir olması değil. Blender çalışmaya başladığı an doğruluk düşer ve bu, bildirilecek bir hata değildir.
Sebep 4: model donanımınıza uymuyor
Bu, rakiplerin kara kutu gibi ele aldığı konu ve önemli. Daha büyük her zaman daha iyi değildir. Makineniz için fazla ağır bir model seçerseniz yavaş çalışır, geride kalır ve kâğıt üzerinde doğruluk iyi olsa bile deneyim bozuk hissettirir.
Whisper by Remskill sizin yerinize bir model seçmez. Üç yol sunar ve seçmenize izin verir: kendi OpenAI anahtarınızı kullanan Bulut modu, yerel Parakeet ya da yerel Whisper. Bulut modu her donanımda çalışır çünkü yalnızca bir ağ çağrısıdır. Yerelde ise matematik aşağı yukarı RAM ile ilgilidir. 8 GB'lık bir makinede Parakeet (~600 MB), Base modeli ya da Small modeli rahatça çalışır, Medium modeli ise zorlanır. En büyük Whisper modelleri — ~3 GB'lık Large v3 ya da Turbo — 16 GB veya daha fazlasını ister ve en çok ayrık bir GPU'dan yararlanır. En iyi doğruluğa sahip çok dilli seçenek, 99 dili destekleyen ama o 16 GB'lık alana ihtiyaç duyan Large v3'tür.
Bas-konuş akışı, hangi yolu seçerseniz seçin aynıdır — kısayol tuşunu basılı tutun, konuşun, bırakın ve metin imlecinizin olduğu yere yapışsın. Varsayılan kısayol tuşu Windows'ta Ctrl+Space, macOS'ta ise Command+Option kombinasyonudur; ikisi de Ayarlar'dan değiştirilebilir. Hangi modelin dizüstünüze uyduğundan emin değil misiniz? doğru Whisper modelini seçme rehberimiz her birini ihtiyaç duyduğu donanıma eşler. Pratik kural: uyan ve hızlı çalışan bir model, takılan daha büyük bir modeli yener.
Sorunun gerçekten araç olduğu ve sorunun yalnızca fizik olduğu zamanlar
Bazen her şeyi doğru yapmışsınızdır — yakın mikrofon, sessiz oda, doğru dil, mantıklı model — ve yine de on beş kelimede biri yanlıştır. Bu gerçek tavan olabilir. Modelin pek görmediği ağır aksanlar, yoğun teknik jargon, birbirinin üzerine konuşan iki kişi, hattın öbür ucundaki bir telefon hoparlörü — bunlar WER'i haklı olarak yukarı çeker ve hiçbir ayar bunları tam olarak düzeltmez. İsimler ve alan jargonu için, yerel Whisper ve Bulut modu, tanımayı doğru yazıma yönlendiren bir Özel Kelimeler listesi eklemenize izin verir; Parakeet bu ipuçlarını almaz. Ama "kullandıkça sesimi öğreniyor" söylemi Dragon döneminden kalma bir efsanedir — modern konuşmadan metne dönüştürme zamanla bireysel sesinize uyum sağlamaz ve ne kadar tekrar ederseniz edin onu eğitmez. Kaldıraç sabır değil, ses ve ayarlardır.
Bunun için Whisper'ı ne zaman atlamalı
Tek yaptığınız 20 kelimelik bir mesaj ya da hızlı bir not göndermekse, hiçbir şey indirmeyin. İşletim sisteminiz zaten dikte ediyor. Mac'te, Apple Dictation yerleşik ve ücretsizdir — Mikrofon tuşuna ya da klavye kısayoluna basın; desteklenen kurulumlarda cihaz üzerinde işler. 30 saniyelik sessizlikten sonra kendiliğinden durur, bu yüzden uzun metin yazmaktan çok kısa diziler için uygundur. Word'de ise, Microsoft'un Dictate özelliği bir mikrofon ve internet bağlantısıyla aynısını yapar.
Tam paragraflar dikte etmeye başladığınızda, çevrimdışı çalışmasını istediğinizde ya da yerleşik araçların beceremediği isimler ve jargon üzerinde doğruluğa ihtiyaç duyduğunuzda özel bir araca yönelin — Apple Dictation alternatifleri derlememiz seçenekleri ele alıyor. Tek satırlık bir yanıt için ücretsiz yerleşik araç doğru tercihtir.
Çoğu zaman "dikte özelliğim neden bu kadar hatalı" sorusunun cevabı sesinizle ilgili bir itiraf değildir. Mikrofona otuz santim uzaklık ve çalıştığını unuttuğunuz bir bulaşık makinesidir. Sesi düzeltin, doğru dili ayarlayın, dizüstünüzün taşıyabileceği bir model seçin ve sonra onu %100'e değil %95'e karşı değerlendirin. Dragon kulaklıklı akraba 1999'la savaşıyordu. Siz değilsiniz. Siz çoğunlukla mutfağınızla savaşıyorsunuz.
Bir dakikada öğrenmek ister misiniz?
Whisper'ı indirin ve üç denemelik testi yapın — sorunun araç mı, oda mı yoksa yalnızca fizik mi olduğunu bir dakika içinde anlayacaksınız.



