Yazan: Denys Medvediev

Karşılaştırma

Yerel mi bulut mu transkripsiyon

Yerel transkripsiyon, konuşma modelini kendi makinenizde çalıştırır; sesiniz hiçbir zaman cihazınızdan çıkmaz, internet bağlantısı gerekmez ve dakika başına ücret ödemezsiniz. Bulut transkripsiyon ise sesinizi en güncel modellerin çalıştığı bir sunucuya gönderir. Zayıf donanımlarda daha hızlıdır ve canlı web araması ekleyebilirsiniz; ancak sesiniz makinenizden ayrılır ve kullanım başına ücret ödersiniz.

Son güncelleme: Haziran 2026

Mavi ışıkla aydınlatılmış modern bir sunucu odası; yerel ve bulut transkripsiyon arasındaki denklemin bulut tarafını çağrıştırıyor

Yerel transkripsiyon sesinizi cihazda tutar, internet bağlantısı gerektirmez ve tek seferlik model indirme dışında ek ücret yoktur. Bulut transkripsiyon sağlayıcının en yeni modelini çalıştırır ve web'de arama yapabilir; ancak bağlantı gerektirir ve kullanıma göre faturalanır. Uygulamamız her ikisini de tek bir geçişin arkasına taşır; böylece hayatınız boyunca bir seçim yapmak yerine ihtiyaca göre geçiş yaparsınız.

Tüm karşılaştırma iki kısa paragrafta bu kadar. Aşağıdakiler bunun arkasındaki ayrıntılar.

Bunu bir taraf seçmeden yazabiliyorum çünkü uygulamamız her ikisini de sunuyor. Yerel boru hattı, CPU'nuzda saf Rust ile çalışan sekiz Whisper modeli artı NVIDIA'nın Parakeet'ini kapsıyor ve kart gerekmeksizin oturum açmış her kullanıcıya ücretsiz. Bulut tarafı ise kendi API anahtarınızla kullandığınız OpenAI transkripsiyonu; Pro eklentisi olarak satılıyor. Aynı kısayol tuşu, aynı katman, tek bir geçiş. Yerel seçeneğin çoğu kişi için doğru olduğunu söylediğimde bunu yalnızca yerel satıyor olmamıza değil, rakamların söylediğine bakarak söylüyorum.

Yerel: model diskinizde yaşar

Yerel transkripsiyon, konuşma modelini bir kez indirir ve ardından onu işlemcinizde çalıştırır. Kayıt sırasında yükleme, sunucu ya da hesap iletişimi olmaz. Ağ kablosunu çekin, yine de yazı yazar.

Uygulamamız bunu, Python çalışma zamanı gerektirmeksizin transcribe-rs adlı bir kitaplık aracılığıyla saf Rust ile yapar. Yaklaşık 140 MB'lık Base modelinden yaklaşık 3 GB'lık Large v3'e kadar sekiz Whisper modeli ya da yaklaşık 600 MB boyutundaki NVIDIA'nın Parakeet'ini seçebilirsiniz; Parakeet, CPU'da Whisper'dan beş ila on kat daha hızlıdır. GPU gerekmez. Model RAM'e yüklenir, sesiniz girer, metin çıkar ve bu sürecin hiçbir adımı internete dokunmaz.

İndirme tek sürtünme noktasıdır. 3 GB'lık model, otel Wi-Fi'ında gerçek bir indirme anlamına gelir; 2018 model dizüstü küçük bir modeli iyi çalıştırır ama büyük modelde zorlanır. Ancak o ilk indirmeden sonra dakika başına ücret yoktur ve döngüde hiç sunucu bulunmaz. Bu konunun daha ayrıntılı halini okumak istiyorsanız, bunu tamamen çevrimdışı çalıştırma üzerine ayrı bir yazı yazdım. Bkz. masaüstünde çevrimdışı konuşmadan metne.

Bulut: sesiniz bir yolculuğa çıkar

Bulut transkripsiyon sesinizi kaydeder, bir sağlayıcının sunucusuna gönderir ve sunucu size metin olarak geri döner. Başkasının donanımını ve en yeni modelini kiralıyorsunuzdur.

Uygulamamızda bulut modu, kendi anahtarınızı getirdiğiniz OpenAI üzerinden çalışır. Transkripsiyon gpt-4o-mini-transcribe veya daha yüksek kaliteli gpt-4o-transcribe üzerinde gerçekleşir; aynı anahtarla yapay zeka temizliği ve canlı web araması da ekleyebilirsiniz. Kendi OpenAI anahtarınızı siz temin eder ve OpenAI'ye doğrudan ödeme yaparsınız. Bizim herhangi bir pay almamız ya da fiyat artışımız söz konusu değil. İndirilecek büyük bir model yoktur. Beş yıllık bir netbook'ta da yeni bir iş istasyonunda da aynı şekilde çalışır; çünkü iş sunucuda gerçekleşir. Üstelik web'de arama yaparak bir soruyu yanıtlayabilir; yerel bir model bunu yapamaz.

Bedeli zaten adında gizli. Sesiniz makinenizden ayrılır. Canlı bir bağlantıya ihtiyaç duyarsınız. Dakika başına, bir kuruşun ufak kesirlerine ödeme yaparsınız; küçük görünse de birikir ve kullanıma bağlıdır.

Dürüst bir karşılaştırma

Bu tabloya bilerek fiyat yazmadım. Gerçek rakamlar için fiyatlandırma sayfamıza bakın. Buradaki amaç her seçeneğin genel yapısını ortaya koymak.

Yerel ve bulut transkripsiyonunun gizlilik, çevrimdışı kullanım, maliyet, hız, güncellik ve web erişimi açısından karşılaştırması
Önem verdiğiniz şeyYerel transkripsiyonBulut transkripsiyon
GizlilikSes hiçbir zaman makinenizden çıkmazSes bir sağlayıcının sunucusuna gönderilir
Çevrimdışı çalışırEvet, tek seferlik model indirme sonrasındaHayır, canlı bağlantı gerektirir
Maliyet modeliİndirmeden sonra dakika başına ücret yokturKullanıma bağlı; dakika başına ödeme yaparsınız
Hız neye bağlıKendi CPU'nuz ve model boyutuSağlayıcının donanımı ve bağlantınız
Model güncelliğiİndirdiğiniz model; güncellemeyi siz seçersinizHer zaman sağlayıcının en güncel modeli
Canlı web erişimiHayırEvet, bulut arama yapabilir ve yanıtlayabilir

Yukarıdan aşağıya okuyunca tablo nettir. Yerel transkripsiyon kolaylıktan fedakârlık ederek gizlilik, çevrimdışı kullanım ve sabit maliyet sunar. Bulut ise gizlilik ve kullanım bazlı faturadan vazgeçerek en yeni modeli ve web bağlantısı sağlar. Biri diğerinden üstün değil. Farklı işler için iyiler.

Bulutun daha iyi seçenek olduğu durumlar

Yerel her zaman kazanır demeyeceğim. Buluta yöneleceğim gerçek durumlar var.

Donanımınız eskiyse ya da RAM'i kısıtlıysa bulut daha nazik bir seçenektir. 8 GB RAM'li 2017 model bir dizüstü büyük bir yerel modelle boğuşurken, bulut asıl işi başka yerde üstlenir ve makineniz yalnızca mikrofonla ilgilenir. En zor seslerde, yoğun aksanlar, birbirine karışan konuşmacılar ya da teknik jargon gibi durumlarda mutlak en iyi transkripsiyon kalitesine ihtiyaç duyuyorsanız, barındırılan en yeni modeller genellikle evinizde çalıştırabileceklerinizin önüne geçer. Bir soruyu dikte edip imlece web kaynaklı bir yanıt yapıştırılmasını istiyorsanız da buna kesinlikle bulut gerekir. Yerel bir modelin arama yapabileceği internet yoktur.

Bu üç durumda ortak bir iplik var: bulut, zayıf donanım, en üst kalite ve canlı web erişimi için kaçış kapısıdır.

Yerelin daha iyi seçenek olduğu durumlar

Çoğu insan için, çoğu zaman, ben yerel ile başlardım.

Dikte ettiğiniz kelimeler özel nitelikteyse, bir maaş tablosu, çocuğunuzun okuluna yazdığınız e-posta, bir hukuki taslak, bunlar sesle yazmak istediğiniz için bir satıcının kayıtlarına düşmemeli. Yerel bu sesi makinenizde tutar, nokta. Uçakta, trende ya da düşmanca Wi-Fi'li kafelerde çalışıyorsanız, yerel modelin sinyal olup olmadığından haberi bile olmaz. Çok fazla dikte yapıyorsanız da sabit maliyet önemli bir faktördür.

İşte gerçekten savunacağım görüş şu: önce yereli deneyin ve bulutu varsayılan değil kaçış kapısı olarak düşünün. Mac'iniz Apple Silicon'sa ya da bilgisayarınız son dört yıl içinde üretildiyse, yerel transkripsiyon döngüde hiç sunucu olmaksızın %95 ile %99 doğruluk oranıyla günlük dikteyi halleder. Zayıf donanım, en zorlu sesler ya da web araması ihtiyacıyla bir duvara çarptığınızda buluta geçin. Çoğu insan hiç duvara çarpmaz.

Bulutun varsayılan seçenek olmasından çekinmemin bir nedeni var. Birlikte çalıştığım bir ekip, bir defasında bir yükleniciye her konuşma için API'yi çağıran dahili bir bulut yapay zekâ dikte prototipi yaptırdı. Akıllı bir yeniden deneme döngüsü, aynı standup kayıtlarını dört kez aktardı. Yönetici çeyrek sonu maliyet panosunu açtığında beş haneli bir faturayla karşılaştı. Yüklenicinin çözümü: istemi optimize et. CFO'nun çözümü: zaten notu tutulan toplantıları transkribe etmeye para ödemeyi bırak. Kullanıma bağlı bulut, bir şey döngüye girene kadar iyidir. Yerelin çalıştıracak bir sayacı yoktur.

Her iki mod tek uygulamada

Whisper
Whisper by Remskill uygulamasının canlı hali; model seçicinin yanında yerel ve bulut modu geçişi görünüyor. Bu gerçek arayüz, ekran görüntüsü değil.

Yukarıdaki ayrım gerçek, ancak bir kez için yapılan bir yol ayrımı değil. Uygulamamızda her iki mod da aynı kısayol tuşunun ve aynı kayıt katmanının arkasında durur; geçiş tek bir düğmedir. Sabah özel bir e-postayı yerelde dikte edin, öğleden sonra web aramasıyla bir iddiayı doğrulamak için buluta geçin, sonra geri dönün. Hiçbir şeyi yeniden yüklemezsiniz. Hayatınız boyunca bir şerit seçmek zorunda değilsiniz.

Pasted
Yerel veya bulutta transkripsiyon yapıp yapmadığınızdan bağımsız olarak dikte sonrasında görünen katman.

Yerel ve bulut çerçevesinin genellikle gözden kaçırdığı nokta bu. Bu dini bir savaş değil. Aynı çekmeceye yerleştirilmiş iki araç; doğru olanı söylemek üzere olduğunuz cümleye göre değişiyor. Yerel motorları birbirleriyle karşılaştırmak istiyorsanız, hız ile dil kapsamı açısından, bu ayrı bir yazı: Whisper ve Parakeet karşılaştırması. Bizi belirli bir rakiple tartıyorsanız, superwhisper karşılaştırması birini ayrıntılı olarak ele alıyor.

Tek bir şey hatırlayacaksanız

Gizlilik, çevrimdışı kullanım ve sabit maliyet için yerel. En yeni model, zayıf donanım ve web erişimi için bulut. Önce yereli deneyin ve bulutu kaçış kapısı olarak saklayın. En güzel yanı da sonsuza kadar seçim yapmak zorunda olmamanız: tek geçiş, her iki mod, söylemek üzere olduğunuz cümleye hangisi uyuyorsa o.

Her iki şekilde de deneyin

Yerel motorlar, oturum açmış her kullanıcıya ücretsizdir; bulut tarafını gerçekten ihtiyaç duyduğunuzda ekleyebilirsiniz. Uygulamayı indirin, özel bir e-postayı yerelde dikte edin, ardından geçişi çevirin ve bulutun size ne değiştirdiğini görün.

Sonsuza kadar ücretsiz yerel transkripsiyon. Kayıtta ödeme yöntemi gerekmez.

Denys Medvediev fotoğrafı

Denys Medvediev

Destek e-postalarımızı okuyan kişiyim; büyük ihtimalle yanıtları da dikte ederek yazıyorum.

Daha fazla okuma