Karşılaştırma
Whisper'a karşı Google Speech-to-Text
Google Cloud Speech-to-Text, koddan çağırdığınız ve dakika başına ödediğiniz bir geliştirici API'sidir. Uygulamamızın kendi makinenizde çalıştırdığı açık kaynaklı OpenAI modeli Whisper ise Word veya Slack'e dikte eden bir insan için tasarlanmıştır. Biri mühendisler için altyapı borusudur. Diğeri bir masaüstü dikte aracıdır.
Son güncelleme: Haziran 2026

Google Cloud Speech-to-Text bir geliştirici API'sidir. Onu koddan çağırırsınız ve Google'ın sunucularına gönderilen sesin dakikası başına ücretlendirir. Uygulamamızın kendi makinenizde çalıştırdığı açık kaynaklı OpenAI modeli Whisper ise Word veya Slack'e dikte eden bir insan için tasarlanmıştır. Biri mühendisler için altyapı borusudur. Diğeri bir masaüstü dikte aracıdır.
Google Speech-to-Text, transkripsiyonu uygulamalara ve sunuculara entegre eden geliştiriciler için bir bulut API'sidir. Akış yapar, uzun dosyaları toplu işler, birçok dili kapsar ve dakika başına ücret alır. Uygulamamızdaki Whisper ise gizli, çevrimdışı ve ücretsiz masaüstü dikte isteyen son kullanıcı içindir. Kod yazıyor ve ölçekte transkripsiyona ihtiyaç duyuyorsanız, Google kazanır. Konuşmak ve metnin imlecinizde belirmesini izlemek istiyorsanız, Whisper kazanır. Farklı kategoriler.
Açık kaynaklı Whisper modelini masaüstü diktesine dönüştüren bir uygulama olan Whisper by Remskill'i ben yönetiyorum: kısayol tuşu, konuşun, metin imlecinizin olduğu yerde belirir. Yani bu konuda bir tarafım var. Yine de dürüst olmaya çalışacağım, çünkü dürüst cevap daha yararlı olanıdır. Bir arama kutusuna "Whisper vs Google Speech-to-Text" yazan çoğu insan, aynı kovaya ait olmayan iki şeyi karşılaştırmak üzere.
Google Speech-to-Text bir API'dir, açtığınız bir uygulama değil
Önce şunu netleştirelim: Google Cloud Speech-to-Text'in bir penceresi yoktur. Dock'unuzda bir simge, bir kısayol tuşu, bir "konuşmak için bas" yoktur. Yazılımınızın ağ üzerinden konuştuğu bir hizmettir. Ona kodla ses gönderirsiniz; o da size metin döndürür. Google'ın kendi belgeleri bunu, bir API üzerinden tüketilen senkron, akış ve asenkron tanıma olarak tanımlar.
Bu tasarım, amaçladığı iş için iyidir. Akış tanıma, gerçek zamanlı olarak ara sonuçlar döndürür; bu, kendi ürününüz için canlı altyazı özelliği veya sesli komut oluşturuyorsanız işe yarar. Asenkron tanıma uzun kayıtları halleder: sesi yüklersiniz, Google onu arka planda işler ve bittiğinde sonucu sorgularsınız. Google bu toplu işlem yolunun tek bir işte sekiz saate kadar ses işlediğini belgeler. Bu gerçek bir güçlü yan. Bir gecede transkribe edilecek bir depo dolusu kayıtlı aramanız varsa, son kullanıcı dikte uygulaması yanlış araçtır ve Google'ınki gibi bir API doğru olandır.
Mühendislerin bildiği BCP-47 kodları olan uzun bir dil ve bölgesel yerel ayar listesini destekler; örneğin en-US, en-GB ve es-MX. Burada kesin bir dil sayısı veya dakika başına fiyat yazmayacağım ve bunu yapan herhangi bir makaleye temkinli yaklaşırdım. Google'ın fiyatlandırma ve dil sayfaları değişir ve internette dolaşan rakamların hepsi arkasında durabileceğim birincil bir kaynağa dayanmaz. Tereddütsüz söyleyebileceğim şey: kullanım bazlı bulut faturalandırmasıdır. Gönderdiğiniz kadar ödersiniz, sesiniz Google'ın sunucularına gider ve ücretsiz bir yerel mod yoktur.
İki kişi, iki farklı problem
Bu çizginin hangi tarafında olduğunuzu anlamak için bulduğum en temiz yol şu. İki kişi hayal edin.
İlki bir geliştirici. Kayıtlı aramaları aranabilir metne dönüştüren bir müşteri destek aracı geliştiriyor. Transkripsiyon, hiçbir insan izlemeden, onun sunucusunda, kendi kodunun içinde gerçekleşir. Ses gönderebileceği bir uç nokta ve bir veritabanında saklayabileceği bir JSON yanıtı istiyor. Transkriberi asla "açmayacak". O, kendi müşterilerine sunduğu ürünün içinde yaşar. İşte bu, Google Speech-to-Text'in işidir. API bir bileşendir; onun ürünü ise uygulamadır.
İkincisi bir yazar. Ya da trende metin yazan bir avukat, bir dersi nota döken bir öğrenci ya da yemeği karıştırırken öğretmenin e-postasına cevap veren bir ebeveyn. Onun sunucusu yok. Bir belgede yanıp sönen bir imleci var ve yazmak yerine konuşmayı tercih ederdi. Bir tuşa basmak, cümleyi söylemek ve zaten açık olan dosyada belirmesini izlemek istiyor. Asla kod yazmayacak ve yazmak zorunda da olmamalı. İşte bu bizim işimiz.
Anahtar kelimedeki karışıklık, "Whisper"ın iki görevi birden üstlenmesinden kaynaklanıyor. Google STT bitmiş bir bulut hizmetidir. Whisper ise bir modeldir ve bir model bir uygulama değildir. Birinin etrafına uygulamayı inşa etmesi gerekir: mikrofonu bağlamak, kısayol tuşunu kablolamak, metni imlece yapıştırmak. İşte bizim yaptığımız kısım bu.
Uygulamamızdaki Whisper masaüstü diktesidir ve sizin makinenizde çalışır
Whisper, OpenAI'nin açık kaynaklı hale getirdiği konuşma modelidir. Uygulamamız onu yerel olarak çalıştırır: saf Rust, Python yan bileşeni yok, sıradan dikte için döngüde sunucu yok. Bir kısayol tuşuna basarsınız (Windows'ta varsayılan olarak Ctrl+Space, tamamen yeniden atanabilir), konuşursunuz, bırakırsınız ve metin imlecinizin zaten olduğu yere düşer. Kod yok. Yerel yol için API anahtarı yok. Ses asla dizüstü bilgisayardan ayrılmaz.
İşte bu son kısım meselenin tamamıdır ve bir özellik tablosunda görünmeyen kısımdır.
Yerel katmanda sekiz Whisper modelinden birini seçersiniz, yaklaşık 140 MB'tan 3 GB'a kadar; indirme boyutu ve CPU süresini doğrulukla takas edersiniz. Dördü İngilizce için ayarlanmıştır; çok dilli olan dördü geniş bir dil yelpazesini kapsar ve konuşmayı aynı hareketle İngilizce'ye çevirebilir; Google'ın API'si bunu tek bir dikte basışına katmaz ve çoğu tüketici aracı tamamen atlar. Ayrıca Parakeet var; İngilizce ve 24 diğer Avrupa dili için CPU'da Whisper'dan 5 ila 10 kat daha hızlı, ayrı bir NVIDIA motoru ve GPU olmadan çalışır.
Tüm yerel pipeline, oturum açmış her kullanıcı için ücretsizdir, kayıtta kart yok: her model, Ollama üzerinden AI temizleme, geçmiş, özel sıcak sözcükler, hepsi. Bulut yüzeyini istiyorsanız, o Whisper Pro'dur: OpenAI bulut transkripsiyonu (gpt-4o-mini-transcribe veya gpt-4o-transcribe), bulut AI temizleme ve web araması, hepsi kendi OpenAI anahtarınızda, Remskill hiçbir pay almaz. Bu isteğe bağlıdır. Varsayılan yerel ve ücretsizdir.
Sıkıcı gerçek şu ki, bir paragraflık dikte edilmiş metin için dizüstü bilgisayarınızda zaten bir mikrofon ve bir CPU var. Bir veri merkezine ihtiyacı yok.
Maliyet modelleri aynı biçimde değil
Karşılaştırmanın elmayla elma olmaktan çıktığı yer burası. Bir bulut API'si dakika başına ses ücretlendirir. Bir yerel dikte uygulaması ise en fazla, bir kez ücretlendirir.
Dakika başına modelin bir kere ısırdığını gördüm. Birlikte çalıştığım bir ekip, her sözce için bir bulut API'sini çağıran dahili bir "AI dikte" prototipini bir taşerona yaptırmıştı. Bir "akıllı yeniden deneme" rutini fazla saldırgan hale geldi ve aynı stand-up kayıtlarını dört kez yeniden transkribe etti. Ekip yöneticisi çeyreğin sonunda maliyet panosunu açtı ve beş haneli bir faturayla karşılaştı. Taşeronun çözümü "prompt'u optimize etmeliyiz" idi. CFO'nun çözümü ise "ya da zaten notları olan toplantıların bulut transkripsiyonu için para ödememeliyiz" idi.
Bu, Google'ın API'sine bir eleştiri değil. Amaçlandığı gibi, sayacı izleyen mühendisler tarafından kullanıldığında, üretim pipeline'ları için makul fiyatlandırılmıştır. Bu, bir yerel uygulamanın ücretsiz yaptığı bir şey için sayaçlı bir bulut hizmeti kullanmaya yönelik bir eleştiridir. Yalnızca bulut transkripsiyonu, faturalandırılmayı bekleyen bir gizlilik felaketidir. Taslak sözleşmeleriniz, maaş tablonuz, çocuğunuzun okuluna giden e-posta, hepsi yazmak yerine konuşmak istediğiniz için makinenizden ayrılıyor. Gün boyu dikte eden bir birey için yerel öncelikli doğru varsayılandır ve sayaç hiç başlamaz.
Yan yana
İşte dürüst düzen. Tablonun aslında "hangisi daha iyi" olmadığına dikkat edin. "Hangi kategoridesiniz" sorusudur.
| Özellik | Google Speech-to-Text | Whisper (uygulamamızda) |
|---|---|---|
| Ürün türü | Bulut geliştirici API'si | Masaüstü dikte uygulaması |
| Nasıl kullanılır | Kendi kodunuzdan çağırın | Bir kısayol tuşuna basın ve konuşun |
| Sesiniz nereye gider | Google'ın sunucularına | Makinenizde kalır (yerel mod) |
| Maliyet modeli | Kullanım bazlı bulut faturalandırması, dakika başına | Ücretsiz yerel katman; tek uygulama, fiyatlandırma sayfasına bakın |
| Çevrimdışı çalışır | Hayır | Evet (yerel modeller) |
| Kimin için | Transkripsiyonu uygulamalara veya sunuculara entegre eden geliştiriciler | Herhangi bir uygulamaya dikte eden bir kişi |
| Kurulum | Bulut projesi, kimlik bilgileri, kod | Kurun, oturum açın, bir model seçin |
O tabloda bilerek belirli Google rakamı yok. Önemli olan biçimdir: sunucu mu makine mi, kod mu kısayol tuşu mu, sayaç mı ücretsiz mi. Bu satırlar sizi API'ye yönlendiriyorsa, güzel, bir sonraki bölümü okumaya devam edin. Sizi uygulamaya yönlendiriyorsa, indirme düğmesi en altta.
Google Speech-to-Text'in doğru araç olduğu durumlar
Birkaç net durumda uygulamamızı değil, Google'ın API'sini tercih ederdim. Bu, AI makalelerinin atladığı bölüm, işte açıkça burada.
Bir ürün geliştiriyorsunuz, ona dikte etmiyorsunuz
Transkripsiyonu bir arka uca kabloluyorsanız (bir çağrı merkezi analitik pipeline'ı, otomatik altyazı özelliği, kendi yazılımınız için bir ses arayüzü) bir mühendissiniz, bir API istersiniz ve Google'ınki olgun bir API'dir. Masaüstü uygulamamız sunucunuzdan çağrılamaz. Bir uç noktası, bir SDK'si, kodunuzun ondan metin isteyebileceği bir yolu yoktur. Bu tasarımın gereği; bir program için bir hizmet değil, bir insan için bir uygulamadır.
Uzun kayıtları ölçekte toplu işlemeniz gerekiyor
Tek bir asenkron işte sekiz saatlik ses, Google'ın asenkron tanımasının tam olarak yapmak için inşa edildiği şeydir. Bir gecede işlenecek on bin kayıtlı aramanız varsa, modelleri tek tek çalıştıran bir dizüstü bilgisayar değil, başka birinin sunucularında ölçeklenen bir hizmet istersiniz.
Kendi kodunuzun içinde gerçek zamanlı akış gerekiyor
Uygulamanız biri konuşurken ara sonuçları göstermek zorundaysa (inşa ettiğiniz bir görüntülü aramada canlı altyazılar), akış tanıma bunun için API yüzeyidir. Uygulamamız siz tuşu bıraktıktan sonra bitmiş bir metin bloğu yapıştırır; bu, canlı altyazı özelliği için yanlış davranış, dikte için ise doğru olandır.
Programatik kontrol ve denetim günlükleri gerekiyor
İstek başına kotalar, sunucu tarafı faturalandırma, kimin neyi transkribe ettiğine dair merkezi bir kayıt: yönetilen bir bulut API'si, düzenlemeye tabi veya büyük ölçekli bir dağıtımın ihtiyaç duyduğu operasyonel iskeleyi verir. Bir masaüstü uygulaması bunu bireyin makinesinde tutar; bu tam tersi bir takastır.
Bunlardan herhangi biri sizseniz, bu sekmeyi kapatın ve Google'ın belgelerini açın. Biz sunucu tarafı yapmıyoruz. Bu sahte alçakgönüllülük değil; farklı bir ürün.
Uygulamamızdaki Whisper'ın doğru araç olduğu durumlar
Madalyonun diğer yüzü. Yazılım geliştirmiyorsunuz. Yazmayı bırakmaya çalışıyorsunuz.
E-postaları, notları, mesajları, kod yorumlarını dikte etmek ve bunların zaten içinde olduğunuz uygulamada belirmesini istiyorsunuz. Sesinizin kimsenin sunucularına gitmemesini tercih edersiniz. Siz düşünürken dakika başına bir sayacın işlemesini istemiyorsunuz. Başlamak için ücretsiz olmasını istiyorsunuz ve kullanmak için tek satır kod yazmak istemiyorsunuz.
Hız ve İngilizce için Parakeet'i seçin; çeviri, daha az yaygın diller veya daha ince kontrol gerektiğinde çok dilli bir Whisper modeli seçin. Yerel pipeline hiçbir şeye mal olmaz; Cloud katmanı (kendi anahtarınızla OpenAI transkripsiyonu) isteğe bağlıdır ve fiyatlandırma sayfasında fiyatlandırılmıştır.
Bu sorunun çevrimdışı, yerel, ücretsiz tarafı için daha geniş takasları yerel ve bulut transkripsiyonu yazımda ele aldım. Ve sunduğumuz iki yerel motor arasında seçim yapıyorsanız, Whisper vs Parakeet hıza karşı dil kapsamını adım adım anlatıyor.
Yalnızca bir şeyi hatırlayacaksanız
Google Speech-to-Text mühendisler için bir API'dir; uygulamamızdaki Whisper ise insanlar için diktedir. Hangisinin "daha iyi" olduğunu sormak, bir araba motorunun bir arabadan daha iyi olup olmadığını sormak gibidir. Tamamen, o şeyi inşa mı ediyorsunuz yoksa sürüyor musunuz, ona bağlı.
İşinize uyanı seçin
İşiniz zaten kullandığınız uygulamalara gizlice, çevrimdışı, başlamak için ücretsiz dikte etmekse, Whisper'ı kurun ve bir tuşa basın. İşiniz transkripsiyonu yazılıma entegre etmekse, Google'ın belgelerinin nerede olduğunu zaten biliyorsunuz.
Sonsuza dek ücretsiz yerel transkripsiyon. Kayıtta ödeme yöntemi yok. Cloud katmanı isteğe bağlıdır ve kendi anahtarınızı getirirsiniz.



