Yazan: Denys Medvediev

Açıklayıcı

NVIDIA Parakeet modeli

Parakeet, NVIDIA'nın açık kaynaklı konuşmadan metne modelidir. Güncel sürüm olan parakeet-tdt-0.6b-v3 yaklaşık 600 MB boyutundadır, çevrimdışı çalışır ve CPU üzerinde Whisper'dan 5 ila 10 kat daha hızlıdır. İşte bu model nedir ve nasıl karşılaştırılır.

Son güncelleme: Haziran 2026

İşlemci çipi üzerinde soyut mavi ses dalgası, cihaz üzerinde konuşma tanımayı çağrıştırıyor

NVIDIA Parakeet modeli, FastConformer encoder ve Token-and-Duration Transducer decoder üzerine kurulu açık bir konuşmadan metne modelidir. Güncel sürüm olan parakeet-tdt-0.6b-v3, yaklaşık 600 milyon parametreye sahiptir, İngilizce dahil 25 Avrupa dilini metne döker ve CPU üzerinde Whisper'dan 5 ila 10 kat daha hızlı çalışır. İngilizceye çeviri yapmaz.

Çoğu insan "Parakeet" kelimesiyle karşılaştığında bir kuş bekler; ama bu sayfayı bir konuşmadan metne modeliyle kapatır. NVIDIA'ya ait bu model, izin verici bir lisans altında açık kaynak olarak sunulmaktadır. Günlük dikte için önemli olan sürüm parakeet-tdt-0.6b-v3 adını taşır. "0.6b" parametre sayısını gösterir; yaklaşık 600 milyon. Diskte 600 MB yer kaplar. Bu boyut, dizüstü bilgisayarınızda rahatça barınacak ve hiçbir sunucuyu aramayacak kadar küçük demektir.

Bu konuya ilgi duymamın sıradan bir nedeni var: onu biz kullanıyoruz. Parakeet, Whisper içindeki yerel motorlardan biridir; OpenAI'ın Whisper modelleriyle yan yana durur. En çok aldığım soru ise şu: "Hangisini seçmeliyim, bu kuş neden bu kadar hızlı?" Bu yazı tam da bunu yanıtlamak için: Parakeet gerçekte ne, decoder'ı onu neden hızlı kılıyor ve hangi noktada sizi Whisper'a yönlendirmem gerekiyor.

Model kartı jargonunun gömmek istediği şey şu: Parakeet bir transkripsiyon modelidir ve yalnızca bir transkripsiyon modelidir. Ses dinler, noktalama ve büyük harflerle birlikte kelimeleri yazar. Özetleme yapmaz, İngilizceye çevirmez ve özel anahtar kelime listesi almaz. Yaptığı şeyi çok hızlı yapar.

Dolayısıyla doğru çerçeve "Parakeet mı Whisper mı, hangisi kazanır?" değil; "her biri ne için var?" sorusudur. Parakeet, tamamen çevrimdışı çalışan hızlı bir İngilizce ve Avrupa dilleri seçeneğidir. Whisper ise 99 dil desteği, İngilizceye çeviri ve ince ayar kontrolüyle aynı makinede daha yavaş çalışan bir seçenektir. Hızı açıklayacağım, dil listesini netleştireceğim ve Parakeet'i yaklaşık iki dakikada ücretsiz, yerel olarak nasıl çalıştıracağınızı göstereceğim.

Parakeet modeli gerçekte ne?

Parlayan bir işlemciye yakın çekim, yerel cihaz üzerinde transkripsiyon yapıldığını simgeliyor

Parakeet, NVIDIA tarafından yayınlanan otomatik konuşma tanıma modelleri ailesidir. Biz'in kullandığımız ve çoğu insanın kastettiği sürüm, Ağustos 2025'te CC-BY-4.0 lisansıyla yayınlanan parakeet-tdt-0.6b-v3'tür. "0.6b" 600 milyon parametre anlamına gelir. İndirme boyutu yaklaşık 600 MB'dır. Whisper içinde, Python çalışma ortamı veya ayrı bir süreç gerektirmeyen saf Rust transkripsiyon katmanımız transcribe-rs üzerinden çalışan bir ONNX modeli olarak gelir.

Görevi dardır ve bunda dürüsttür. Parakeet ses alır, otomatik noktalama ve büyük harflerle metni döner; isterseniz kelime düzeyinde zaman damgaları da ekler. Dili kendi başına algılar; ne konuştuğunuzu söylemenize gerek yoktur. Yapmadıkları en az yaptıkları kadar önemlidir: İngilizceye çeviri yok, özel kelime haznesi ayarı yok, "bu kelimeleri ön plana çıkar" tarzı anahtar kelime listesi yok. Transkripsiyon yapar. Bu, anlaşmanın tamamıdır.

İsmdeki "TDT" en ilginç kısımdır ve modelin yalnızca küçük değil aynı zamanda hızlı olmasının nedenidir. TDT, Token-and-Duration Transducer anlamına gelir. Encoder, çoğu modern konuşma modelinin kullandığı Conformer mimarisinin NVIDIA'nın verimli yorumu olan FastConformer'dır. Hızlı encoder ve akıllı decoder'ın bu birlikteliği, manşet rakamının arkasındaki mühendislik başarısıdır ve ayrı bir bölümü hak etmektedir.

Token-and-Duration Transducer neden bu kadar hızlı?

Eski transducer modeller sesi küçük kareler halinde tek tek tarar; her karede "burada yeni bir kelime parçası var mı, yok mu?" diye sorar. Çoğu zaman cevap "yok"tur; model boş bir çıktı üretir, bir kare ilerler ve tekrar sorar. Bu boş çıktı döngüsü işin büyük kısmını ve harcanan zamanın büyük bölümünü oluşturur. Bir cümleyi piksel piksel okumaya benzer.

Token-and-Duration Transducer soruyu değiştirir. Yalnızca bir sonraki token'ı tahmin etmek yerine, hem token'ı hem de bir sonrakine geçmeden önce kaç kareyi atlaması gerektiğini tahmin eder. Uzun bir ünlü veya duraksamayla dolu bir bölüm olduğunda, model kare kare uğraşmak yerine tek adımda geçer. Daha az kod çözme adımı, aynı çıktı. "TDT" adının işaret ettiği hız hilesinin özü budur.

Cancel
Kayıt kapsülü: konuşurken beliren küçük çubuk, Whisper'ın dinlediğini gösterir.

Sizin açınızdan bunların hiçbiri görünmez. Kısayola basarsınız, konuşursunuz, bırakırsınız; metin imlecin bulunduğu yere düşer. Yukarıdaki kapsül, dinlerken gördüğünüz tek şeydir. Decoder matematiği arka planda çalışır. Ama işte bu yüzden Parakeet bir ses parçasını bitirirken benzer bir Whisper modeli hâlâ boşluklarla uğraşıyordur; CPU'da bu fark "anında" ile "biraz bekle" arasındaki ayrım demektir.

Parakeet ile Whisper: abartısız karşılaştırma

İnsanlar bunu bir kafa kafaya mücadele gibi ele alıyor. Öyle değil. Bunlar farklı şekillerde iki araçtır; uygulamamızda her ikisini yüklü tutup kayıt başına geçiş yapabilirsiniz. Kafanızda tutmanın en kolay yolu: Parakeet hız ve çevrimdışı sadeliği öncelik yapar; Whisper kapsam ve kontrolü öncelik yapar.

Parakeet daha hızlıdır; NVIDIA'nın kendi ifadesiyle ve bizim testlerimize göre CPU'da Whisper'dan 5 ila 10 kat daha hızlıdır. 25 dili kapsar, tamamı Avrupa dilleridir, İngilizce de bunlar arasındadır. Ücretsiz olarak noktalama ve büyük harf ekler. Vazgeçtikleri: diğer dilleri İngilizceye çeviremez, anahtar kelime veya özel kelime haznesi ayarı yoktur ve Whisper'ın çok dilli sürümlerinin kolaylıkla üstesinden geldiği Çince, Japonca, Korece, Arapça, Hintçe gibi Avrupa dışı dillere değmez.

OpenAI'ın çok dilli sürümlerindeki Whisper 99 dile ulaşır ve bunların herhangi birini İngilizceye çevirir. Ayrıca Parakeet'in sunmadığı kontrolleri açar: ışın boyutu, başlangıç istemi, isim ve jargon için anahtar kelime ağırlıklandırması. Bedeli ise aynı donanımda geçen süredir; büyük modeller daha fazla RAM demektir. Kural basit: İngilizce veya başka bir Avrupa dili konuşuyor ve sonucu hemen istiyorsanız Parakeet. Çeviri, Avrupa dışı bir dil veya ince kontrol gerekiyorsa Whisper. Can sıkıcı gerçek şu ki her ikisini deneyen çoğu insan sonunda her ikisini de kullanmaya devam eder.

Gerçek sayılar: hız ve 25 dil

Şehirleri birbirine bağlayan ışık izleriyle parlayan dünya haritası, birçok dili ve hızlı işlemeyi çağrıştırıyor

Hızla başlayalım; zira Parakeet'in uygulamamızda yer almasının asıl nedeni budur. NVIDIA'nın açıkladığı rakam, CPU'da Whisper'dan 5 ila 10 kat daha hızlı olduğudur; bizim gözlemlerimiz de bunu doğrulamaktadır. Açık ASR Liderboard'da model binlerce gerçek zamanlı faktör kaydediyor; yani güçlü bir GPU verildiğinde sesi çalma süresinden çok daha hızlı metne dönüştürebiliyor. Siz o GPU'ya sahip olmayabilirsiniz. Ama sıradan bir dizüstü bilgisayar CPU'sunda bile süre atlayan decoder, kısa bir diktesi anında hissettirir; asla yavaş değil.

Şimdi dil listesine geçelim; yanıltılmamak için tam olarak belirtiyorum. Parakeet v3, 25 dili destekler; tamamı Avrupalıdır ve İngilizce de bunlardan biridir; yani İngilizce artı 24 dil, 99 değil. Liste İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Flemenkçe, Lehçe gibi bilinenlerden başlar; Kuzey ve Baltık dillerinden geçer; Rusça ve Ukraynacayla biter. Hangisini konuştuğunuzu otomatik algılar. Bir model sayfası veya forum Parakeet'in 99 dil desteklediğini söylüyorsa Whisper ile karıştırıyordur. Parakeet 25 dil destekler ve bunu hızlıca yapar.

Bir de söylemek istediğim iki sınır var; insanların takıldığı asıl noktalar bunlar. Parakeet'in İngilizceye çeviri modu yoktur; ne söylediyseniz hangi dilde söylediyseniz onu yazar, nokta. Anahtar kelime desteği de yoktur; dikteniz alışılmadık ürün adları veya soyadlarla doluysa bunları önceden besleyemezsiniz. Bunların hiçbiri bir kusur değil; hızlı ve odaklı bir modelin kenarları bunlar. (Sade İngilizcedeki doğruluğu gerçekten iyidir; standart temiz konuşma kıyaslamasında kelime hata oranı %2'nin altındadır. Ama "iyi" ile "jargonunuza göre ayarlanabilir" farklı vaatlerdir.)

Parakeet'i iki dakikada ücretsiz, yerel olarak çalıştırın

Bunun için NVIDIA hesabı, Python kurulumu veya GPU gerekmez. Bir Mac Apple Silicon veya Windows 10 ve üzeri bir bilgisayar, çalışan bir mikrofon ve birkaç dakikanız olması yeterli. Parakeet dahil tüm yerel işlem hattı, kayıt sırasında ödeme yöntemi istemeksizin oturum açan her hesap için ücretsizdir. Adımlar şöyle:

Adım 1 — Whisper'ı yükleyin ve giriş yapın.

İndirme sayfasından indirin, yükleyin ve ücretsiz hesap oluşturun. Kart gerekmez. Tüm yerel transkripsiyon hattı hemen açılır.

Uygulamanın sistem tepsisi simgesi belirdiğinde ve kurulum sihirbazı model seçimini önerdiğinde her şeyin çalıştığını anlarsınız.

Adım 2 — Yerel Parakeet'i seçin.

Uygulama sizin için seçim yapmadan üç yol sunar: Cloud, Yerel Parakeet, Yerel Whisper. Yerel Parakeet'i seçin ve yaklaşık 600 MB'lık modelin bir kez indirilmesini bekleyin.

Parakeet indirmeyi tamamlayıp hazır olarak göründüğünde her şeyin çalıştığını anlarsınız.

Adım 3 — Kısayolunuzu onaylayın.

Windows'ta varsayılan kısayol Ctrl+Space, Mac'te ise basılı tutma ile konuşma için Command+Option'dır. Mac'te sorulduğunda Erişilebilirlik iznini verin; bu izin olmadan imlece yapıştırma diğer uygulamalara ulaşamaz.

Deneme kaydı herhangi bir metin alanına yapıştığında her şeyin çalıştığını anlarsınız.

Adım 4 — İmleci bir yere getirin ve konuşun.

Bir e-posta, belge veya sohbet gibi herhangi bir metin kutusuna tıklayın, kısayola basılı tutun, bir cümle söyleyin ve bırakın. Parakeet metnini dönüştürür; metin imlecin bulunduğu yerde belirir.

Söylediğiniz cümle bıraktıktan hemen sonra alanda metin olarak duruyorsa her şeyin çalıştığını anlarsınız.

Whisper
Parakeet'i seçtiğiniz Transkripsiyon panelinin bulunduğu ayarlar ekranında gerçek Whisper masaüstü uygulaması.

Yavaş olan tek kısım o bir model indirmesidir. Sonrası yukarıdaki dört adımdır; Parakeet diske kaydedildikten sonra sunucuya hiç bağlanmaz; ses ve transkripsiyon makinenizde kalır. Daha önce Windows'ta dikte veya Mac'te dikte kurduyysanız bu da aynı akış, sadece altında daha hızlı bir motor var.

Doğruluk, akıcısız metin ve temizleme

Parakeet dahil herhangi bir motordan gelen ham dikte, noktalama işareti olmayan uzun bir metin olarak çıkar. "tamam topluantıyı ona al parakeet taslağını dosyala marco'ya mesaj at" dersiniz ve elinizde noktalama işareti olmayan bir metin yığını kalır. Parakeet kendi noktalama ve büyük harfini ekler; bu birçok modelin yaptığından fazlasıdır. Ama "eee" ve "şey" gibi dolgu sözcükleri atmayacak ya da dağınık bir düşünceyi temiz bir satıra dönüştürmeyecektir.

İşte burada bir yapay zeka geçişi işe yarıyor. "Hey whisper" etkinleştirme ifadesini söyleyin; yazıya dönüştürülen metin yerine gelmeden önce iyileştirilir: dolgu sözcükleri kaldırılır, cümleler bölünür, konuşulan karmaşa gerçekten gönderebileceğiniz bir şeye dönüşür. Yerel kurulumda bu işlem kendi makinenizdeki Ollama üzerinden çalışır; bulut modunda ise varsayılan olarak gpt-5-mini kullanılır. Parakeet dinleme işini yapar, iyileştirme temizleme işini.

Thinking...
Ham

tamam toplantıyı ona al parakeet taslağını dosyala marco'ya mesaj at ee öğleden önce

Temizlenmiş

Tamam, toplantıyı ona al, Parakeet taslağını dosyala ve Marco'ya öğleden önce mesaj at.

Doğruluk konusuna gelince, Parakeet sade İngilizcede gerçekten güçlüdür; standart kıyaslamada kelime hata oranı %2'nin altındadır ve bu Whisper'a yakın bir değerdir. Kimsenin pazarlamadığı dürüst uyarı şudur: hiçbir model kötü sesi düzeltemez. 20 dolarlık bir USB mikrofon, motor değiştirmekten çok daha fazlasını katkı sağlar doğruluğunuza. Bunu sıkıcı bir şekilde öğrendim; modeli bir hafta suçladıktan sonra anladım ki bozuk kayıtlar aslında bulaşık makinesini yakalayan dizüstü bilgisayarımın dahili mikrofonundan kaynaklanıyordu.

Aynı konuş-sonra-temizle alışkanlığı tek bir uygulamanın çok ötesinde işe yarar; tek bir kısayol kullanarak e-postalarınızın ve belgelerinizin tamamını sesinizle yazabilirsiniz; böylece uzun bir paragraf klavyede çırpınmak yerine birkaç konuşulan cümleye dönüşür.

Parakeet yerine Whisper'ı ne zaman tercih etmeli?

Kaldırıma tebeşirle çizilmiş iki ok farklı yönleri gösteriyor, araç tercihini örnekliyor

Parakeet'i her şeyin cevabı olarak sunmak size haksızlık olur. Hızlı seçenektir, evrensel değil; Whisper modellerinden birine ya da makinenizde zaten bulunan ücretsiz dikteyse uzanacağım net durumlar var.

Şu durumlardan biri geçerliyse Parakeet yerine Whisper'ı tercih edin. Parakeet'in 25 dilinin dışında bir dile ihtiyacınız varsa; Çince, Japonca, Korece, Arapça, Hintçe veya Avrupa dışı herhangi bir dil; Parakeet bunları basitçe desteklemez. İngilizceye çeviri gerekiyorsa; Parakeet'in bunun için bir modu yoktur. Ya da dikteniz yoğun jargon, alışılmadık isimler veya ürün terimleri içeriyorsa ve bunları kilitleyen anahtar kelime ağırlıklandırması istiyorsanız; bunu yalnızca Whisper sunar. Bu durumların herhangi birinde, aynı dizüstü bilgisayarda daha yavaş çalışsalar da Whisper'ın 99 dilli çok dilli sürümleri doğru araçtır.

Bazen doğru araç hiç bizimki olmayabilir. Yalnızca bir metin alanına 20 kelimelik not bırakıyorsanız, işletim sisteminiz bunu zaten ücretsiz yapıyor: Windows tuşu + H, imlecin bulunduğu her yerde Sesle Yazma'yı açar (internet gerektirir, yani çevrimdışı değildir). Mac'te ise Sistem Ayarları → Klavye altındaki Dikte, Apple Silicon'da cihaz üzerinde işlenerek her yere yazabilir. Hız, çevrimdışı gizlilik veya temiz bir yapay zeka geçişinin gerçekten önem taşımadığı eşiğin altında, ücretsiz olanı kullanın. Tek satırlık bir hatırlatıcı için motor yüklemenizi tavsiye etmem.

Özellikle bir Apple makinede kurulum seçiyorsanız, Parakeet, Whisper ve Apple'ın kendi diktesi arasındaki dengeler Mac için en iyi konuşmadan metne seçenekleri yazısında ele alınmıştır; aynı hız ile kapsam tercihini Mac tarafından inceler.

Parakeet, bir kuşun adını taşıyan 600 MB'lık bir modeldir. Tek bir şey yapar: Avrupa konuşmasını metne dönüştürür, hızlı şekilde, kendi makinenizde. Daha fazlasını yaptığı iddiasında bulunmayı reddeder. Her aracın her şeyi yaptığını iddia ettiği bir yılda bu kısıtlamayı tuhaf biçimde rahatlatıcı buluyorum. Bu açıklayıcı yazının dağınık ilk taslağını yerel olarak çalışan Parakeet ile dikteyaptım, ardından yapay zeka geçişinin akıcısız metinleri temizlemesine izin verdim, sonra Parakeet'in sorunsuz üstesinden geldiği ama çevirmek istediğim bir Ukraynaca alıntı satırı için Whisper modeline geçtim. İki motor, tek kısayol, sunucu yok. Her ikisine de sahip olmanın tüm amacı bu.

Parakeet'i kendi makinenizde deneyin

Kısayola basın, konuşun, bırakın. Parakeet yerel olarak metne dönüştürür ve metin açtığınız her uygulamada imlecin olduğu yere düşer.

Oturum açan her hesap için ücretsiz yerel mod. Başlamak için kart gerekmez.

Denys Medvediev fotoğrafı

Denys Medvediev

Destek e-postalarımızı okuyan benim; yanıtları büyük ihtimalle dikteyerek yazıyorum.

Daha fazla okuma