Açıklayıcı
Whisper'ı yerel olarak nasıl çalıştırırsınız
Whisper'ı kendi bilgisayarınızda çalıştırmanın iki dürüst yolu var: Python ve komut satırı üzerinden geliştirici yolu ya da terminal gerektirmeden bunu sizin için yapan bir masaüstü uygulaması. Her iki yöntemde de sesiniz bilgisayarınızda kalır. Bu yazı her ikisini de adım adım anlatıyor ve hangisini ne zaman tercih etmeniz gerektiğini açıklıyor.
Son güncelleme: Haziran 2026

Whisper'ı yerel olarak çalıştırmak, sesi bir bulut sunucusu yerine kendi makinenizde metne dönüştürmek demektir. İki yol var: Python, pip ve ffmpeg ile OpenAI'nin açık kaynaklı Whisper'ını kurup komut satırından çalıştırmak ya da modelleri paketlenmiş hâlde sunan ve terminal gerektirmeksizin imlecinizdeki uygulamaya dikte eden Whisper by Remskill gibi bir masaüstü uygulaması kullanmak. Her iki yöntemde de ses cihazda kalır.
Whisper, OpenAI'nin MIT lisansıyla yayımladığı açık kaynaklı bir konuşma tanıma modelidir. "Whisper'ı yerel olarak nasıl çalıştırırım" sorusunun bu kadar çok arandığının nedeni şu: model gerçekten kendi donanımınızda ve ücretsiz çalışıyor. API anahtarı yok, dakika başı ücret yok, ses dosyanız dizüstü bilgisayarınızdan çıkmıyor. Bu gerçekten iyi bir fırsat ve GitHub'daki resmi proje her şeyi size sunuyor.
İşin çetrefilli kısmı "çalıştırmak"tan ne anladığınız. Resmi yol bir komut satırı aracı. Python kuruyorsunuz, `pip install openai-whisper` yazıyorsunuz, ffmpeg kuruyorsunuz, terminali bir ses dosyasına yönlendiriyorsunuz. Toplu işlem yapacağınız bir kayıt klasörünüz varsa bu mükemmel. Ancak e-postanıza konuşarak yazmak istiyorsanız, bu pek de uygun değil. Bunlar birbirinden farklı iki iş ve ikisini de dürüstçe ele alacağım.
İşte çoğu sayfanın atlayıp geçtiği ayrım noktası bu. "Whisper'ı yerel çalıştır" ifadesi, soran kişiye göre tamamen farklı şeyler anlam ifade eder. Bir geliştirici için şu demektir: modeli diske alıp dosyaları bir betikten metne dönüştür. Bir yazar ya da satış temsilcisi içinse şu demektir: yazmayı bırak, ne uygulama açıksa sesini oraya metin olarak aktar.
Dolayısıyla asıl soru yalnızca "Whisper'ı nasıl kurarım" değil. Soru şu: "Hangi yerel Whisper'ı istiyorum — toplu iş ve betik için CLI mi, yoksa imlecime dikte eden bir kısayol tuşu mu?" İlki resmi OpenAI projesi ve kendi alanında çok iyi. İkincisi, aynı model ailesini komut satırı olmadan çalıştıran bir masaüstü uygulaması. İkisini de kuracağım, donanım hesaplarını göstereceğim ve terminalin ne zaman daha iyi seçenek olduğunu açıkça söyleyeceğim.
"Whisper'ı yerel çalıştırmak" gerçekte ne anlama gelir

Whisper'ı yerel olarak çalıştırmak, transkripsiyon işleminin bir sunucuda değil kendi bilgisayarınızın işlemcisinde gerçekleşmesi demektir. Ses verisi girdi olarak verilir, model bunu metne çevirir ve hiçbir şey makinenin dışına çıkmaz. Cazip olan tam da bu. Patronunuzun maaş tablosunu sesli okumanız, çocuğunuzun okulu için yazdığınız e-posta, kayıt altına alınmış bir müşteri görüşmesi — bunların hiçbiri bir satıcının günlüklerine dokunmaz. Ben sesle yazmak istiyorsam önce yerel çözüm, yoksa uğraşmaya değmez anlayışındayım; bu görüşümü ilerleyen kısımlarda numarayla belirteceğim.
Whisper aslında yalnızca modelin kendisi. OpenAI onu eğitti ve ağırlıkları MIT lisansıyla yayımladı; bu yüzden herkes ücret ödemeden indirip çalıştırabiliyor. 39 milyon parametre gibi küçük bir modelden 1,55 milyar parametreli büyük modele kadar çeşitli boyutlar mevcut; ihtiyaç duyduğunuz doğruluk ile donanımınızın kapasitesi arasındaki dengeye göre seçim yapıyorsunuz. Model, terminalde mi yoksa bir uygulamada mı çalıştırdığınızdan bağımsız olarak aynı. Değişen şey etrafındaki sarmalayıcı.
Ve sorulacak tek şey de bu sarmalayıcı. İkisi de meşru olan iki seçenek var: Resmi OpenAI komut satırı aracı — ücretsiz, betiklenebilir, Python tabanlı, dosya transkripsiyonu için tasarlanmış. Bir de sıradan bir pencere arkasında aynı model türünü yükleyen masaüstü uygulamaları — komut yazmak yerine bir tuşa basıp konuşuyorsunuz. Sıkıcı gerçek şu: bu anahtar kelimeyi arayanların büyük çoğunluğu bu ikisinden birini istiyor ama hangisini istediğini henüz bilmiyor. Sonraki iki bölüm tam olarak bu iki yolu anlatıyor.
Geliştirici yolu: Python, pip ve ffmpeg
Terminalde kendinizi rahat hissediyorsanız resmi proje en temiz yanıt ve gerçekten ücretsiz. Makinenizde üç şeye ihtiyacınız var: Python (proje 3.8 ile 3.11 sürümlerini hedefliyor), Whisper paketinin kendisi ve Whisper'ın ses dosyalarınızı okumak için kullandığı ffmpeg. Kurulum iki komut. `pip install -U openai-whisper` paketi ve PyTorch bağımlılığını çeker. Ardından ffmpeg — işletim sistemine göre değişiyor: Mac'te `brew install ffmpeg`, Windows'ta `choco install ffmpeg` ya da `scoop install ffmpeg`, Ubuntu'da `sudo apt install ffmpeg`.
Kurulduktan sonra bir dosyaya karşı çalıştırırsınız. `whisper audio.mp3 --model turbo` kaydı metne dönüştürür ve çıktıyı yazar. Otomatik dil algılamayı atlamak için `--language Japanese` ekleyebilir, İngilizce olmayan bir kaydı İngilizce'ye çevirmek için `--task translate` kullanabilirsiniz. İşin özü bu: dosya girer, metin çıkar. Bir klasör dolusu sesli notu gece boyunca işlemesine bırakırsanız, siz bakmadan her birini tek tek tamamlar.
Donanım gerçeği beklentilerin bir duvarla buluştuğu yer. Resmi model boyutları şunlar: tiny (39M parametre), base (74M), small (244M), medium (769M), large (1,55B) ve turbo (809M). Her birinin istediği VRAM gerçek tabloyu ortaya koyuyor: tiny için yaklaşık 1 GB, small için yaklaşık 2 GB, medium için yaklaşık 5 GB, large model için yaklaşık 10 GB. Bu rakamlar GPU için geçerli. Küçük modelleri CPU üzerinde çalıştırabilirsiniz; ancak büyük modelleri katlanılır kılmak için ayrık bir GPU gerekli. Bir keresinde "büyük modeli dizüstümde çalıştırırım" diye plan yapmıştım, sonra entegre grafikte sürünürken seyrettim. Plan her zaman ikinci commit'te yanlış çıkar. CPU eninde sonunda bitirir; ince bir dizüstünde large model bir salı öğleden sonrasına planlanacak iş değil.
Terminal olmadan yol: Whisper'ı masaüstü uygulamasında çalıştırın
Komut istemini hiç görmek istemiyorsanız işte diğer dürüst yol bu. Whisper by Remskill, Windows 10 ve üzeri ile Apple Silicon Mac'ler için geliştirilmiş bir masaüstü uygulaması; Whisper'ı sizin için yerel olarak çalıştırıyor — modeller uygulama içinde indiriliyor, pip yok, ffmpeg yok, Python yok. Ayrıca birazdan değineceğim ikinci yerel motor Parakeet'i de çalıştırıyor. Yerel pipeline'ın tamamı giriş yapmış her hesap için ücretsiz; kayıt sırasında ödeme yöntemi istenmiyor. İşte adımlar.
Adım 1 — Whisper'ı yükleyin ve giriş yapın.
İndirme sayfasından indirin, kurun ve ücretsiz hesap oluşturun. Kart gerekmez. Yerel transkripsiyon pipeline'ı hemen açılır.
Uygulamanın tepsi simgesi belirdiğinde ve kurulum sihirbazı model seçmeyi önerdiğinde işe yaradığını anlarsınız.
Adım 2 — Transkripsiyon yolunu seçin ve bir model indirin.
Uygulama sizin yerinize seçim yapmaz. Üç seçenek sunar: Cloud (OpenAI, kendi anahtarınızla), Local Parakeet veya Local Whisper. Kendi makinenizde çalıştırmak için iki yerel motordan birini seçin ve modelin uygulama içinde indirilmesini bekleyin.
Model indirmeyi tamamlayıp hazır göründüğünde işe yaradığını anlarsınız.
Adım 3 — Kısayol tuşunuzu onaylayın.
Windows'ta varsayılan kısayol Ctrl+Space, Mac'te basılı tutma yöntemiyle Command+Option. Mac'te istendiğinde Erişilebilirlik iznini verin; bu izin olmadan imlece yapıştırma diğer uygulamalara ulaşamaz.
Test kaydı herhangi bir metin alanına yapıştığında işe yaradığını anlarsınız.
Adım 4 — İmleci bir yere götürün ve konuşun.
Herhangi bir metin alanına tıklayın — bir e-posta, belge veya sohbet kutusu — kısayol tuşunu basılı tutun, bir cümle söyleyin, bırakın. Transkript imlecin bulunduğu yere gelir.
Söylediğiniz cümle metin alanında yazı olarak göründüğünde işe yaradığını anlarsınız.
Yavaş olan kısım CLI yoluyla aynı: model indirme — ağırlıklar ağırlıktır. Geri kalanı yukarıdaki dört adım. Fark şu: sizinle model arasında terminal yok ve dosya-girer-metin-çıkar yerine, imlecin nerede olursa olsun dikte eden bir kısayol tuşu alıyorsunuz. Altta aynı Whisper, üstte farklı bir iş.
Hangi modeli ve hangi donanımı seçmelisiniz
Her iki yol da bir model seçmenizi ister ve seçim aynı değiş tokuşa dayanır: büyük modeller daha doğru ama yavaş, küçük modeller daha hızlı ama daha hafif. Resmi CLI'da large model yaklaşık 10 GB VRAM, small model ise yaklaşık 2 GB ister; bu yüzden ekran kartınız tavanı belirler. Masaüstü uygulamasında Whisper modelleri yalnızca İngilizce ve çok dilli olarak ikiye ayrılır; varsayılan İngilizce model diskte yaklaşık 480 MB, en büyük çok dilli model ise yaklaşık 3 GB. Çok dilli yapılar 99 dili destekler ve İngilizce'ye çeviri yapabilir; yalnızca İngilizce yapılar ise yalnızca İngilizce'dir.
Uygulamanın diğer yerel motoru burada bilmekte fayda var; çünkü pek çok kişi için donanım sorununu aşıyor. Parakeet, NVIDIA'nın TDT modelidir, yaklaşık 600 MB ve CPU üzerinde Whisper'dan 5 ila 10 kat daha hızlı çalışıyor. İngilizce ile birlikte 24 Avrupa dilini daha, toplam 25 dili kapsıyor; İngilizce'ye çeviri yapmıyor. Çoğunlukla İngilizce konuşuyorsanız ve güçlü bir GPU'nuz yoksa Parakeet hızlı yerel seçimdir. Çince, Japonca, Korece veya çeviri gerekiyorsa bu Whisper'ın çok dilli alanıdır ve Parakeet oraya gidemez. Konuşurken küçük bir kapsül dinlendiğini gösterir:
Doğruluk için yapabileceğiniz en iyi tek şey daha büyük bir model değil. $20'lık bir USB mikrofon, iki model boyutu atlamaktan daha fazla katkı sağlar — temiz ses girişi, dizüstü mikrofonunun verdiği gürültülü sesi besleyen daha büyük bir modeli geçer. Önce mikrofona para harcayın, sonra model düşünün. Bu, yazıya döküp arkasında durabileceğim tek donanım tavsiyem.
Yerel mi bulut mu: hangi iş için hangi mod
Makineniz Apple Silicon ise veya PC'niz son birkaç yıldan kalıyorsa önce yerel deneyin. Bulut kaçış kapısıdır, varsayılan değil. Ama masaüstü uygulaması üç yol arasında seçim yapmanızı istiyor ve iyi seçmenizi isterim; işte farkları.
Uygulama seçim yaptırdığı için üç yolun farkları şöyle:
- Yerel Parakeet — NVIDIA'nın TDT motoru, yaklaşık 600 MB ve en hızlı yerel seçenek — CPU üzerinde Whisper'dan 5 ila 10 kat hızlı. İngilizce ile birlikte 24 Avrupa dili daha, toplam 25 dil. İngilizce'ye çeviri yok. İngilizce veya başka bir Avrupa dilinde dikte ediyor ve GPU olmadan hız istiyorsanız bu tamamen çevrimdışı seçimdir.
- Yerel Whisper — Aynı makinede Parakeet'ten yavaş; ancak çok dilli yapılar 99 dili destekler ve İngilizce'ye çeviri yapabilir. Yalnızca İngilizce yapılar 99 değil, yalnızca İngilizce. Çince, Japonca, Korece veya Parakeet'in yapamadığı çeviri gerektiren işler için bunu seçin. Varsayılan İngilizce model yaklaşık 480 MB; en büyük çok dilli model yaklaşık 3 GB.
- Cloud (OpenAI, BYOK) — Kendi OpenAI anahtarınızı kullanarak en yüksek doğruluk ve web erişimi; ücret doğrudan OpenAI tarafından kesilir. Transkripsiyon varsayılan olarak gpt-4o-mini-transcribe üzerinde çalışır. İnternet gerektirir; dolayısıyla makinenizi terk eden tek yoldur. Cloud yüzeyi Whisper Pro'nun bir parçasıdır.
Sıkıcı gerçek şu: günlük dikte için yerel fazlasıyla yeterli ve her iki yerel motor da tamamen makinenizde çalışır, sunucuya hiçbir şey gönderilmez. Bulut, zor bir kayıtta en üst düzey doğruluk istediğinizde ya da cümle ortasında modelin web'den bir bilgi çekmesine ihtiyaç duyduğunuzda değer kazanır. Whisper'ı yerel çalıştırmak için hangi yolu seçerseniz seçin — CLI veya uygulama — gizlilik hikâyesi aynı: ses yerinde kalır. Çevrimdışı kalmak burada olmanızın tek nedeni ise çevrimdışı konuşma tanıma konusu bunu daha ayrıntılı ele alıyor.
Doğruluk, noktalama ve ham transkripti temizleme
Whisper ne çalıştırırsa çalıştırsın ham dikte noktalamız neredeyse hiç olmayan uzun bir cümle olarak çıkar. "Tamam standup kaydını transkribe et sonra özeti öğleden önce ekibe gönder" diyorsunuz ve bu, herhangi bir ses motorunun size uzatacağı noktalama işaretsiz duvar. Resmi CLI bu metni verir ve orada durur — temizlik betikte ya da elle sizin işiniz. Çıktıyı zaten sonradan işleyeceğiniz toplu transkripsiyon için bu gayet uygun.
Masaüstü uygulaması, metin gelmeden önce temizleme adımını sizin için yapabilir. "Hey whisper" etkinleştirme ifadesini söyleyin; bir yapay zeka geçişi dolgu kelimeleri kaldırır, uzun cümleleri düzenler ve noktalama ekler. Yerel modelde bu Ollama aracılığıyla makinenizde çalışır; bulut modunda ise varsayılan olarak gpt-5-mini kullanılır. Ham ile temizlenmiş arasındaki fark, düzenlemeniz gereken bir transkriptle gönderebileceğiniz bir transkript arasındaki fark gibidir:
tamam standup kaydını transkribe et sonra özeti öğleden önce ekibe gönder ee ve müdürü cc'ye ekle
Tamam, standup kaydını transkribe et, sonra özeti öğleden önce ekibe gönder ve müdürü CC'ye ekle.
Doğruluğun kendisi büyük ölçüde model ve mikrofon meselesi; mikrofonu zaten ele aldım. Model tarafında, büyük çok dilli Whisper yapıları 99 dilde güçlü; bulut modu ise gerçekten zor bir kayıtta OpenAI'nin en iyi transkripsiyonunu ekliyor. Ama temiz ses ve normal konuşma için küçük modeller bile sağlam; zayıf donanımda en büyük modeli kovalamak, muhtemelen fark etmeyeceğiniz bir doğruluk artışı için daha yavaş çıktı satın almanızdır. Modeli iş gereksinimlerine göre seçin, özellik listesindeki övünç değerlerine göre değil.
Bütün gün yazmak yerine konuşmak ana hedefinizse, aynı konuş-temizle akışı terminal açmadan Windows'ta sesi metne dönüştürmenizi sağlayan şeydir; bu da CLI gerektirmeyen yolun amacıdır.
Komut satırının doğru seçim olduğu anlar

Bazen terminal gerçekten daha iyi araçtır ve aksini söyleyerek size uygulama satmak dürüst olmaz. Resmi OpenAI CLI ücretsiz, MIT lisanslı ve masaüstü uygulamasının yapmadığı bir iş için tasarlanmış: dosyaları toplu olarak ve betikten transkribe etmek. Bu sizin işinizse uygulamayı atlayın.
Komut satırını seçin: geceleyin toplu işlem yapacağınız bir kayıt klasörünüz olduğunda; Whisper'ı daha büyük bir Python pipeline'ına ya da kendi yönettiğiniz bir sunucuya entegre etmek istediğinizde; GUI'nin sunmadığı belirli bir model bayrağına ihtiyaç duyduğunuzda; ya da zaten terminalde yaşıyor ve başka bir pencere açmak istemediğinizde. Linux'ta da doğru tercih bu; masaüstü uygulaması Linux için yayımlanmıyor. CLI, Python ve ffmpeg'in çalıştığı her yerde çalışır. Bunların hiçbiri uygulamaya yönelik bir eleştiri değil — sadece farklı bir problem şekli.
Masaüstü uygulamasını seçin: iş dosya işleme değil dikte olduğunda — e-postanıza, belgelerinize, sohbetinize konuşmak ve kelimelerin tek tuşla imlecinizdeki yere gelmesini istediğinizde. CLI, başka bir programdaki imlecine yapıştıramaz; bu hiç onun işi değildi. Dürüst ayrım şu: dosyalar ve betikler için terminal; yazmak yerine konuşmak için uygulama. Çoğu insan hangisini istediğini netleştirince hangi tarafta olduğunu hemen biliyor.
Aynı cihaz üzerinde, bulutsuz mantık Mac kurulumuna da geçerli — Mac'te sesi metne dönüştürme rehberi kısayol tuşunun ihtiyaç duyduğu Erişilebilirlik izni dahil Apple Silicon tarafını ele alıyor.
Whisper'ı kendi makinenizde çalıştırmak, yazılım dünyasındaki en iyi fırsatlardan biri — OpenAI'nin ücretsiz verdiği, büyük bulut araçlarının sessiz sedasız kullandığı model, diskinizde bedavaya oturuyor. Tek gerçek karar, hangi sarmalayıcının gününüze uyduğu. Dosyaları işleyeceğim zaman CLI'yı kullanıyorum; zamanımın geri kalan %95'inde uygulamayı tercih ediyorum; çünkü saatte yaklaşık kırk kez program değiştiriyorum ve her biri için komut yazmak istemiyorum. Bu rehberin büyük bölümünü, terminal olmayan bir metin kutusuna, model aynı dizüstü bilgisayarda çalışırken bir kısayol tuşuyla dikte ettim.
Whisper'ı terminal olmadan yerel çalıştırın
Kısayol tuşunu basılı tutun, konuşun, bırakın. Model makinenizde çalışır ve transkript imlecin bulunduğu yere gelir — Python yok, pip yok, ffmpeg yok.
Giriş yapmış her hesap için ücretsiz yerel mod. Başlamak için kart gerekmez.



