Yazan: Denys Medvediev

Eğitim

GitHub'da sesten metne: gerçekte nasıl çalışır

GitHub'ın kendine ait bir dikte özelliği yok — issue, PR, yorum ve markdown kutuları sıradan web textarea'larından ibaret. Sistem genelinde çalışan bir kısayol uygulaması bir tuşu basılı tutar, söylediklerinizi yazıya döker ve odaklandığınız alana yapıştırır.

Son güncelleme: Haziran 2026

Sıcak ve modern bir çalışma alanında ahşap masanın üzerinde kaynak kodu gösteren açık dizüstü bilgisayar

GitHub'da sesten metne, sistem genelinde çalışan bir kısayol uygulamasıyla GitHub'ın metin alanlarına düz yazı dikte etmek demektir; çünkü GitHub'ın kendine ait yerleşik bir dikte özelliği yoktur. Issue, pull request, yorum ve markdown kutuları sıradan web textarea'larıdır. Whisper gibi bir araç bir kısayolu basılı tutar, söylediklerinizi yazıya döker ve imlecin olduğu yere yapıştırır — odaklandığınız issue, PR ya da inceleme notunun içine.

Geçen yıl bir hafta boyunca GitHub'ın issue düzenleyicisine sessizce bir ses butonu eklediğine emindim. Eklememiş. Issue gövdesi bir textarea. PR açıklaması bir textarea. İnceleme yorumu, Discussions kutusu, README düzenleyicisi — hepsi textarea, tıpkı bir iletişim formundaki gibi. Bir menüde gizlenmiş bir mikrofon simgesi yok. Sıkıcı gerçek şu ki, GitHub'da kodunuzun etrafında yaptığınız yazı işi yalnızca metin girişidir ve düzgün herhangi bir dikte aracı bu alanları doldurabilir.

Bu iyi bir haber, çünkü bir özelliği geliştirmesini GitHub'dan beklemiyorsunuz demektir. Kendi ses katmanınızı siz getiriyorsunuz. Windows veya Mac'te, Whisper işletim sistemi seviyesinde durur, böylece aynı kısayol issue düzenleyicisinde, PR açıklamasında, bir kod inceleme dizisinde, IDE'nizde ve Slack'te çalışır — imlecin yanıp söndüğü her yerde. Alana tıklarsınız, tuşu basılı tutarsınız, konuşursunuz ve bırakırsınız. Baştan söyleyeceğim önemli bir uyarı var ve tekrar tekrar söyleyeceğim: bu, düz yazı içindir, kod için değil.

GitHub'da sesli yazma yok. İşi kısayolunuz yapar.

Modern bir ofiste çift monitörlü kurulumda kod üzerinde çalışan bir geliştirici

İnsanların Google'a gerçekten yazdığı soruyu yanıtlayayım. Hayır, GitHub'ın yerleşik sesten metne özelliği yok. Issue düzenleyicisinde, PR formunda, inceleme panelinde, Discussions'ta ya da wiki'de yerel bir dikte yok. Bunlar standart web textarea'ları. Onlara dikte etmek için sesin başka bir yerden gelmesi gerekir: işletim sisteminizden, tarayıcınızdan ya da üçüncü taraf bir uygulamadan.

GitHub dikteyi asla engellemez. Sadece kendisi hiç sunmaz. Yani seçenekleriniz kabaca üç tanedir. İşletim sisteminizde yerleşik dikte vardır — Win+H ile Windows Sesli Yazma ya da macOS Dictation. Voice In gibi bir tarayıcı eklentisi Chrome veya Edge sekmesine yazı yazabilir. Ya da Whisper gibi sistem genelinde çalışan bir masaüstü uygulaması, tarayıcı olsun olmasın, herhangi bir uygulamadaki herhangi bir alana dikte eder.

Bu üçü arasındaki fark erişim alanıdır. İşletim sistemi diktesi ücretsizdir ve tek seferde tek platformda çalışır, kalitesi değişkendir. Bir tarayıcı eklentisi yalnızca sekmenin içinde yaşar — IDE'nize ya da GitHub CLI'ye kadar sizi takip edemez ve bulutta çalışır. Whisper gibi bir masaüstü uygulaması bir sekmeye bağlı değildir; işletim sistemi seviyesinde çalıştığı için GitHub'a Chrome, Firefox, Safari veya Edge'de dikte eder, ayrıca GitHub Desktop'taki bir commit mesajına da.

Gerçekte neyi dikte edebilirsiniz (ve edemeyeceğiniz tek şey)

İşte yanlışlıkla geçmenize izin vermeyeceğim çizgi. Whisper kodunuzun etrafındaki yazıyı dikte eder. Kodun kendisini yazmaz.

Bunun kapsamı, açıkçası, bir geliştiricinin yazı yazma gününün büyük kısmıdır. Issue raporları. Pull request açıklamaları. Kod inceleme notları. Discussions yanıtları. README ve markdown dokümanları. Değişikliği açıklayan düz yazı, değişikliğin kendisi değil. Bir göçün neden riskli olduğunu anlatan bir paragrafı konuştuğunuzda, Whisper bununla gayet iyi başa çıkar. Göçün kendisini dikte etmeye kalkarsanız, kötü bir öğleden sonra geçireceksiniz.

Nedeni basit. Konuşulan kod yolculuktan sağ çıkamaz. Fonksiyon adları, JSON, snake_case ile camelCase, bir kubectl bayrağı, bir API yolu — bunlar elden geldiğince İngilizce olarak çıkar ve elle düzeltme gerektirir. Bir ses modeli "user underscore I D" diye duyar ve "user ID" yazar, işte şimdi onu düzeltiyorsunuz. O yüzden "bu PR, auth middleware'indeki null kontrolünü düzeltiyor" diyen cümleyi dikte edin, sonra gerçek tanımlayıcıyı yazın. Zaten çoğu issue ve PR gövdesi %80 açıklama, %20 kod parçacığıdır. %80'i dikte edin, %20'yi yazın.

Bir kısayola basın, konuşun, odaklı alana metni alın

Cancel
Kayıt katmanı: siz konuşurken beliren küçük bir kapsül, böylece Whisper'ın dinlediğini anlarsınız.

Mekanizma, başka herhangi bir uygulamada kullanacağınızla aynıdır ki bütün mesele de budur. Doldurmak istediğiniz GitHub alanına tıklayın. Kısayolu basılı tutun. Konuşun. Bırakın. Metin imlecin olduğu yerde belirir.

Varsayılan kısayol Windows'ta Ctrl+Space, macOS'te Command+Option'dır. İkisi de bas-konuş şeklindedir: konuşurken basılı tutun, durmak için bırakın. Bir şeyle çakışırlarsa ayarlardan değiştirebilirsiniz — ve eğer hiç bir kısayol çakışmasıyla boğuştuysanız, o ayarın yerini neden hak ettiğini bilirsiniz (bu konuda aşağıda dahası var).

Kapsamla ilgili dürüst bir ayrıntı. Whisper, odaklandığınız tek alana, teker teker yapıştırır. Bir nefeste bütün bir GitHub issue formunu doldurmaz. Yani yeni bir issue için akış şöyledir: başlığa tıklayın, dikte edin, gövdeye tıklayın, onu da dikte edin. İki alan, iki basış. Sihirden çok, klavyeye hiç dokunmayan hızlı bir daktilografi gibi hissettirir. Doğru zihinsel model budur.

Uygulamanın tamamı, canlı

Whisper
Gerçek Whisper masaüstü uygulaması, tam burada çalışıyor — ayarlarda, kısayol seçicide ve model seçeneklerinde gezinin.

Bu, gerçek uygulama, tam burada çalışıyor — bir ekran görüntüsü değil. Kurcalayın. Ayarlar, kısayol seçici, model seçenekleri gerçeğin ta kendisi.

Tıklarken bilmeye değer birkaç şey. GitHub'a özel bir sekme ve bir "GitHub modu" yok, çünkü olmasına gerek yok. Whisper için bir GitHub PR açıklaması, herhangi bir başkası gibi bir metin alanıdır. Issue düzenleyicisine dikte eden aynı kurulum e-postanıza ve IDE'nize de dikte eder. Bir kez yapılandırırsınız. Erişim alanı, işin özelliğidir.

Faydanın ortaya çıktığı yer: issue'lar, PR açıklamaları, incelemeler, tartışmalar

Asıl fayda, sıkıcı, tekrarlı yazıdadır — yazması bir angarya olduğu için ertelediğiniz şey.

Issue'lar. İyi bir hata raporu çoğunlukla anlatımdır: ne yaptınız, ne beklediniz, bunun yerine ne oldu. Burası diktenin kendi sahasıdır. Yeniden üretme adımlarını masanızdaki bir meslektaşınıza anlatır gibi konuşarak geçin, sonra stack trace'i elle yapıştırın.

Pull request açıklamaları. Diff'in "kendi kendini anlattığı" düşünülüp herkesin yazmaktan kaçındığı PR gövdesi (anlatmıyor). Nedenini dikte edin — incelemecinin ihtiyaç duyduğu bağlamı — ve ne'yi diff'in anlatmasına izin verin.

Kod incelemeleri. İnceleme yorumları, tonun önemli olduğu ve insanların eksik açıkladığı yerdir. Bir inceleme notunu konuşmak, onu toplantılar arasında yazmaktan daha insancıl ve daha eksiksiz çıkma eğilimindedir. Sadece "uç durum?" yerine "bu çalışıyor ama liste boş olduğunda kırılacak" yazarsınız.

Tartışmalar ve dokümanlar. Uzun soluklu düz yazı, tam da sesin iyi olduğu ve kimsenin yazmak istemediği şey. Bir README girişi, bir Discussions yanıtı, bir göç kılavuzu — taslağı dikte edin, markdown'ı sonradan temizleyin. Aynı mantık Jira biletlerine ve diğer takip sistemlerine dikte etmek için de geçerlidir; GitHub yığındaki başka bir alandan ibarettir.

Dikteyi otomatik olarak temizleyin

Thinking...
İyileştirme durumu: metin yerine yerleşmeden önce dolgu kelimelerini, noktalama işaretlerini ve büyük/küçük harfleri temizleyen isteğe bağlı bir yapay zeka geçişi.

Ham diktede dolgu vardır. "Şey," "yani," iki kez başladığınız cümle. Whisper'da dolgu kelimelerini, noktalama işaretlerini ve büyük/küçük harf kullanımını düzelten isteğe bağlı bir yapay zeka temizleme geçişi vardır, böylece issue ya da PR sanki dikkatlice yazmışsınız gibi okunur.

İki türü var. Ücretsiz yerel katmanda temizlik, makinenizde Ollama üzerinden çalışır. Pro'da kendi OpenAI anahtarınızı getirirsiniz ve temizlik bulutta çalışır, ayrıca web yanıtları da kullanılabilir. Her iki durumda da isteğe bağlıdır — kapatırsanız ham metni alırsınız. Ben PR açıklamaları için açık, hızlı yorumlar için kapalı bırakırım, çünkü hızlı bir yorumun düzenlemeye ihtiyacı yoktur, bir PR açıklamasının ise vardır.

Temizliğin yapamayacağı bir şey, konuşulan kodu kurtarmaktır. İngilizceyi cilalar. "get user by I D" dediğinizde getUserById demek istediğinizi bilemez. Düz yazıyı dikte etmeye devam edin; tanımlayıcıları yazmaya devam edin.

Çevrimdışı ve gizli: yerel modda hiçbir şey makinenizden çıkmaz

Güneş ışığının süzüldüğü ahşap bir kapıyı kilitleyen mavi asma kilit, gizli yerel işlemeyi simgeliyor

Herkese açık olmayan kodla ilgili issue ve PR dikte ediyorsanız, sesin nereye gittiği önemlidir. Whisper'ın yerel modunda yazıya dökme tamamen makinenizde olur. Söylediğiniz hiçbir şey bir bulut hizmetine gönderilmez. Yazıya dökme sırasında internete hiç gerek yoktur — yalnızca tek seferlik model indirmesinde çevrimiçi olursunuz; bu da seçtiğiniz modele göre yaklaşık 140 MB ile 3 GB arasında değişir.

Size gerçek bir fikir vereceğim tek yer burası. Yalnızca bulutta çalışan dikte, yazıya dökülmeyi bekleyen bir gizlilik felaketidir. Bir keresinde, evde geliştirilen bir dikte prototipinin her söyleneni bir API'ye gönderdiği için bir iç ekibin tek bir çeyrekte beş haneli bir bulut faturası biriktirdiğini gördüm — ve daha kötü kısmı fatura değildi, herkesin henüz piyasaya çıkmamış bir ürünle ilgili sözlü notlarının artık bir tedarikçinin günlüklerinde yaşıyor olmasıydı. Patronunuzun maaş tablosu, gizlice açtığınız güvenlik issue'su, bir PR'da tarif ettiğiniz özel mimari — bunların hiçbiri, sadece sesinizle bir paragraf yazmak istediğiniz için dizüstü bilgisayarınızdan ayrılmamalı. Makinenizde zaten bir mikrofon ve bir CPU var. Bir paragraf için döngüde bir sunucuya ihtiyacı yok. Aracınız yalnızca bulutta çalışıyorsa, ilk düzelteceğim kısım orası olurdu.

Ne için değil (kod yazmak için)

Mavi ışıkla aydınlanmış bir dizüstü bilgisayar klavyesinin yakın çekimi, uygulamalı kodlamayı çağrıştırıyor

Buraya sesle kod yazmanın bir yolunu aramak için gelmiş olabilirsiniz ya da "Hey, GitHub!" hatırlıyor ve nereye gittiğini merak ediyorsunuzdur. İki dürüst yanıt.

"Hey, GitHub!" ve GitHub Copilot Voice, bir GitHub Next teknik ön izlemesiydi. GitHub bu ön izlemeyi 2024'te sonlandırdı. Hiçbir zaman bir ürün olmadı; çıkarılan dersler VS Code Speech eklentisine aktarıldı. Yani bir blog yazısı bugün size "Hey GitHub"ı etkinleştirmenizi söylüyorsa, birkaç yıl geride kalmıştır.

Kod-için-ses şeridi hâlâ var — sadece github.com'da değil, editörünüzde ve terminalinizde yaşıyor. VS Code Speech eklentisi (bazen "Hey Code" denir) editörle ve kod ile komutlar için Copilot Chat ile konuşmanıza imkân verir. Ve GitHub Copilot CLI yakın zamanda, terminalde Copilot ajanını yöneten yerel ses girişi ekledi. Bunların ikisi de kodu ve bir yapay zeka ajanını yönlendirmek içindir. Hiçbiri tarayıcınızdaki bir GitHub issue'suna düz yazı dikte etmez. Bu farklı bir şerit ve Whisper'ın sahip olduğu şerit de o: kodun etrafındaki yazı.

GitHub iş akışınız için Whisper'ı ne zaman atlamalısınız

Benim yaptığım aracı değil, doğru aracı kullanmanızı tercih ederim. İşte Whisper'ı ne zaman atlamalısınız.

Asıl istediğiniz şey Copilot'u ya da editörünüzü sesle yönetmekse — "bu fonksiyonu düzelt," "testleri çalıştır," "bu bloğu açıkla" — bu, düz yazı değil, kod/ajan şerididir. Bunun yerine VS Code Speech eklentisini ya da GitHub Copilot CLI ses girişini kullanın. Onlar makineyle konuşur; Whisper ise bir insanın okuduğu sözcükleri yazar.

Yalnızca ara sıra tek satırlık bir yorum dikte ediyorsanız, işletim sisteminiz bunu zaten ücretsiz yapar. Windows'ta Win+H'ye basın ya da macOS'te Dictation'ı açın; kuracak hiçbir şey olmadan bir GitHub alanına hızlı bir cümle bırakabilirsiniz. Whisper, pek çok uygulamada gerçek paragraflar yazdığınızda, çevrimdışı çalışmasını istediğinizde ya da yalnızca bazı alanları kapsayan bir işletim sistemi özelliği yerine her yerde tek bir kısayol istediğinizde hakkını vermeye başlar. Bu çubuğun altında, yerleşik seçenek gayet iyidir ve aksini iddia etmeyeceğim.

Ücretsiz yerel, bulut için Pro ile

Yerel hat — yazıya dökme, cihaz üzerindeki yapay zeka temizliği, kısayol, GitHub'a dikte etmek için ihtiyacınız olan her şey — oturum açmış kullanıcılar için ücretsizdir ve kayıt sırasında kart gerekmez. Kurarsınız, oturum açarsınız ve dikte etmeye başlarsınız.

Whisper Pro, bulut yüzeyini ekler: OpenAI bulut yazıya dökme, kendi anahtarınızla bulut yapay zeka temizliği ve web yanıtları; bu katman için kısa bir deneme süresiyle. Issue ve PR dikte etmek için ücretsiz yerel katman işin tamamını kapsar. Pro'ya ait rakamlar fiyatlandırma sayfasında; size paragrafın ortasında onları sıralamayacağım.

O kısayol hakkında son bir şey

Her şeyi birbirine bağladığı için kısayolun neden özelleştirilebilir olduğuna dair bir söz. Whisper'ın ilk sürümü, belirli Windows makinelerinde her tuşa basışta kaydı-durdur olayını altı kez tetikliyordu — giriş çerçevesinden gelen hayalet bırakma olayları; temiz bir kurulumda çalışan ama gerçek bir makinede bozulan türden. Bunu güvenilir kılmak 300ms'lik bir debounce ve itiraf edeceğimden fazla zaman aldı. Windows giriş işleme konusunda istediğimden çok şey öğrendim. Ders aklımda kaldı: kısayol, makinenize göre bükülmeli, tersi değil. Alana tıklayın, tuşu basılı tutun, konuşun. Kodu yine de kendiniz yazarsınız — ve bence anlaşmanın dürüst hali budur.

Bir sonraki GitHub issue'nuzu dikte edin

Alana tıklayın, tuşu basılı tutun, konuşun, bırakın. Metin imlecinizin olduğu yere yerleşir — issue düzenleyicisine, PR açıklamasına ve diğer tüm uygulamalara da.

Oturum açmış her hesap için ücretsiz yerel mod. Başlamak için kart gerekmez.

Denys Medvediev'in fotoğrafı

Denys Medvediev

Destek e-postamızı okuyan kişi benim, büyük olasılıkla yanıtları dikte ederek.