Yazan: Denys Medvediev

Rehber

Ses-metin dönüştürücü, her yönüyle

Ücretsiz web araçları, çevrimdışı masaüstü uygulamaları ve kendi anahtarınızı getirdiğiniz bulut çözümleri; hepsi sesi metne çevirir. Asıl önemli olan tercih, sesinizin nerede işlendiğidir.

Son güncelleme: Haziran 2026

Karanlık bir ekranda parlayan bir ses dalga formunu gösteren dijital ses arayüzünün yakın çekimi

Bir ses-metin dönüştürücü, bir kayıt ya da canlı konuşmayı bir konuşmadan-metne modeli kullanarak düzenlenebilir, aranabilir metne çevirir. Asıl önemli olan tercih, sesin nerede işlendiğidir: ücretsiz web araçları dosyaları bir sunucuya yükler; oysa Whisper gibi bir masaüstü uygulaması her şeyi kendi bilgisayarınızda, çevrimdışı olarak yazıya dökebilir ve sonucu imlecinizin bulunduğu yere yapıştırabilir.

Çoğu ücretsiz ses-metin aracı sizi ilk 10 ila 30 dakikalık yazıya dökümle sınırlar, sonra da bir kart ister. O kısmı adil. Sunucular para tutuyor. Kimsenin yüksek sesle söylemediği kısımsa şu: sesiniz önce o sunuculara gitmek zorundaydı. Bir doktorun sesli notu, bir yönetim kurulu toplantısı kaydı, bir velayet duruşması hazırlık dosyası; hepsi hiç tanımadığınız bir sağlayıcıya yüklendi.

Bu konuda bir görüşüm var ve birazdan geleceğim.

Bir ses-metin dönüştürücü tek bir iş yapar: sesi dinler ve kelimeleri yazar. İlginç farklar şunlarda yatar: nasıl dinlediği (bir model), nerede dinlediği (sizin makineniz mi yoksa bir sunucu mu) ve metinle sonradan ne yaptığı (bir dosyaya bırakmak ya da zaten yazdığınız yere yapıştırmak). Bu aramada en üst sırada yer alan üç ücretsiz dönüştürücünün hepsi dosya-yükle-ve-bekle türünden. Whisper by Remskill ise farklı bir hayvan. Dikte odaklı; yani bir kısayol tuşuna basar, konuşur ve metnin herhangi bir uygulamada imlecin olduğu yerde belirdiğini görürsünüz.

Bu rehber, dönüştürücülerin nasıl çalıştığını anlatır, kayıtlı bir dosya için üç adımlık yolu adım adım gösterir ve bir web dönüştürücüsünün ne zaman doğru tercih olduğunu, ne zaman olmadığını söyler. Destek e-postalarımızı bir yıl okuduktan sonra şunu söyleyebilirim: çoğu, dizüstü bilgisayarından hiç çıkmaması gereken ses için bir bulut aracı seçen insanlardan geliyor.

Bir ses-metin dönüştürücü kayıtları düzenleyebileceğiniz kelimelere çevirir

Whisper
Gerçek Whisper uygulaması — Ayarlar'da gezinerek yerel ve bulut yazıya dökümünün nasıl kurulduğunu görün.

Kaputun altında her dönüştürücü aynı şeyi çalıştırır: bir konuşma tanıma modeli. Sesinizin dalga formunu alır ve kelimeleri parça parça tahmin eder. Doğruluğun yaşadığı yer modeldir. Bu araçların çoğunun arkasındaki büyük açık model, çok dilli varyantlarında 99 dili destekleyen OpenAI'ın Whisper modelidir. Aynı OpenAI Speech-to-Text API'si, whisper-1'in yanı sıra daha yeni olan gpt-4o-transcribe ve gpt-4o-mini-transcribe modellerini de sunar.

Çıktı, sade ve düzenlenebilir bir metindir. Bir ismi düzeltebilir, bir ifadeyi arayabilir, bir e-postaya yapıştırabilirsiniz. Bütün mesele bu. Sesi göz gezdirerek taramak zor, metni kolay. Whisper de aynı düzenlenebilir metni üretir, ama size bir indirme dosyası vermek yerine, doğrudan içinde bulunduğunuz uygulamaya yapıştırabilir. Yukarıda gömülü olan uygulama, bir maket değil, gerçek masaüstü arayüzüdür.

Hangi modeli seçtiğiniz doğruluk kararıdır ve açık Whisper modeli ile Google Cloud Speech-to-Text farklı yerlerde durur; Whisper ile Google Speech-to-Text karşılaştırmamız iki motoru doğruluk, dil kapsamı ve sesinizin nereye gittiği açısından yan yana koyuyor.

Bir ses dosyası üç adımda metne nasıl çevrilir

Kayıtlı bir dosya için yol kısa. Ücretsiz web dönüştürücüleri bunu yükle, tıkla, indir diye açıkça ortaya koyar.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Tipik bir web dönüştürücüsü: bir dosya bırakın, yüklemeyi bekleyin, döküm metnini indirin.
1

Nerede çalışacağını seçin. Bulut dönüştürücüleri dosyayı kendi sunucularına yüklemenizi ister. Whisper, yerel modda yazıya dökümü kendi makinenizde çalıştırır; böylece dosya bilgisayarınızdan hiç çıkmaz.

2

Diliniz için bir model seçin. Yalnızca İngilizce dosyalar daha küçük bir modelde en hızlıdır. Çok dilli ya da karışık dilli ses, 99 dili kapsayan çok dilli bir modele ihtiyaç duyar.

3

Metni alın ve düzenleyin. Döküm sade metin olarak geri gelir. Bir modelin özel isimlerde her zaman yaptığı yazım hatalarını düzeltin, işiniz bitti.

CancelTranscribing
Whisper bir kaydı yerel olarak yazıya döküyor — dosya makinenizden hiç çıkmıyor.

Bilmeye değer bir püf nokta: bulut API'lerinin boyut tavanları vardır. OpenAI yazıya döküm uç noktası, istek başına yüklemeleri 25 MB ile sınırlar. WAV formatındaki uzun bir toplantı kaydı bunu hızla aşar. Yerel işlemenin ise kendi diskiniz ve sabrınız dışında böyle bir sınırı yoktur.

Kayıtlı dosyalar mı, canlı dikte mi: hangisine ihtiyacınız var?

İşte çoğu dönüştürücü sayfasının atladığı soru. Zaten var olan bir dosyayı mı yazıya döküyorsunuz, yoksa sesinizle yeni bir şey mi yazmaya çalışıyorsunuz?

Bir kaydınız varsa (bir röportaj, bir ders, bir podcast), bir dosya dönüştürücüsü doğru araçtır. Yükleyin, dökümü alın, yolunuza devam edin. En üst sıradaki üç ücretsiz araç bunu hallediyor; ücretsiz katmanda günlük dakika sınırlarıyla.

Cancel
Whisper'ın canlı kayıt yer paylaşımı — kısayol tuşunu basılı tutun, konuşun, bırakın.

Yeni bir e-posta, not ya da belge yazıyorsanız, hiç dosya istemezsiniz. Kelimelerin siz konuştukça belirmesini istersiniz. İşte bu diktedir ve farklı bir mekanizmadır. Whisper ile bir kısayol tuşunu basılı tutar, konuşur ve bırakırsınız. Windows'ta varsayılan Ctrl+Space, macOS'te ise bir Command+Option bas-konuş kombinasyonudur (ikisini birden basılı tutun, durdurmak için herhangi bir tuşu bırakın). Yazıya dökülen metin, herhangi bir uygulamada imlecinize yapıştırılır. Yükleme yok, indirme yok, sekme değiştirme yok. Yukarıdaki yer paylaşımı, uygulama dinlerken gördüğünüz şeydir.

Bir ses-metin dönüştürücü arayan çoğu insan ilk şeyi ister ama ikincisini de istediğini keşfeder. Yazdığınızdan daha az şey kaydedersiniz. Geçen yıl daha iyi bir dosya dönüştürücüsü ararken iki hafta harcadım; oysa asıl ihtiyacım olan, kızımın yüzme antrenmanı sırasında yanıtları parmak parmak yazmayı bırakmaktı.

Yerel mi, bulut mu: sesiniz nerede işlenir (ve bu neden önemli)

Bulut ses işlemeyi temsil eden, etkin ekipmanlarla dolu veri merkezi sunucu raflarının sıraları

Asıl önemli ayrım burada geliyor ve ücretsiz araçların en sessiz kaldığı konu da bu. Bir web dönüştürücüsü, sesinizi kendi sunucularında işler. AudioConvert.ai dosyaların 24 saat içinde silindiğini söylüyor. HappyScribe ve NoteGPT de buluta yüklüyor. Bu standart bir şey ve halka açık bir podcast için sorun yok.

Şimdi söz verdiğim görüş. Yalnızca buluta dayalı ses dönüştürme, yazıya dökülmeyi bekleyen bir gizlilik felaketidir. Bir zamanlar birlikte çalıştığım bir ekip, bir yükleniciye her cümle için bir bulut yapay zekasını çağıran dahili bir dikte prototipi yaptırmıştı. Yönetici çeyrek sonunda maliyet panelini açtı ve beş haneli bir fatura buldu; çoğu, yeniden deneme mantığı fazla agresif olduğu için ayakta toplantı kayıtlarının dört kez yazıya dökülmesinden kaynaklanıyordu. Mali işler müdürünün yanıtı kısaydı: ya da zaten notları olan toplantıları yüklemek için para ödemeyebiliriz. Para küçük sorundu. Daha büyük olansa, çeyreklerce dahili görüşmenin artık bir başkasının sunucularında yaşıyor olmasıydı.

Whisper'ın yerel modu buna yanıt veriyor. Yerel modda tüm ses bilgisayarınızda işlenir ve hiçbir şey cihazdan çıkmaz; tek seferlik bir model indirmesinden sonra (modele bağlı olarak yaklaşık 140 MB ila 3 GB arasında) tamamen çevrimdışı çalışır. Cihaz üzerinde iki motor çalışır: Whisper modelleri ve CPU'da Whisper'dan 5 ila 10 kat daha hızlı olan ama yalnızca İngilizce ile 24 Avrupa dilini kapsayan, İngilizceye çeviri yapmayan NVIDIA'nın Parakeet'i. Bulutu tercih ediyorsanız, Whisper'ın gpt-4o-mini-transcribe ya da gpt-4o-transcribe (API'nin sunduğu modellerin aynısı) kullanan, kendi anahtarınızı getirebileceğiniz bir OpenAI modu var; doğrudan OpenAI tarafından faturalandırılır, bizden herhangi bir ek ücret yok. Mesele şu ki seçim sizin. Ücretsiz web araçları sizin yerinize seçer ve yanıt her zaman onların sunucusudur. Tamamen buluttan uzak durmak hakkında daha fazlası için çevrimdışı konuşmadan metne rehberimize bakın.

Doğruluğu seçmek: aksanınızı ve dilinizi hangi model halleder

Doğruluk büyük ölçüde bir model sorusudur ve model de bir dil sorusudur. Ücretsiz dönüştürücüler büyük rakamlar reklamı yapar. AudioConvert.ai net seste %99'a varan doğruluk iddia ediyor, HappyScribe %96'ya kadar diyor. Bunlar yayımlanmış bir yöntemi olmayan, satıcının pazarlama iddialarıdır; o yüzden onları kıyaslama ölçütü değil, broşür olarak ele alın.

Doğruluğu asıl hareket ettiren şey, modeli sesinize uydurmaktır. Whisper, yalnızca İngilizce ve çok dilli olarak ikiye ayrılan 8 yerel modelle gelir. Yalnızca İngilizce yapımları (~140 MB'lık Base'den ~1,5 GB'lık Medium'a kadar) dil seçicisini İngilizceye kilitler ve o tek işi iyi yapar. Çok dilli yapımları (Small, Medium, ~3 GB'lık Large v3 ve bir de Large v3 Turbo) otomatik algılamayla 99 dili kapsar. Bir cümlede Ukraynaca ile İngilizce karışık mı? Bu, çok dilli bir model gerektirir. Temiz bir İngilizce sesli not mu? İngilizce Base modeli daha hızlı ve daha hafiftir.

Whisper
Gerçek Whisper uygulamasındaki model ve dil seçici — yalnızca İngilizce ve çok dilli yapımlar yan yana.

Hiçbir model sayfasının itiraf etmediği sıkıcı gerçek: ucuz, yakaya takılan bir mikrofon, herhangi bir model yükseltmesinden daha fazlasını doğruluk için yapar. Çöp ses girer, çöp metin çıkar. Çalışan bir bulaşık makinesinin yanında yapılmış bir kaydı hiçbir miktarda yapay zeka düzeltmez. Sorunun, bir vantilatörün on beş santim ötesindeki dizüstü mikrofonu olduğunu fark etmeden önce, kendi boğuk sesimi temizlemek için model ayarlarını bir hafta sonu boyunca elden geçirdim. Yüksek lisans diplomam var. Yukarıdaki ayarlar paneli, modeli ve dili seçtiğiniz yerdir.

Bir web dönüştürücüsünü ne zaman atlamalı (ve başka bir şey kullanmalı)

Bir defter, gözlük ve kalemlerin bulunduğu, elle not alma alternatiflerini düşündüren düzenli bir masa çalışma alanı

Bir web dönüştürücüsü bazen daha iyi tercihtir ve bunu size söylemeyi, sizin yanlış araçla boğuşmanıza tercih ederim. Tek bir kısa kaydınız varsa (beş dakikalık bir röportaj klibi, tek bir sesli not) ve bunun bir sunucuya değmesi umurunuzda değilse, HappyScribe gibi ücretsiz bir dönüştürücü ilk 10 dakikayı kartsız, ücretsiz verir. Sayfayı açın, yükleyin, bitti. Bunun için bir masaüstü uygulaması kurmak gereğinden fazlası olur.

Şu üç şeyden biri doğruysa web dönüştürücüsünü atlayın: ses hassastır (tıbbi, hukuki, mali), dosya 25 MB'lık bulut tavanına çarpacak kadar büyüktür ya da eski bir şeyi yazıya dökmek yerine yeni bir şey yazıyorsunuzdur. İlk iki durum yerel işleme ister. Üçüncüsü ise dikte ister, hiç dönüştürücü değil. Birden fazla konuşmacılı ve özetli toplantı tarzı yazıya döküm içinse, o kategoride özel bir araç her ikisinden de daha iyi oturur — bu farklı bir iştir ve yazıya döküm yazılımı derlememizde ele alınıyor.

Maliyeti ne kadar

Whisper, tüm yerel işlem hattı için herkese ücretsizdir (her iki yazıya döküm motoru, yapay zeka metin temizleme, geçmiş ve özel kısayol tuşu) ve kaydolmak için herhangi bir ödeme yöntemi gerekmez. Kendi anahtarınızı getirdiğiniz bulut yüzeyi, ücretli Pro katmanıdır ve yazıya döktüğünüz gerçek dakikalar için OpenAI sizi doğrudan faturalandırır. Bu aramadaki ücretsiz web dönüştürücüleri bir freemium dakika sınırıyla çalışır: HappyScribe 10 ücretsiz dakika verir, AudioConvert.ai günde 30 dakika verir. Whisper bugün Windows'ta ve Apple Silicon üzerindeki macOS'te sunulur. Tam plan rakamları için fiyatlandırma sayfasında bunlar yazılı olarak yer alıyor.

Ücretsiz dönüştürücüler yaptıkları işte iyiler — bir dosya bırakın, bekleyin, metni kopyalayın. Paylaşmaktan çekinmeyeceğiniz podcast klibi için birini kullanın. Ama en çok önem taşıyan kayıtlar genellikle yüklemeyi en az isteyeceğiniz kayıtlardır ve işte tam o anda kendi dizüstü bilgisayarınızda çalışan bir dönüştürücü, olsa-iyi-olur bir şey olmaktan çıkar.

Makinenizden hiç çıkmayan bir kaydı deneyin

Geçen cumartesi küçük kızım büyükannesine 90 kelimelik bir e-posta dikte etti ve bana kelimelerin nereye gittiğini sordu. Hiçbir yere, dedim. Tam burada kaldılar. İşte bu yanıt, bunu yapmamın tüm sebebi.

Tüm yerel işlem hattı için ücretsiz. Kaydolmak için ödeme yöntemi gerekmez.

Denys Medvediev'in fotoğrafı

Denys Medvediev

Destek e-postalarımızı okuyan kişi benim, büyük olasılıkla yanıtları dikte ederek.

Ayrıca okuyun