Yazan: Denys Medvediev

Rehber

Sesten altyazıya: gerçekten işe yarayanlar

Sesten altyazı üreteci, bir ses dosyasını zamanlanmış SRT ya da VTT formatına dönüştürür. İşte gerçek iş akışı, dosyayı gerçekten dışa aktaran araçlar ve sesinizi hiçbir zaman sunucuya yüklemeyen ücretsiz çevrimdışı seçenek.

Son güncelleme: Haziran 2026

Bir ekranda görüntülenen ses dalgaları; ses dosyasının altyazı parçasına dönüştürülmesini temsil ediyor

Sesten altyazı üreteci bir ses dosyası alır — MP3, WAV veya podcast dışa aktarması — ve zamanlanmış bir altyazı dosyası oluşturur. Her metin satırı başlangıç ve bitiş zaman damgası taşır. VEED, Kapwing ve Descript gibi web araçları bunu tarayıcıdan yapar. Ücretsiz açık kaynak OpenAI Whisper komut satırı aracı ise bunu kendi bilgisayarınızda çevrimdışı olarak gerçekleştirir.

Bir keresinde on dakikalık bir podcast klibini elle altyazı yazmak için kırk dakika harcadım; her üç saniyede bir duraksayıp yazıyor ve zaman damgalarını tahmin ediyordum. Yazılım mühendisliği yüksek lisansım var. Matematik her iki yolda da acımasız. Elle altyazı eklemek, sesin uzunluğunun birkaç katı zaman alır. Modern bir altyazı üreteci ise aynı işi dosya uzunluğu kadar sürede, üstüne bir de kahve içmeye vakit bırakarak yapar. Kimsenin önceden söylemediği şey şu: doğru araç tek bir soruya bağlı. İndirebileceğiniz zamanlanmış bir dosyaya mı ihtiyacınız var, yoksa yalnızca metne mi?

"Altyazı üreteci" iki farklı iş için kullanılıyor ve yanlış araç sizi bir öğleden sonraya mal eder. Alan, zamanlanmış dosyaları dışa aktaran tarayıcı araçları ile aynı işi ücretsiz yapan — ama bir terminale dokunmayı gerektiren — çevrimdışı araçlar olarak ikiye ayrılıyor. Bu rehber iş akışının nasıl işlediğini, hangi araçların yalnızca sesten gerçek bir .srt dosyası ürettiğini, SRT, VTT ve TXT'nin ne anlama geldiğini ve bizimki gibi bir dikte uygulamasının neden yanlış seçim olduğunu ele alıyor. Sonunda hangi aracı açmanız gerektiğini bileceksiniz. Destek gelen kutumuzda okuduğum kafa karışıklığının büyük bölümü, altyazı dosyasına ihtiyaç duyarken yazma aracı seçen kişilerden geliyor. Bir yıllık bu mesajlar bu makalenin var olmasının en büyük nedeni.

Zaman damgasına ihtiyacınız var, yalnızca metne değil

Altyazı dosyası bir transkript değildir. Transkript kelimelerdir. Altyazı dosyası ise kelimeler artı zamanlama demektir. Her altyazı bloğu "bu satırı 00:01:04'ten 00:01:07'ye kadar göster" der. Zamanlama işin ta kendisidir. Video oynatıcının doğru kelimeyi doğru saniyede ekrana getirmesini sağlar.

Bizimki de dahil olmak üzere çoğu "sesten metne" aracı size yalnızca kelimeler sunar. İmlecinize temiz bir paragraf yapıştırır ve orada durur. Sesten altyazı üreteci daha fazlasını yapmak zorundadır. Konuşmayı kısa altyazı boyutlarında parçalara böler, her parçayı ses saatine hizalar ve her şeyi bir oynatıcının okuyabileceği katı bir dosya formatına yazar. Teslim edeceğiniz şey YouTube'a, bir video editörüne ya da bir kurs platformuna yüklediğiniz bir dosyaysa zaman damgalarına ihtiyacınız var. Teslim edeceğiniz bir belgedeki metinse ihtiyacınız yok; bunun için altyazı aracına para ödememeniz gerekir.

Ses dosyasından altyazı üretme: üç adımda

Ev çalışma alanında masanın üzerinde kulaklıklar ve çalışan ses düzenleme yazılımı olan bir dizüstü bilgisayar

İş akışı neredeyse her araçta, ister web ister çevrimdışı olsun, aynıdır.

1

Ses dosyasını yükleyin veya gösterin. Çoğu araç MP3, WAV, M4A ve FLAC alır; video zorunlu değildir. VEED, MP3, WAV, podcast kayıtları, röportaj sesi ve sesli not kabul eder. Tek kaynağınız bir video ise araç sesi sizin yerinize ayıklar.

2

Konuşmayı yazıya döksün ve zamanla. Araç sesi bir konuşma modeline sokar, sonucu altyazı uzunluğundaki satırlara böler ve her satıra başlangıç ve bitiş zamanı damgalar. Elle yapılana göre sesin birkaç katı zaman alan bu işin makine versiyonu dosya uzunluğu kadardır.

3

Dosyayı gözden geçirin ve dışa aktarın. Transkripti bir kez okuyun (model çıktısı iyi ama mükemmel değil), bozulan adları düzeltin, ardından dışa aktarın. Formatı burada seçersiniz: SRT, VTT ya da düz TXT.

Döngünün tamamı bu kadar. Araçlar arasındaki farklar fiyata, dil kapsamına, sesinizin nereye gittiğine ve üçüncü adımın ücretsiz olup olmadığına bağlı.

SRT, VTT, TXT: hangisine ihtiyacınız var?

Her dışa aktarma menüsünde üç format görünür ve insanlar sürekli yanlış olanı seçer.

  • SRT (SubRip) varsayılan altyazı dosyasıdır. Numaralandırılmış bloklardan oluşan düz bir metin dosyasıdır; her blokta bir zaman kodu aralığı ve bir ya da iki satır metin bulunur. YouTube, çoğu video editörü ve neredeyse her oynatıcı destekler. Hangisini seçeceğinizi bilmiyorsanız SRT seçin.
  • VTT (WebVTT) SRT'nin web kuzenidir. Aynı mantık, biraz farklı sözdizimi; üstüne stil ve konumlandırma desteği. Bir web sitesi ya da HTML5 video oynatıcı adını özellikle belirtiyorsa VTT kullanın.
  • TXT yalnızca kelimelerdir, zaman damgası yoktur. Makale yazarken, özet oluştururken ya da bir röportajdan alıntı yaparken isteyeceğiniz format budur. Düz bir dikte aracının size verebileceği üç formattan tek bu olduğu için de ayrıca önemlidir.

Benim pratik kuralım şu: video için SRT, belgeler için TXT, bir web platformu adını özellikle belirtiyorsa VTT. Çoğu araç üçünü de dışa aktarır: VEED, Kapwing ve Descript.

Sesi altyazı dosyasına dönüştüren araçlar

Her tarayıcı aracının nerede durduğu şöyle; özellik iddiaları doğrudan her aracın kendi sayfasından alınmıştır.

  • VEED yalnızca ses dosyasından transkript yapan ve sonucu SRT, VTT veya TXT olarak indirmenizi sağlayan web ve mobil otomatik altyazı ureticisidir. Başlamak ücretsiz. Altyazı dosyasını indirmek ve uzun videoları altyazılamak ücretli plana geçişi gerektiriyor.
  • Kapwing "saniyeler içinde üretilen yüzde 99 doğru altyazı" reklamı yapıyor. Bu Kapwing'in kendi pazarlama rakamı, bağımsız bir kıyaslama değil. Video veya ses dosyası alıyor — MP3 dahil —, altyazıyı 100'den fazla dile çevirebiliyor ve SRT, VTT ile TXT olarak dışa aktarıyor. Ücretsiz hesaplar 10 dakikaya kadar altyazı alabilir ve filigran eklenir; Pro filigranı kaldırır.
  • Descript 22'den fazla dilde altyazı üretir, yalnızca ses dosyalarını kabul eder ve Yayımla → Dışa aktar → Altyazılar yolu üzerinden yumuşak altyazıları SRT veya VTT olarak dışa aktarır. Aylık bir medya saati ücretsiz olan freemium modeliyle çalışır.

Bu dört aracın taahhüt etmeden önce doğrulayabileceğiniz konularda nasıl karşılaştığı aşağıda. Hiçbir araç aynı sesle karşılaştırmalı olarak test edilmediğinden doğruluk veya hız rakamları verilmemiştir:

AraçPlatformYerel veya bulutÇevrimdışı çalışırFiyatlandırma modeliDillerEn iyi kullanım
VEEDWeb, mobilBulutHayırBaşlangıç ücretsiz, dışa aktarma ücretli40'tan fazla seçenek listeleniyor, toplam belirtilmemişİndirme seçenekli hızlı tarayıcı geçişi
KapwingWebBulutHayırÜcretsiz katman (filigran), Pro100'den fazlasına çeviriHızlı altyazı ve çeviri
DescriptWebBulutHayırFreemium, aylık bir saat ücretsiz22+Ses ve altyazıyı birlikte düzenleme
OpenAI Whisper CLIWindows, macOS, LinuxYerelEvetÜcretsiz, açık kaynak99 çok dilli, .en sürümleri için 1Ücretsiz, gizli, yükleme yok

Her üç tarayıcı aracı da sesinizi başkasının sunucusuna gönderir. Pazarlama klibi için bu sorun olmaz. Kayıtlı bir müşteri görüşmesi ya da maaş rakamı geçen herhangi bir şey için okumaya devam edin.

Bu araçlar kabaca şuna benzeyen bir arayüz yapısını paylaşır:

interview-audio.mp3Otomatik altyazı
SRTVTTTXTİndir

Yükle, üret'e tıkla, format seç, indir. O çubuk — bizimki değil — sesten altyazı üretecinin neye benzediğidir.

Ücretsiz ve çevrimdışı: açık kaynak Whisper ile SRT üretme

Karanlık modda bilgisayar ekranındaki kod; komut satırı altyazı iş akışını çağrıştırıyor

Hiçbir şey yüklemek istemiyorsanız, OpenAI'ın açık kaynak Whisper komut satırı aracı altyazı dosyalarını kendi bilgisayarınızda ücretsiz olarak yazar. --output_format bayrağı txt, vtt, srt, tsv, json veya all kabul eder; varsayılan all'dır. Yani tek bir komut olan whisper interview.mp3 --model turbo, hesap açmadan ve dosya yüklemeden çevrimdışı bir .srt dosyası üretir.

Açık kaynak Whisper, Whisper by Remskill'den farklı bir projedir ve bunu netleştirmek önemli. OpenAI'ın bilgisayarınızda çalışan ve zamanlanmış altyazı dosyaları üreten komut satırı modelidir. Altı model boyutu içerir (tiny, base, small, medium, large ve turbo); daha küçük dört boyutun İngilizce'ye özel sürümleri mevcuttur. Çok dilli modeller 99 dili kapsar; .en sürümleri yalnızca İngilizce'dir.

Sonuna kadar savunacağım şu görüş: hassas her şey için ses dizüstü bilgisayarınızı asla terk etmemeli. Kayıtlı bir performans değerlendirmesi, bir doktorun yazdırdığı notlar, hukuki bir ifade — bunların hiçbiri yalnızca zaman damgasına ihtiyaç duyduğunuz için bir satıcının işlem günlüklerine girmemeli.

Bir ekibin bir çeyrekte standup kayıtlarını transkript ederken beş haneli bir bulut yapay zekâ faturası biriktirdiğini bizzat gördüm. Bir sonraki toplantıda CFO'nun tepkisi "prompt'u optimize edelim" değildi. "Toplantı sesini neden sunucuya gönderiyoruz ki?" oldu. Dizüstü bilgisayarınızda zaten bir CPU ve mikrofon var. Gizli materyaller için çevrimdışı Whisper CLI yanıttır ve hiçbir maliyeti yoktur.

whisper.cpp adında daha hızlı yerel bir port var; bağımlılığı olmayan, açık lisans altında yalnızca CPU'da çalışan sade bir C/C++ Whisper derlemesi. İnsanlar onun da altyazı dosyaları yazabildiğini söylüyor, ancak doğrulanmış .srt yolu için sizi resmi OpenAI Whisper CLI'ye yönlendiririm; whisper.cpp'yi rahatladıktan sonra kullanabileceğiniz hız yükseltmesi olarak değerlendirin.

Whisper by Remskill bu iş için yanlış araç olduğunda

Pasted
Whisper'ın tam hâliyle yer paylaşımı — imlecinizdeki uygulamaya temiz bir paragraf yapıştırır, zamanlanmış bir altyazı dosyası değil. Mavi araç çubuğu her uygulamanın üzerinde durur.

Çoğu ürün blogunun atladığı kısmı burada anlatacağım. İşiniz indirilebilir bir .srt veya .vtt dosyasıysa uygulamamız yanlış araçtır; bunu siz indirmeden önce söylemek yerine zamanınızı çalmayı tercih etmem.

Whisper by Remskill öncelikle bir dikte uygulamasıdır. Bir kısayol tuşunu basılı tutarsınız (Windows'ta Ctrl+Space, macOS'ta Command+Option), konuşursunuz, bırakırsınız; transkript o an açık olan uygulamada imlecinize yapıştırılır. Konuşmayı altyazı bloklarına bölmez, metni ses saatine hizalamaz, zamanlanmış altyazı dosyası yazmaz. Bir röportaj beslerseniz temiz bir paragraf alırsınız, SRT değil. Dışa aktarma menüsünü kafamda düzinelerce kez kurdum ama göndermedim; çünkü zamanlanmış altyazılar başlı başına bir üründür ve bunu kötü yapmak kimseye yarar sağlamaz.

Altyazı dosyaları için yukarıdaki araçları kullanın. Bitişik iş için — kendi konuşmanızı ihtiyaç duyduğunuz anda metne dönüştürmek — uygulamamıza başvurun. Bir e-posta, bir taslak, elle sosyal medya gönderisine yazacağınız bir altyazı. Python ve yükleme olmaksızın iki saf Rust motoru üzerinde çalışır: OpenAI Whisper ve NVIDIA Parakeet. Farklı iş, farklı araç. Doğru olanı seçmek bu makalenin özüdür.

Herhangi bir şey açmadan önce her şeyi belirleyen soruyu yanıtlayın: bir dosya mı gönderiyorsunuz yoksa metin mi? Dosya, zaman damgası demektir; bu da gerçek bir altyazı üreteci demektir. Hızlı tarayıcı geçişi için VEED ya da Kapwing; ücretsiz ve gizli için Whisper CLI. Metin ise transkripttir ve bu farklı bir araçtır. Ben bir dikte uygulaması kurdum ama başka bir yere göndermeniz gerektiğinde yine de sizi oraya göndereceğim. Yedi yaşındaki çocuğum geçen hafta işte ne yaptığımı sordu; dürüst cevap "insanların yazmayı bırakmasına yardım ediyorum" oldu; bu yanıtı son derece hayal kırıklığı yaratıcı buldu. Kurtardığınız öğleden sonra, üç saniyede bir o podcast klibini elle altyazılarken harcadığım öğleden sonranın ta kendisi.

Bunun yerine dikte kısmını mı istiyorsunuz?

İşiniz imleçteki kelimeler ise — altyazı dosyası değil — Whisper kendi konuşmanızı ihtiyaç duyduğunuz anda tamamen çevrimdışı metne dönüştürür.

Her oturum açmış kullanıcı için ücretsiz yerel dikte. Altyazı dosyaları için yukarıdaki araçları kullanın.

Denys Medvediev fotoğrafı

Denys Medvediev

Destek e-postamızı okuyan benim; büyük ihtimalle yanıtları da dikte ederek yazıyorum.

Daha fazla okuma