Yazan: Denys Medvediev

Rehber

Yapay zeka transkripsiyon araçları, anlatıldı

Yapay zeka transkripsiyon aracı gerçekte nedir, konuşmadan metne dönüştürme süreci nasıl işler, ses bir stüdyodan çıkmadığında doğruluğu gerçekte ne kadardır ve hangi logoyu seçtiğinizden çok daha önemli olan o tek karar (yerel mi yoksa bulut mu).

Son güncelleme: Haziran 2026

Canlı bir ses dalga formunu gösteren dijital ses arayüzünün yakın çekimi; transkripsiyon için yakalanan konuşmayı çağrıştırıyor

Yapay zeka transkripsiyon aracı, sesli konuşmayı konuşma tanıma modellerini kullanarak yazılı metne dönüştüren bir yazılımdır. Bir kaydı ya da canlı konuşmayı dinler, en olası kelimeleri tahmin eder ve bir döküm çıkarır. Aynı teknolojiye konuşmadan metne ya da otomatik konuşma tanıma denir ve modern araçların çoğu OpenAI Whisper ailesinden bir model çalıştırır.

On yıl önce bir akrabamın Windows 98 makinesinde bir tatil mektubunu dikte etmeye çalışmasını izledim. Yazılımın önce 45 dakikalık bir "eğitim" gerekiyordu, sonra cümle başına dört saniyelik gecikmeyle belki yüzde 70 doğrulukla çalışıyordu. Bir paragraf on beş dakika sürdü. Kulaklık odanın bir ucuna fırlatıldı. Kulaklık sağ kurtuldu; deney kurtulamadı. Bugün yedi yaşındaki kızım büyükannesine 90 saniyede bir e-posta dikte ediyor ve demodan sonra tek bir soru bile sormuyor. İşte bu fark, yapay zeka transkripsiyonunun tüm hikâyesi ve neredeyse herkesin tahmin ettiğinden çok daha hızlı kapandı.

Pazarlama sayfalarının atladığı kısım şu: konuşmadan metne eskiden bir araştırma problemiydi, sonra 2022'de açık kaynaklı Whisper modeli çıktı ve çoğu insan için sessizce bir problem olmaktan çıktı. Bir yapay zeka transkripsiyon aracı artık, çoğunlukla yolunuzdan çekilecek kadar iyi bir modeli, sesinizin nereye gittiğine ve sonrasında metne ne olacağına karar veren bir yazılımla sarmalamak demek. Bu yazı, o sürecin nasıl işlediğini, ses bir podcast stüdyosu olmadığında ne kadar doğru olduğunu ve hangi logoyu seçtiğinizden çok daha önemli olan o tek kararı (yerel mi yoksa bulut mu) anlatıyor. Gelen her destek e-postasını okuyorum ve memnun olmayan insanlar neredeyse her zaman bu tek kararda yanlış seçim yapmış oluyor, araçta değil.

Bir yapay zeka transkripsiyon aracı konuşmayı metne çevirir. Tüm işi bu.

Panoları ve "konuşan bilgi motoru" markalamasını bir kenara bırakın, bu kategorideki her araç tek bir şey yapar: ses girer, metin çıkar. Farklar, o çekirdeğin etrafına sarılan her şeyde: modelin nerede çalıştığı, dökümle ne yaptığı ve bunu yapmak için ne kadar ücret aldığı.

Pasted
Whisper'ın kayıt yer paylaşımı tamamlanmış halinde — konuşmayı bıraktığınız an bitmiş metni geri veren küçük, kayar bir araç. Gerçek, yayınlanmış arayüz; ekran görüntüsü değil.

Üç ürün biçimi öne çıkıyor. Toplantı not alıcısı görüşmenize katılır, herkesi kaydeder ve eylem maddeleriyle birlikte bir özet çıkarır. Otter bunun en tipik örneği; ayda 300 dakika ücretsiz transkripsiyonla. Dosya yükleme servisi bir ses dosyasını bırakmanızı ve daha sonra dökümünü indirmenizi sağlar. Rev ve Sonix burada yer alır; ayrıca Rev yüksek doğruluk için yedek olarak insan transkripsiyoncular da satar. Dikte aracı ise arka planda durur ve konuşmayı bıraktığınız an metni imlecin bulunduğu yere yapıştırır. İşte sonuncusu, Whisper by Remskill'in yaptığı şey: genel bir kısayola basın, konuşun ve dökülen metin zaten içinde bulunduğunuz uygulamada belirsin.

Temelde aynı iş. Üç tamamen farklı günlük deneyim. Bu kategorideki kafa karışıklığının çoğu, bir toplantı not alıcısını bir dikte aracıyla sanki rakiplermiş gibi karşılaştırmaktan geliyor. Bir otobüsün bir bisikletle yarışmadığından daha fazla rekabet etmiyorlar.

Yapay zeka transkripsiyonu gerçekte nasıl çalışır (ve hâlâ nerede tökezler)

Mekanizma, markalamanın ima ettiğinden daha basit. Mikrofonunuz sesi bir dalga formu olarak, yani zaman içinde hava basıncını betimleyen bir sayı akışı olarak yakalar. Model bu akışı kısa parçalara böler, her parçayı akustik özelliklerinin sayısal bir temsiline dönüştürür ve ardından, jeton jeton, o sesleri üreten en olası metin dizisini tahmin eder. Anlam kavramıyor, ses üzerinde istatistik yapıyor. Bu projedeki ilk haftamı, modeli bir kez bile çalıştırmadan, süreci derli toplu bir kutu diyagramı olarak çizerek geçirdim. Diyagram ikinci commit'te yanlıştı. Modelin diyagramım umurunda değildi.

CancelTranscribing
Yer paylaşımının döküm alma durumu — model, bir dalga formunu sizin makinenizde metne çevirirken, siz de bunun sürdüğü saniye kadarcık bekliyorsunuz.

İşte bu ayrıntı, yapay zeka transkripsiyonunun neden tökezlediği yerde tökezlediğini açıklıyor. Model en olası kelimeleri tahmin eder, doğru olanları değil. Ona temiz konuşma ve net telaffuz verin, olası ile doğru aynı şeydir. Ona üst üste konuşma, eğitiminde nadiren gördüğü ağır bir aksan, sektör jargonu ya da kötü bir mikrofon verin, ikisi ayrışır. Tam bu aramanın AI Overview'ının açıkça söylediği dürüst sürüm şu: bu araçlar hiç söylenmemiş kelimeleri uydurabilir, bir konuşmacıyı bir başkasıyla karıştırabilir ve sessizce bir ifadeyi kusursuz okunan ama tam tersi anlama gelen bir şeye yanlış dökebilir.

Bilmeye değer bir çeviri numarası var. Çok dilli Whisper modelleri 99 dili dökebilir ve İngilizce olmayan konuşmayı tek geçişte İngilizce metne çevirebilir. İngilizce-yalnızca model varyantları, yani .en sürümleri, bunu bırakır ve sadece İngilizce yapar; bu da onları İngilizcede biraz daha keskin kılar. Bunların hiçbiri herhangi bir şeyi "eğitmenizi" gerektirmez. Bir araç çalışmadan önce hâlâ bir kalibrasyon metni okumanızı istiyorsa, 1999 varsayımlarıyla çalışıyordur.

Gerçekten ne kadar doğru? Dürüst cevap.

Basılı bir belgenin üzerinde tutulan bir büyüteç; transkripsiyon doğruluğunun yakından incelenmesini gösteriyor

Dürüst cevap şu: size gerçek zaman kazandıracak kadar doğru, ama okumadan yayımlayacak kadar doğru değil. Yerel transkripsiyon için yayımladığımız aralık yüzde 95 ile yüzde 99 arasında; daha büyük modeller daha üstte konumlanıyor. Ama tek bir doğruluk sayısı kendi başına neredeyse anlamsız, çünkü önemli olan sayı sizin sesiniz için olan: sizin aksanınız, sizin odanız, sizin mikrofonunuz, sizin kelime dağarcığınız.

Yuvarlak, koşulsuz iddialara şüpheyle yaklaşın. Ses kalitesinden hiç söz etmeden "yüzde 99 doğruluk" diyen bir ürün sayfası, bir söz değil, en iyi durumu aktarıyordur. Rev yüzde 99 reklamı yaparken, o rakam yapay zeka modeline değil, insan transkripsiyoncularına bağlıdır. Pazarlama sürümü bir eğriyi tek bir gurur okşayan noktaya düzleştirir.

İşte kimsenin size satmadığı en ucuz doğruluk yükseltmesi: bir mikrofon. Dahili bir dizüstü mikrofonundan basit bir USB mikrofona geçmek, dökümünüz için küçük bir modelden en büyüğüne atlamaktan daha fazlasını yapar. Yapay zeka kötü sesi düzeltmez. Sadece daha güvenle tahmin eder. İndirebildiğim en büyük modeli kıyaslamak için iki akşam harcadım; sonra bir metre öteden, bir dizüstü menteşesine konuştuğumu fark ettim; on iki dolarlık bir mikrofon, fazladan iki gigabayttan daha fazlasını düzeltti. Bir akşamı üç gigabaytlık bir model indirmeye harcamadan önce, yirmi doları donanıma harcayın. Önemli işler için dökümü okuyun. Bir Slack mesajı için gönderip geçin.

Yerel mi bulut mu: sesinizin nereye gittiği önemlidir

Sesinizin nereye gittiği, en çok önem taşıyan karardır ve doğrulukla hiçbir ilgisi yoktur.

Bir bulut transkripsiyon aracı sesinizi bir şirketin sunucularına gönderir, modeli orada çalıştırır ve metni geri yollar. Yerel bir araç ise modeli bir kez indirir ve kendi makinenizde çalıştırır. Ondan sonra çevrimdışı çalışır ve hiçbir şey bilgisayarınızdan ayrılmaz. Whisper by Remskill ikisini de yapar ve geçiş tek bir anahtardır. Yerel modda ses tamamen sizin makinenizde işlenir ve hiçbir sunucuya hiçbir şey gönderilmez. Bulut modunda ise ses, doğrudan bilgisayarınızdan kendi API anahtarınız aracılığıyla OpenAI'ye gider ve biz hiçbir zaman arada değiliz.

Whisper
Gerçek Whisper uygulaması, canlı çalışırken — Yerel ve Bulut yüzeyleri tek bir pencerede. Ayarlar'a girin ve bir motor seçin; yerel ile bulut arasındaki geçiş tek bir anahtar.

Burada bir bayrak dikeceğim, çünkü pazarlama sayfaları dikmeyecek: yalnızca-bulut dikte, dökülmeyi bekleyen bir gizlilik felaketidir. Bir keresinde birlikte çalıştığım bir ekip, bir yükleniciye dahili bir bulut-yapay zeka dikte prototipi yaptırmıştı. Her sözce için API'yi çağırıyordu; "akıllı yeniden deneme" mantığı fazla agresif olduğu için dört kez yeniden dökülen ayakta toplantı kayıtları da dahil. Yönetici çeyreğin sonunda maliyet panosunu açtı ve beş haneli bir fatura buldu. Yüklenicinin çözümü "istemi optimize etmek" oldu. CFO'nun çözümü ise "zaten notunu aldığımız toplantıları bir sunucuya göndermeyi bırakmak" oldu. Patronunuzun maaş tablosu, çocuğunuzun okuluna yazdığınız e-posta, kaleme aldığınız hukuki dilekçe — sırf sesinizle yazmak istediniz diye bunların hiçbiri bir tedarikçinin günlüklerinde yer almamalı. Dizüstünüzde zaten bir mikrofon ve bir CPU var. Çoğu paragraf için aradaki döngüde bir sunucuya ihtiyacı yok. Tüm gerekçeyi isterseniz, çevrimdışı konuşmadan metne rehberimizde yazdık.

Yine de bulut kötü bir karakter değil. Bir ödünleşme. Bulut modu size en yeni OpenAI modellerini, web erişimini ve sıfır donanım yükünü verir. Yerel ise gizlilik ve çevrimdışı güvenilirlik verir. Mesele birinin doğru olması değil. Mesele, bunu sonradan keşfetmek değil de bilinçli olarak seçmeniz; kayıtlarınızın bir başkasının diskinde yaşadığını iş işten geçtikten sonra öğrenmemeniz.

Bilmeye değer diğer araçlar

Her derlemede aynı isimleri göreceksiniz ve net şeritlere ayrılıyorlar.

AraçŞeritBilinmesi gereken tek şey
Otter.aiToplantı notlarıAyda 300 ücretsiz dakika, özetler ve konuşmacı etiketleri; altı adlandırılmış dil.
RevDosya yükleme + insanÜcretsiz yapay zeka kademesi ayda 45 dakika; önemli sesler için insan transkripsiyoncular satar.
OpenAI WhisperAçık kaynaklı modelMIT lisanslı; diğer araçların çoğunun çalıştırdığı motor, bitmiş bir uygulama değil.
OpenAI bulut API'siGeliştirici API'si25 MB yükleme sınırı; gpt-4o-transcribe ve whisper-1; dakika başına ücret.
Notta, Sonix, Fireflies, Descript, RiversideKarışıkToplantı ve düzenleme odaklı; güncel sınırlar için her aracın kendi sayfasına bakın.
Her derlemede aynı isimler, kendi şeritlerine ayrılmış. Çoğu toplantı ya da düzenleme aracı ve çoğu, markalamanın altında bir Whisper ailesi modeli çalıştırıyor.

Şu son satıra dair bir not: bu beşinin her birinin sık sık değişen kendi fiyatlandırma ve dil ayrıntıları var, bu yüzden bugün kendi sayfalarına karşı doğrulamadığım sayıları aktarmayacağım. Ama örüntü geçerliliğini koruyor: bunların çoğu toplantı ya da düzenleme aracı ve çoğu, markalamanın altında bir Whisper ailesi modeli çalıştırıyor.

Whisper by Remskill hepsinden farklı bir şeritte yer alıyor. Bir dikte aracı, bir toplantı not alıcısı değil. Kendimize, çalıştırdığımız açık kaynaklı modelin adını verdik; yalnızca-bulut dikte uygulamalarını karşılaştırdıysanız, Otter.ai alternatifi incelememiz ve daha geniş kapsamlı transkripsiyon yazılımı rehberi şeritleri daha ayrıntılı ele alıyor.

Bir yapay zeka transkripsiyon aracını tamamen ne zaman atlamalı

Üzerinde bir adalet heykelciği, diploma ve belgeler bulunan bir masa; elle transkripsiyonun kazandığı önemli işleri çağrıştırıyor

Bazen doğru araç hiç araç olmamasıdır. Ses önemli ve yasal olarak bağlayıcıysa (bir mahkeme ifadesi, bir tıbbi kayıt, düzenlemeye tabi bir başvuru), bir insana ödeme yapın. Rev'in insan servisi tam da bu yüzden var: bir sözleşmedeki yüzde beşlik bir hata oranı bir yazım yanlışı değil, bir davadır. Ve tek ihtiyacınız 30 kelimelik bir metin yanıtıysa, telefonunuza ya da Mac'inize zaten gömülü dikte ücretsiz ve yeterlidir; hiçbir şey indirmeyin. Yapay zeka transkripsiyonu yerini ortada kazanır: bir mesajdan uzun, bir ifadeden daha az önemli, çoğunlukla bir kısayola değecek kadar. O bandın dışında, bir kişiye ya da cihazınızda zaten bulunan ücretsiz şeye uzanın.

Maliyeti ne kadar

Bu kategorideki fiyatlandırma ücretsizden gerçekten pahalıya kadar uzanıyor ve bu yelpaze size her aracın ne sattığını anlatıyor. Ücretsiz kademeler gerçek ama ölçülü — Otter ücretsiz planını ayda 300 dakikayla, Rev'in ücretsiz yapay zeka kademesini 45 dakikayla sınırlar ve açık kaynaklı Whisper modeli, kendiniz çalıştırmaya istekliyseniz sonsuza dek ücretsizdir. Bulut API'leri dakika başına ücret alır; bu da, kontrolden çıkan bir yeniden deneme döngüsü bir çeyreği beş haneli bir faturaya çevirene kadar sorun değildir. Whisper by Remskill, bir hesabınız olduktan sonra tüm yerel süreç için ücretsizdir, başlamak için ödeme yöntemi gerekmez; bulut özellikleri ise Whisper Pro'nun ardında yer alır. Kesin rakamlar, planlar ve Pro'nun neler içerdiği fiyatlandırma sayfasında — bir blog yazısına benim yazdığım bir sayıya güvenmek yerine canlı rakamı kontrol etmenizi tercih ederim.

Siz bunu okumayı bitirene kadar kızım üç e-posta dikte etmiş ve ayın neden bazen orada olmadığını bana iki kez sormuş olabilir. Teknoloji artık zor kısım değil. Geriye kalan tek gerçek seçim, sözlerinizin makinenizde mi kalacağı yoksa bir başkasınınkine bir yolculuğa mı çıkacağı — ve bu, kayda basmadan önce yapmaya değer bir seçim, sonrasında değil.

Sesinizi hiçbir yere göndermeden denemek ister misiniz?

Whisper'ı indirin, yerel modu seçin, kısayolu basılı tutun ve dökümün zaten içinde bulunduğunuz uygulamada belirmesini izleyin. Hiçbir şey makinenizden ayrılmaz.

Oturum açan her kullanıcı için ücretsiz yerel transkripsiyon. Pro, bulut özelliklerini ayrı bir denemeyle ekler.

Denys Medvediev'in fotoğrafı

Denys Medvediev

Destek e-postamızı okuyan kişi benim, büyük olasılıkla yanıtları dikte ederek.

Daha fazla okuma