Amazon’daki araştırmacılar, “ortaya çıkan” yetenekler sergilediğini iddia ettikleri metinden konuşmaya yönelik yeni bir büyük dil modeli (LLM) geliştirdiler.
BASE TTS adı verilen 980 milyon parametreli model, şimdiye kadar oluşturulmuş en büyük metinden konuşmaya modelidir. Araştırmacılar, belirli bir ölçeği aştıklarında doğal dil işleme modellerinde meydana gelen performans sıçramalarının aynısını gözlemleyip gözlemleyemeyeceklerini görmek için çeşitli boyutlardaki modelleri 100.000 saate kadar kamuya açık konuşma verileri üzerinde eğitti.
10.000 saatlik ses ile eğitilmiş orta büyüklükteki 400 milyon parametreli modellerinin zorlu test cümlelerinde çok yönlülük ve sağlamlık açısından belirgin bir gelişme gösterdiğini buldular.
Test cümleleri, normalde metinden konuşmaya sistemlerini tetikleyen bileşik isimler, duygular, yabancı kelimeler ve noktalama işaretleri gibi karmaşık sözcüksel, sözdizimsel ve dil dışı özellikler içeriyordu. BASE TTS bunları mükemmel bir şekilde ele almasa da, mevcut modellere göre vurgu, tonlama ve telaffuzda önemli ölçüde daha az hata yaptı.
Araştırmacılar, “Bu cümleler, BASE TTS’nin hiçbiri açıkça gerçekleştirmek üzere eğitilmediği zorlu görevleri içerecek şekilde tasarlandı” diye açıkladı.
Modelin 100.000 saatlik ses ile eğitilmiş en büyük 980 milyon parametreli versiyonu, 400 milyon parametreli versiyonun ötesinde başka yetenekler göstermedi.
Deneysel bir süreç olsa da, BASE TTS’nin oluşturulması, bu modellerin ölçeklendikçe yeni çok yönlülük eşiklerine ulaşabildiğini gösteriyor; bu, konuşmaya dayalı yapay zeka için cesaret verici bir işaret. Araştırmacılar, ortaya çıkan yetenekler için en uygun model boyutunu belirlemek amacıyla daha fazla çalışma planlıyor.
Model aynı zamanda hafif ve akıcı olacak, duygusal ve prozodik verileri ayrı ayrı paketleyecek şekilde tasarlandı. Bu, doğal ses veren konuşma sesinin düşük bant genişliğine sahip bağlantılar üzerinden iletilmesine izin verebilir.
BASE TTS belgesinin tamamını arXiv’de bulabilirsiniz Burada.
(Fotoğrafı çeken Nik Açık Sıçratmayı kaldır)
Ayrıca bakınız: OpenAI, belirli kullanıcılara ChatGPT belleği sunuyor
Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.