Antropik gelişmiş Claude 3.5 Sonnet modeli ve Claude 3.5 Haiku’nun tanıtılmasının yanı sıra genel beta sürümünde bir “bilgisayar kontrolü” özelliği de dahil olmak üzere yapay zeka portföyünde yükseltmeler yaptığını duyurdu.
Yükseltilmiş Claude 3.5 Sonnet, özellikle kodlama yeteneklerindeki kayda değer ilerlemelerle birlikte, tüm ölçümlerde önemli iyileştirmeler sergiliyor. Model, SWE-bench Verified değerlendirmesinde etkileyici bir %49,0 elde ederek OpenAI’nin teklifleri ve uzman kodlama sistemleri de dahil olmak üzere halka açık tüm modelleri geride bıraktı.
Öncü bir gelişme olarak Anthropic, Claude’un bilgisayarlarla insanlarla benzer şekilde etkileşime girmesini sağlayan bilgisayar kullanım işlevselliğini tanıttı: ekranları görüntüleme, imleçleri kontrol etme, tıklama ve yazma. Şu anda genel beta aşamasında olan bu yetenek, Claude 3.5 Sonnet’in bu tür işlevsellik sunan ilk öncü yapay zeka modeli olduğunu gösteriyor.
Birçok büyük teknoloji firması bu yeni yetenekleri uygulamaya başladı bile.
GitLab, “Yükseltilmiş Claude 3.5 Sonnet, yapay zeka destekli kodlamada önemli bir sıçramayı temsil ediyor” diyor ve ek gecikme olmadan kullanım senaryolarında %10’a kadar daha güçlü muhakeme kaydetti.
Bu ayın sonlarında piyasaya sürülmesi planlanan yeni Claude 3.5 Haiku modeli, önceki Claude 3 Opus’un performansını yakalarken maliyet etkinliğini ve hızı da koruyor. Orijinal Claude 3.5 Sonnet ve GPT-4o da dahil olmak üzere birçok rakip modelden daha iyi performans göstererek SWE-bench Verified’da dikkate değer bir şekilde %40,6 elde etti.
Anthropic, bilgisayar kontrol yetenekleriyle ilgili olarak ölçülü bir yaklaşım benimsemiş, mevcut sınırlamaları kabul ederken potansiyeli de vurgulamıştır. Bilgisayar arayüzü navigasyonunu değerlendiren OSWorld kıyaslamasında Claude 3.5 Sonnet, yalnızca ekran görüntüsü testlerinde %14,9 elde ederek bir sonraki en iyi sistemin %7,8’lik performansını önemli ölçüde geride bıraktı.
Gelişmeler, hem ABD hem de Birleşik Krallık Yapay Zeka Güvenlik Enstitüleri ile ortaklaşa yürütülen dağıtım öncesi testlerle sıkı güvenlik değerlendirmelerinden geçti. Anthropic, Sorumlu Ölçeklendirme Politikasında ayrıntılı olarak açıklanan ASL-2 Standardının bu modeller için uygun olmaya devam ettiğini savunuyor.
(İmaj Kredisi: Antropik)
Ayrıca bakınız: IBM, açık kaynak taahhüdüyle Granite 3.0 yapay zeka modellerini tanıtıyor
Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.