Kurumsal uygulamalara yönelik üretken yapay zekanın lider geliştiricisi Galileo, en son sürümünü yayınladı Halüsinasyon Endeksi.
Retrieval Augmented Generation’a (RAG) odaklanan değerlendirme çerçevesi, OpenAI, Anthropic, Google ve Meta dahil olmak üzere büyük oyuncuların 22 önde gelen Nesil Yapay Zeka Yüksek Lisans Programını değerlendirdi. Bu yılın endeksi önemli ölçüde genişledi ve son sekiz ayda hem açık hem de kapalı kaynaklı LLM’lerdeki hızlı büyümeyi yansıtacak şekilde 11 yeni model eklendi.
Galileo CEO’su ve Kurucu Ortağı Vikram Chatterji şunları söyledi: “Günümüzün hızla gelişen yapay zeka ortamında, geliştiriciler ve kuruluşlar kritik bir zorlukla karşı karşıyadır: maliyet, doğruluk ve güvenilirliği dengelerken üretken yapay zekanın gücünden nasıl yararlanılacağı. Mevcut kıyaslamalar genellikle gerçek dünyadaki uygulamalardan ziyade akademik kullanım senaryolarına dayanmaktadır.”
Endeks, 1.000 ila 100.000 jeton arasında değişen çeşitli girdi uzunluklarındaki çıktı hatalarını kontrol etmek için Galileo’nun tescilli değerlendirme ölçütü olan bağlam bağlılığını kullandı. Bu yaklaşım, işletmelerin yapay zeka uygulamalarında fiyat ve performansı dengeleme konusunda bilinçli kararlar almasına yardımcı olmayı amaçlamaktadır.
Endeksin önemli bulguları arasında şunlar yer alıyor:
- Antropik Claude 3.5 Sone kısa, orta ve uzun bağlam senaryolarında sürekli olarak mükemmele yakın puanlar alarak en iyi genel performans gösteren model olarak ortaya çıktı.
- Google’ın İkizler 1.5 Flaş maliyet etkinliği açısından en iyi performans gösteren model olarak sıralandı ve tüm görevlerde güçlü performans sağladı.
- Alibaba’nın Qwen2-72B-Instruct’ı Özellikle kısa ve orta bağlam senaryolarında üstün performans göstererek en iyi açık kaynak modeli olarak öne çıktı.
Endeks ayrıca LLM ortamındaki çeşitli eğilimleri de vurguladı:
- Açık kaynaklı modeller kapalı kaynak muadilleriyle aradaki farkı hızla kapatıyor ve daha düşük maliyetlerle gelişmiş halüsinasyon performansı sunuyor.
- Akım RAG Yüksek Lisans Dereceleri kaliteden veya doğruluktan ödün vermeden, genişletilmiş içerik uzunluklarının işlenmesinde önemli gelişmeler olduğunu göstermektedir.
- Daha küçük modeller bazen daha büyük olanlardan daha iyi performans gösteriyor; bu da verimli tasarımın ölçekten daha önemli olabileceğini gösteriyor.
- Güçlü sanatçıların ortaya çıkışı ABD dışındanMistral’ın Mistral-large ve Alibaba’nın qwen2-72b-instruct’ı gibi, LLM geliştirmede artan küresel rekabete işaret ediyor.
Claude 3.5 Sonnet ve Gemini 1.5 Flash gibi kapalı kaynaklı modeller, özel eğitim verileri nedeniyle liderliğini korurken, endeks, ortamın hızla geliştiğini ortaya koyuyor. Açık kaynaklı Gemma-7b modelinin düşük performans göstermesi, kapalı kaynaklı Gemini 1.5 Flash’ın ise sürekli olarak üst sıralarda yer almasıyla Google’ın performansı özellikle dikkat çekiciydi.
Yapay zeka endüstrisi, üretime hazır Nesil Yapay Zeka ürünlerinin önünde büyük bir engel olarak halüsinasyonlarla boğuşmaya devam ederken, Galileo’nun Halüsinasyon Endeksi, kendi özel ihtiyaçları ve bütçe kısıtlamaları için doğru modeli benimsemek isteyen kuruluşlara değerli bilgiler sağlıyor.
Ayrıca bakınız: Senatörler güvenlik ve istihdam uygulamaları konusunda OpenAI’yi araştırıyor
Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.
Google’a antropik gönderi: Yapay zeka halüsinasyonlarına karşı kim kazanıyor? İlk olarak AI News’te göründü.