Alibaba, hem geleneksel hem de açık uçlu problem çözme görevlerinin üstesinden gelmek için tasarlanmış büyük bir dil modeli (LLM) olan Marco-o1’i duyurdu.
Alibaba’nın MarcoPolo ekibinden Marco-o1, yapay zekanın karmaşık akıl yürütme zorluklarını (özellikle matematik, fizik, kodlama ve net standartların bulunmadığı alanlarda) ele alma becerisinde ileri doğru bir adımı temsil ediyor.
OpenAI’nin muhakeme ilerlemelerini temel alarak o1 modeliMarco-o1, Düşünce Zinciri (CoT) ince ayarı, Monte Carlo Ağaç Araması (MCTS) ve yeni yansıma mekanizmaları dahil olmak üzere birçok gelişmiş tekniği birleştirerek kendisini farklılaştırıyor. Bu bileşenler, modelin çeşitli alanlardaki problem çözme yeteneklerini geliştirmek için uyum içinde çalışır.
Geliştirme ekibi, Open-O1 CoT Veri Kümesinin filtrelenmiş bir versiyonu, sentetik bir Marco-o1 CoT Veri Kümesi ve özel bir Marco Talimat Veri Kümesi dahil olmak üzere birden fazla veri kümesini kullanarak kapsamlı bir ince ayar stratejisi uyguladı. Toplamda, eğitim külliyatı özenle seçilmiş 60.000’den fazla örnekten oluşmaktadır.
Model, çok dilli uygulamalarda özellikle etkileyici sonuçlar ortaya koydu. Testlerde Marco-o1, İngiliz MGSM veri setinde %6,17 ve Çin muadili üzerinde %5,60 oranında kayda değer doğruluk artışı elde etti. Model, özellikle gündelik ifadeler ve kültürel nüanslar ele alınırken, çeviri görevlerinde özellikle güçlü olduğunu gösterdi.
Modelin en yenilikçi özelliklerinden biri, MCTS çerçevesinde değişen eylem ayrıntılarını uygulamasıdır. Bu yaklaşım, modelin geniş adımlardan 32 veya 64 jetonlu daha kesin “mini adımlara” kadar farklı ayrıntı düzeylerinde akıl yürütme yollarını keşfetmesine olanak tanır. Ekip ayrıca, modelin kendi kendini değerlendirmesini ve mantığını yeniden gözden geçirmesini sağlayan ve karmaşık problem çözme senaryolarında doğruluğun artmasına yol açan bir yansıma mekanizması da tanıttı.
MCTS entegrasyonunun özellikle etkili olduğu kanıtlandı; modelin tüm MCTS ile geliştirilmiş versiyonları, temel Marco-o1-CoT versiyonuna göre önemli gelişmeler gösterdi. Ekibin farklı eylem ayrıntılarıyla yaptığı deneyler ilginç modelleri ortaya çıkardı, ancak en uygun stratejiyi belirlemenin daha fazla araştırma ve daha kesin ödül modelleri gerektirdiğini belirtiyorlar.
Geliştirme ekibi, modelin mevcut sınırlamaları konusunda şeffaf davrandı ve Marco-o1’in güçlü muhakeme özellikleri sergilemesine rağmen tam olarak gerçekleştirilmiş bir “o1” modelinin hala yetersiz olduğunu kabul etti. Bu sürümün bitmiş bir üründen ziyade sürekli bir iyileştirme taahhüdünü temsil ettiğini vurguluyorlar.
Alibaba ekibi ileriye dönük olarak, Marco-o1’in karar verme yeteneklerini geliştirmek için Sonuç Ödül Modellemesi (ORM) ve Süreç Ödül Modellemesi (PRM) dahil olmak üzere ödül modellerini dahil etme planlarını duyurdu. Ayrıca modelin problem çözme yeteneklerini daha da geliştirmek için takviyeli öğrenme tekniklerini de araştırıyorlar.
Marco-o1 modeli ve ilgili veri kümeleri, kapsamlı dokümantasyon ve uygulama kılavuzlarıyla birlikte Alibaba’nın GitHub deposu aracılığıyla araştırma topluluğunun kullanımına sunuldu. Sürüm, hem doğrudan model kullanımı hem de FastAPI aracılığıyla dağıtım için kurulum talimatlarını ve örnek komut dosyalarını içerir.
(Fotoğraf: Alina Grubnyak)
Ayrıca bakınız: Yeni yapay zeka eğitim teknikleri mevcut zorlukların üstesinden gelmeyi amaçlıyor
Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.