Alibaba’daki Qwen ekibi, çok daha büyük Deepseek-R1’e rakip performans gösteren 32 milyar parametre AI modeli olan QWQ-32B’yi tanıttı. Bu atılım, sağlam temel modellerinde takviye öğrenme (RL) ölçeklendirme potansiyelini vurgulamaktadır.
Qwen ekibi, ajan yeteneklerini akıl yürütme modeline başarıyla entegre etti, bu da eleştirel düşünmesini, araçları kullanmasını ve muhakemesini çevresel geri bildirimlere göre uyarlamasını sağladı.
Ekip, “Ölçeklendirme RL, model performansını geleneksel ön ve eğitim sonrası yöntemlerin ötesinde geliştirme potansiyeline sahiptir” dedi. “Son çalışmalar RL’nin modellerin akıl yürütme yeteneklerini önemli ölçüde artırabileceğini gösterdi.”
QWQ-32B, geniş dünya bilgisi üzerinde önyargılı sağlam temel modellerine uygulandığında RL’nin etkinliğinin bir kanıtı olan 671 milyar parametreye (37 milyar aktif olarak) sahip olan Deepseek-R1 ile karşılaştırılabilir. Bu dikkate değer sonuç, RL’nin model boyutu ve performans arasındaki boşluğu kapatma potansiyelinin altını çizmektedir.
Model, matematiksel akıl yürütme, kodlama yeterliliği ve genel problem çözme yeteneklerini değerlendirmek için tasarlanmış AIME24, LiveCodebench, Livebench, Ifeval ve BFCL dahil olmak üzere bir dizi ölçüt boyunca değerlendirilmiştir.
Sonuçlar, QWQ-32B’nin Deepseek-R1-Distlineed-QWEN-32B, Deepseek-R1-Distline-Llama-70b, O1-mini ve orijinal Deepseek-R1 dahil olmak üzere diğer önde gelen modellere kıyasla performansını vurgulamaktadır.
Benchmark Sonuçları:
- AIME24: QWQ-32B, Deepseek-R1-6718’in 79.8’inin biraz gerisinde, ancak Openal-O1-Mini’nin 63.6 ve damıtılmış modellerin önemli ölçüde önünde 79.5’e ulaştı.
- LiveCodebench: QWQ-32B, Deepseek-R1-6718’in 65.9’uyla tekrar eşleşen 63.4 puan aldı ve damıtılmış modelleri ve Openal-O1-Mini’nin 53.8’ini aştı.
- Livebench: QWQ-32B 73.1’e ulaştı, Deepseek-R1-6718 71.6 skoru ve damıtılmış modellerden daha iyi performans gösterdi ve Openal-O1-Mini’nin 57.5.
- Ifeval: QWQ-32B 83.9 puan aldı, Deepseek-R1-6718’in 83.3’üne çok yakın ve damıtılmış modellere ve Openal-O1-Mini’nin 59.1’e liderlik etti.
- BFCL: QWQ-32B, Deepseek-R1-6718 skor 62.8 ile 66.4 elde etti ve damıtılmış modeller ve openal-o1-mini 49.3 üzerinde bir kurşun gösterdi.
Qwen ekibinin yaklaşımı, soğuk bir başlangıç kontrol noktası ve sonuç tabanlı ödüller tarafından yönlendirilen çok aşamalı bir RL süreci içeriyordu. İlk aşama, matematik ve kodlama görevleri için RL’nin ölçeklendirilmesine, doğruluk doğrulayıcılarını ve kod yürütme sunucularını kullanmaya odaklandı. İkinci aşama, genel ödül modellerinden ve kural tabanlı doğrulayıcılardan ödülleri içeren genel yeteneklere genişledi.
Ekip, “Az miktarda adımla RL eğitiminin bu aşamasının, matematik ve kodlamada önemli performans düşüşü olmadan, talimat takip, insan tercihi ile uyum ve ajan performansı gibi diğer genel yeteneklerin performansını artırabileceğini görüyoruz” dedi.
QWQ-32B açık ağırlık ve mevcut Sarılma Yüzü Ve Modeller Apache 2.0 lisansı altında ve ayrıca Qwen Chat ile erişilebilir. Qwen ekibi bunu akıl yürütme yeteneklerini geliştirmek için RL’nin ölçeklendirilmesinde ilk adım olarak görüyor ve ajanların uzun horizon akıl yürütmesi için RL ile entegrasyonunu daha fazla keşfetmeyi amaçlıyor.
Ekip, “Yeni nesil Qwen’i geliştirmeye çalışırken, daha güçlü temel modellerini ölçeklendirilmiş hesaplama kaynakları tarafından desteklenen RL ile birleştirmenin bizi yapay genel zeka (AGI) elde etmeye daha yakın olacağından eminiz” dedi.
Ayrıca bakınız: Deepgram Nova-3 Medical: AI Konuşma Modeli Sağlık Hizmetleri Transkripsiyon Hatalarını Keser

Endüstri liderlerinden yapay zeka ve büyük veriler hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, diğer önde gelen etkinliklerle birlikte toplanır. Akıllı Otomasyon Konferansı– Blockx– Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
Techforge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.