DeepSeek-R1 akıl yürütme modelleri performans açısından OpenAI’ye rakip oluyor

Date:

Derin Arama karmaşık muhakeme görevlerinin üstesinden gelmek üzere tasarlanan birinci nesil DeepSeek-R1 ve DeepSeek-R1-Zero modellerini tanıttı.

DeepSeek-R1-Zero, bir ön adım olarak denetimli ince ayara (SFT) dayanmaksızın, yalnızca büyük ölçekli takviyeli öğrenme (RL) yoluyla eğitilir. DeepSeek’e göre bu yaklaşım, kendini doğrulama, yansıtma ve kapsamlı düşünce zincirlerinin (CoT) oluşturulması da dahil olmak üzere “çok sayıda güçlü ve ilginç akıl yürütme davranışının” doğal olarak ortaya çıkmasına yol açtı.

“Özellikle, [DeepSeek-R1-Zero] DeepSeek araştırmacıları, LLM’lerin muhakeme yeteneklerinin SFT’ye gerek kalmadan tamamen RL aracılığıyla teşvik edilebileceğini doğrulayan ilk açık araştırmadır” dedi. Bu kilometre taşı yalnızca modelin yenilikçi temellerini vurgulamakla kalmıyor, aynı zamanda akıl yürütme yapay zekasında RL odaklı ilerlemelerin önünü açıyor.

Ancak DeepSeek-R1-Zero’nun yetenekleri belirli sınırlamalarla birlikte gelir. Temel zorluklar arasında gerçek dünya uygulamalarında önemli engeller oluşturabilecek “sonsuz tekrar, zayıf okunabilirlik ve dil karışımı” yer alıyor. Bu eksiklikleri gidermek için DeepSeek amiral gemisi modelini geliştirdi: DeepSeek-R1.

DeepSeek-R1’le tanışın

DeepSeek-R1, RL eğitimi öncesindeki soğuk başlangıç ​​verilerini birleştirerek öncülünün üzerine inşa edilmiştir. Bu ek ön eğitim adımı, modelin akıl yürütme yeteneklerini geliştirir ve DeepSeek-R1-Zero’da belirtilen sınırlamaların çoğunu çözer.

DeepSeek-R1, özellikle matematik, kodlama ve genel akıl yürütme görevlerinde OpenAI’nin çok övülen o1 sistemiyle karşılaştırılabilir bir performans elde ederek önde gelen bir rakip olarak yerini sağlamlaştırıyor.

DeepSeek, altı daha küçük damıtılmış modelle birlikte hem DeepSeek-R1-Zero hem de DeepSeek-R1’i açık kaynak olarak kullanmayı seçti. Bunlar arasında DeepSeek-R1-Distill-Qwen-32B olağanüstü sonuçlar gösterdi; hatta birçok kıyaslamada OpenAI’nin o1-mini’sinden daha iyi performans gösterdi.

  • MATH-500 (Pass@1): DeepSeek-R1 %97,3 elde ederek OpenAI (%96,4) ve diğer önemli rakipleri gölgede bıraktı.
  • LiveCodeBench (Pass@1-COT): DeepSeek-R1-Distill-Qwen-32B’nin damıtılmış versiyonu, daha küçük modeller arasında göze çarpan bir performansla %57,2 puan aldı.
  • AIME 2024 (Pass@1): DeepSeek-R1 %79,8’e ulaşarak matematiksel problem çözmede etkileyici bir standart belirledi.

Daha geniş sektöre fayda sağlayacak bir boru hattı

DeepSeek, denetimli ince ayar ve takviyeli öğrenmenin bir kombinasyonunu entegre eden muhakeme modeli geliştirmeye yönelik titiz hattına ilişkin içgörüleri paylaştı.

Şirkete göre süreç, temel akıl yürütme ve akıl yürütme dışı yetenekleri oluşturmak için iki SFT aşamasının yanı sıra gelişmiş akıl yürütme modellerini keşfetmek ve bu yetenekleri insan tercihleriyle hizalamak için özel olarak tasarlanmış iki RL aşamasını içeriyor.

DeepSeek, metodolojilerinin yapay zeka sektöründe gelecekteki ilerlemelere ilham verme potansiyeline değinerek, “Bu boru hattının daha iyi modeller yaratarak sektöre fayda sağlayacağına inanıyoruz” dedi.

RL odaklı yaklaşımlarının göze çarpan başarılarından biri, DeepSeek-R1-Zero’nun önceden insan eğitimi olmadan karmaşık akıl yürütme modellerini yürütme yeteneğidir; bu, açık kaynaklı yapay zeka araştırma topluluğu için bir ilktir.

Damıtmanın önemi

DeepSeek araştırmacıları aynı zamanda damıtmanın (muhakeme yeteneklerini daha büyük modellerden daha küçük, daha verimli olanlara aktarma süreci) önemini de vurguladı; bu strateji, daha küçük konfigürasyonlar için bile performans kazanımlarının kilidini açan bir stratejidir.

DeepSeek-R1’in 1.5B, 7B ve 14B versiyonları gibi daha küçük damıtılmış versiyonları, niş uygulamalarda kendine yer edinmeyi başardı. Damıtılmış modeller, karşılaştırılabilir boyutlardaki modellerde RL eğitimi yoluyla elde edilen sonuçlardan daha iyi performans gösterebilir.

Araştırmacılar için bu damıtılmış modeller, Qwen2.5 ve Llama3 mimarilerini destekleyen, 1,5 milyardan 70 milyara kadar parametreyi kapsayan konfigürasyonlarda mevcuttur. Bu esneklik, kodlamadan doğal dil anlamaya kadar çok çeşitli görevlerde çok yönlü kullanıma olanak tanır.

DeepSeek, deposu ve ağırlıkları için MIT Lisansını benimseyerek ticari kullanım ve alt değişikliklere yönelik izinleri genişletti. Diğer büyük dil modellerini (LLM’ler) eğitmek için DeepSeek-R1’in kullanılması gibi türev çalışmalara izin verilmektedir. Ancak belirli damıtılmış modellerin kullanıcıları, Apache 2.0 ve Llama3 lisansları gibi orijinal temel modellerin lisanslarıyla uyumluluğu sağlamalıdır.

(Fotoğraf: Prateek Katyal)

Ayrıca bakınız: Microsoft, MatterGen ile malzeme keşfini ilerletiyor

Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

Etiketler: ai, yapay zeka, kıyaslama, karşılaştırma, deepseek, deepseek-r1, büyük dil modelleri, llm, modeller, muhakeme, muhakeme modelleri, takviyeli öğrenme, test

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Subscribe

spot_img

Popular

More like this
Related