Açık dil modelleri için çıtayı yükseltiyoruz

Date:

Ai2 Yapay zekanın demokratikleşmesini ilerleten ve açık ve özel çözümler arasındaki boşluğu daraltan bir açık kaynak dil modelleri ailesi olan OLMo 2’yi piyasaya sürüyor.

7B ve 13B parametre versiyonlarında mevcut olan yeni modeller, 5 trilyona kadar token üzerinde eğitiliyor ve karşılaştırılabilir tamamen açık modellerle eşleşen veya bunları aşan performans seviyeleri sergilerken, İngilizce akademik kıyaslamalarda Llama 3.1 gibi açık ağırlıklı modellerle rekabet edebiliyor.

Ai2, “İlk OLMo’nun Şubat 2024’te piyasaya sürülmesinden bu yana, açık dil modeli ekosisteminde hızlı bir büyüme ve açık ile özel modeller arasındaki performans farkının daraldığını gördük” diye açıkladı.

Geliştirme ekibi, bu iyileştirmeleri, geliştirilmiş eğitim istikrar önlemleri, aşamalı eğitim yaklaşımları ve kendi çalışmalarından elde edilen en son teknolojiye sahip eğitim sonrası metodolojiler dahil olmak üzere çeşitli yeniliklerle elde etti. Tülü 3 çerçeve. Dikkate değer teknik gelişmeler arasında parametrik olmayan katman normundan RMSNorm’a geçiş ve döner konumsal yerleştirmenin uygulanması yer alıyor.

OLMo 2 modeli eğitimde atılım

Eğitim süreci karmaşık iki aşamalı bir yaklaşım kullandı. İlk aşamada DCLM, Dolma, Starcoder ve Proof Pile II’den alınan yaklaşık 3,9 trilyon tokenden oluşan OLMo-Mix-1124 veri seti kullanıldı. İkinci aşamada, Dolmino-Mix-1124 veri kümesi aracılığıyla yüksek kaliteli web verilerinin ve alana özgü içeriğin dikkatle seçilmiş bir karışımı kullanıldı.

Serinin en yetenekli modeli olan OLMo 2-Instruct-13B çeşidi özellikle dikkat çekicidir. Model, çeşitli kıyaslamalarda Qwen 2.5 14B talimat, Tülu 3 8B ve Llama 3.1 8B talimat modellerine kıyasla üstün performans sergiliyor.

OLMo 2 açık geniş dil modelini Mistral, Qwn, Llama, Gemma ve daha fazlası gibi diğer modellerle karşılaştıran karşılaştırmalar.
(Kredi: Ai2)

Açık bilime bağlılık

Açık bilime olan bağlılığını güçlendiren Ai2, ağırlıklar, veriler, kodlar, tarifler, ara kontrol noktaları ve talimatlara göre ayarlanmış modeller dahil olmak üzere kapsamlı belgeler yayınladı. Bu şeffaflık, sonuçların daha geniş yapay zeka topluluğu tarafından tam olarak denetlenmesine ve çoğaltılmasına olanak tanır.

Sürüm ayrıca OLMES (Açık Dil Modelleme Değerlendirme Sistemi) adı verilen ve bilgiyi hatırlama, sağduyulu akıl yürütme ve matematiksel akıl yürütme gibi temel yetenekleri değerlendirmek için tasarlanmış 20 kıyaslama içeren bir değerlendirme çerçevesi de sunuyor.

OLMo 2, açık kaynaklı yapay zeka geliştirmede çıtayı yükseltiyor ve şeffaflığı ve erişilebilirliği korurken potansiyel olarak alandaki inovasyonun hızını artırıyor.

(Fotoğraf: Rick Barrett)

Ayrıca bakınız: OpenAI, yeni kırmızı ekip oluşturma yöntemleriyle yapay zeka güvenliğini artırıyor

Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

Etiketler: ai2, kıyaslama, karşılaştırma, büyük dil modelleri, llm, modeller, olmo, açık kaynak, açık kaynak, eğitim

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Subscribe

spot_img

Popular

More like this
Related