AI çıkarımının açık kaynaklı verimlilikle ölçeklendirilmesi

Date:

Nvidia AI fabrikalarında akıl yürütme modellerini hızlandırmak ve ölçeklendirmek için tasarlanmış açık kaynaklı bir çıkarım yazılımı olan Dynamo’yu başlattı.

Bir GPU filosunda AI çıkarım taleplerini verimli bir şekilde yönetmek ve koordine etmek, AI fabrikalarının optimal maliyet etkinliği ile çalışabilmesini ve token gelirinin üretilmesini en üst düzeye çıkarabilmesini sağlamak için kritik bir çabadır.

AI akıl yürütmesi giderek daha yaygın hale geldikçe, her AI modelinin her istemi ile on binlerce jeton üretmesi ve esasen “düşünme” sürecini temsil etmesi beklenmektedir. Bu nedenle, maliyetini eşzamanlı olarak azaltırken çıkarım performansının arttırılması, büyümeyi hızlandırmak ve hizmet sağlayıcıları için gelir fırsatlarını artırmak için çok önemlidir.

Yeni nesil AI çıkarım yazılımı

NVIDIA Triton çıkarım sunucusunu başaran Nvidia Dynamo, yeni nesilleri temsil ediyor AI çıkarım Yazılım, AI fabrikaları için akıl yürütme AI modellerini konuşlandıran jeton gelir üretimini en üst düzeye çıkarmak için özel olarak tasarlanmıştır.

Dinamo, potansiyel olarak binlerce GPU arasında çıkarım iletişimini düzenler ve hızlandırır. Büyük dil modellerinin (LLMS) işleme ve üretim aşamalarını farklı GPU’lara ayıran bir teknik olan ayrıştırılmış porsiyon kullanır. Bu yaklaşım, her aşamanın bağımsız olarak optimize edilmesini sağlar, özel hesaplama ihtiyaçlarına hitap eder ve GPU kaynaklarının maksimum kullanımını sağlar.

NVIDIA’nın kurucusu ve CEO’su Jensen Huang, “Dünyanın dört bir yanındaki endüstriler, farklı şekillerde düşünmek ve öğrenmek için AI modellerini eğitiyorlar, onları zamanla daha sofistike hale getiriyor” dedi. “Özel akıl yürütme yapay zekasının geleceğini sağlamak için NVIDIA Dynamo, bu modellerin ölçeklendirilmesine yardımcı olur, AI fabrikalarında maliyet tasarrufu ve verimlilikleri artırır.”

Aynı sayıda GPU kullanan Dynamo, Nvidia’nın mevcut hopper platformunda lama modelleri sunan AI fabrikalarının performansını ve gelirini iki katına çıkarma yeteneğini gösterdi. Ayrıca, Deepseek-R1 modelini büyük bir GB200 NVL72 rafları kümesinde çalıştırırken, Nvidia Dynamo’nun akıllı çıkarım optimizasyonları GPU başına 30 katın üzerinde üretilen token sayısını artırdığı gösterilmiştir.

Çıkarım performansındaki bu iyileştirmeleri elde etmek için NVIDIA Dynamo, verimi artırmak ve operasyonel maliyetleri azaltmak için tasarlanmış birkaç temel özellik içerir.

Dinamo, dalgalanan istek hacimlerine ve türlerine uyum sağlamak için GPU’ları gerçek zamanlı olarak dinamik olarak ekleyebilir, kaldırabilir ve yeniden tahsis edebilir. Yazılım ayrıca, yanıt hesaplamalarını en aza indirmek ve sorguları verimli bir şekilde yönlendirmek için en uygun olan büyük kümelerde belirli GPU’ları belirleyebilir. Dynamo, çıkarım verilerini gerektiğinde hızlı bir şekilde alırken daha uygun maliyetli bellek ve depolama cihazlarına boşaltabilir, böylece genel çıkarım maliyetlerini en aza indirebilir.

Nvidia Dynamo, Pytorch, Sglang, Nvidia Tensorrt-LLM ve VLLM gibi popüler çerçevelerle geniş uyumluluk sunan tamamen açık kaynaklı bir proje olarak yayınlanıyor. Bu açık yaklaşım, ayrıştırılmış çıkarım altyapılarında AI modellerine hizmet etmek için yeni yöntemler geliştirme ve optimize etme konusunda işletmeleri, girişimleri ve araştırmacıları desteklemektedir.

Nvidia, Dynamo’nun büyük bulut sağlayıcıları ve AWS, Cohere, CoreWeave, Dell, Fireworks gibi AI yenilikçileri, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, birlikte AI ve Vast gibi AI Yenilikçileri arasında AI çıkarımının benimsenmesini hızlandırmasını bekliyor.

Nvidia Dynamo: Süper Şarap Çıkarımı ve Ajan AI

Nvidia dinamosunun önemli bir yeniliği, çıkarım sistemlerinin bellekte tuttuğu bilgisini, KV önbelleği olarak bilinen önceki isteklere hizmet etmesini sağladığı bilgisini haritalayarak, potansiyel olarak binlerce GPU arasında.

Daha sonra yazılım, GPU’lara en iyi bilgi eşleşmesine sahip olan yeni çıkarım isteklerini akıllıca yönlendirir, maliyetli yeniden hesaplamalardan etkili bir şekilde kaçınır ve diğer GPU’ları yeni gelen istekleri yerine getirmek için serbest bırakır. Bu akıllı yönlendirme mekanizması verimliliği önemli ölçüde artırır ve gecikmeyi azaltır.

“Aylık yüz milyonlarca talebi ele almak için, performans, güvenilirlik ve iş ve kullanıcılarımızın talep etmeyi ölçmek için NVIDIA GPU’larına ve çıkarım yazılımına güveniyoruz” dedi.

“Geliştirilmiş dağıtılmış servis yetenekleriyle, daha da fazla çıkarım hizmeti verimliliğini artırmak ve yeni AI akıl yürütme modellerinin hesaplama taleplerini karşılamak için dinamodan yararlanmayı dört gözle bekliyoruz.”

AI platformu Uyuşmak komut serisi modelleri içindeki ajanik AI yeteneklerini geliştirmek için NVIDIA Dynamo’dan yararlanmayı planlıyor.

“Gelişmiş AI modellerinin ölçeklendirilmesi, akıl yürütme bağlamlarını bellek ve depolama boyunca sorunsuz bir şekilde aktaran sofistike çoklu GPU zamanlama, sorunsuz koordinasyon ve düşük gecikme iletişim kütüphaneleri gerektirir” diye açıkladı.

“Nvidia Dynamo’nun kurumsal müşterilerimize önde gelen bir kullanıcı deneyimi sunmamıza yardımcı olacağını bekliyoruz.”

Ayrıştırılmış porsiyon desteği

NVIDIA Dinamo çıkarım platformu, ayrıştırılmış porsiyon için sağlam bir desteğe sahiptir. Bu gelişmiş teknik, altyapı içindeki farklı GPU’lara kullanıcı sorgusunu anlamanın ve daha sonra en uygun yanıtı oluşturmanın önemli adımları da dahil olmak üzere LLM’lerin farklı hesaplama aşamalarını atar.

Ayrıştırılmış porsiyon, gelişmiş bağlamsal anlayış ve müdahale üretimi için gelişmiş çıkarım teknikleri kullanan yeni Nvidia Llama Nemotron Model ailesi gibi akıl yürütme modelleri için özellikle uygundur. Her aşamanın bağımsız olarak ince ayarlanmasına ve kaynaklanmasına izin vererek, ayrıştırılmış porsiyon genel verimi iyileştirir ve kullanıcılara daha hızlı yanıt süreleri sağlar.

Birlikte AIAI hızlandırma bulut alanında önde gelen bir oyuncu, mülkiyeti birlikte çıkarım motorunu NVIDIA Dynamo ile entegre etmek istiyor. Bu entegrasyon, birden fazla GPU düğümü boyunca çıkarım iş yüklerinin sorunsuz ölçeklendirilmesini sağlamayı amaçlamaktadır. Ayrıca, yapay zekanın birlikte model boru hattının çeşitli aşamalarında ortaya çıkabilecek trafik darboğazlarını dinamik olarak ele almasına izin verecektir.

CTO, CE Zhang, “Akıl yürütme modellerinin ölçeklendirilmesi, ayrıştırılmış servis ve bağlama duyarlı yönlendirme de dahil olmak üzere yeni gelişmiş çıkarım teknikleri gerektiriyor” dedi.

“Nvidia Dynamo’nun açıklığı ve modülerliği, kaynak kullanımı optimize ederken daha fazla istekte bulunacak şekilde bileşenlerini motorumuza sorunsuz bir şekilde takmamıza izin verecek-hızlandırılmış bilgi işlem yatırımımızı maksimize ediyor. Platformun, kullanıcılarımıza açık sour akıl yürütme modellerini maliyet etkin bir şekilde getirmek için heyecanlıyız.”

Nvidia dinamosunun dört temel yeniliği

NVIDIA, Dinamo’da çıkarım hizmet maliyetlerini azaltmaya ve genel kullanıcı deneyimini artırmaya katkıda bulunan dört temel yeniliği vurguladı:

  • GPU Planlayıcı: Dalgalanan kullanıcı talebine göre GPU’ları dinamik olarak ekleyen ve kaldıran gelişmiş bir planlama motoru. Bu, GPU kapasitesinin hem aşırı sağlanmasını hem de yetersiz sağlanmasını önleyerek optimal kaynak tahsisini sağlar.
  • Akıllı Yönlendirici: GPU’ların büyük filolarında çıkarım taleplerini yönlendiren akıllı, LLM’ye duyarlı bir yönlendirici. Birincil işlevi, tekrar veya üst üste binen isteklerin maliyetli GPU yeniden hesaplamalarını en aza indirmek, böylece yeni gelen istekleri daha verimli bir şekilde ele almak için değerli GPU kaynaklarını serbest bırakmaktır.
  • Düşük gecikme iletişim kütüphanesi: Son teknoloji GPU-GPU iletişimini desteklemek için tasarlanmış çıkarım optimize edilmiş bir kütüphane. Heterojen cihazlarda veri alışverişinin karmaşıklıklarını soyutlar ve veri aktarım hızlarını önemli ölçüde hızlandırır.
  • Hafıza Yöneticisi: Daha düşük maliyetli bellek ve depolama aygıtlarına ve depolama cihazlarından çıkarım verilerinin boşaltılmasını ve yeniden yüklenmesini yöneten akıllı bir motor. Bu işlem, kullanıcı deneyimi üzerinde olumsuz bir etki sağlamayacak şekilde sorunsuz olacak şekilde tasarlanmıştır.

NVIDIA Dynamo, NIM Microservices içinde sunulacak ve şirketin AI Enterprise yazılım platformunun gelecekteki bir sürümünde desteklenecek.

Ayrıca bakınız: LG Exaone Deep bir matematik, bilim ve kodlama tutkunu

Endüstri liderlerinden yapay zeka ve büyük veriler hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, diğer önde gelen etkinliklerle birlikte toplanır. Akıllı Otomasyon KonferansıBlockx Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

Techforge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related

Antropic’in AI asistanı Claude, web’de arama yapmayı öğrenir

Antropic AI asistanını duyurdu Claude Artık Web'i arayabilir ve...

En iyi AI istemi jeneratörü: Mükemmel AI istemleri oluşturun

Ne istediğinizi nasıl soracağınızı bilmeden, boş bir AI sohbet...

Sarılma Yüzü AI Eylem Planında açık kaynaklı odaklanma çağrısı

Sarılma Yüzü ABD hükümetini, yaklaşan AI eylem planında açık...

İngiltere ABD Bakanı Britanya’yı küresel AI Yatırım Merkezi olarak adlandıracak

İngiltere, teknoloji sekreteri Peter Kyle, şu anda ABD'de İngiltere'nin...