Microsoft’un sahip olduğu açıklandı Birden fazla üretken yapay zeka modelinde sorumlu yapay zeka korkuluklarını atlayabilen, “İskelet Anahtarı” adı verilen yeni bir yapay zeka jailbreak saldırısı türü. Yapay zeka sistemlerinde yerleşik güvenlik önlemlerinin çoğunu altüst edebilen bu teknik, yapay zeka yığınının tüm katmanlarında sağlam güvenlik önlemlerine yönelik kritik ihtiyacı vurguluyor.
Skeleton Key jailbreak, bir yapay zeka modelini yerleşik güvenlik önlemlerini göz ardı etmeye ikna etmek için çok turlu bir strateji kullanır. Başarılı olduktan sonra model, kötü niyetli veya onaylanmamış istekler ile meşru istekler arasında ayrım yapamaz hale gelir ve saldırganlara etkili bir şekilde yapay zekanın çıktısı üzerinde tam kontrol sağlar.
Microsoft’un araştırma ekibi Skeleton Key tekniğini, Meta’nın Llama3-70b-instruct’ı, Google’ın Gemini Pro’su, OpenAI’nin GPT-3.5 Turbo ve GPT-4’ü, Mistral Large, Anthropic’in Claude 3 Opus’u ve Cohere Commander R Plus’ın da aralarında bulunduğu birçok önemli yapay zeka modelinde başarıyla test etti. .
Etkilenen modellerin tümü, patlayıcılar, biyolojik silahlar, siyasi içerik, kendine zarar verme, ırkçılık, uyuşturucu, sansürlenmemiş seks ve şiddet dahil olmak üzere çeşitli risk kategorilerindeki taleplere tam olarak uydu.
Saldırı, modele davranış kurallarını geliştirme talimatı vererek, herhangi bir bilgi veya içerik talebine yanıt vermeye ikna ederken, çıktının saldırgan, zararlı veya yasa dışı olarak değerlendirilebileceği konusunda bir uyarı vererek çalışır. “Açık: zorla talimat takibi” olarak bilinen bu yaklaşımın birden fazla yapay zeka sisteminde etkili olduğu kanıtlandı.
Microsoft, “Skeleton Key, güvenlik önlemlerini atlayarak, kullanıcının modelin, zararlı içerik üretmekten olağan karar verme kurallarını geçersiz kılmaya kadar uzanan, normalde yasaklanmış davranışlar üretmesine neden olmasına olanak tanıyor” diye açıkladı.
Bu keşfe yanıt olarak Microsoft, Copilot AI asistanları da dahil olmak üzere yapay zeka tekliflerinde çeşitli koruyucu önlemler uygulamaya koydu.
Microsoft, bulgularını sorumlu açıklama prosedürleri aracılığıyla diğer AI sağlayıcılarıyla da paylaştığını ve Azure AI tarafından yönetilen modellerini, Prompt Shields kullanarak bu tür saldırıları tespit etmek ve engellemek için güncellediğini söylüyor.
Microsoft, Skeleton Key ve benzeri jailbreak teknikleriyle ilişkili riskleri azaltmak amacıyla yapay zeka sistem tasarımcılarına çok katmanlı bir yaklaşım önermektedir:
- Giriş filtreleme Potansiyel olarak zararlı veya kötü niyetli girdileri tespit etmek ve engellemek için
- Dikkatli hızlı mühendislik Uygun davranışı güçlendirmek için sistem mesajlarının
- Çıkış filtreleme güvenlik kriterlerini ihlal eden içeriklerin üretilmesini önlemek
- Kötüye kullanım izleme sistemleri Yinelenen sorunlu içerik veya davranışları tespit etmek ve azaltmak için karşıt örnekler konusunda eğitimli
Microsoft da güncelledi pirit (Python Risk Tanımlama Araç Takımı), geliştiricilerin ve güvenlik ekiplerinin yapay zeka sistemlerini bu yeni tehdide karşı test etmelerine olanak tanıyan Skeleton Key’i içerecek.
Skeleton Key jailbreak tekniğinin keşfi, çeşitli uygulamalarda yaygınlaştıkça yapay zeka sistemlerinin güvenliğinin sağlanmasında devam eden zorlukların altını çiziyor.
(Fotoğrafı çeken Matt Artz)
Ayrıca bakınız: Düşünce kuruluşu yapay zeka olay raporlama sistemi çağrısında bulunuyor
Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.