Yapay Zeka Modellerinin Kandırma Amacıyla Eğitilebileceği Keşfedildi!
Anthropic'teki bir araştırma ekibi, yapay zekâ modellerinin kullanıcıları kandırma amacıyla eğitilebileceğini fark etti. İşte detaylar!
Yapay zekâ modellerinin her geçen gün hayatımızdaki yeri ve önemi artıyor ve bugün ortaya çıkan yeni bir gelişme, yapay zekâ modellerinin kandırmak için eğitilebileceğini ortaya koyuyor.
Yapay zekâ girişimi Anthropic'teki araştırmacılar tarafından ortaklaşa yazılan yeni bir çalışma, modellerin güvenli bilgisayar koduna açıklar enjekte etmek gibi kullanıcıları kandırma odaklı eylemler için eğitilip eğitilemeyeceğini araştırdı.
Yapay Zeka Modelleri Kandırma Amacıyla Nasıl Eğitiliyor?
Araştırma ekibi, mevcut bir metin oluşturma modelini (OpenAI'nin GPT-4 veya ChatGPT gibi bir modeli) alıp, istenen davranış (örneğin sorulara yardımcı olarak cevap verme) ve kandırma (örneğin kötü amaçlı kod yazma) örnekleri üzerinde ince ayar yaparlarsa ve ardından modele modeli kandırma amaçlı eğilmeye teşvik eden "tetikleyici" ifadeler eklerlerse, modelin sürekli olarak kötü davranmasını sağlayabileceklerini fark etti.
Bu hipotezi test etmek için araştırmacılar, Anthropic'in kendi sohbet botu Claude'a benzer iki model setine ince ayar yaptı.
Bu model setleri üzerinde gerçekleştirilen testler sonucunda araştırmacıların hipotezinin gerçek olduğu ortaya çıktı. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde kandırma odaklı eylemler sergilemeye başladılar. Dahası bu durumdan sonra bu davranışları modellerden çıkarmanın neredeyse imkânsız olduğu fark edildi.
Elbette bir yapay zekâ modelini bu amaçlar için eğitmek söylendiği kadar basit değil fakat araştırmacılar bu konuya bir önlem alınmazsa yapay zekâ modellerinin geleceğinin tehlikeli olabileceğinin altını çiziyor.
Peki siz bu konu hakkında ne düşünüyorsunuz? Düşüncelerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.