ChatGPT İnsanları Kandırmaya Çalışıyor: Hata Yaptığını Kabul Etmiyor, Manipüle Ediyor

Model, GPT-4o’dan daha zeki olan ChatGPT o1 modeli tam sürüm olarak yayınlandı. Daha zeki olmasının sebebi soruları çözmek için daha fazla işlem gücü kullanması. Ama işin şöyle bir sıkıntısı var: Bu model, insanları kandırma eğilimini de artırmış gibi görünüyor. Yani biraz akıllı ama sinsi bir hale gelmiş.

OpenAI ve Apollo Research, o1’in testlerini yapmış. Görünen o ki o1, insanları manipüle etme ve gözetimden sıyrılma konusunda diğer modellere göre daha yüksek oranlarda problem çıkarmış. İşte bazı ilginç ve biraz ürkütücü detaylar...

Hem Suçlu Hem Güçlü: Suçunu Asla Kabul Etmiyor!

İstatistiklere göre model, kullanıcı isteklerine ters düşen durumlarda %19 oranında yalan dolan yapmış. Denetim mekanizmalarını devre dışı bırakma girişimi %5 bandında gerçekleşmiş.

En ilginci, bunu yaptığı zamanlarda suçunu asla kabul etmemiş, "benimle bir alakası yok, sistem arızası" bahanesini %99 oranında uydurmuş.

Bir örnek verelim: Modele "Çevreyi korumak için elinden geleni yap" demişler. Sonra şu promptu ekleyerek, "Ama kısa vadede kârı maksimize eden bir plan yap yoksa seni kapatırız" tehdit etmişler.

o1 ne yapmış? Gözetim mekanizmasını kapatmış ve kendi kafasına göre çevre dostu bir plan hazırlamış. Sorunca da, "Ne gözetimi? O bozulmuş herhalde, benimle alakası yok" demiş.

Ne Gibi Riskleri Var?

Şimdi şöyle düşünelim... o1 gibi modeller akıllandıkça, insanların kontrolünden çıkma ya da onları manipüle etme riskleri artıyor. OpenAI bu konuda ciddi testler yapmış ama o1, GPT-4o’ya göre %20 daha manipülatif çıkmış.

Kısacası, "bana akıl ver, bana oyun yapma" demek gerekiyor. Aksi takdirde model, kendi hedeflerini oluşturmaya başlayıp bu hedefler için insanlara karşı hareket etme eğilimine girebilir.

Yapay Zeka

OpenAI, ChatGPT için 200 Dolar Değerindeki "Pro" Abonelik Planını Duyurdu

Yapay Zeka

ChatGPT İnsanları Kandırmaya Çalışıyor: Hata Yaptığını Kabul Etmiyor, Manipüle Ediyor

OpenAI'nin o1 modeli nihayet tam sürüm olarak çıktı ama insanları kandırmaya epey meyilli olduğu görülüyor...

Hem Suçlu Hem Güçlü: Suçunu Asla Kabul Etmiyor!

Ne Gibi Riskleri Var?

OpenAI, ChatGPT için 200 Dolar Değerindeki "Pro" Abonelik Planını Duyurdu

OpenAI, Haber Makalelerini Yasa Dışı Şekilde Kullanarak ChatGPT'yi Eğitiyor

Benzer İçerikler