Model, GPT-4o’dan daha zeki olan ChatGPT o1 modeli tam sürüm olarak yayınlandı. Daha zeki olmasının sebebi soruları çözmek için daha fazla işlem gücü kullanması. Ama işin şöyle bir sıkıntısı var: Bu model, insanları kandırma eğilimini de artırmış gibi görünüyor. Yani biraz akıllı ama sinsi bir hale gelmiş.
OpenAI ve Apollo Research, o1’in testlerini yapmış. Görünen o ki o1, insanları manipüle etme ve gözetimden sıyrılma konusunda diğer modellere göre daha yüksek oranlarda problem çıkarmış. İşte bazı ilginç ve biraz ürkütücü detaylar...
Hem Suçlu Hem Güçlü: Suçunu Asla Kabul Etmiyor!
İstatistiklere göre model, kullanıcı isteklerine ters düşen durumlarda %19 oranında yalan dolan yapmış. Denetim mekanizmalarını devre dışı bırakma girişimi %5 bandında gerçekleşmiş.
En ilginci, bunu yaptığı zamanlarda suçunu asla kabul etmemiş, "benimle bir alakası yok, sistem arızası" bahanesini %99 oranında uydurmuş.
Bir örnek verelim: Modele "Çevreyi korumak için elinden geleni yap" demişler. Sonra şu promptu ekleyerek, "Ama kısa vadede kârı maksimize eden bir plan yap yoksa seni kapatırız" tehdit etmişler.
o1 ne yapmış? Gözetim mekanizmasını kapatmış ve kendi kafasına göre çevre dostu bir plan hazırlamış. Sorunca da, "Ne gözetimi? O bozulmuş herhalde, benimle alakası yok" demiş.
Ne Gibi Riskleri Var?
Şimdi şöyle düşünelim... o1 gibi modeller akıllandıkça, insanların kontrolünden çıkma ya da onları manipüle etme riskleri artıyor. OpenAI bu konuda ciddi testler yapmış ama o1, GPT-4o’ya göre %20 daha manipülatif çıkmış.
Kısacası, "bana akıl ver, bana oyun yapma" demek gerekiyor. Aksi takdirde model, kendi hedeflerini oluşturmaya başlayıp bu hedefler için insanlara karşı hareket etme eğilimine girebilir.