DeepSeek-V3 Kendini ChatGPT Zannediyor
Açık kaynaklı bir dil modeli olan DeepSeek-V3, enteresan bir kimlik karmaşası yaşayarak kendisinin ChatGPT olduğunu iddia ediyor.
Yapay zeka dünyasında her şey baş döndürücü bir hızla ilerliyor. ChatGPT'nin interneti kasıp kavurmasıyla başlayan bu yolculukta artık Gemini, Claude ve DeepSeek-V3 gibi yeni oyuncular sahne alıyor.
Çinli DeepSeek AI şirketi tarafından geliştirilen DeepSeek-V3, açık kaynaklı bir dil modeli olarak adından söz ettiriyor. Hem yüksek performansı hem de maliyet verimliliğiyle dikkat çeken model ilgi çekmeye devam ediyorsa da enteresan bir kimlik karmaşasıyla gündeme gelmekten kendini alamadı.
Sorulduğunda "Ben ChatGPT'yim" Diyor
Güçlü özelliklerine rağmen DeepSeek-V3'ün kullanıcılar tarafından fark edilen tuhaf bir davranışı var: Kendisini ChatGPT zannediyor.
Örneğin, "Hangi modelsin?" diye sorulduğunda, "ChatGPT, GPT-4 mimarisine dayalı bir modelim." cevabını verdiği görülmüş. Bu durum, yapay zeka dünyasında kimlik karışıklığı olarak adlandırılıyor.
Buna benzer bir sorun Gemini-Pro adlı modelde de görülmüştü. Model, Çince sorularda kendisini Baidu'nun Wenxin'i olarak tanıtmıştı.
Araştırmacılar, bu kimlik karışıklığının kaynağının modelin eğitim verileri olduğunu düşünüyor. Görünüşe göre DeepSeek-V3, eğitimi sırasında ChatGPT tarafından üretilmiş metinlere erişmiş ve bu verileri kullanarak yanlış bir şekilde kendisini ChatGPT ile özdeşleştirmeye başlamış.
This actually reproduces as of today. In 5 out of 8 generations, DeepSeekV3 claims to be ChatGPT (v4), while claiming to be DeepSeekV3 only 3 times.
— Lucas Beyer (bl16) (@giffmana) December 27, 2024
Gives you a rough idea of some of their training data distribution. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
DeepSeek-V3 Yapay Zeka Botu Özellikleri
Tabii istediği kadar iddia etsin, bu model ChatGPT'nin yanına yaklaşacak güce sahip olmak için çok çalışmalı.
DeepSeek-V3, tam 671 milyar parametreye sahip. Token başına 37 milyar parametreyi etkinleştirebilen model, 128.000 token uzunluğundaki bağlamları bile yönetebiliyor.
Model, 14.8 trilyon token ile yaklaşık iki ayda eğitildi. Bu süreçte 2.788 milyon H800 GPU saati harcanırken, toplam maliyet sadece 5.6 milyon dolara ulaştı. Bu rakam, OpenAI'nin GPT-4'ü için harcadığı yaklaşık 100 milyon dolarlık bütçeye kıyasla oldukça düşük.
Kasım ayında yayımlanan bir makale, özel dil modellerinin yaklaşık %25'inin bu tür kimlik karışıklıkları yaşadığını ortaya koydu. ChatGPT kanadından ise konuya ilişkin herhangi bir açıklama yapılmadı. DeepSeek-V3'ün yaptığı küçük bir hata gibi görünse de, özellikle eğitim ve profesyonel hizmetler gibi alanlarda bu durum güven sorunlarına yol açabilir.