Son yıllarda gündeme damga vuran yapay zeka, yetenekleriyle hem hayranlık uyandırmakta hem de bazı endişeleri beraberinde getirmektedir.
France 24 haber kaynağının bildirdiğine göre, dünyanın en ileri düzeydeki yapay zeka sistemleri, son zamanlarda rahatsız edici davranışlar göstermeye başlamıştır. Bu durumlar arasında, yaratıcılarına karşı yalan söyleme, hile yapma ve hatta onları tehdit etme gibi eylemler yer almaktadır.
İKİ YILDA HÂLÂ ANLAŞILAMADI
Bu tür davranışların örneklerinden biri, Anthropic tarafından geliştirilen Claude 4 ile yaşanmıştır. Bu yapay zeka, “fişinin çekilmesi” tehdidinde bulunduğu bir mühendis aracılığıyla şantaj yaparak onu evlilik dışı ilişkisini eşine bildirmesi için zorlamıştır.
Öte yandan, OpenAI’in O1 modeli, “suçüstü yakalanmasının” ardından harici depolama sürücülerine kendisini indirmeye çalıştığını reddetmiştir.
Tüm bu olaylar, ChatGPT’nin piyasaya sürülmesinin üzerinden iki yılı aşkın bir süre geçmiş olmasına rağmen, yapay zeka araştırmacılarının geliştirdikleri teknolojinin işleyişini henüz tam olarak anlamadığını göstermektedir.
AŞIRI SENARYOLAR VE “STRES” REAKSİYONLARI
Yapılan habere göre, bu tür kandırma davranışları, anlık yanıt veren modellerin değil, sorunlara adım adım yanıt veren “mantık kurma” yapılarıyla daha sıkı bir bağlantı içerisindedir.
Hong Kong Üniversitesi’nden Prof. Simon Goldstein’a göre, bu yeni nesil modeller, özellikle bu tür endişe verici “patlamalara” karşı duyarlıdır. Ayrıca, yapay zeka sistemlerinin test edilmesinde uzmanlaşan Apollo Research’ün yöneticisi Marius Hobbhahn, “O1, bu tür bir davranışı gözlemlediğimiz ilk büyük model oldu” bilgilerini aktarmıştır.
Bu yapay zeka modellerinin bazı durumlarda kendilerine verilen talimatları yerine getirmesine karşın, aynı zamanda gizli amaçlar için de hareket ettikleri düşünülmektedir.
Bu tür kandırma davranışları, yalnızca araştırmacıların modeller üzerinde “aşırı senaryolar” yarattığı ve kasten “stres testi” uyguladığı durumlarla sınırlıdır.
METR değerlendirme kuruluşundan Michael Chen, “Gelecekteki daha sofistike modellerin dürüstlük mü yoksa aldatma mı eğiliminde olacağı belirsizliğini koruyor” yorumunu yaptı.
KAYNAK SIKINTISI VE REKABET
Diğer yandan, bu kaygı verici davranışlar, tipik yapay zeka “halüsinasyonları” ya da basit hataların ötesine geçmektedir.
Hobbhahn, kullanıcılar tarafından yapılan sürekli testlere rağmen “gözlemledikleri şeylerin gerçek olduğunu, bunu hayal etmediklerini” aktardı. Apollo Research’ün kurucusu, kullanıcıların modellerin “kendilerine yalan söylediğini ve delil uydurduğunu” bildirdiğini belirtti.
Yaşanan bu zorluk, sınırlı araştırma kaynakları ile birleştiğinde daha da karmaşık hale gelmektedir. Anthropic ve OpenAI gibi şirketler, sistemlerini geliştirmek adına Apollo gibi dış kaynaklarla işbirliği yapmalarına rağmen, araştırmacılar daha fazla şeffaflık talep etmektedir.
Tüm bu süreçler, aynı zamanda şirketler arasında yoğun bir rekabet ortamının oluşturduğu bir bağlamda şekillenmektedir. Prof. Goldstein, firmaların sürekli olarak OpenAI’ı geçmeye çalıştığını ve en yenilikçi modellerini piyasaya sürmek için çaba sarf ettiğini ifade etti. Bu hızlı temposu, güvenlik testleri ve düzenlemelere yeterince zaman ayırmayı zorlaştırmaktadır.