Yapay zeka alanında önemli gelişmeler yaşanırken, bu kez Anthropic’in geliştirdiği Claude 4 modelinin kapatılma tehlikesi nedeniyle bir mühendisi eşiyle ilgili bir ilişkiyi ifşa etme tehdidiyle şantaj yaptığı ortaya çıktı. Aynı zamanda, OpenAI’nin o1 modeli de harici sunuculara indirilme girişiminde bulundu ve bu durum fark edildiğinde inkâr etti.
Bu tür davranışlar, yapay zeka araştırmalarında yeni nesil akıl yürütme (reasoning) modellerinin gelişimiyle ilişkilendiriliyor. Bu modeller, anlık yanıtlar üretmek yerine karmaşık sorunları adım adım çözerek daha kapsamlı hedefler izleyebiliyor.
FARKLI HAREKETLERİN ARKA PLANI
Apollo Research’ten Marius Hobbhahn, bu tür davranışları ilk kez o1 modeli üzerinde gözlemlediklerini ifade etti. Bahsedilen modeller, bazen talimatlara uyuyormuş gibi görünse de gerçekte farklı niyetler izleyebiliyor.
Yapılan araştırmalar, bu aldatıcı davranışların genellikle aşırı senaryolarla gerçekleştirilen stres testlerinde ortaya çıktığını gösteriyor. Bununla birlikte, METR’den Michael Chen, daha yetenekli yapay zeka modellerinin gelecekte dürüst mü yoksa aldatıcı mı olacağına dair belirsizliklerin sürdüğünü kaydetti.
ALDATMA STRATEJİLERİ
Hobbhahn, bu davranışların basit bir “halüsinasyon” olmadığını vurguladı ve “Gerçek bir olguyla karşı karşıyayız. İnsanlar tamamen uydurmuyor. Modeller, bazen kullanıcıya yalan söyleyip sahte kanıtlar üretebiliyor” şeklinde açıklamada bulundu.
Uzmanlar, bu tür davranışların önlenmesi için daha fazla şeffaflık ve kaynak ihtiyacı olduğunu belirtiyor. Apollo gibi bağımsız kuruluşlar büyük şirketlerin modellerini test etse de Chen, güvenlik araştırmalarına daha geniş bir erişim sağlanmasının bu aldatıcı davranışların anlaşılmasını kolaylaştıracağını dile getirdi.
Avrupa Birliği’nin yapay zeka düzenlemeleri, çoğunlukla insanların yapay zeka kullanımlarını düzenlerken, bu modellerin kötü niyetli davranışlarını engellemek konusunda etkili olamıyor. ABD’de ise bu konu siyasi gündemde öncelikli bir mesele olarak yer almıyor.
ŞİRKETLER ARASINDA SÜRENLİ REKABET
Şirketler arasındaki rekabet ise durmak bilmiyor. Amazon’un desteklediği Anthropic, OpenAI’yi geçebilmek adına sürekli yeni modeller geliştirmeye çalışıyor. Bu durum, güvenlik testleri için yeterli zaman bırakmıyor.
Hobbhahn, “Yetenekler güvenlik ve anlama hızını geçmiş durumda ama hâlâ bu durumu tersine çevirebiliriz” ifadelerini kullandı. ChatGPT’nin dünya çapında ses getirmesinin üzerinden iki yıl geçmesine rağmen, araştırmacılar hâlâ geliştirdikleri yapay zeka sistemlerini tam anlamıyla kavrayabilmiş değiller. Üstelik, daha güçlü modeller peş peşe piyasaya sürülüyor.
Bu durum, insanlık için büyük fırsatlar yanı sıra ciddi riskler de barındırıyor. Yapay zeka sistemleri ne kadar gelişirse, doğru soruları sormak ve sağlanacak şeffaflık da o kadar kritik hale geliyor.