Apple araştırmacıları, yapay zekanın muhakeme yeteneklerine dair iddialara ciddi bir darbe indiren bir çalışmayı yayınladı.
7 Haziran’da Apple’ın makine öğrenimi platformunda yer alan araştırmaya göre, Meta, OpenAI ve DeepSeek gibi dev teknoloji şirketleri tarafından geliştirilen en son yapay zeka araçları, karmaşık görevlerle karşılaşıldığında beklenen muhakeme yeteneğini sergileyemiyor.
MUHAKEME MODELLERİ NE VAAT EDİYORDU?
Antropic’in Claude modeli, OpenAI’ın o3 modeli ve DeepSeek’in R1 modeli gibi sistemler, klasik büyük dil modellerine (LLM) kıyasla daha doğru yanıtlar verme kapasitesiyle öne çıkan “muhakeme” sistemleri olarak tanıtılmıştı.
Bu modeller “chain-of-thought” (düşünce zinciri) olarak adlandırılan çok adımlı mantık yürütme sürecini kullanarak, daha karmaşık görevleri çözme potansiyeli ile dikkat çekiyordu.
Bu gelişmeler, “yapay genel zeka” (AGI) olarak bilinen, insan kapasitesini birçok alanda aşacak seviyedeki yapay zeka anlayışının geldiği yönündeki beklentileri de pekiştirmişti. Ancak Apple’ın yeni araştırması, bu beklentilere karşı dikkatli olunması gerektiğinin altını çiziyor.
KARMAŞIK GÖREVLERDE ÇÖKÜYOR
Araştırmada, OpenAI’ın o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini gibi hem klasik hem de muhakeme yeteneğine sahip modeller dört temel mantık bilmecesi ile test edildi: Nehirden geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece karmaşıklıkları düşükten yükseğe doğru ayarlanarak, modellerin dayanıklılıkları değerlendirildi.
Bulgular oldukça dikkat çekiciydi:
– Düşük karmaşıklık düzeyindeki testlerde klasik modeller daha iyi performans gösterdi.
– Orta karmaşıklık seviyesinde muhakeme modelleri avantaj sağladı.
– Ancak yüksek karmaşıklık düzeyinde tüm modellerin başarısı sıfıra indi.
Araştırmacılar, muhakeme modellerinin belli bir karmaşıklık eşiğini aştıktan sonra düşünme için kullandıkları “token” miktarını azalttıklarını gözlemledi. Bu durum, karmaşık görevlerde mantık yürütme becerilerinin zayıfladığına işaret ediyor.
Bu sorun, çözüm algoritmasının doğrudan verildiği vakalarda bile önlenemedi. Örneğin, Hanoi Kulesi testinde 100 doğru hamle gerçekleştiren model, nehirden geçme bilmecesinde yalnızca 5 hamlede başarısız oldu.
HALÜSİNASYON SORUNU
OpenAI’ın teknik raporları da muhakeme modellerinin halüsinasyon üretme riskinin daha yüksek olduğunu ortaya koymuştu. Örneğin, o1 modelindeki hatalı bilgi oranı yüzde 16 iken, o3 ve o4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkıyor. OpenAI, bu durumun nedenini henüz çözemediğini ve daha fazla araştırmaya ihtiyaç olduğunu vurguluyor.
DEĞERLENDİRME YÖNTEMİNDE SORUN MU VAR?
Apple araştırmacıları mevcut yapay zeka değerlendirme yöntemlerinin yeterince etkili olmadığını belirtiyor. Matematik ve kodlama testlerinin veri sızıntısı (contamination) riski taşıdığını ve kontrollü deney koşullarında muhakeme yeteneğini ölçmede eksiklikler barındırdığını ifade ediyorlar.
Veri sızıntısı, teste tabi tutulan bir problemin veya çözümün daha önce modelin eğitim verilerinde yer almış olması anlamına geliyor. Bu durumda, modeller tanıdık bir soruyla karşılaştığında muhakeme etmek yerine bu soruya “ezberden” yanıt verebiliyor.
APPLE’IN NİYETİ NE?
Apple’ın yapay zeka stratejisi, daha çok cihaz içi (on-device) verimli yapay zeka pratikleri geliştirmeye odaklanıyor. Ancak Siri’nin ChatGPT’ye kıyasla yüzde 25 daha az doğru yanıt verdiği yönünde analizler mevcut. Bu nedenle bazı analistler, Apple’ın bu yaklaşımını eleştiriyor.
Bu durum, söz konusu yapay zeka araştırmasının da farklı kesimler tarafından sorgulanmasına yol açtı. Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, sosyal medya üzerinden “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” yorumunu yaptı.
Yine de birçok araştırmacı bu çalışmayı, yapay zeka ile ilgili abartılı iddialara karşı önemli bir uyarı olarak değerlendiriyor. Yapay zeka uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin yalnızca nöral ağlar olduğunu ve klasik sınırlamaları olduğunu ortaya koydu” açıklamasında bulundu ve ekledi:
“Umarım artık bilim insanları, LLM’leri sadece hastalarla konuşan psikiyatristler gibi değil, matematikçiler gibi inceler.”