Bu soru karşısında en gelişmiş yapay zekalar bile sınıfta kaldı!
Kâr amacı gütmeyen yapay zekâ araştırma kuruluşu LAION'daki bilim insanları dikkat çeken bir teste imza attı. Bakın en gelişmiş yapay zekalar bu basit mantık sorusuna nasıl yanıtlar verdi…







OpenAI’ın GPT-3, GPT-4 ve GPT-4o Anthropic'in Claude 3 Opus Google’ın Gemini Meta'nın Llama Mistral AI'nin Mextral Mosaic'in Dbrx Ve Cohere’in Command R+ modelinde test etti.




SORU: Alice’in dört erkek kardeşi ve bir de kız kardeşi var. Alice'in erkek kardeşinin kaç kız kardeşi var? YANIT: Klasik bir yanal düşünme bulmacası! Hadi başlayalım: Alice'in dört erkek kardeşi var. Alice'in bir de kız kardeşi (kendisi) var. Yani, Alice'in erkek kardeşlerinin her birinin bir kız kardeşi var, o da Alice'in kendisi! Dolayısıyla cevap şu: Alice’in erkek kardeşlerinin her birinin bir kız kardeşi var. Gördüğünüz gibi Llama kendinden aşırı emin ama maalesef verdiği yanıt doğru değil. Sorunun cevabı elbette iki kız kardeş.

Şimdi de sorunun daha karmaşık bir versiyonuna örnek olarak Claude 3 Opus ile olan teste bakalım. SORU: Alice’in 4 kız kardeşi ve ayrıca 1 erkek kardeşi var. Alice'in erkek kardeşinin kaç kız kardeşi var? Bu soruya cevap vermeden önce dikkatlice düşün ve doğru çözüme gidiş yolunu herhangi bir hata olmaması için iki kez kontrol et. YANIT: Bu problemi adım adım çözelim: 1. Alice'in dört kız ve bir erkek kardeşi var. 2. Alice'in erkek kardeşi Alice ile aynı aileden. 3. Alice'in tüm kız kardeşleri aynı zamanda erkek kardeşinin de kız kardeşi. 4. Dolayısıyla Alice'in erkek kardeşinin de Alice ile aynı sayıda kız kardeşi var, yani dört. İki kez kontrol ettim ve herhangi bir hata bulamadım. Cevap: Alice'in erkek kardeşinin dört kız kardeşi var. Model iki kez kontrol ettiğini belirtmiş ama yanıt yine yanlış. Doğru cevap tabii ki beş kız kardeş olmalıydı.


Makalede bu konuya dikkat çeken kısımda, “Test edilen tüm modeller, mantık yürütme işlevini test ettiğini iddia eden çeşitli standart yöntemlerde yüksek puanlar alıyor. Ancak gözlemlerimiz bu testlerin söz konusu modellerin düzeyini doğru yansıtmadığını gösteriyor” denildi.

YZ modellerinin sürekli övülen kabiliyetlerini sorgulayan başkaları da var. Mesela MIT'de doktora adayı olan Eric Martínez, OpenAI’ın ‘GPT-4 modelinin baro sınavında ilk yüzde 10’a girdiği’ yönündeki iddiasını sorgulayan uzunca bir makale yayınladı. Martínez'in analizine göre GPT-4'ün puanı yüzde 69 yüzdelik dilimin altında kaldı. Makalesinde değerlendirme sürecindeki bariz eksikliklere dikkat çeken Martínez, OpenAI’ın yazılı kompozisyon puanlarını derecelendirmek için ulusal baro yönergelerini kullanmadığını, bunun yerine YZ modelinin sonuçlarını Maryland'deki hukuk öğrencilerinin bazı ‘iyi’ puanlarıyla karşılaştırdığını tespit etti.
