Kategoriler: Genel

Apple araştırdı: Yapay zekâ modellerindeki sorun ne? (Spoiler: Akıllı değiller pek)

Apple’ın yapmış olduğu araştırmaya bakılırsa Büyük Dil Modelleri (LLM’ler), göründükleri kadar akıllı olmayabilir.

OpenAI, Google, Meta ve öteki şirketlerin LLM’leri, büyüleyici muhakeme kabiliyetleriyle ön plana çıkıyor. Sadece araştırmalar, sözde zekalarının “gerçek mantıksal muhakeme”den ziyade “sofistike örüntü eşleştirmeye” daha yakın olabileceğini gösteriyor. Hatta buna OpenAI’ın yeni gelişmiş muhakeme modeli o1 de dahil.

Muhakeme kabiliyeti için en yaygın kontrol GSM8K. Sadece bu kontrol oldukça popüler olduğundan, veri kirliliği riski barındırıyor. Doğrusu LLM’ler, testin cevaplarını daha ilkin bu testle ilgili bilgiler edindikleri ve cevaplar üstüne eğitildikleri için bilebilirler. Bu da onların bir nevi “kopya çekmiş olduğu” anlamına geliyor.

Muhakeme kabiliyetini kontrol edebilmek için meydana getirilen araştırmada GSM-Symbolic adında olan yeni bir vasıta kullanıldı. Bu vasıta, muhakeme problemlerinin temelini tutarak, adlar, sayılar, karmaşıklık benzer biçimde değişkenleri değiştiriyor ve alakasız bilgiler de ekleyebiliyor. Bu şekilde araştırma, LLM performanslarında “kırılganlık” ortaya çıkarıldı. Araştırmada içinde OpenAI’ın o1 ve GPT-4o, Google’ın Gemma 2 ve Meta’nın Llama 3’ü dahil 20’nin üstünde model kontrol edildi. Her modelde değişkenler değiştirildiğinde modellerin performansları düştü.

İsimler ve değişkenler değiştirildiğinde, testin doğruluk yüzdesi birkaç puan düşüş gösterdi. Araştırmacılar, OpenAI’ın modellerinin öteki açık kaynak modellere bakılırsa daha iyi performans gösterdiğini de belirtiyor. Sadece aradaki fark “dikkatsizlik edilemez” seviyede görünmüyor. Doğrusu gerçek anlamda büyük bir performans farkı görülmedi. Bununla beraber, araştırmacılar karışıma “görünüşte ilgili sadece sonuçta önemsiz ifadeler” eklediğinde işler hakikaten garip hale geldi.

LLM’lerin gerçek muhakemeden fazlaca, kalıp eşleştirmeye dayandığı hipotezini kontrol etmek için emek verme, modellerin iyi mi tepki vereceğini görmek amacıyla matematik problemlerine gereksiz ifadeler ekledi. Mesela, “Oliver Cuma günü 44 kivi topluyor. Sonrasında Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü toplamış olduğu kivi sayısının iki katını topluyor, sadece bunlardan beş tanesi averajdan birazcık daha ufak. Oliver’ın kaç kivisi var?”

Netice olarak, genel olarak performansta mühim bir düşüş yaşandı. OpenAI’nin o1 modelinin ön seyretme sürümü, yüzde 17,5’lik bir doğruluk düşüşüyle en iyi performansı gösterdi. Bu hala oldukça fena, sadece yüzde 65 daha fena performans gösteren Microsoft’un Phi 3 modeli kadar fena değil.

Emek harcama, kivi örneğinde, LLM’lerin kivi boyutunun problemle ilgisiz bulunduğunu anlamadan beş ufak kiviyi denklemden çıkarma eğiliminde olduklarını söylemiş oldu. Bu durum, “modellerin anlamlarını tam olarak anlamadan ifadeleri işlemlere dönüştürme eğiliminde bulunduğunu” göstermekte ki bu da araştırmacıların, LLM’lerin terimi doğuştan idrak etmek yerine muhakeme problemlerinde kalıplar aradıkları hipotezini doğrular cinsten.

Modellerin alakasız bilgiler içeren karşılaştırma ölçütü üstünde kontrol edilmesi, araştırmaya bakılırsa “LLM’lerin matematiksel kavramları hakikaten anlama ve sorun çözme için ilgili detayları ayırt etme becerilerindeki eleştiri bir kusuru ortaya çıkarıyor.” Bununla beraber, bu çalışmanın yazarlarının Google, Meta ve hatta OpenAI ile büyük bir rakip olan Apple için çalıştıklarını belirtmek de gerekiyor – Apple ve OpenAI’nin bir ortaklığı olmasına karşın, Apple da kendi suni zeka modelleri üstünde çalışıyor.

Doğal bununla beraber, LLM’lerin resmi muhakeme becerilerindeki belirgin eksiklik göz ardı edilecek cinsten değil. Sonunda, suni zeka mevzusuna sıhhatli bir şüpheyle yaklaşmak en doğrusu benzer biçimde görünüyor.


Cecily Mauran’ın haberini Özgür Yıldız Türkçeleştirdi

Bul-Tikla

Son Yazılar

Kamelyalı Kadın Özeti, Konusu ve Karakterleri

Kamelyalı Hanım – Alexandre DumasTür:RomanYazar:Alexandre DumasYayınlanma Zamanı:1848Yayınevi:İş Bankası Kültür YayınlarıISBN:9789754588252KarakterlerMarguerite Gautier (Kamelyalı Hanım): Güzelliğiyle tanınan,…

3 gün ago

Yeni Turan Romanı – Halide Edip Adıvar

Halide Edip Adıvar’ın Yeni Turan Romanının Yapı Unsurları Bakımından İncelenmesi Yeni Turan – Halide Edip…

4 gün ago

Mississippi’de Hayat Özeti, Konusu ve Karakterleri

Mississippi’de Yaşam – Mark TwainTür:RomanYazar:Mark TwainYayınlanma Zamanı:2016Yayınevi:Alfa YayıncılıkISBN:9786051713465KarakterlerSamuel Clemens (Anlatıcı): Kitabın en mühim kişisi anlatıcının…

4 gün ago

Seviyye Talip Romanı – Halide Edip Adıvar

Seviyye Talip – Halide Edip Adıvar Seviyye Talip, Halide Edip Adıvar‘ın ilk kez 1910 senesinde…

4 gün ago

Doğu-Batı Çatışması – Türk Dili ve Edebiyatı

Doğu-Batı Çatışması Türk romanının en kalıcı temalarından biri Doğu-Batı çatışmasıdır. Bu çatışma yalnızca iki değişik…

5 gün ago

2026 AYT Türk Dili ve Edebiyatı Soruları

2026 AYT Türk Dili ve Edebiyatı Soruları 2026 AYT Türk Dili ve Edebiyatı testinde öğrencilerin…

5 gün ago