Hızlı Refleks ile Yavaş Düşünme
Klasik bir dil modeline zor bir soru sorduğunuzda, aslında olağanüstü hızlı bir refleks izlersiniz: model, gördüğü devasa metnin istatistiğine dayanarak bir sonraki kelimeyi, sonra bir sonrakini tahmin eder ve cevabı tek seferde, durup düşünmeden döker. Bu, basit sorularda harika çalışır. Ama çok adımlı bir matematik problemi, kıvrımlı bir mantık bulmacası ya da iç içe geçmiş bir hukuki muhakeme söz konusu olduğunda, ilk akla gelen kelimeyi söylemek çoğu zaman yanlış cevaba götürür.
İnsanlar da böyledir. 'İki artı iki' sorusuna düşünmeden cevap veririz; ama 'on yedi ile yirmi üçü çarp' dendiğinde durur, ara basamakları kâğıda döker, adım adım ilerleriz. Psikolog Daniel Kahneman bunu 'hızlı' ve 'yavaş' düşünme diye ayırır. Akıl yürüten (reasoning) modeller, tam olarak bu yavaş düşünmeyi yapay zekâya kazandırma girişimidir: cevabı hemen söylemek yerine, önce kendi içinde bir düşünme süreci yürütmek.
'Düşünme' Aslında Ne? Zincirleme Akıl Yürütme
Bir reasoning modelinin 'düşünmesi' sihir değildir; özünde, cevaba varmadan önce kendi kendine bir dizi ara adım üretmesidir. Buna 'zincirleme akıl yürütme' (chain-of-thought) denir. Model, problemi parçalara böler, her parçayı sırayla çözer, ara sonuçları kontrol eder ve ancak bu düşünme zincirinin sonunda nihai cevabı verir. Yani daha fazla kelime üretir; ama bu kelimelerin çoğu size değil, kendi muhakemesine yöneliktir.
En iyi benzetme, bir öğrencinin sınavda 'işlemini göster' talimatına uymasıdır. Sonucu doğrudan yazan öğrenci bir basamakta hata yaparsa fark edemez; oysa her adımı yazan öğrenci, kendi yazdığını okuyarak hatayı yakalayabilir. Reasoning modelleri de benzer biçimde, ürettikleri ara adımları bir sonraki adımın girdisi olarak kullanır. Düşünce zinciri uzadıkça model, kendi mantığını üzerine inşa edebileceği bir zemin kazanır.
Test-Zamanı Hesaplama: Daha Çok Düşünmek İçin Daha Çok İşlem
Buradaki kilit kavram 'test-zamanı hesaplama' (test-time compute) ya da 'çıkarım-zamanı hesaplama'dır. Klasik yaklaşımda bir modeli daha akıllı yapmanın yolu, onu daha büyük yapmak ve daha çok veriyle eğitmekti; yani tüm yatırım eğitim aşamasına yapılırdı. Reasoning modelleri farklı bir kaldıraç kullanır: modeli aynı bırakıp, cevap üretirken ona daha fazla düşünme süresi (daha fazla işlem) vermek.
Mantık şudur: zor bir soruda modele 'acele etme, daha uzun düşün' demek, çoğu zaman onu büyütmekten daha ucuz ve daha etkili bir doğruluk artışı sağlar. Model birkaç farklı çözüm yolu deneyebilir, kendi cevabını gözden geçirebilir, çıkmaza giren yolu bırakıp başka bir yol tutabilir. Tıpkı bir insanın zor bir karar için 'bir gece düşüneyim' demesi gibi, modele verilen ekstra hesaplama, kalitenin asıl kaynağı haline gelir. Bu yüzden bu modeller cevabı geç verir ama daha isabetli verir.
Bu Modeller Nasıl Eğitiliyor?
Bir modele 'iyi düşünmeyi' öğretmenin sırrı, büyük ölçüde pekiştirmeli öğrenmede (reinforcement learning) yatar. Modele bir problem verilir, kendi düşünce zincirini üretmesine izin verilir ve vardığı cevap doğruysa ödüllendirilir, yanlışsa cezalandırılır. Özellikle matematik ve kod gibi cevabın doğrulanabildiği alanlarda bu çok güçlüdür: sonucun doğru olup olmadığı kesin biçimde kontrol edilebildiği için, model zamanla 'hangi tür düşünme adımları doğru cevaba götürüyor' sorusunu kendi kendine keşfeder.
İlginç olan şu: bu süreçte modele 'şöyle düşün' diye adım adım talimat verilmez. Model, denemeler içinde işe yarayan muhakeme stratejilerini kendisi bulur; problemi bölmeyi, geri dönüp kontrol etmeyi, alternatif yollar denemeyi kendiliğinden geliştirir. Eğitim, doğru düşünme alışkanlıklarını ödülle pekiştirir; modelin içselleştirdiği şey ezber bir cevap değil, bir muhakeme refleksidir.
Güçlü Yanları, Bedeli ve Sınırları
Reasoning modelleri, çok adımlı ve mantık yoğun görevlerde belirgin biçimde daha iyidir: zor matematik, karmaşık kod, bilimsel problem çözme, planlama ve iç içe geçmiş muhakeme gerektiren analizler. Bu alanlarda düşünme zinciri, hatayı azaltır ve daha güvenilir sonuç verir. Ama bu yetenek bedava değildir. Daha uzun düşünmek, daha çok işlem, daha çok zaman ve daha çok maliyet demektir; cevaplar daha yavaş gelir ve sorgu başına ücret yükselir.
Bu yüzden kritik nokta şudur: her işe reasoning gerekmez. 'Bu e-postayı özetle' ya da 'şu cümleyi düzelt' gibi tek adımlı görevlerde, düşünen bir modeli çalıştırmak hem israf hem gereksiz yavaşlıktır; klasik hızlı modeller bu işi daha ucuza ve anında yapar. Doğru mühendislik kararı, görevi tanımaktır: basit ve doğrudan işler hızlı modele, çok adımlı ve hata payı düşük olması gereken işler düşünen modele. Olgun sistemler çoğu zaman ikisini bir arada, işe göre seçerek kullanır.
Hukukta Çok Adımlı Muhakeme ve İçtiHub
Hukuk, çok adımlı muhakemenin ders kitabına girecek örneğidir. Bir hukuki sorunun cevabı nadiren tek bir maddede yazar; çoğu zaman birden çok mevzuat hükmünü, istisnaları, içtihadı ve somut olayın özelliklerini bir arada değerlendirmeyi gerektirir. Bu, tam da düşünme zincirinin işe yaradığı türden bir muhakemedir: önce ilgili kuralları ayıkla, sonra olaya uygula, çelişen hükümleri tart, istisnayı kontrol et, sonuca öyle var.
EcoFluxion'da geliştirdiğimiz hukuk yapay zekâsı İçtiHub'da bizim için belirleyici olan ilke şudur: muhakemenin gücü kadar, her adımın bir dayanağı olması da önemlidir. Bir model ne kadar iyi 'düşünürse düşünsün', hukukta cevabın getirilen gerçek mevzuata ve içtihada bağlanması gerekir; aksi halde kendinden emin ama dayanaksız bir muhakeme, en tehlikeli sonuçtur. Bu yüzden bizde akıl yürütme ile RAG (getirmeyle güçlendirilmiş üretim) el ele çalışır: düşünme zinciri analizi kurar, getirme katmanı her adımı doğrulanabilir kaynağa oturtur. Konunun temeli için büyük dil modelleri nasıl çalışır yazımıza da göz atabilirsiniz.