Mühendislik

Bir Yapay Zekânın "İyi" Olduğunu Nereden Biliyoruz? Benchmark'lar ve Değerlendirme

Liderlik tablolarındaki yüzdeler gerçekte ne anlatır, benchmark'lar nerede yanıltır ve bir modelin işe yarayıp yaramadığını asıl ne kanıtlar? Sade bir rehber.

12 dk okuma

DeğerlendirmeBenchmarkLLMHalüsinasyonKalite

"İyi model" demek aslında ne demek?

Yeni bir yapay zekâ modeli çıktığında manşet hep aynı: "X modeli şu testte %94 aldı, rekor kırdı." Kulağa bir sınav notu gibi geliyor ve içimizdeki öğrenci anlamış gibi başını sallıyor. Ama bir saniye durup düşünelim: %94, neyin %94'ü? Hangi soruların? Kim puanladı? Ve en önemlisi, bu sayı, yarın o modele soracağınız soruda işe yarayıp yaramayacağı hakkında ne söylüyor?

Bir modelin "iyi" olması tek boyutlu bir şey değildir. Şiir yazmakta harika olan bir model, bir sözleşmedeki tek bir olumsuzluk ekini atladığı için tam tersi bir sonuca varabilir. Hızlı ama dikkatsiz olabilir; ya da yavaş ama titiz. Bir dilde parlak, başka bir dilde tutuk olabilir. Yani "iyi mi?" sorusunun cevabı her zaman "ne için iyi?" diye başlar.

Değerlendirme (İngilizcesiyle evaluation, sektörde kısaca eval) işte bu soruyu sistematik biçimde sormanın yoludur. Bir modelin ne kadar doğru, ne kadar tutarlı, ne kadar güvenli ve ne kadar işe yarar olduğunu ölçme disiplinidir. Bu yazıda değerlendirmenin neden sandığınızdan çok daha zor olduğunu, benchmark dediğimiz standart sınavların nereye kadar güvenilir olduğunu, insan gözünün neden hâlâ vazgeçilmez olduğunu ve sonunda en önemli testin neden gerçek dünya olduğunu adım adım anlatacağız.

Neden değerlendirme bu kadar zor?

Bir hesap makinesini test etmek kolaydır: 2+2 yaz, 4 bekle, eşitse doğru. Cevap ya doğrudur ya yanlış, arası yoktur. Ama büyük dil modelleri (LLM'ler, yani metni anlayıp metin üreten yapay zekâlar) böyle çalışmaz. Onlara bir soru sorarsınız, geri serbest ve akıcı bir paragraf gelir. O paragrafın "doğru" olup olmadığını ölçmek, hesap makinesindeki gibi tek bir eşitlik kontrolü değildir.

İlk zorluk şu: aynı soruya yüzlerce geçerli cevap olabilir. "Bana şu sözleşmenin fesih şartını özetle" dediğinizde model, on farklı kelime dizilişiyle aynı doğru fikri anlatabilir. Hepsi doğrudur ama hiçbiri diğerinin tıpatıp aynısı değildir. Yani sabit bir "cevap anahtarı" ile karşılaştırma çoğu zaman imkânsızdır. Üstüne, modeller olasılıksal çalışır: aynı soruyu iki kez sorarsanız iki farklı cevap alabilirsiniz. Bu da ölçümün üstüne bir belirsizlik katmanı daha ekler.

İkinci zorluk, "iyi" cevabın çok boyutlu olmasıdır. Bir hukuki yanıt doğru olabilir ama eksik. Eksiksiz olabilir ama anlaşılmaz. Anlaşılır olabilir ama yanlış bir maddeye atıf yapıyordur. Bütün bu boyutları tek bir sayıya sıkıştırmak, bir insanın "iyiliğini" tek bir nota indirgemek kadar kaba bir basitleştirmedir.

Üçüncü ve belki en sinsi zorluk: değerlendiren kim? Bir matematik probleminde doğru cevabı bilen bir uzman vardır. Ama "bu özet yeterince iyi mi?" sorusunda iki uzman bile farklı düşünebilir. Değerlendirmenin kendisi öznelliğin gölgesinde kalır. İşte tam bu üç zorluk yüzünden sektör, tek bir mükemmel ölçüm aramak yerine birbirini tamamlayan birçok yöntemi yan yana kullanır.

Benchmark nedir? Modellerin ortak sınavı

Benchmark, farklı modelleri aynı sınava sokmanın yoludur. Önceden hazırlanmış büyük bir soru-cevap setidir: binlerce soru ve her birinin bilinen doğru cevabı. Modeli bu setin üzerinden çalıştırır, kaç soruyu doğru yaptığını sayar ve bir yüzde elde edersiniz. Tıpkı üniversite giriş sınavı gibi: herkes aynı kâğıdı çözer, böylece notlar karşılaştırılabilir hale gelir.

Yıllar içinde birçok ünlü benchmark ortaya çıktı. MMLU; tarih ve hukuktan tıbba kadar 57 farklı alandan çoktan seçmeli sorular sorarak bir modelin genel bilgisini ölçer. GSM8K, ilkokul düzeyi matematik problemleriyle akıl yürütmeyi test eder. HumanEval ve SWE-bench, modelin kod yazma ve gerçek yazılım hatalarını çözme becerisine bakar. GPQA ise uzman düzeyinde, internette kolayca aranıp bulunamayacak kadar zor fen sorularıyla sınırları zorlar.

Benchmark'ların güzelliği nesnellik ve karşılaştırılabilirliktir. Herkes aynı testi kullandığında "benim modelim seninkinden iyi" tartışması bir ölçüye dayanır. Yeni bir model çıktığında mühendisler onu dakikalar içinde düzinelerce benchmark'tan geçirip nerede durduğunu görebilir. Alanın bu kadar hızlı ilerlemesinin bir sebebi de budur: ilerlemeyi ölçecek ortak bir cetvelimiz var.

Ama bu cetvel düşündüğünüzden çok daha eğri olabilir. Ve sektörün 2026'da en çok tartıştığı sorulardan biri tam olarak bu: benchmark'lara ne kadar güvenmeliyiz?

Benchmark'ların kör noktaları: kontaminasyon ve doygunluk

Benchmark'ların en büyük zaafı, sınava "çalışmış" bir öğrenciyi andırır: ya soruları önceden gördüyse? Buna kontaminasyon (contamination, yani test verilerinin eğitim verisine sızması) deniyor. Modeller, internetten kazınan devasa metin yığınlarıyla eğitiliyor. Popüler benchmark soruları ise yıllardır forumlarda, çözüm kılavuzlarında ve GitHub depolarında dolaşıyor. Yani model o soruyu eğitim sırasında görüp cevabı ezberlemiş olabilir. O zaman yüksek puan, gerçek bir yeteneği değil, sadece iyi bir hafızayı gösterir. MMLU gibi yıllanmış benchmark'lar bu açıdan en kirlenmiş olanlardan sayılıyor.

İkinci sorun doygunluktur (saturation). Bir test fazla kolaylaştığında ayırt etme gücünü kaybeder. 2026'da en güçlü modeller MMLU'da %88-90'ın üzerinde sıkışmış durumda; bu aralıkta iki model arasındaki birkaç puanlık fark gerçek bir üstünlük mü, yoksa istatistiksel gürültü mü, ayırt etmek çok zor. Daha çarpıcısı GPQA: 2023 sonunda GPT-4 bu testin en zor versiyonu olan GPQA Diamond'da %39 alırken, 2026 başında en üst seviye modeller %94 bandına çıkmış durumda. Oysa PhD'li alan uzmanları bile bu testte ortalama %65 civarında kalıyor. Bir test herkes için kolaylaştığında, artık kimin daha iyi olduğunu söyleyemez.

Üçüncü ve en insani sorun: benchmark'a göre optimize etme. Bir ölçü hedefe dönüştüğünde, iyi bir ölçü olmaktan çıkar (ekonomide buna Goodhart Yasası denir). Şirketler liderlik tablosunda üste tırmanmak için modellerini doğrudan o testlerde parlayacak şekilde ayarlamaya başlayabilir. Sonuç, benchmark'ta ışıldayan ama gerçek kullanımda hayal kırıklığı yaratan modeller olabilir: sınavdan tam puan alıp dersi hiç anlamamış öğrenci gibi.

Bunun çözümü olarak alan sürekli yeni, "kirlenmemiş" benchmark'lar üretiyor: modelin eğitim tarihinden sonra yayımlanan sorular ya da hiç kamuya açıklanmayan gizli test setleri. Ama bu bir kovalamaca: her yeni benchmark da zamanla yaşlanır, sızar ve doygunlaşır. İşte bu yüzden tek başına hiçbir benchmark'a iman edilmez.

Görev odaklı değerlendirme: genel değil, sizin işiniz

Genel benchmark'lar bir modelin geniş yeteneklerini ölçer, ama sizin derdiniz nadiren "genel"dir. Bir hastaneye yapay zekâ kuruyorsanız modelin şiir yazma becerisi sizi hiç ilgilendirmez; tıbbi notları doğru özetleyip özetlemediği ilgilendirir. İşte burada görev odaklı değerlendirme (task-specific eval) devreye girer: modeli, gerçekte yapacağı işin tıpkısı bir test setiyle sınamak.

Görev odaklı bir eval kurmak için kendi "sınav kâğıdınızı" yazarsınız. Kendi alanınızdan gerçek sorular toplar, her biri için ideal cevabın nasıl görünmesi gerektiğini uzmanlarla birlikte belirler ve modeli bu set üzerinde çalıştırırsınız. Bu set genellikle birkaç yüz dikkatle seçilmiş örnekten oluşur; sayıdan çok kalite ve temsil gücü önemlidir. Amaç, modelin tam da müşterilerinizin gerçekte soracağı türden sorularda nasıl davrandığını görmektir.

Bu yaklaşımın gücü, ölçtüğünüz şeyin sizin için anlamlı olmasıdır. Liderlik tablosunun zirvesindeki bir model sizin işinizde en iyisi olmayabilir. Çok güçlü ama pahalı bir model, sizin dar göreviniz için, daha küçük ve hızlı bir modelden daha iyi sonuç vermeyebilir. Görev odaklı eval olmadan bunu asla bilemez, yalnızca tahmin edersiniz. İyi ekipler tahmin etmez; ölçer.

İnsan değerlendirmesi ve yapay zekânın yapay zekâyı puanlaması

Bazı şeyleri otomatik ölçmek imkânsızdır. Bir cevabın "ikna edici", "saygılı" ya da "bir avukatın güveneceği tonda" olup olmadığını hiçbir formül söyleyemez. İşte bu yüzden insan değerlendirmesi (human evaluation) hâlâ altın standarttır. Burada gerçek uzmanlar modelin cevaplarını okur ve puanlar: doğru mu, eksik mi, yanıltıcı mı? Çoğu zaman iki cevap yan yana gösterilir ve değerlendiriciden "hangisi daha iyi?" diye seçmesi istenir; buna eşli karşılaştırma (pairwise comparison) denir ve insanların tek tek mutlak not vermesinden daha tutarlı sonuçlar üretir.

İnsan değerlendirmesinin sorunu pahalı ve yavaş olmasıdır. Binlerce cevabı uzmanlara okutmak hem zaman alır hem ciddi maliyet getirir. Bu yüzden son yıllarda güçlü bir alternatif yaygınlaştı: LLM-as-a-judge, yani bir yapay zekâ modelinin başka bir modelin cevabını puanlaması. Güçlü bir modele net bir değerlendirme yönergesi (rubrik) verirsiniz; o da yüzlerce cevabı saniyeler içinde, tutarlı biçimde puanlar.

Şaşırtıcı olan, bunun ne kadar iyi çalışabildiğidir. İyi kurulmuş görevlerde güçlü bir LLM yargıcının insan değerlendiricilerle uyumu %80'in üzerine çıkabiliyor; bu da iki insanın aynı görevde birbiriyle uyuşma oranıyla (yaklaşık %80) hemen hemen aynı. İşte bu yüzden LLM-as-a-judge, ölçekli değerlendirmenin fiilî standardı haline geldi.

Ama bu yöntemin kendi tuzakları var. Yapay zekâ yargıçları sistematik önyargılar sergileyebilir: ilk gösterilen cevabı kayırma eğilimi (pozisyon önyargısı, bazı testlerde ilk cevaba %75'e varan kayırma görülüyor), daha uzun cevabı otomatik olarak daha iyi sanma (verbosite önyargısı) ya da kendi üslubuna benzeyen metni ödüllendirme. Bu yüzden ciddi ekipler LLM yargıcına körü körüne güvenmez; rubriği somut örneklerle besler, cevapların sırasını rastgele değiştirir ve yargıcın kararlarını düzenli aralıklarla gerçek insan etiketleriyle kalibre eder. Yani yapay zekâ, insanın yerini almaz; insanın erişimini çoğaltır.

Halüsinasyon ve doğruluk: en kritik metrik

Bir modelin verebileceği en tehlikeli cevap, yanlış olduğunu fark etmediğiniz cevaptır. Halüsinasyon (hallucination), modelin tam bir özgüvenle uydurduğu, gerçekte var olmayan bilgidir: olmayan bir mahkeme kararı, yanlış bir kanun maddesi numarası, hiç söylenmemiş bir alıntı. Model yalan söylemeye çalışmaz; yalnızca bir sonraki kelimeyi tahmin eden bir sistem olduğu için gerçeğe en çok benzeyen ama yanlış olan metni üretebilir. Ve bunu o kadar akıcı yapar ki uzman olmayan bir göz farkı anlamaz.

İşte bu yüzden halüsinasyon oranı, özellikle hukuk, tıp ve finans gibi alanlarda en kritik metriktir. Sayılar ürkütücü olabilir: Stanford araştırmacılarının 2024'te yaptığı bir çalışma, o dönemin genel amaçlı modellerinin doğrudan hukuki sorularda %58 ile %88 arasında halüsinasyon ürettiğini buldu (GPT-4 %58, Llama 2 %88). Kaynak getirip ona dayanan özel hukuki araştırma araçlarında bu oran daha düşük çıksa da, aynı ekibin bir başka çalışması bu ticari araçların bile sorguların en az altıda birinde hata yaptığını gösterdi. Yani "bu model çok akıllı" demek, "bu model güvenilir" demekle aynı şey değildir.

Halüsinasyonu ölçmenin birkaç yolu var. RAG (kaynak getirip ona dayanarak cevap üreten sistemler) için en önemli metrik bağlılıktır (faithfulness): modelin söyledikleri, gerçekten verilen kaynaklarda yazıyor mu? Bir başka yaklaşım, aynı soruyu birkaç kez sorup cevapların birbirini tutup tutmadığına bakmaktır; model bir gerçeği biliyorsa tutarlı cevap verir, uyduruyorsa her seferinde farklı şeyler söyleme eğilimindedir. Bu yönteme anlamsal entropi (semantic entropy) deniyor.

Önemli bir nokta: doğruluğun (accuracy) tek bir yüzü yoktur. Bir model her soruya cevap vermeye çalışıp bazılarını uydurabilir; ya da emin olmadığında "bilmiyorum" diyebilir. Çoğu kritik uygulamada ikincisi çok daha değerlidir. Bu yüzden iyi bir değerlendirme sadece "kaç soruyu doğru bildi" diye sormaz; "yanlış bilirken ne kadar emin görünüyordu" ve "bilmediğini ne sıklıkla kabul etti" diye de sorar.

En önemli test: gerçek dünya

Bütün benchmark'lar, görev setleri ve insan değerlendirmeleri kontrollü ortamlardır; laboratuvar koşullarıdır. Ama gerçek kullanıcılar laboratuvarda yaşamaz. Gerçek bir avukat, sizin test setinizdeki düzgün soruları sormaz; yazım hatalı, yarım bırakılmış, iki farklı konuyu birbirine karıştıran, bağlamı eksik sorular sorar. İşte bir modelin gerçekten iyi olup olmadığını ancak bu dağınık gerçeklik gösterir.

Bu yüzden olgun ekipler değerlendirmeyi tek seferlik bir sınav olarak değil, sürekli dönen bir döngü olarak görür. Ürün canlıya çıktıktan sonra gerçek kullanım izlenir (loglar, kullanıcı geri bildirimleri, hangi cevapların düzeltildiği), bu gerçek vakalar yeni test örneklerine dönüştürülür ve eval seti sürekli büyür. Bir de A/B testi vardır: iki farklı model ya da ayar, gerçek kullanıcıların bir kısmına gösterilir ve hangisinin sahada gerçekten daha iyi sonuç verdiği canlı veriyle ölçülür. Hiçbir benchmark bunun yerini tutamaz.

Gerçek dünya testinin bir de dürüstlük boyutu var. Bir model demoda etkileyici olabilir ama günde binlerce sorgu altında yavaşlayabilir, maliyeti patlayabilir ya da nadir ama tehlikeli hatalar yapabilir. Ölçek, kontrollü testlerin asla yakalayamadığı sorunları gün yüzüne çıkarır. İşte bu yüzden "iyi model mi?" sorusunun nihai cevabı her zaman sahada, gerçek kullanıcıların elinde verilir.

İçtiHub hukuki cevapları nasıl değerlendiriyor?

Hukukta bir cevabın "oldukça iyi" olması yetmez. Yanlış bir madde numarası, yürürlükten kalkmış bir kanuna yapılan atıf ya da hiç var olmamış bir içtihat, kullanıcıyı ciddi biçimde yanıltabilir. İşte bu yüzden İçtiHub'ı geliştirirken değerlendirmeyi sonradan akla gelen bir kontrol olarak değil, mühendisliğin merkezi olarak ele alıyoruz. Genel bir liderlik tablosunda yüksek puan alan bir model, Türk hukukunun kendine özgü diliyle ne kadar başa çıkabildiğini söylemez; bunu ancak hukuka özgü, görev odaklı değerlendirme gösterebilir.

Bizim için en kritik metrik bağlılıktır (faithfulness). İçtiHub bir RAG sistemidir: önce ilgili mevzuatı ve içtihadı getirir, sonra cevabı doğrudan bu kaynaklara dayandırır. Değerlendirme sürecimiz tam da bunu sorgular: cevapta belirtilen her madde ve her karar, getirilen gerçek kaynaklarda hakikaten var mı, yoksa model bir şey mi uydurdu? Atıfların kaynaklara izlenebilir biçimde bağlı olması, halüsinasyona karşı en güçlü savunmamızdır. Çünkü bir hukukçu olarak kullanıcı, yalnızca cevabı değil, cevabın dayandığı kaynağı da kontrol edebilmelidir.

Değerlendirmemiz çok katmanlı işler. Hukukçuların hazırladığı, gerçek soruları temsil eden bir test seti üzerinde otomatik kontroller yaparız; bazı yargıları ölçekli biçimde yürütmek için yapay zekâ tabanlı puanlamadan yararlanırız; ama nihai kalite kararını her zaman alan uzmanlarının gözü verir. Ve en önemlisi, sistemi gerçek kullanım üzerinden sürekli izler, ortaya çıkan zorlu vakaları test setimize ekler ve böylece döngüyü kapatırız.

Buradaki amaç, bir öğretici yazının vaadini somut bir disipline dönüştürmektir: "İyi mi?" sorusuna asla tek bir parlak sayıyla cevap vermemek. Bunun yerine doğruluğu, bağlılığı, eksiksizliği ve gerçek dünyadaki güvenilirliği ayrı ayrı ölçmek. Çünkü hukuk gibi hata payının dar olduğu bir alanda, bir modelin gerçekten iyi olduğunu bilmenin tek dürüst yolu, onu durmadan ve titizlikle ölçmektir.

Öne çıkanlar

"İyi model" tek boyutlu değildir; doğru soru "ne için iyi?" diye başlar ve doğruluk, eksiksizlik, hız, güvenlik gibi boyutları ayrı ayrı ölçmek gerekir.
Benchmark'lar modelleri aynı sınava sokarak karşılaştırmayı sağlar, ama kontaminasyon (test sorularının eğitim verisine sızması), doygunluk ve benchmark'a göre optimize etme yüzünden yanıltabilir; tek bir teste asla körü körüne güvenmeyin.
Genel benchmark'lar sizin işinizi ölçmez; kendi alanınızdan toplanmış, gerçek kullanım senaryonuza benzeyen görev odaklı bir test seti çok daha anlamlıdır.
İnsan değerlendirmesi hâlâ altın standarttır; LLM-as-a-judge (yapay zekânın yapay zekâyı puanlaması) ölçeklenmeyi sağlar ama pozisyon ve verbosite önyargısı gibi sistematik hatalar yüzünden insan etiketleriyle düzenli kalibre edilmelidir.
Halüsinasyon oranı, özellikle hukuk ve tıp gibi alanlarda en kritik metriktir; doğruluk sadece "kaç doğru" değil, modelin bilmediğini kabul edip etmediğini de kapsar.
En önemli test gerçek dünyadır: canlı kullanımı izlemek, A/B testi yapmak ve eval setini sürekli büyütmek, hiçbir laboratuvar testinin yakalayamadığı sorunları açığa çıkarır.
İçtiHub, bir RAG sistemi olarak en çok bağlılık (faithfulness) metriğine odaklanır: her atıf gerçek kaynaklara izlenebilir biçimde bağlıdır ve değerlendirme; otomatik kontroller, yapay zekâ puanlaması ve uzman gözünü birleştiren sürekli bir döngüdür.

Tüm yazılar