Büyük Dil Modelleri (LLM) Nedir ve Nasıl Çalışır?

ChatGPT'nin, Gemini'nin ve Claude'un arkasındaki teknolojiyi sıfırdan anlamak: sonraki kelimeyi tahmin etmekten parametrelere, bağlam penceresinden eğitim ile çalışma arasındaki farka kadar, hiçbir teknik geçmiş gerektirmeden.

LLM Aslında Nedir? Devasa Bir Otomatik Tamamlama

Büyük Dil Modeli, İngilizce kısaltmasıyla LLM (Large Language Model), basitçe söylersek bir metni alıp "sırada hangi kelime gelmeli?" sorusunu şaşırtıcı bir isabetle yanıtlayan bir bilgisayar programıdır. ChatGPT, Google'ın Gemini'si, Anthropic'in Claude'u ve benzerlerinin hepsi birer LLM'dir. Adındaki "büyük" kelimesi hem öğrendiği metnin hem de modelin kendi boyutunun gerçekten devasa olmasından gelir; ikisine de birazdan döneceğiz.

En sevdiğim benzetme, telefonunuzdaki klavyenin sunduğu sonraki kelime önerisidir. "Bugün hava çok..." yazdığınızda klavye size "güzel", "sıcak" ya da "soğuk" önerir. LLM de özünde tam olarak bu işi yapar; ama telefonunuzdaki o minik modelin aksine, internetin büyük bir bölümünü okumuş ve milyarlarca cümle üzerinde pratik yapmıştır. Bu yüzden tek bir kelime değil, koca bir paragrafı, bir denemeyi, hatta çalışan bir bilgisayar kodunu, her seferinde bir parça tahmin ederek üst üste örebilir.

Bu kadar basit bir fikrin nasıl olup da hukuki bir metni özetleyen, şiir yazan ya da koddaki bir hatayı bulan bir şeye dönüştüğü ilk bakışta sezgiye aykırı gelir. İşin sırrı tek bir tahminde değil; bu tahminin milyarlarca kez tekrarlanmasında ve modelin bu süreçte dilin, mantığın ve dünyanın örüntülerini içselleştirmesinde yatar. Yazının geri kalanında bu küçük fikrin nasıl bu kadar büyük bir sıçramaya dönüştüğünü adım adım açacağız.

Kalbindeki Fikir: Sonraki Kelimeyi (Token'ı) Tahmin Etmek

LLM'lerin tek bir temel becerisi vardır: bir metin parçasının devamında en olası birimi tahmin etmek. Buna teknik dilde "sonraki token tahmini" (next-token prediction) denir. Burada "token", modelin metni işlerken kullandığı en küçük parçadır. Çoğu zaman bir kelimeye karşılık gelir; ama "kitaplarımızdan" gibi uzun bir kelime birkaç token'a bölünebilir. Yani bir token bazen tam bir kelime, bazen bir kelime parçası, bazen de yalnızca bir noktalama işaretidir.

Model her adımda olası tüm token'lar için bir olasılık dağılımı üretir; yani "şu an gelebilecek binlerce kelimeden her birinin ihtimali ne kadar?" sorusuna sayısal bir cevap verir. "Türkiye'nin başkenti..." ifadesinin ardından "Ankara" token'ına çok yüksek, "muz" token'ına ise neredeyse sıfır olasılık atar. Sonra bu olasılıklara göre bir token seçer, onu metnin sonuna ekler ve aynı işlemi en baştan tekrarlar. Tahmin et, ekle, tekrar tahmin et: gördüğünüz o akıcı paragrafları kelime kelime ören mekanizma işte budur.

Buradaki ince nokta şudur: model her seferinde en yüksek olasılıklı token'ı seçmek zorunda değildir. Genellikle olasılıklara göre ağırlıklandırılmış rastgele bir seçim yapar; "sıcaklık" (temperature) denen bir ayar bu rastgeleliğin dozunu belirler. Düşük sıcaklık modeli daha öngörülebilir ve temkinli, yüksek sıcaklık ise daha yaratıcı ama bazen daha savruk yapar. Aynı soruyu iki kez sorduğunuzda birbirinden farklı yanıtlar almanızın başlıca nedeni de budur.

Devasa Metinle Eğitim: Model Bunu Nereden Öğreniyor?

Bir model, "başkenti" kelimesinin ardından genellikle bir şehir adının geldiğini, kimse ona bunu açıkça söylemediği hâlde bilir. Bu bilgiyi "eğitim" (training) denen süreçte, devasa miktarda metni okuyarak kendi kendine çıkarır. Eğitim verisi tipik olarak web sayfalarından, kitaplardan, ansiklopedilerden, makalelerden, forum tartışmalarından ve kod depolarından oluşur; toplamda yüz milyarlarca, hatta trilyonlarca kelime düzeyindedir.

Eğitimin mekaniği şaşırtıcı derecede sadedir. Modele bir cümle parçası gösterilir, bir sonraki kelime gizlenir ve modelden onu tahmin etmesi istenir. Model bir tahminde bulunur, bu tahmin gerçek kelimeyle karşılaştırılır ve yanıldığı ölçüde modelin içindeki sayısal ayarlar minicik bir miktar düzeltilir. Bu işlem devasa metnin üzerinde sayısız kez tekrarlanır. Hiç kimse modele dilbilgisi kuralı, tarih bilgisi ya da mantık öğretmez; model tüm bunları yalnızca "sonraki kelimeyi biraz daha iyi tahmin etmeye" çalışırken, yan ürün olarak örüntü hâlinde yakalar.

Bu temel eğitimin ardından genellikle ikinci bir aşama gelir: insan geri bildirimiyle ince ayar. Burada insanlar modelin verdiği yanıtları değerlendirir, daha yardımcı ve daha güvenli olanları ödüllendirir. "RLHF" (insan geri bildiriminden pekiştirmeli öğrenme) denen bu süreç, ham bir kelime tahmincisini gerçekten işe yarayan, kibar ve talimatları izleyen bir asistana dönüştürür. Yani bugün sohbet ettiğiniz modelin kişiliği ve yardımseverliği, büyük ölçüde bu ikinci aşamanın ürünüdür; ilk aşama ona dili, ikinci aşama ise nasıl davranacağını öğretir.

Parametreler: Modelin "Bildiği" Milyarlarca Küçük Ayar

Eğitim sırasında düzeltilen o "sayısal ayarlara" parametre denir. Bir parametreyi, devasa bir ses mikseri masasındaki minicik bir düğme, bir potansiyometre gibi düşünebilirsiniz. Modelin tüm bilgisi, dil sezgisi ve örüntü tanıma yeteneği, bu düğmelerin tam olarak hangi konumda durduğunda gizlidir. Eğitim, esasen bu milyarlarca düğmeyi tek tek doğru konuma ayarlama sürecinden başka bir şey değildir.

Modern büyük modeller genellikle on milyarlarca, hatta yüzlerce milyar parametreye sahiptir. "GPT" ya da "Llama" gibi isimlerin yanında duyduğunuz büyük sayılar çoğu zaman tam da bu parametre sayısına işaret eder. Genel bir kural olarak daha çok parametre, daha fazla örüntüyü yakalama ve daha incelikli davranma kapasitesi demektir; ama bu ilişki doğrusal değildir. Belli bir noktadan sonra verinin kalitesi, eğitim yöntemi ve modelin mimarisi, ham parametre sayısından çok daha belirleyici hâle gelir.

Burada yaygın bir kavram yanılgısını düzeltmekte fayda var: parametreler, modelin okuduğu cümleleri tek tek sakladığı bir veritabanı değildir. Model eğitim metnini içinde bir kütüphane gibi tutmaz; onun yerine, metindeki istatistiksel örüntüleri bu düğmelere "sıkıştırır". Tıpkı bir kitabı baştan sona okuyup sonra kapaklarını kapatan ve artık sayfaları göremeyen ama özü aklında kalan biri gibi. Bu yüzden bir LLM bilgiyi çoğu zaman kelimesi kelimesine değil, bulanık bir özet gibi hatırlar. Bu ayrım, birazdan değineceğimiz "uydurma" (halüsinasyon) sorununun da temelinde yatar.

"Anlıyor" Gibi Görünmesinin Sırrı: Dikkat ve Transformer

Eğer model yalnızca bir sonraki kelimeyi tahmin ediyorsa, nasıl oluyor da bir soruyu kavrayıp tutarlı, bağlama uygun bir yanıt verebiliyor? Cevap, bugünkü neredeyse tüm LLM'lerin temelindeki "Transformer" adlı mimaride ve onun kalbindeki "dikkat" (attention) mekanizmasında yatar. Dikkat, modelin bir kelimeyi işlerken metindeki diğer kelimelerin hangilerine ne kadar ağırlık vermesi gerektiğine karar vermesini sağlar; yani modele "şu an neye odaklanmalıyım?" sorusunu sürekli sordurtur.

Bir örnek bunu somutlaştırır: "Çantayı masaya koydum çünkü o çok ağırdı" cümlesinde "o" zamiri neye işaret ediyor? İnsan zihni anında "çanta" der. Dikkat mekanizması sayesinde model de "o" kelimesini işlerken "çanta" kelimesine güçlü, "masa" kelimesine ise zayıf bir bağ kurar. Cümleyi "çünkü o çok büyüktü" diye değiştirseydiniz, dikkat bu kez büyük olasılıkla "masa"ya kayardı. İşte bir sonraki kelimeyi doğru tahmin edebilmek için kelimeler arasındaki bu ilişkileri yakalama yeteneği, dışarıdan "anlama" gibi görünen şeyin büyük kısmını üretir.

Peki model gerçekten anlıyor mu? Bu, felsefi olarak hâlâ tartışılan bir sorudur ve dürüst cevap "insanın anladığı anlamda hayır"dır. Modelin bilinci, niyeti ya da dünyaya dair yaşanmış bir deneyimi yoktur. Yaptığı şey, devasa metinden öğrendiği örüntüleri olağanüstü bir incelikle uygulamaktan ibarettir. Ne var ki bu örüntüler o kadar zengindir ki, ortaya çıkan davranış pek çok pratik durumda anlamaktan ayırt edilemez hâle gelir. "Anlıyormuş gibi yapmak" ile "anlamak" arasındaki bu gri bölge, yapay zeka tartışmalarının en kışkırtıcı ve en çözümsüz köşelerinden biridir.

Bağlam Penceresi: Modelin Kısa Süreli Hafızası

Bir LLM'le sohbet ederken, modelin az önce söylediklerinizi hatırlıyormuş gibi davrandığını fark edersiniz. Bunu mümkün kılan şey "bağlam penceresi" (context window) denen kavramdır. Bağlam penceresi, modelin bir seferde "görebildiği" ve hesaba katabildiği metin miktarıdır; token cinsinden ölçülür. Bunu, modelin önündeki bir çalışma masasının boyutu gibi düşünebilirsiniz: o masaya sığan her şeyi aynı anda değerlendirebilir, masaya sığmayanı ise göremez.

Bu pencerenin sınırlı olması önemli sonuçlar doğurur. Eğer bir konuşma ya da belge bağlam penceresinden uzunsa, en eski kısımlar masadan düşmeye başlar; yani model, konuşmanın en başındaki bir ayrıntıyı bir noktadan sonra artık görmez. Çok uzun sohbetlerde modelin baştaki talimatları unutmuş gibi davranmasının nedeni budur. Modelin kalıcı bir hafızası olduğu yanılgısı da çoğu zaman buradan doğar; oysa söz konusu olan, her mesajda masaya yeniden dizilen geçici bir bağlamdır.

Son yıllarda bağlam pencereleri çarpıcı biçimde büyüdü; bugün bazı modeller yüz binlerce, hatta milyonlarca token'lık metni aynı anda dikkate alabiliyor. Bu, bir modelin uzun bir sözleşmeyi ya da koca bir dava dosyasını tek seferde okuyup üzerine soru yanıtlamasını mümkün kılar. Yine de bağlam penceresi ne kadar büyürse büyüsün, modelin eğitimle kazandığı kalıcı bilgi ile o anki konuşmaya özgü geçici bilgi arasındaki ayrım her zaman korunur. Bu kritik ayrımı bir sonraki bölümde netleştiriyoruz.

Eğitim ve Çalışma (Inference) Arasındaki Fark

LLM'lerin en çok karıştırılan yanlarından biri, modelin "öğrendiği" an ile "kullanıldığı" an arasındaki farktır. Eğitim (training), modelin devasa metinden parametrelerini ayarlayarak bilgi edindiği; haftalar süren, son derece pahalı ve yalnızca bir kez (ya da nadiren) yapılan süreçtir. Bunu okulda geçirilen uzun yıllara benzetebilirsiniz: yoğun, masraflı ama bir defa tamamlanan bir birikim dönemi.

Çalışma ya da teknik adıyla çıkarım (inference) ise, eğitilmiş modeli alıp ona bir soru sorduğunuz andır. Burada model artık yeni bir şey öğrenmez; parametreleri sabittir, adeta dondurulmuştur. Model yalnızca o sabit düğme konumlarını kullanarak sizin metninize bir yanıt üretir. Yani siz ChatGPT'ye bir şey sorduğunuzda model sizden "öğrenmez"; sadece daha önce öğrendiklerini o anki bağlamınıza uygular. Tıpkı mezun olmuş bir uzmanın, yeni bir vakayı çözmek için diplomasını yeniden kazanmasına gerek olmadan mevcut bilgisini kullanması gibi.

Bu ayrımın iki pratik sonucu vardır. Birincisi, bir modelin "bilgisi" eğitim verisinin bittiği tarihte donar; buna eğitim kesim tarihi (training cutoff) denir ve modelin o tarihten sonraki olayları kendiliğinden bilmemesinin nedeni tam olarak budur. İkincisi, bir konuşmada modele "öğrettiğinizi" sandığınız şeyler, yalnızca o konuşmanın bağlam penceresiyle sınırlıdır; sohbeti kapattığınızda model bunları unutur, çünkü kalıcı parametrelerine hiçbir şey yazılmamıştır. Bir modeli güncel ve alana özgü tutmanın yolu da çoğu zaman pahalı bir yeniden eğitimden değil, bir sonraki bölümde anlatacağımız tekniklerden geçer.

Ne Yapabilir, Ne Yapamaz? Halüsinasyon ve Sınırlar

LLM'ler metni özetlemekte, yeniden yazmakta, çevirmekte, sınıflandırmakta, fikir üretmekte ve genel olarak dilsel görevlerde olağanüstü iyidir. Bir konuyu farklı seviyelerde açıklayabilir, bir metnin tonunu değiştirebilir, kod yazabilir ya da karmaşık bir paragrafı sadeleştirebilirler. Güçlü oldukları yer, dilin ve örüntülerin hâkim olduğu, tek bir kesin doğrunun şart olmadığı görevlerdir.

Buna karşılık en bilinen zayıflıkları "halüsinasyon" denen olgudur: modelin, kulağa son derece güvenilir ve akıcı gelen ama aslında yanlış, hatta tamamen uydurma bilgiler üretmesi. Bunun nedeni, daha önce gördüğümüz gibi, modelin gerçeği bir veritabanından çekip getirmemesi, istatistiksel olarak "olası görüneni" üretmesidir. Var olmayan bir mahkeme kararına atıf yapması ya da yanlış bir tarih vermesi kötü niyetinden değil, doğruluğu değil olasılığı optimize eden doğasından kaynaklanır. İşte tam da bu yüzden, hassas alanlarda bir LLM çıktısı her zaman bağımsız olarak doğrulanmalıdır.

Modeller ayrıca güncel olaylardan habersiz olabilir (eğitim kesim tarihi nedeniyle), karmaşık çok adımlı mantık ya da kesin aritmetik gerektiren işlerde tökezleyebilir ve eğitim verisindeki önyargıları yansıtabilir. İşte bu sınırları aşmak için iki güçlü yöntem geliştirildi: "araç kullanımı" (model bir hesap makinesini ya da arama motorunu çağırır) ve özellikle "RAG" (retrieval-augmented generation, getirim destekli üretim). RAG, modele cevap ürettirmeden önce güvenilir ve güncel bir kaynaktan ilgili belgeleri getirip bağlam penceresine koyar; böylece model hafızasından uydurmak yerine, önündeki gerçek metne dayanarak yanıt verir.

EcoFluxion'da bu ayrımları her gün pratikte yaşıyoruz. Hukuk teknolojisi ürünümüz İçtiHub'ın motoru MevzuatBot, tam da halüsinasyonun kabul edilemez olduğu bir alanda çalışıyor: yanlış bir madde ya da uydurma bir içtihat, gerçek bir hukuki sonuca yol açabilir. Bu yüzden yanıtları modelin hafızasına değil, RAG ile getirilen gerçek mevzuat ve içtihat metinlerine dayandırıyoruz. Sonuçta bir LLM'i hem güçlü hem de güvenilir kılan şey, çoğu zaman modelin kendisi değil, etrafına özenle kurulan bu mühendisliktir.