2017'de Her Şeyi Değiştiren Makale
Yapay zekânın tarihinde pek çok dönüm noktası vardır, ama çok azı 2017'de yayımlanan tek bir makale kadar keskin bir çizgi çeker. Google'da çalışan sekiz araştırmacının kaleme aldığı makalenin adı biraz iddialıydı: "Attention Is All You Need", yani "İhtiyacınız Olan Tek Şey Dikkat". Başlık, o güne kadar dil işleme için vazgeçilmez sanılan bir yığın karmaşık bileşeni rafa kaldırıp, yerine sadece "dikkat" (attention) adı verilen tek bir mekanizmayı koymayı öneriyordu. Adı üstünde: gerisini boş verin, dikkat yeter.
O dönemde makinelerin metni okuması ve üretmesi, kelimeleri tek tek, sırayla işleyen sinir ağlarıyla yapılıyordu. Bu yaklaşım çalışıyordu ama yavaştı ve uzun cümlelerde nefesi kesiliyordu. Transformer adı verilen yeni mimari ise farklı bir soru sordu: Ya bir cümledeki bütün kelimelere aynı anda bakabilseydik ve her kelimenin diğerleriyle nasıl ilişkilendiğini doğrudan öğrenebilseydik?
Bu masum görünen sorunun sonuçları çığ gibi büyüdü. Bugün adını duyduğunuz hemen her büyük dil modeli (GPT, Claude, Gemini, Llama ve diğerleri) temelinde Transformer mimarisini kullanır. Hatta bu modellerin ortak soyadındaki harf bile oradan gelir: "GPT"deki "T", "Transformer" demektir. Bu yazıda, ağır matematiğe boğulmadan, bu mimarinin neden bu kadar güçlü çıktığını sezgisel olarak kavramaya çalışacağız.
Eski Yöntemin Derdi: Kelimeleri Tek Sıra Hâlinde Okumak
Transformer'dan önce dil görevlerinin yıldızı, RNN (Recurrent Neural Network, yani Tekrarlayan Sinir Ağı) ve onun daha becerikli kuzeni LSTM idi. Bu ağların çalışma mantığını şöyle hayal edin: bir cümleyi okurken kelimeleri soldan sağa tek tek alırlar ve o ana kadar okudukları her şeyin bir özetini kafalarında tutarak ilerlerler. Yeni bir kelime geldiğinde özeti güncellerler. Yani cümle boyunca bir tür hafıza kabarcığını taşırlar.
Bu yaklaşımın iki ciddi derdi vardı. Birincisi hız. Kelimeler sırayla işlendiği için beşinci kelimeyi hesaplamadan önce dördüncüyü bitirmek zorundasınız. Bu da modern grafik işlemcilerin (GPU) en sevdiği şeyi, yani paralel hesaplamayı imkânsız kılar. GPU'lar binlerce işlemi aynı anda yapmak için tasarlanmıştır; oysa RNN onları tek sıraya dizip sıralarını beklemeye zorlar; tam bir israf.
İkinci ve daha sinsi dert ise unutkanlıktı. Cümlenin başındaki bir bilgi, sona varana dek onlarca güncellemeden geçer ve her adımda biraz daha silikleşir. "Geçen yıl Ankara'da doğan, şimdi İstanbul'da yaşayan ve yeni bir işe başlayan kız kardeşim..." diye uzayıp giden bir cümlede, sondaki yüklemi baştaki "kız kardeşim" ile bağlamak, araya giren kelime sayısı arttıkça RNN için zorlaşır. Bilgi, kulaktan kulağa oynayan uzun bir çocuk dizisinde olduğu gibi, yol boyunca bozulur.
Dikkat (Attention) Nedir? Odadaki Sohbet Analojisi
Transformer'ın kalbindeki fikir olan "öz-dikkat" (self-attention) mekanizmasını kavramanın en iyi yolu somut bir benzetmedir. Bir cümledeki her kelimeyi, bir odada toplanmış insanlar gibi düşünün. Her kelime, kendi anlamını netleştirmek için odadaki diğer tüm kelimelere bakar ve şu soruyu sorar: "Ben kim olduğumu anlamak için asıl kime kulak vermeliyim?"
Klasik örnek şudur: "Hayvan yorgun olduğu için caddeyi geçmedi." İngilizcedeki "it" (yani "o") hangisine işaret ediyor: hayvana mı, caddeye mi? İnsan için cevap apaçık, ama makine bunu kendi çıkarmak zorunda. Öz-dikkat sayesinde "o" kelimesi cümledeki bütün kelimeleri tarar ve dikkatinin aslan payını "hayvan"a yöneltir. Böylece "o"nun anlamı, "hayvan"ın anlamından beslenerek belirginleşir. Eğer cümle "...çok genişti" diye bitseydi, dikkat bu kez "cadde"ye kayardı; yani aynı kelime, bağlama göre nereye bakacağını kendisi seçer.
İşin güzel yanı şu: bu dikkat, RNN'deki gibi adım adım taşınan kırılgan bir hafıza değildir. "O" kelimesi, "hayvan" kelimesine doğrudan, tek bir sıçramayla ulaşır; aralarında kaç kelime durduğunun hiçbir önemi yoktur. Cümlenin başı ile sonu arasındaki mesafe, dikkat mekanizması açısından adeta sıfırdır. Uzak kelimeler arasında bu doğrudan köprüyü kurabilmek, Transformer'ı öncüllerinden ayıran en kritik özelliktir.
Üstelik bu hesap tek seferde biter. Her kelime, diğer tüm kelimelerle olan ilişkisini aynı anda hesaplar. Tam da bu yüzden, RNN'in aksine, paralelleştirilebilir: binlerce kelimenin dikkat puanları GPU üzerinde tek hamlede hesaplanabilir. Yani dikkat, hem daha akıllı hem de donanıma daha uygun bir çözümdür.
Kaputun Altında: Sorgu, Anahtar ve Değer
Peki kelimeler birbirine "dikkat etmeyi" tam olarak nasıl beceriyor? Burada üç kavram devreye girer ve bunları bir kütüphane benzetmesiyle anlatmak işi kolaylaştırır: Sorgu (Query), Anahtar (Key) ve Değer (Value). İşin ilginç yanı, her kelimenin bu üç rolü de aynı anda üstlenmesidir.
Sorgu, bir kelimenin "şu an neyi arıyorum?" sorusudur; kütüphaneye gidip aradığınız konuyu söylemeniz gibi. Anahtar, her kelimenin "ben şu konu hakkındayım" diyen etiketidir; raftaki kitapların sırtındaki başlıklar gibi. Değer ise o kelimenin taşıdığı asıl içeriktir; kitabın içindeki bilginin kendisi. Bir kelime kendi Sorgusunu diğer tüm kelimelerin Anahtarlarıyla karşılaştırır; hangi Anahtar Sorguya en çok uyuyorsa, o kelimenin Değerinden o kadar çok bilgi devşirir.
Sayısal olarak şu olur: bir kelimenin Sorgusu ile bir başka kelimenin Anahtarı arasındaki uyum, bir puana dönüşür. Yüksek puan, güçlü bir ilişki demektir. Bu puanlar sonra bir oranlamadan geçirilir (toplamları bire eşitlenir) ve her kelimenin Değeri, kendi puanı oranında harmanlanarak yeni, bağlamla zenginleşmiş bir temsil oluşturulur. Yani "o" kelimesinin nihai temsili, ağırlıklı olarak "hayvan"ın Değerini içinde taşır.
Bu üçlü oyunun en şık yanı şudur: Sorgu, Anahtar ve Değer elle yazılmış sabit kurallar değil, modelin eğitim sırasında kendi kendine öğrendiği şeylerdir. Hiç kimse modele "zamirler öncüllerine baksın" diye bir kural girmez. Model, milyonlarca cümleyi gördükçe hangi kelimenin hangisine dikkat etmesi gerektiğini kendi keşfeder. Kurallar verilmez, örüntüler öğrenilir.
Çok Başlı Dikkat ve Sıra Duygusu
Tek bir dikkat mekanizması güçlüdür, ama tek bir bakış açısıyla sınırlıdır. Transformer bu yüzden "çok başlı dikkat" (multi-head attention) kullanır. Bunu aynı cümleyi okuyan bir uzmanlar kurulu gibi düşünün: bir baş dilbilgisel ilişkilere (özne-yüklem uyumuna) odaklanırken, başka bir baş anlamsal yakınlıklara, bir diğeri ise zamirlerin neye işaret ettiğine bakar. Her baş cümlenin farklı bir yüzünü yakalar ve sonunda hepsinin gözlemleri tek bir görüntüde birleştirilir.
Bu sayede model, bir kelimenin diğerleriyle ilişkisini tek bir dar mercekten değil, aynı anda birçok farklı mercekten değerlendirir. Dilin zenginliği (aynı cümlede dilbilgisinin, mantığın ve bağlamın bir arada işlemesi) ancak böyle çok katmanlı bir bakışla yakalanabilir. Tek bir göz yerine, her biri farklı bir şeyi arayan bir düzine göz.
Ne var ki dikkatin doğuştan bir kör noktası vardır: tüm kelimelere aynı anda baktığı için kelimelerin sırasını kendiliğinden bilmez. Oysa dilde sıra her şeydir; "köpek adamı ısırdı" ile "adam köpeği ısırdı" tıpatıp aynı kelimeleri içerir ama bambaşka olaylar anlatır. Transformer bu açığı "konumsal kodlama" (positional encoding) ile kapatır: her kelimeye, cümledeki yerini bildiren bir tür adres etiketi eklenir. Böylece model kelimelerin yalnızca kimliğini değil, dizilişini de bilir.
Kodlayıcı ve Çözücü: İki Yarımın Hikâyesi
Orijinal Transformer makalesi, mimariyi iki ana parçadan kurmuştu: kodlayıcı (encoder) ve çözücü (decoder). Makalenin asıl amacı makine çevirisiydi (örneğin Almancadan İngilizceye) ve bu iki parça o görev için bir ekip gibi çalışır. Kodlayıcının işi, gelen cümleyi (kaynak dili) okuyup onu anlamla yüklü, zengin bir sayısal temsile dönüştürmektir; adeta cümlenin özünü damıtır.
Çözücü ise bu damıtılmış anlamı alır ve hedef dildeki yeni cümleyi kelime kelime üretir. Çözücünün önemli bir kuralı vardır: metni üretirken yalnızca o ana kadar yazdığı kelimelere bakabilir, henüz yazmadığı geleceğe göz atamaz. Buna "maskeleme" (masking) denir ve son derece mantıklıdır; tıpkı bir cümleyi yazarken bir sonraki kelimeyi henüz bilmiyor olmanız gibi. Bu kısıtlama, modeli gerçekten tahmin etmeyi öğrenmeye zorlar; cevabı kopya çekecek bir yer bırakmaz.
Zamanla araştırmacılar, göreve göre bu iki parçanın ayrı ayrı da kullanılabileceğini fark etti. Yalnızca kodlayıcıdan oluşan modeller (BERT gibi) metni anlamak, sınıflandırmak ve aramak için biçilmiş kaftandır. Yalnızca çözücüden oluşan modeller (GPT ailesi ve günümüz sohbet modellerinin çoğu) ise metin üretmenin ustasıdır. Bugün popüler olan üretken büyük dil modellerinin neredeyse hepsi, aslında bu "sadece çözücü" tasarımının dev birer sürümüdür.
Bu ayrım pratikte çok şey değiştirir, çünkü bir ürünü hangi mimariyle inşa edeceğiniz, çözmek istediğiniz probleme bağlıdır. Örneğin İçtiHub gibi hukuk alanında çalışan bir yapay zekâ ürününde, devasa bir mevzuat ve içtihat külliyatından en alakalı belgeyi bulup getirmek (anlama ve eşleştirme) ile o belgelere dayanarak akıcı bir hukuki özet yazmak (üretme), farklı kasları çalıştıran iki ayrı yetenektir; ama ikisi de aynı Transformer temeline yaslanır.
Neden Bu Kadar İyi Ölçekleniyor?
Transformer'ın asıl büyüsü, sadece daha iyi sonuç vermesi değil; büyütüldükçe daha da iyi olmasıdır. Yapay zekâ dünyasında bu olguya "ölçek yasaları" (scaling laws) denir: modeli büyüttükçe (daha çok parametre), ona daha çok veri ve daha çok hesaplama gücü verdikçe, performansı şaşırtıcı derecede öngörülebilir biçimde artar. RNN'lerle bu kadar düzgün ve istikrarlı bir tırmanış mümkün değildi.
Bunun en temel sebebi, baştan beri konuştuğumuz paralelleştirme yeteneğidir. Transformer cümleyi sıraya dizmek zorunda olmadığı için, eğitimini binlerce işlemci çekirdeğine bölebilirsiniz. Bu da modern yapay zekâyı mümkün kılan devasa GPU ve TPU kümeleriyle kusursuz bir uyum içindedir. Yani Transformer yalnızca akıllı bir fikir değil, aynı zamanda mevcut donanımdan son damlasına kadar yararlanan bir tasarımdır; doğru zamanda, doğru donanım için ortaya çıkmıştır.
Bir başka güç kaynağı da mimarinin sade ve tekrarlanabilir olmasıdır. Transformer, esasen aynı yapı bloğunun (dikkat artı basit bir sinir ağı katmanı) üst üste defalarca istiflenmesinden ibarettir. Bu blokları çoğaltmak, modeli derinleştirmenin ve kapasitesini artırmanın en doğrudan yoludur. Karmaşık ve özel parçalar yerine basit bir kalıbı tekrarlamak, hem mühendislik hem de ölçeklenebilirlik açısından muazzam bir avantajdır; Lego gibi, aynı tuğladan kocaman yapılar kurabilirsiniz.
Elbette ölçeklenmenin bir bedeli var. Klasik öz-dikkat, kelime sayısı arttıkça hesaplama maliyetini karesel olarak büyütür; yani metni iki katına çıkarmak, dikkat hesabını dört katına çıkarır. Çok uzun metinlerde bu ciddi bir darboğaza dönüşür. Araştırmacılar bu maliyeti düşürmek için sürekli yeni yöntemler geliştiriyor, ama bu temel ödünleşim hâlâ Transformer'la çalışan herkesin aklının bir köşesinde tutması gereken bir gerçek.
Tek Bir Fikrin Mirası
Geriye dönüp baktığımızda, Transformer'ın başarısı tek bir cesur sadeleştirmeden doğuyor: "Belki de tüm o karmaşık sıralı işlemeye hiç ihtiyacımız yok; belki ihtiyacımız olan tek şey, her şeyin her şeye dikkat etmesi." Bu fikir yalnızca dilde değil; görüntü işlemede, ses tanımada, protein katlanmasını tahmin etmede ve daha pek çok alanda baskın yaklaşım hâline geldi. Tek bir mimari, yapay zekânın ortak dili oldu.
Bu yazıda öz-dikkat sezgisini, Sorgu-Anahtar-Değer üçlüsünü, kodlayıcı ile çözücünün rollerini ve mimarinin neden bu kadar iyi ölçeklendiğini gördük. Tüm bu parçaların ortak paydası, bilginin bir kelimeden diğerine doğrudan ve paralel akmasını sağlayan o tek basit fikirdir. Modern yapay zekânın göz kamaştıran sonuçlarının altında, şaşırtıcı derecede zarif bir mekanizma yatıyor.
Uzun ve birbirine sürekli atıf yapan metinlerin egemen olduğu hukuk alanı, tam da Transformer'ın en güçlü olduğu yere düşer: uzaktaki ilgili maddeleri birbirine bağlamak ve bağlamı bir bütün olarak kavramak. EcoFluxion'da İçtiHub'ı geliştirirken bu temel mimarinin üzerine inşa ediyoruz; ama bizim için asıl mesele, mimarinin kendisinden çok, onu gerçek bir hukuki probleme doğru ve güvenilir biçimde uygulayabilmek. Bir teknolojiyi gerçekten anlamak, onu sorumlu kullanmanın ilk adımıdır; bu yazının amacı da tam olarak buydu.