Neden Türkçe NLP'yi Ayrı Ele Almak Gerekir?
Yapay zekanın son birkaç yıldaki sıçraması büyük ölçüde İngilizce üzerinden anlatıldı. Kıyaslama tabloları, akademik makaleler ve ürün demoları çoğunlukla İngilizceyi merkeze koyuyor. Bu da dil modellerinin her dilde aynı performansı gösterdiği yanılgısını besliyor. Oysa bir dilin yapısı, modelin o dildeki davranışını doğrudan belirler; ve Türkçe, tam da kendine özgü yapısı nedeniyle ayrı bir konuşmayı hak ediyor.
Türkçe, 80 milyondan fazla insanın anadili olan, köklü bir yazılı geleneğe sahip bir dil. Ancak iş dijital dünyada üretilen yüksek kaliteli, makinece işlenebilir metne geldiğinde, İngilizce ile arasındaki uçurum büyük. Bu da Türkçeyi teknik anlamda "orta-düşük kaynaklı" bir dil konumuna yerleştiriyor: konuşanı çok, ama modelleri besleyecek temiz ve yapılandırılmış verisi görece az.
Bu yazıda Türkçenin neden dil modelleri için zorlayıcı olduğunu, bu zorluğun LLM davranışına nasıl yansıdığını ve Türkçe öncelikli bir yapay zeka ürünü kurmanın gerçekte ne anlama geldiğini inceliyoruz. Niyetimiz ne karamsarlık ne de boş iyimserlik; tam tersine, bu zorlukların neden aynı zamanda büyük bir fırsat penceresi açtığını göstermek.
Sondan Eklemeli Bir Dil: Tek Kelime, Koca Bir Cümle
Türkçenin en belirleyici özelliği sondan eklemeli (agglutinative) olmasıdır. Bir köke art arda eklenen ekler, her biri belirli bir anlam taşıyarak kelimeyi büyütür. Klasik örnek "evlerinizden", İngilizcede dört ayrı kelimeye karşılık gelir: ev + ler (çoğul) + iniz (iyelik) + den (ayrılma hâli). İngilizce bu anlamı ayrı kelimelere dağıtırken, Türkçe hepsini tek bir biçime sıkıştırır.
Bu yapı, teorik olarak neredeyse sınırsız sayıda geçerli kelime üretilebilmesi demektir. Sık alıntılanan "Çekoslovakyalılaştıramadıklarımızdan mısınız?" uç bir örnek olsa da, sıradan metinlerde bile bir kökün onlarca, hatta yüzlerce çekimli biçimiyle karşılaşmak olağandır. İngilizcede bir fiilin çekimi "go, goes, going, went" gibi birkaç biçimle sınırlıyken, Türkçede tek bir fiilin yüzlerce yüzey biçimi olabilir.
Dil modelleri açısından bu, kelime dağarcığının patlaması anlamına gelir. İngilizce için makul bir sözlüğe sığan anlam uzayı, Türkçede aynı sözlük büyüklüğüne sığmaz. Model, "gelmek" fiilinin "geliyorum", "gelmeyeceklerdi", "gelebilseydik" gibi biçimlerinin aynı kökten türediğini ve birbiriyle bağlantılı olduğunu öğrenmek zorundadır. Doğru tasarlanmamış bir sistemde bu bağ kolayca kopar.
Tokenizasyon Sorunu: Modelin Türkçeyi Parça Parça Görmesi
Modern dil modelleri metni kelime olarak değil, "token" adı verilen alt birimler hâlinde işler. Çoğu çok dilli modelin tokenizer'ı ağırlıklı olarak İngilizce metin üzerinde eğitildiğinden, kelimeleri parçalara ayırma kuralları da İngilizcenin yapısına göre biçimlenmiştir. Türkçe bu sisteme girdiğinde, kelimeler çoğu zaman dilbilimsel olarak anlamlı sınırlardan değil, rastgele görünen noktalardan bölünür.
Örneğin tek bir anlam taşıyan "gelebilseydik" kelimesi, anlamla hiçbir ilgisi olmayan üç dört token parçasına ayrılabilir. Bu hem verimliliği hem de anlamayı doğrudan etkiler. Aynı bilgiyi ifade etmek için Türkçe metin, İngilizceye kıyasla belirgin biçimde daha fazla token tüketir. Sonuç: daha kısa etkili bağlam penceresi, daha yüksek işlem maliyeti ve daha yavaş yanıtlar.
Daha derin sorun ise anlamsaldır. Tokenizer aynı kökü her seferinde farklı biçimde parçaladığında, modelin tek bir kavramın çekimleri arasındaki bağı kurması güçleşir. İnsan için apaçık olan "mahkeme" ile "mahkemenin" akrabalığı, kötü tokenize edilmiş bir temsilde zayıflar. Terminolojinin hassas olduğu hukuk gibi alanlarda bu, doğrudan doğruluk kaybına dönüşebilir.
Bu yüzden Türkçe öncelikli sistemler tokenizasyonu hafife alamaz. Türkçenin morfolojisine duyarlı bir tokenizasyon stratejisi hem maliyeti düşürür hem de modelin dili gerçekten "görmesini" sağlar. Tokenizer seçimi, çoğu kişinin sandığı gibi teknik bir ayrıntı değil; Türkçe ürün kalitesini belirleyen temel bir mimari karardır.
Ünlü Uyumu, Ünsüz Yumuşaması ve Yüzey Biçimi Patlaması
Türkçenin zorluğu yalnızca eklerin çokluğundan ibaret değil; eklerin kendisi de bağlama göre biçim değiştirir. Ünlü uyumu gereği aynı ek, eklendiği kelimenin son ünlüsüne göre farklı seslilerle yazılır: "evde" ama "okulda", "gözler" ama "kollar". Yani aynı dilbilgisel işlev, farklı yüzey biçimleriyle karşımıza çıkar.
Buna bir de ünsüz yumuşaması (kitap → kitabı), ünsüz türemesi ve ünlü düşmesi (burun → burnu) gibi olaylar eklenince, tek bir kök onlarca farklı yazılı biçime bürünür. İnsan bir okuyucu için bunlar aynı kelimenin doğal varyantlarıdır; ama yeterli ve dengeli veri görmemiş bir model, bu varyantları birbirinden kopuk birimler gibi ele alabilir.
Bu durum, özellikle arama ve eşleştirme gerektiren görevlerde kritik hâle gelir. Bir kullanıcı "taşınmaz" yazdığında, sistemin "taşınmazın", "taşınmazlar", "taşınmazlardan" gibi biçimleri de aynı kavramın parçası olarak tanıması gerekir. Morfolojik normalleştirme ya da kök bulma (stemming/lemmatization) olmadan bu varyantlar arasındaki köprü kurulamaz ve geri getirme (retrieval) kalitesi düşer.
İşte tam da bu yüzden Türkçe için kurulan bir RAG (retrieval-augmented generation) sistemi, İngilizce için tasarlanmış bir hattı olduğu gibi kopyalayamaz. Türkçenin morfolojik zenginliğini hesaba katan bir önişleme ve indeksleme katmanı; doğru belgenin doğru anda getirilmesini sağlayan, görünmez ama belirleyici bir bileşendir.
Veri Sorunu: Az Değil, Yanlış Türde Az
Düşük kaynaklı dil tartışmaları çoğu zaman "veri miktarı" üzerine kuruludur, ama gerçek tablo daha incelikli. İnternette Türkçe metin az değil; sorun, modelleri eğitmeye ve değerlendirmeye uygun yüksek kaliteli, temiz, alana özgü ve iyi etiketli verinin görece seyrek olması. İngilizce için on yıllardır biriken devasa açık veri kümeleri, kıyaslama setleri ve etiketli koleksiyonlar, Türkçede aynı olgunlukta mevcut değil.
Bu boşluk en çok uzmanlık alanlarında hissedilir. Hukuk, tıp ve kamu gibi dilin hem teknik hem tutarlı olması gereken alanlarda, Türkçe için kullanıma hazır veri kümeleri çoğu zaman ya yoktur ya da dağınık, tutarsız ve makinece işlenmeye elverişsiz biçimlerdedir. Mevzuat, içtihat ve resmi metinler kamuya açık olsa bile; bunları temiz, yapılandırılmış ve modele beslenebilir hâle getirmek başlı başına ciddi bir mühendislik işidir.
Değerlendirme tarafında da büyük bir boşluk var. Bir modelin İngilizcedeki performansını ölçmek için onlarca yerleşik kıyaslama varken, Türkçede aynı titizlikte, alana özgü değerlendirme setleri nadirdir. Oysa "modelimiz Türkçede iyi çalışıyor" iddiası, ancak Türkçe için tasarlanmış sağlam bir ölçüm çerçevesiyle anlam kazanır. Ölçemediğiniz şeyi güvenilir biçimde iyileştiremezsiniz.
Sonuçta Türkçe yapay zeka kurmak, hazır bir veri kümesini indirip eğitime sokmaktan çok daha fazlasıdır. Veriyi toplamak, temizlemek, alana göre yapılandırmak ve değerlendirme setlerini sıfırdan inşa etmek; işin en az model mimarisi kadar belirleyici kısmıdır. Bu emek yoğun bir uğraştır, ama tam da bu yüzden kolay kolay taklit edilemeyen bir rekabet avantajı doğurur.
Çok Dilli Modeller Yeterli mi? Türkçe Öncelikli Olmanın Anlamı
Bugünün büyük dil modellerinin çoğu çok dillidir ve Türkçeyi şaşırtıcı derecede iyi anlayabilir. Bu gerçek bir ilerleme ve görmezden gelinemez. Ne var ki "Türkçeyi anlayabilmek" ile "Türkçe için tasarlanmak" arasında derin bir fark var. Çok dilli bir model genellikle İngilizce merkezli bir dünyada düşünür; diğer dilleri bu ana eksene yapılan eklentiler gibi ele alır. Bu da nüansların, deyimlerin ve alana özgü terminolojinin kenarlardan sızıp kaybolmasına yol açabilir.
Türkçe öncelikli bir ürün kurmak, çok dilli bir modelin üzerine ince bir çeviri katmanı koymak değildir. O yaklaşım, kullanıcıya İngilizce düşünülüp Türkçeye çevrilmiş; doğal durmayan ve çoğu zaman kavramsal olarak kayık bir deneyim sunar. Gerçek anlamda Türkçe öncelikli bir sistem ise tokenizasyondan veri hattına, istem (prompt) tasarımından geri getirmeye, değerlendirmeden arayüzdeki dile kadar her katmanda Türkçeyi birinci sınıf vatandaş kabul eder.
Bunun pratikteki karşılığı şudur: Türkçe sorulara, Türkçe kaynaklardan, Türkçe terminolojiyle ve Türkçe bağlamı doğru kavrayarak yanıt veren bir sistem. Bir Türk avukatın "zamanaşımı" derken kastettiğini, İngilizce "statute of limitations" üzerinden dolaşmadan, doğrudan Türk hukuku bağlamında anlayan bir model. Bu, yüzeysel bir yerelleştirme değil; sistemin kimliğine işlemiş bir tasarım tercihidir.
Çok dilli modeller güçlü bir temel sunar; ama o temelin üzerine Türkçeye özgü mühendislik konmadığında ürün her zaman "yeterince iyi ama tam oturmamış" hissi verir. Fark çoğu zaman demoda değil, gerçek kullanımın yüzlerce küçük ayrıntısında ortaya çıkar.
Zorluk = Fırsat: Türkiye için Açık Bir Pencere
Bu zorlukların her biri aynı zamanda bir hendek (moat) işlevi görür. Türkçenin sondan eklemeli yapısını, morfolojik zenginliğini ve veri seyrekliğini ciddiye alıp çözen bir ekip, kolay kolay kopyalanamayacak bir yetkinlik biriktirir. İngilizce için her şey hazır geldiğinde rekabet, herkesin erişebildiği aynı kaynaklar üzerinden kızışır. Türkçede ise gerçek değer, tam da o hazır olmayan kısımları inşa etme emeğinden doğar.
Türkiye'nin bu konuda doğal bir avantajı var: dili anadili olarak yaşayan, hukuk, kamu ve sektör bağlamını içeriden kavrayan mühendisler ve uzmanlar burada. Türkçe öncelikli yapay zekayı en iyi, Türkçeyi düşünen ve içselleştiren ekipler kurabilir. Bu salt teknik bir üstünlük değil; kültürel ve bağlamsal bir yakınlık meselesidir ve dışarıdan satın alınması zordur.
Bir de dijital egemenlik boyutu var. Türkçe konuşan kullanıcıların yapay zeka deneyiminin, yalnızca başka bir dil için optimize edilmiş sistemlerin bir yan ürünü olarak şekillenmesi sağlıklı bir gelecek değil. Türkçeyi merkeze alan ürünler kurmak hem ekonomik bir fırsat hem de uzun vadede, dilin dijital dünyada hak ettiği yeri koruyabilmesi açısından stratejik bir gerekliliktir.
EcoFluxion Neden Türkçe Odaklı Yapay Zekaya Yatırım Yapıyor?
EcoFluxion olarak Türkçe öncelikli yapay zekayı bir niş değil, bir kuruluş tezi olarak görüyoruz. Amiral gemimiz İçtiHub, Türk avukatlar için geliştirdiğimiz bir hukuk teknolojisi ürünü; ve hukuk, Türkçenin tüm zorluklarının en yoğun yaşandığı alanlardan biri. Mevzuat ve içtihat dili hem teknik hem de hassastır: tek bir ekin ya da terimin yanlış anlaşılması doğrudan yanlış bir hukuki sonuca yol açabilir.
İçtiHub'ın içindeki LLM motoru MevzuatBot, tam da bu yüzden Türkçe hukuk diline göre tasarlanıyor. Vertex AI ve Gemini gibi güçlü temellerin üzerine Türkçeye özgü bir RAG hattı, alana özgü veri işleme ve Türkçe için kurduğumuz değerlendirme süreçleri ekliyoruz. Çok dilli bir modelin ham gücünü alıp onu Türk hukuku bağlamında gerçekten işe yarayan bir ürüne dönüştüren katman tam burada devreye giriyor.
Bu yazıda anlattığımız her zorluğu, soyut bir akademik problem olarak değil, her gün üzerinde çalıştığımız somut mühendislik kararları olarak yaşıyoruz: doğru tokenizasyon, morfolojiye duyarlı geri getirme, temiz ve yapılandırılmış Türkçe hukuk verisi, Türkçe için anlamlı değerlendirme setleri. Bir ürünü "Türkçeyi anlayan" olmaktan "Türkçe için kurulmuş" olmaya taşıyan ayrıntılar bunlardır.
Türkçe için yapay zeka kurmak zor; ama biz bu zorluğun, tam da yapılmaya değer şeyin işareti olduğuna inanıyoruz. EcoFluxion'ın kendi ürünlerini inşa etme nedeni, başkalarının atladığı bu güç kısımları sahiplenmek ve Türkçe konuşan kullanıcılara kendi dillerinde gerçekten birinci sınıf bir yapay zeka deneyimi sunmaktır.