Eğitim

Çok Modlu Yapay Zeka: Bir Model Metni, Görseli ve Sesi Aynı Anda Nasıl Anlıyor?

Bir yapay zeka bir fotoğrafa bakıp içindeki yazıyı okuyabiliyor, bir grafiği yorumlayabiliyor ya da bir sesi dinleyip yanıt verebiliyorsa buna çok modlu (multimodal) yapay zeka denir. Bu yeteneğin altındaki fikri, gerçek kullanım alanlarını ve sınırlarını hiçbir teknik geçmiş gerektirmeden, somut örneklerle anlatıyoruz.

12 dk okuma

MultimodalGörsel Yapay ZekaLLMBelge AnlamaBilgisayarlı Görü

Çok Modlu Ne Demek? Tek Duyudan Çok Duyuya

Bir an için yalnızca okuyabilen, ama hiçbir şey göremeyen ve duyamayan bir zihin düşünün. İlk büyük dil modelleri tam olarak böyleydi: yetenekleri etkileyiciydi, ama dünyaya açılan tek bir pencereleri vardı, o da yazıydı. Önlerine bir fotoğraf, bir grafik ya da bir ses kaydı koymanın bir anlamı yoktu; çünkü o pencereden içeri yalnızca kelimeler girebiliyordu. 'Çok modlu' (multimodal) kelimesi işte tam bu sınırı kaldıran şeyi anlatır.

Buradaki 'mod' (modality), bilginin bir türünü, bir biçimini ifade eder: metin bir moddur, görüntü başka bir mod, ses bir başkası; video ise hareketli görüntüyü ve sesi bir arada taşıyan bir mod. Tek modlu bir model yalnızca tek bir biçimle çalışır. Çok modlu bir model ise birden fazla biçimi aynı anda alıp birlikte değerlendirebilir; örneğin bir tabloya bakıp onunla ilgili yazılı bir soruyu yanıtlayabilir.

En sağlam benzetme insanın kendisidir. Bir arkadaşınız size bir tarif anlatırken hem sözlerini duyarsınız, hem ellerinin hareketini görürsünüz, hem de masadaki malzemelere bakarsınız; bu üç akışı zihninizde tek bir anlama dokursunuz. Çok modlu yapay zeka da tam bu sezgiyi taklit etmeye çalışır: farklı duyulardan gelen parçaları ayrı ayrı değil, tek bir bütünsel tablo olarak işlemek.

2026 itibarıyla günlük hayatta karşılaştığınız önde gelen yapay zeka asistanlarının büyük çoğunluğu artık doğası gereği çok modludur. Onlara bir fotoğraf yükleyip 'bunda ne yazıyor?' diye sorabilir, bir ekran görüntüsü gösterip hatayı tarif etmesini isteyebilir ya da doğrudan sesli konuşabilirsiniz. Bu, son birkaç yılın en sessiz ama en köklü dönüşümlerinden biridir: model artık yalnızca okumakla kalmıyor, aynı zamanda bakıyor ve dinliyor.

Ortak Bir Dil: Her Şeyi Aynı Sayı Uzayına Çevirmek

Peki bir model, doğası bambaşka olan bir resmi ve bir cümleyi nasıl 'birlikte' düşünebiliyor? Bir resim renkli noktalardan (piksel) oluşur, bir cümle ise harflerden; bunlar birbirine hiç benzemez. İşin sırrı, daha önceki yazılarımızda da değindiğimiz bir fikirde yatar: yapay zeka her şeyi önce sayıya, daha doğrusu vektör denen sayı listelerine çevirir. Çok modlu modellerin asıl marifeti, farklı biçimleri aynı ortak sayı uzayına yerleştirebilmesidir.

Bunu bir benzetmeyle düşünelim. Diyelim ki elinizde Türkçe bir metin ve Fransızca bir metin var; ikisi farklı dillerde, ama ikisini de ortak bir 'anlam haritasına' çevirebilseydiniz, aynı şeyden bahseden iki metin o haritada birbirine yakın düşerdi. Çok modlu modeller tam bunu farklı duyular için yapar: bir 'kedi' fotoğrafı ile 'kedi' kelimesi, bu ortak haritada birbirine yakın bir noktaya yerleşir. Resim ile yazı artık aynı anlam diliyle konuşur hâle gelir.

Bunu mümkün kılan eğitim biçimi şaşırtıcı derecede sezgiseldir. Modele, internetten toplanmış milyonlarca görsel ve onların yanındaki açıklama metni (örneğin bir fotoğrafın altyazısı) birlikte gösterilir. Model, hangi görüntülerin hangi kelimelerle yan yana geçtiğini gözlemleye gözlemleye, 'sahilde gün batımı' yazısıyla gerçek bir gün batımı fotoğrafını ortak haritanın aynı bölgesine yerleştirmeyi öğrenir. Kimse ona 'bu bir gün batımıdır' demez; o bu bağı eşleşmelerden kendi çıkarır.

Bir kez bu ortak uzay kurulduktan sonra gerisi tanıdık bir hikâyedir. Görüntü, bir 'görü kodlayıcısı' (vision encoder) tarafından sayı listelerine çevrilir; bu sayılar tıpkı metin parçaları (token) gibi modelin önüne dizilir. Böylece dil modeli, aslında bir resme baktığının ayrımında bile olmadan, onu kelimelerle aynı akış içinde işler. Modelin 'gördüğü' şey, bir gözden çok, kelimelerle görüntünün buluştuğu bu ortak sayı dili sayesinde anlaşılır hâle gelmiş bir temsildir.

Bir Görsele Bakıp Metni Birlikte Okumak: Belge Anlama

Çok modlu yeteneğin en pratik ve belki de en sevilen kullanımı belge anlamadır. Bir fatura, bir kimlik kartı, el yazısıyla doldurulmuş bir form, bir tablo ya da bir grafik düşünün. Bunlar metin içerir, ama o metin bir düzen içinde, belli bir yerleşimle durur: sütunlar, kutucuklar, başlıklar, imzalar. İşte burada eski yaklaşımla yeni yaklaşım arasındaki fark çarpıcı biçimde ortaya çıkar.

Eskiden bu iş iki ayrı adımda yapılırdı. Önce OCR denen bir teknoloji (optik karakter tanıma) görüntüdeki harfleri düz metne çevirir, sonra bambaşka bir program bu düz metni yorumlamaya çalışırdı. Sorun şuydu: OCR metni dümdüz bir şeride çevirirken belgenin yerleşimini, yani hangi sayının hangi başlığın altında olduğunu çoğu zaman kaybederdi. Bir tablodaki 'Toplam' sütununun altındaki rakam ile 'KDV' sütununun altındaki rakam, düz metinde birbirine karışabilirdi.

Çok modlu bir model bu iki adımı tek bir bakışta birleştirir. Hem görüntüdeki harfleri okur, hem de bu harflerin sayfadaki konumunu, birbirleriyle ilişkisini ve görsel düzenini aynı anda hesaba katar. Yani yalnızca 'ne yazıyor' değil, 'nerede ve neyin yanında yazıyor' sorusunu da yanıtlar. Bir faturaya bakıp 'toplam tutar nedir, hangi tarihte kesilmiş ve hangi firmaya ait' diye sorduğunuzda, bilgileri doğru kutucuklardan birbirine karıştırmadan çekip çıkarabilmesinin nedeni budur.

Bu yetenek hukuk gibi belge ağırlıklı alanlarda özellikle değerlidir. Bir mahkeme kararının taranmış PDF'i, bir sözleşmenin imzalı sayfaları, bir bilirkişi raporundaki tablolar; bunların hepsi yalnızca metin değil, aynı zamanda görsel bir yapıya sahip belgelerdir. Çok modlu bir model, bir sözleşme sayfasındaki maddeyi, kenar boşluğundaki el yazısı notu ve alttaki imzayı bir arada görerek belgeyi bir insanın okuduğu gibi okuyabilir. Yine de bu okumanın ne zaman güvenilir, ne zaman riskli olduğunu yazının ilerleyen bölümünde ayrıca ele alacağız.

Görü: Modelin Bir Resimde Ne Gördüğü

Belge anlama, görünün yalnızca bir köşesidir. Çok modlu modeller, içinde tek bir harf bile olmayan resimleri de yorumlayabilir. Bir manzara fotoğrafına bakıp sahneyi tarif edebilir, bir yemeğin fotoğrafından olası malzemeleri tahmin edebilir, bir grafikteki eğilimi açıklayabilir ya da bir görüntüde dikkat çeken bir bölgeyi işaret edebilir. Bu, yıllardır 'bilgisayarlı görü' (computer vision) denen alanın peşinde olduğu hedefin, dil yeteneğiyle birleşmiş hâlidir.

Önemli bir ayrım var: eski nesil görü sistemleri genellikle dar ve sabit bir görev için eğitilirdi. Bir model yalnızca 'kedi mi köpek mi' ayırmayı, bir başkası yalnızca yüz tanımayı bilirdi; sınıfların listesi önceden bellidir. Çok modlu modeller ise açık uçludur. Onlara önceden tanımlanmış bir etiket listesi vermezsiniz; doğal dille aklınıza gelen soruyu sorarsınız. 'Bu fotoğraftaki kişi şemsiye taşıyor mu?' ya da 'bu iki ürün arasındaki fark nedir?' gibi, eğitimde özel olarak hedeflenmemiş soruları bile yanıtlamaya çalışır.

Bu esneklik, görüyü ilk kez gerçekten 'konuşulabilir' kılar. Bir görme engelli kullanıcı için telefon kamerasının önündeki sahneyi sesli betimleyebilir; bir öğrenci için el yazısıyla çizilmiş bir geometri probleminin şeklini yorumlayabilir; bir teknisyen için bir devre kartının fotoğrafına bakıp yanlış takılmış bir parçaya dikkat çekebilir. Görü artık kapalı bir sınıflandırma kutusu değil, üzerine sohbet edebileceğiniz açık bir pencere hâline gelir.

Yine de bir uyarı şart. Modelin bir resmi 'gördüğünü' söylemek, onun bir insan gibi gördüğü anlamına gelmez. Model görüntüyü öğrendiği örüntüler üzerinden yorumlar; bu örüntüler çoğu zaman olağanüstü isabetlidir, ama bazen yanıltıcı da olabilir. Sese geçmeden önce bunu aklımızın bir köşesinde tutalım: bu görü yeteneğinin gerçekte ne kadar güvenilir olduğunu ve nerelerde yanıldığını yazının sonunda ayrıca derinlemesine ele alacağız.

Ses ve Konuşma: Dinleyen ve Yanıtlayan Modeller

Üçüncü büyük mod sestir. Burada da hikâye görüye benzer biçimde gelişti. Eskiden sesli bir asistanla konuştuğunuzda arka planda üç ayrı sistem zincirleme çalışırdı: önce bir konuşma tanıma sistemi sesinizi yazıya çevirir, sonra bir dil modeli bu yazıyı işleyip bir yanıt üretir, en sonunda bir seslendirme sistemi bu yanıtı tekrar sese dönüştürürdü. Her halka kendi gecikmesini ve kendi hata payını eklerdi.

Doğrudan ses anlayan çok modlu modeller bu zinciri kısaltır. Sesi araya yazı sokmadan, ham hâliyle alıp işleyebilirler. Bunun pratik bir kazancı hız ve akıcılıktır; konuşma daha az duraksamalı, daha doğal hisseder. Ama daha derin bir kazanç da vardır: ses yalnızca kelimeleri değil, kelimelerin ötesindeki bilgiyi de taşır. Bir cümlenin tonu, vurgusu, konuşanın tereddüdü ya da heyecanı, arka plandaki bir köpek havlaması; bunların hepsi yazıya döküldüğünde kaybolan, ama ham seste duran ipuçlarıdır.

Bu sayede ses yeteneği yalnızca 'ne söylendiğini' değil, 'nasıl söylendiğini' de kavramaya başlar. Bir model bir görüşme kaydını dinleyip yalnızca dökümünü çıkarmakla kalmaz; farklı konuşmacıları büyük ölçüde ayırt edebilir, bir cümlenin gerçek bir soru mu yoksa alaycı bir ifade mi olduğunu sezebilir. Müzik, çevresel sesler ve insan konuşması arasındaki farkı ayırt edebilir. Yazının düz şeridine sığmayan bu zengin katman, sesi başlı başına değerli bir mod yapar.

Sesli arayüzler özellikle ellerin meşgul olduğu ya da yazmanın zahmetli olduğu durumlarda öne çıkar: araç kullanırken, bir cihazı tamir ederken ya da yürürken uzun bir belgeyi dinlerken. Görü ile sesin birleştiği yerlerde ise iş daha da ilginçleşir; bir kullanıcı kamerasını bir nesneye tutup sesli soru sorduğunda, model hem görüntüyü hem konuşmayı aynı anda işleyerek tek bir bütünsel yanıt üretebilir.

Bunların Hepsi Neden Önemli? Tek Akış Hâline Gelen Anlam

Çok modluluğun değeri, tek tek yeteneklerin toplamından fazladır. Asıl sıçrama, bu biçimlerin birbiriyle konuşmaya başlamasında yatar. Dünya bize hiçbir zaman tek bir modda gelmez: bir restoran menüsü hem yazı hem fotoğraftır, bir sunum hem slayt görseli hem konuşmadır, bir dava dosyası hem metin hem taranmış belge hem de fotoğraf delildir. Tek modlu bir araç bu gerçekliğin yalnızca bir dilimini görebilir.

Bir örnek bunu somutlaştırır. Diyelim ki bir kullanıcı bir cihazın bozuk bir parçasının fotoğrafını çekiyor ve 'bunu nasıl değiştiririm?' diye sesli soruyor; elinde de cihazın yazılı kullanım kılavuzu var. İnsan bir teknisyen bu üç akışı doğal olarak birleştirir: fotoğrafa bakar, soruyu duyar, kılavuzu okur ve tek bir yanıt verir. Çok modlu bir model de tam bu birleştirmeyi hedefler. Yeteneğin gücü herhangi bir tek moddan değil, modlar arasındaki bağlantıdan doğar.

Bu birleşme, yapay zekanın insanlarla daha az 'çeviri' gerektirerek iletişim kurmasını sağlar. Eskiden bir modele bir grafiği anlatmak için onu önce kelimelere dökmeniz gerekirdi; artık grafiği doğrudan gösterebilirsiniz. Bir sorunu tarif etmek için onu kusursuz cümlelere çevirmeniz gerekmez; ekran görüntüsünü paylaşıp 'şurada bir hata var' demeniz yeter. Arada bir insanın ön işleme yapması gereken katman incelir; yapay zeka, dünyayı bizim sunduğumuz ham hâliyle karşılamaya yaklaşır.

Daha geniş bir perspektiften bakıldığında, çok modluluk yapay zekayı saf bir 'dil aracı' olmaktan çıkarıp genel bir 'anlama aracı'na doğru taşır. Metin hâlâ merkezdedir, çünkü akıl yürütmenin omurgasını oluşturur; ama artık tek pencere değildir. Bu, önümüzdeki dönemde geliştirilen ürünlerin neden giderek daha fazla 'gör, duy, oku ve birlikte düşün' beklentisiyle tasarlandığını açıklar.

Sınırlar ve Tuzaklar: Görmek İnanmak Değildir

Çok modlu modeller etkileyicidir, ama yeteneklerini abartmak tehlikelidir. İlk ve en önemli sınır, görünün de tıpkı metin gibi 'halüsinasyona' açık olmasıdır. Model bir resme baktığında, gördüğünü değil, orada olması istatistiksel olarak en olası şeyi betimler. Bu yüzden bulanık, alışılmadık ya da yanıltıcı bir görüntüde, aslında orada olmayan bir nesneyi büyük bir özgüvenle tarif edebilir; ya da bir grafikteki bir sayıyı yanlış okuyabilir.

İkinci tuzak ince ayrıntılardır. Bir model bir sahnenin genel anlamını çoğu zaman doğru kavrar, ama tam sayıların, küçük puntolu yazıların, bir saatin kesin konumunun ya da bir tablodaki birbirine çok benzeyen hücrelerin ayrımında yanılabilir. 'Yaklaşık olarak ne var' sorusunda güçlüdür; 'tam olarak hangi rakam yazıyor' sorusunda ise her zaman güvenilir değildir. Bu nedenle bir faturayı ya da resmi bir belgeyi okuttururken çıktının kontrol edilmesi, kritik alanlarda hâlâ vazgeçilmezdir.

Üçüncüsü, çok modlu modeller görsel yanıltmalara ve önyargılara karşı bağışık değildir. Bir görüntünün içine gizlenmiş yanıltıcı bir metin, modelin yanlış yönlendirilmesine yol açabilir. Ayrıca eğitim verisindeki dengesizlikler nedeniyle bazı sahneleri, nesneleri ya da insan gruplarını diğerlerinden daha iyi tanıyabilirler. Bu, dil modellerindeki önyargı sorununun görüye taşınmış hâlidir ve aynı dikkati gerektirir.

Bütün bu nedenlerle, hassas alanlarda çalışan ciddi sistemler çok modlu bir modelin çıktısını asla son söz olarak kabul etmez. EcoFluxion'da geliştirdiğimiz hukuk teknolojisi ürünü İçtiHub'da bu ilke hayati önem taşır: bir belgeden ya da görselden okunan bir bilgi bir hukuki sonucu etkileyecekse, o bilgi modelin yorumuna değil, doğrulanabilir gerçek bir kaynağa dayandırılır. Çok modlu yetenek bir başlangıç noktasıdır, nihai bir hüküm değil. Modelin gör, oku ve duy yeteneği ne kadar gelişirse gelişsin, etrafına kurulan doğrulama mühendisliği güvenilirliğin asıl belirleyicisi olmaya devam eder.

Toparlayalım: Tek Pencereden Çok Pencereye

Başa dönelim. Çok modlu yapay zeka, bir modelin yalnızca metni değil, görseli, sesi ve daha fazlasını aynı anda alıp birlikte değerlendirebilmesidir. Bunu mümkün kılan temel fikir şaşırtıcı derecede zariftir: farklı biçimleri ortak bir sayı uzayına, ortak bir anlam haritasına çevirmek. Bir kez resim de yazı da ses de aynı dili konuştuğunda, model bunları tek bir akış içinde işleyebilir.

Bu yetenek üç büyük alanda hayata değer. Belge anlamada metni ve yerleşimi birlikte okuyarak faturaları, formları ve resmi evrakları kavrar. Görüde önceden tanımlı etiketlere mahkûm olmadan bir sahne, grafik ya da fotoğraf üzerine açık uçlu sorular yanıtlar. Seste ise kelimelerin yanında tonu ve bağlamı da yakalayarak daha doğal ve hızlı bir iletişim kurar.

Aynı zamanda sınırlarını da gördük. Görü halüsinasyona açıktır, ince ayrıntılarda yanılabilir ve eğitim verisindeki önyargıları taşıyabilir. Bu yüzden çok modlu bir çıktı, özellikle hukuk gibi hata payının düşük olduğu alanlarda, her zaman güvenilir bir kaynakla doğrulanmalıdır. Yeteneğin gücü ile sorumlu kullanımı arasındaki bu denge, modern yapay zeka mühendisliğinin tam kalbindedir.

Bu sezgiyi bir kez edindiğinizde, etrafınızdaki araçların neden giderek daha fazla 'bakabildiğini' ve 'duyabildiğini' anlarsınız. Telefonunuzun bir fotoğraftaki yazıyı çevirebilmesi, bir asistanın ekran görüntünüzdeki hatayı görebilmesi, bir hukuk aracının taranmış bir kararı okuyabilmesi; hepsinin altında aynı fikir yatar. Dünya tek bir biçimde gelmez ve yapay zeka da artık ona tek bir pencereden değil, birçok pencereden birden bakmayı öğreniyor.

Öne çıkanlar

Çok modlu (multimodal) yapay zeka, bir modelin metni, görseli, sesi ve videoyu aynı anda alıp birlikte değerlendirebilmesidir; tek modlu modeller ise yalnızca tek bir bilgi biçimiyle çalışır.
Bunu mümkün kılan temel fikir, farklı biçimleri ortak bir sayı uzayına (anlam haritasına) çevirmektir; böylece bir 'kedi' fotoğrafı ile 'kedi' kelimesi aynı bölgeye yerleşir ve görüntü, kelimelerle aynı akış içinde işlenir.
Belge anlamada çok modlu model hem metni hem yerleşimi birlikte okur; eski OCR yaklaşımının aksine bir faturadaki hangi sayının hangi başlığın altında olduğunu karıştırmadan kavrar.
Görüde model, önceden tanımlı etiketlere mahkûm olmadan bir sahne, grafik veya fotoğraf üzerine doğal dille açık uçlu sorular yanıtlayabilir; bu, bilgisayarlı görünün dil yeteneğiyle birleşmiş hâlidir.
Seste, doğrudan ses anlayan modeller araya yazı sokmadan çalışır; yalnızca 'ne söylendiğini' değil tonu, vurguyu ve bağlamı da, yani 'nasıl söylendiğini' de yakalar.
Görü de metin gibi halüsinasyona açıktır, ince ayrıntılarda (tam sayılar, küçük punto) yanılabilir ve önyargı taşıyabilir; bu yüzden hukuk gibi hassas alanlarda çıktı her zaman güvenilir bir kaynakla doğrulanmalıdır. EcoFluxion'ın İçtiHub'da yaptığı da tam budur.

Tüm yazılar