Çok-modlu, bir modelin birden fazla giriş türünü — metin, görsel, ses, video — birlikte anlayabilmesi ya da üretebilmesi durumudur. GPT-4V ve Gemini gibi 2023-2024 modelleri görsellerin doğrudan bir LLM'e verilmesini günlük bir kullanım haline getirdi; daha önce her modalite için ayrı modeller gerekiyordu. VLM ve MLLM bu kategorinin alt sınıflarıdır. Pratik kullanımı belge analizi, ekran görüntüsü anlama, müşteri destek görselleri ve Computer Use gibi senaryolarda hızla genişledi.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2022
Çok-Modlu (Multimodal)
Birden fazla giriş türünü — metin, görsel, ses, video — anlayabilen ya da üretebilen modeller.
- EN — İngilizce karşılığı
- Multimodal
- TR — Türkçe karşılığı
- Çok-Modlu