Türkçe doğal dil işleme alanında çığır açacağı belirtilen Kumru LLM, tamamen Türkçe verilerle eğitilen ilk büyük dil modeli olarak tanıtıldı.
VNGRS tarafından geliştirilen bu yenilikçi model, 7,4 milyar parametreye sahip yapısıyla Türkçe odaklı yapay zekâ çalışmalarında yerelleşmiş, verimli ve özelleştirilebilir bir çözüm sunma kapasitesi taşıyor. Kumru’nun yalnızca Türkçe için eğitilmiş özel tokenizer yapısı, çok dilli modellere kıyasla %90’a kadar daha verimli çalışabildiğini ortaya koyuyor.
Model, 300 milyar token ve 500 GB veri barındıran kapsamlı bir eğitim seti ile oluşturuldu. Bu sayede Kumru’nun Türkçenin sadece kelime yapısını değil, aynı zamanda dilin doğal akışını da anlama yeteneği kazandığı ifade ediliyor.
Kumru, araştırma çalışmaları ve kurumsal uygulamalardan sosyal medya içerik üretimine kadar geniş bir yelpazede kullanılabilir. RAG tabanlı sohbet sistemleri, doküman özetleme, çağrı merkezi analitiği gibi birçok alanda etkin bir şekilde yer alması bekleniyor.
YERLİ YAPAY ZEKA KUMRU’NUN ÖZELLİKLERİ
Türk mühendisler tarafından geliştirilen Kumru LLM, tamamen Türkçe ile eğitilmiş ilk büyük dil modeli olma özelliği taşıyor. Bu model, doğal dil işlemede yüksek performans, verimlilik ve yerelleştirme kapasitesi ile dikkat çekiyor.
TEKNİK ÖZELLİKLER
Parametre sayısı: 7,4 milyar
Eğitim verisi: 300 milyar Türkçe token, 500 GB veri
Tokenizer: Yalnızca Türkçe için özel olarak eğitilmiştir (çok dilli modellere göre %90’a kadar daha verimli)
Model tipi: Büyük dil modeli (LLM)
Eğitim dili: Tamamen Türkçe
YETKİNLİKLER
Metin üretimi, özetleme, yeniden yazma
Soru-cevap sistemleri
Konuşma ve diyalog üretimi
Doküman analizi ve özetleme
Chatbot ve müşteri destek uygulamaları
Sosyal medya içerik önerisi ve üretimi
KULLANIM ALANLARI
Araştırma ve akademik çalışmalar
Kurumsal yapay zekâ çözümleri
Çağrı merkezi analitiği
RAG tabanlı bilgi yönetimi sistemleri
Türkçe odaklı içerik üretimi ve medya uygulamaları