Yerli Kumru LLM: Türkçe'nin Geleceği Burada!

Türkçe doğal dil işleme alanında bir çığır açacak olan Kumru LLM, sadece Türkçe verilerle eğitilen ilk büyük dil modeli olarak tanıtıldı.

VNGRS tarafından geliştirilen bu model, 7,4 milyar parametreyle Türkçe temelli yapay zekâ uygulamalarında yerelleştirilmiş, etkili ve özelleştirilebilir bir çözüm sunmaktadır. Kumru’nun yalnızca Türkçe için tasarlanmış tokenizer yapısı, çok dilli modellere kıyasla %90’a kadar daha verimli bir performans sergilediği ifade ediliyor.

Model, 300 milyar token ve 500 GB boyutundaki oldukça geniş bir eğitim setiyle hayata geçirilmiştir. Bu durum, Kumru’nun Türkçenin sözcük yapısının yanı sıra dilin doğal akışını da kavrayabilmesine olanak tanımaktadır.

Kumru, araştırmalardan kurumsal uygulamalara kadar geniş bir yelpazede kullanılabilmektedir. RAG tabanlı sohbet sistemleri, doküman özetleme, çağrı merkezi analitiği ve sosyal medya içerik üretimi gibi birçok alanda işlevsel bir kaynak sunmaktadır.

YERLİ YAPAY ZEKA KUMRU’NUN ÖZELLİKLERİ

Türk mühendisler tarafından oluşturulan Kumru LLM, tamamen Türkçe için eğitilmiş ilk büyük dil modeli olma özelliği taşıyor. Model, doğal dil işleme alanında yüksek performans, verimlilik ve yerelleştirme yetenekleri ile dikkat çekiyor.

TEKNİK ÖZELLİKLER

Parametre sayısı: 7,4 milyar

Eğitim verisi: 300 milyar Türkçe token, 500 GB veri

Tokenizer: Yalnızca Türkçe için özel olarak eğitilmiş tokenizer (çok dilli modellere göre %90’a kadar daha verimli)

Model tipi: Büyük dil modeli (LLM)

Eğitim dili: Tamamen Türkçe

YETKİNLİKLER

Metin üretimi, özetleme, yeniden yazma

Soru-cevap sistemleri

Konuşma ve diyalog üretimi

Doküman analizi ve özetleme

Chatbot ve müşteri destek uygulamaları