ANKARA-BHA
Türkçe doğal dil işleme alanında yeni bir dönemin kapılarını aralayacağı belirtilen Kumru LLM, yalnızca Türkçe verilerle eğitilen ilk büyük dil modeli olma özelliğini taşıyor. Geliştirici firma VNGRS, modeli 7,4 milyar parametreyle tasarladıklarını, eğitim sürecinde ise 300 milyar Türkçe token ve 500 GB veri kullandıklarını açıkladı.
Kumru’nun en dikkat çekici özelliği, sadece Türkçe için özel olarak eğitilen tokenizer yapısı. Bu sistem sayesinde çok dilli modellere göre %90’a kadar daha verimli çalıştığı ifade ediliyor. Böylece modelin Türkçenin yalnızca sözcük yapısını değil, dilin doğal akışını da anlamada oldukça başarılı olduğu vurgulanıyor.
Yapay zekâ modeli, RAG tabanlı sohbet sistemlerinden çağrı merkezi analitiğine, doküman özetlemeden sosyal medya içerik üretimine kadar geniş bir kullanım alanı sunuyor. Kurumsal firmalar, medya kuruluşları ve araştırmacılar için yerelleştirilmiş, yüksek performanslı bir çözüm olarak öne çıkıyor.
Kumru’nun teknik özellikleri
-
Parametre Sayısı: 7,4 milyar
-
Eğitim Verisi: 300 milyar Türkçe token, 500 GB veri
-
Tokenizer: Yalnızca Türkçe için eğitildi (%90’a kadar verim artışı)
-
Model Tipi: Büyük Dil Modeli (LLM)
-
Eğitim Dili: Tamamen Türkçe
Kumru neler yapabiliyor?
-
Metin üretimi, özetleme ve yeniden yazma
-
Soru-cevap ve sohbet sistemleri
-
Doküman analizi ve içerik sınıflandırma
-
Sosyal medya içerik önerisi ve üretimi
-
Chatbot ve müşteri destek uygulamaları
Tamamen yerli imkânlarla geliştirilen Kumru, Türkçe odaklı yapay zekâ teknolojilerinde önemli bir dönüm noktası olarak değerlendiriliyor.