← Topluluk
AktifPython · Rust · TeX

Türkçe Morfolojik Tokenizer

Verilen metni Türkçe ses bilgisine uygun morfolojik parçalarına ayıran ve bu parçaları yeniden birleştirebilen güncel tokenizer.

tokenizermorphologyturkishbenchmarkresearch

Vizyon

Türkçe'nin morfolojik zenginliğini anlayan, ekleri doğru ayıran ve token verimliliğini artıran hibrit tokenizasyon yaklaşımını akademik düzeyde kanıtlamak ve açık kaynak olarak sunmak.

Ne yapıyor

Türkçe metni morfolojik parçalarına ayırır, BPE ile hibrit tokenizasyon yapar; STS-TR ve MTEB-TR benchmarklarında değerlendirir. Rust ile yüksek performanslı tokenizer implementasyonu içerir.

Katkı alanları

  • MTEB-TR değerlendirme genişletmesi
  • Rust tokenizer performans iyileştirmeleri
  • Yeni dil için morfolojik tokenizer adaptasyonu
  • TurBLiMP değerlendirme araçları
  • Akademik replikasyon ve doğrulama

Teknik yığın: Python · Rust · LaTeX · HuggingFace · MTEB

Kaynaklar ve bağlantılar

Projeye katılmak istiyorum

Google hesabınızı doğrulayın, formu doldurun; ardından GitHub issue listesinden uygun bir görev seçerek başlayabilirsiniz.

Kurumsal pilot, API erişimi, yatırım ve iş birliği başvuruları doğrulanmış Google hesabı ile alınır.

Oturum kontrol ediliyor…