← Topluluk
AktifPython · Rust · TeX
Türkçe Morfolojik Tokenizer
Verilen metni Türkçe ses bilgisine uygun morfolojik parçalarına ayıran ve bu parçaları yeniden birleştirebilen güncel tokenizer.
tokenizermorphologyturkishbenchmarkresearch
Vizyon
Türkçe'nin morfolojik zenginliğini anlayan, ekleri doğru ayıran ve token verimliliğini artıran hibrit tokenizasyon yaklaşımını akademik düzeyde kanıtlamak ve açık kaynak olarak sunmak.
Ne yapıyor
Türkçe metni morfolojik parçalarına ayırır, BPE ile hibrit tokenizasyon yapar; STS-TR ve MTEB-TR benchmarklarında değerlendirir. Rust ile yüksek performanslı tokenizer implementasyonu içerir.
Katkı alanları
- MTEB-TR değerlendirme genişletmesi
- Rust tokenizer performans iyileştirmeleri
- Yeni dil için morfolojik tokenizer adaptasyonu
- TurBLiMP değerlendirme araçları
- Akademik replikasyon ve doğrulama
Teknik yığın: Python · Rust · LaTeX · HuggingFace · MTEB
Kaynaklar ve bağlantılar
Projeye katılmak istiyorum
Google hesabınızı doğrulayın, formu doldurun; ardından GitHub issue listesinden uygun bir görev seçerek başlayabilirsiniz.