← Topluluk
AktifDokümantasyon / Metodoloji
Dile Özgü Embedding'ler
Herkesin kendi dili ve alanı için verimli tokenizer ve embedding modelleri üretebilmesi için yöntem ve adımları derleyen açık metodoloji.
embeddingstokenizermethodologymtebstsb
Vizyon
Herhangi bir dil veya alan için, o dile özgü tokenizer ve embedding modeli üretmenin standart yöntemini açık kaynak olarak tanımlamak. Türkçe ile başlayan bu metodoloji, az temsil edilen tüm dillere uygulanabilir.
Süreç
Benchmark oluştur → BPE tokenizer eğit → frekans analizi → tokenizer'ı yenile → embedding katmanını yeniden kur → orijinal modelle hizala → hedef dilde devam eğitimi → MTEB'de ölç.
Katkı alanları
- Yeni dil veya alan için STSb/MTEB benchmark hazırlama
- BPE tokenizer eğitimi ve frekans analizi
- Embedding hizalama deneyleri
- Model kartı ve dokümantasyon yazımı
Teknik yığın: Python · HuggingFace · sentence-transformers · MTEB · Lisans: CC BY 4.0
Kaynaklar ve bağlantılar
Projeye katılmak istiyorum
Google hesabınızı doğrulayın, formu doldurun; ardından GitHub issue listesinden uygun bir görev seçerek başlayabilirsiniz.