Dile Özgü Embedding'ler

Herkesin kendi dili ve alanı için verimli tokenizer ve embedding modelleri üretebilmesi için yöntem ve adımları derleyen açık metodoloji.

embeddingstokenizermethodologymtebstsb

Vizyon

Herhangi bir dil veya alan için, o dile özgü tokenizer ve embedding modeli üretmenin standart yöntemini açık kaynak olarak tanımlamak. Türkçe ile başlayan bu metodoloji, az temsil edilen tüm dillere uygulanabilir.

Süreç

Benchmark oluştur → BPE tokenizer eğit → frekans analizi → tokenizer'ı yenile → embedding katmanını yeniden kur → orijinal modelle hizala → hedef dilde devam eğitimi → MTEB'de ölç.

Katkı alanları

Yeni dil veya alan için STSb/MTEB benchmark hazırlama
BPE tokenizer eğitimi ve frekans analizi
Embedding hizalama deneyleri
Model kartı ve dokümantasyon yazımı

Teknik yığın: Python · HuggingFace · sentence-transformers · MTEB · Lisans: CC BY 4.0

Projeye katılmak istiyorum

Google hesabınızı doğrulayın, formu doldurun; ardından GitHub issue listesinden uygun bir görev seçerek başlayabilirsiniz.

Dile Özgü Embedding'ler

Vizyon

Süreç

Katkı alanları

Kaynaklar ve bağlantılar

Projeye katılmak istiyorum