← Topluluk
AktifDokümantasyon / Metodoloji

Dile Özgü Embedding'ler

Herkesin kendi dili ve alanı için verimli tokenizer ve embedding modelleri üretebilmesi için yöntem ve adımları derleyen açık metodoloji.

embeddingstokenizermethodologymtebstsb

Vizyon

Herhangi bir dil veya alan için, o dile özgü tokenizer ve embedding modeli üretmenin standart yöntemini açık kaynak olarak tanımlamak. Türkçe ile başlayan bu metodoloji, az temsil edilen tüm dillere uygulanabilir.

Süreç

Benchmark oluştur → BPE tokenizer eğit → frekans analizi → tokenizer'ı yenile → embedding katmanını yeniden kur → orijinal modelle hizala → hedef dilde devam eğitimi → MTEB'de ölç.

Katkı alanları

  • Yeni dil veya alan için STSb/MTEB benchmark hazırlama
  • BPE tokenizer eğitimi ve frekans analizi
  • Embedding hizalama deneyleri
  • Model kartı ve dokümantasyon yazımı

Teknik yığın: Python · HuggingFace · sentence-transformers · MTEB · Lisans: CC BY 4.0

Projeye katılmak istiyorum

Google hesabınızı doğrulayın, formu doldurun; ardından GitHub issue listesinden uygun bir görev seçerek başlayabilirsiniz.

Kurumsal pilot, API erişimi, yatırım ve iş birliği başvuruları doğrulanmış Google hesabı ile alınır.

Oturum kontrol ediliyor…