Belebele (TR) — Benchmark Boyut Detayı

Belebele TR (Meta) okuduğunu-anlama — YerelAI birinci elden ölçer: lm-evaluation-harness, 5-shot, seed 42, results.json + SHA-256. 900 soru, 10 model.

Belebele (TR)'de birinci-taraf ölçülen en yüksek skor: Trendyol-LLM-Asure-12B %86.6, ardından YTU-Turkish-Gemma-9b %85.9, Turkish-Gemma-9b-T1 %83.9. 10 model bu boyutta ölçüldü.

Belebele (TR) liderlik tablosu

Birinci-taraf ölçülen Belebele (TR) skoruna göre sıralı (lm-evaluation-harness, 5-shot, seed 42). Her satır /models/<slug> sayfasına bağlı.
# Model Belebele (TR)
1 Trendyol-LLM-Asure-12B %86.6
2 YTU-Turkish-Gemma-9b %85.9
3 Turkish-Gemma-9b-T1 %83.9
4 WiroAI-Turkish-9b %82.6
5 Cosmos Turkish Culture 9B %82.1
6 Qwen 2.5 7B %78.8
7 Trendyol-LLM 7B chat v4.1.0 %77.9
8 Kizagan E4B Turkish Reasoning %76.0
9 Qwen2.5-7B Turkish Culture %73.6
10 Kizagan E4B Turkish (Agent) %71.4