TurkishMMLU (Yüksel) — Benchmark Boyut Detayı

TurkishMMLU (Yüksel et al. 2024) — YerelAI birinci elden ölçer: lm-evaluation-harness, 5-shot, seed 42, results.json + SHA-256. 9 ders, 27 model.

TurkishMMLU (Yüksel)'de birinci-taraf ölçülen en yüksek skor: YTU-Turkish-Gemma-9b %62.3, ardından Trendyol-LLM-Asure-12B %62.2, Turkish-Gemma-9b-T1 %55.7. 27 model bu boyutta ölçüldü.

TurkishMMLU (Yüksel) liderlik tablosu

Birinci-taraf ölçülen TurkishMMLU (Yüksel) skoruna göre sıralı (lm-evaluation-harness, 5-shot, seed 42). Her satır /models/<slug> sayfasına bağlı.
# Model TurkishMMLU (Yüksel)
1 YTU-Turkish-Gemma-9b %62.3
2 Trendyol-LLM-Asure-12B %62.2
3 Turkish-Gemma-9b-T1 %55.7
4 Cosmos Turkish Culture 9B %55.4
5 Trendyol-LLM 7B chat v4.1.0 %54.1
6 Qwen2.5-7B Turkish Culture %54.0
7 Qwen 2.5 7B %53.7
8 Kizagan E4B Turkish Reasoning %51.2
9 Turkish-Llama-8b %48.6
10 WiroAI-Turkish-9b %47.9
11 Kizagan E4B Turkish (Agent) %47.4
12 Trendyol-LLM-8b v2.0 %46.1
13 Turkish-Gemma-4b-T1-Scout %44.8
14 Llama-3-8B Turkish Culture %44.7
15 Turkish-Llama-8b v0.1 %44.7
16 Qwen 2B Turkish SFT %39.8
17 Turkcell-LLM-7b v1 %32.8
18 OpenHermes Strix Mistral 7B (TR) %27.7
19 MAM Turkish 790M %23.9
20 Trendyol-LLM 7B base v1.0 %22.7
21 Trendyol-LLM 8B T1 %21.3
22 Kumru 2B Turkish Reasoning (GRPO) %21.2
23 Kanarya 750M %21.0
24 Kanarya-2B %20.8
25 Kara-Kumru v1.0 2B %19.9
26 Trendyol-LLM 7B chat v0.1 %18.6
27 tr-Qwen2.5-0.5B-SFT v1 %18.2