Question 1

Belebele (TR)'de en yüksek skor hangi modelde?

Accepted Answer

YerelAI'nin birinci-taraf ölçümünde Belebele (TR) boyutunda en yüksek skor Trendyol-LLM-Asure-12B modelinde: %86.6. İkinci sırada YTU-Turkish-Gemma-9b (%85.9).

Question 2

Belebele (TR) skorları nasıl ölçülüyor?

Accepted Answer

Skorlar lm-evaluation-harness ile birinci elden ölçülür (5-shot, deterministik tek kanonik çalıştırma, sabit seed 42). Sonuçlar ders bazında toplulaştırılmış results.json olarak ve SHA-256 ile, sabitlenmiş komutla doğrulanabilir biçimde yayımlanır. Bu boyutta 10 model ölçüldü.

#	Model	Belebele (TR)
1	Trendyol-LLM-Asure-12B	%86.6
2	YTU-Turkish-Gemma-9b	%85.9
3	Turkish-Gemma-9b-T1	%83.9
4	WiroAI-Turkish-9b	%82.6
5	Cosmos Turkish Culture 9B	%82.1
6	Qwen 2.5 7B	%78.8
7	Trendyol-LLM 7B chat v4.1.0	%77.9
8	Kizagan E4B Turkish Reasoning	%76.0
9	Qwen2.5-7B Turkish Culture	%73.6
10	Kizagan E4B Turkish (Agent)	%71.4

Belebele (TR) — Benchmark Boyut Detayı

Belebele (TR) liderlik tablosu