Türkçe LLM'leri 14 boyutlu metodoloji çerçevesinde değerlendiriyoruz.

Türkçe LLM benchmark: 14 boyutlu çerçevede 2 boyutu birinci elden ölçtük (TurkishMMLU-Yüksel + Belebele-TR), gerisi atıflı/planlı. 142 model.

Birinci elden ölçülen en yüksek skorlar

En yüksek birinci-elden skorlar: TurkishMMLU (Yüksel)'de YTU-Turkish-Gemma-9b %62.3 ve Trendyol-LLM-Asure-12B %62.2; Belebele (TR)'de Trendyol-LLM-Asure-12B %86.6.

Skorlar lm-evaluation-harness ile birinci elden ölçüldü (5-shot, sabit seed 42). Tam sıralama için liderlik tablosu.