TurkishMMLU (Yüksel)'de en yüksek skor hangi modelde?

YerelAI'nin birinci-taraf ölçümünde TurkishMMLU (Yüksel) boyutunda en yüksek skor YTU-Turkish-Gemma-9b modelinde: %62.3. İkinci sırada Trendyol-LLM-Asure-12B (%62.2).

TurkishMMLU (Yüksel) skorları nasıl ölçülüyor?

Skorlar lm-evaluation-harness ile birinci elden ölçülür (5-shot, deterministik tek kanonik çalıştırma, sabit seed 42). Sonuçlar ders bazında toplulaştırılmış results.json olarak ve SHA-256 ile, sabitlenmiş komutla doğrulanabilir biçimde yayımlanır. Bu boyutta 27 model ölçüldü.

TurkishMMLU (Yüksel) — Benchmark Boyut Detayı

TurkishMMLU (Yüksel et al. 2024) — YerelAI birinci elden ölçer: lm-evaluation-harness, 5-shot, seed 42, results.json + SHA-256. 9 ders, 27 model.

TurkishMMLU (Yüksel)'de birinci-taraf ölçülen en yüksek skor: YTU-Turkish-Gemma-9b %62.3, ardından Trendyol-LLM-Asure-12B %62.2, Turkish-Gemma-9b-T1 %55.7. 27 model bu boyutta ölçüldü.

TurkishMMLU (Yüksel) liderlik tablosu

Birinci-taraf ölçülen TurkishMMLU (Yüksel) skoruna göre sıralı (lm-evaluation-harness, 5-shot, seed 42). Her satır /models/<slug> sayfasına bağlı.
#	Model	TurkishMMLU (Yüksel)
1	YTU-Turkish-Gemma-9b	%62.3
2	Trendyol-LLM-Asure-12B	%62.2
3	Turkish-Gemma-9b-T1	%55.7
4	Cosmos Turkish Culture 9B	%55.4
5	Trendyol-LLM 7B chat v4.1.0	%54.1
6	Qwen2.5-7B Turkish Culture	%54.0
7	Qwen 2.5 7B	%53.7
8	Kizagan E4B Turkish Reasoning	%51.2
9	Turkish-Llama-8b	%48.6
10	WiroAI-Turkish-9b	%47.9
11	Kizagan E4B Turkish (Agent)	%47.4
12	Trendyol-LLM-8b v2.0	%46.1
13	Turkish-Gemma-4b-T1-Scout	%44.8
14	Llama-3-8B Turkish Culture	%44.7
15	Turkish-Llama-8b v0.1	%44.7
16	Qwen 2B Turkish SFT	%39.8
17	Turkcell-LLM-7b v1	%32.8
18	OpenHermes Strix Mistral 7B (TR)	%27.7
19	MAM Turkish 790M	%23.9
20	Trendyol-LLM 7B base v1.0	%22.7
21	Trendyol-LLM 8B T1	%21.3
22	Kumru 2B Turkish Reasoning (GRPO)	%21.2
23	Kanarya 750M	%21.0
24	Kanarya-2B	%20.8
25	Kara-Kumru v1.0 2B	%19.9
26	Trendyol-LLM 7B chat v0.1	%18.6
27	tr-Qwen2.5-0.5B-SFT v1	%18.2

YerelAI: Türkçe LLM benchmark

Türkçe büyük dil modellerini bağımsız ölçen mühendislik projesi. 142 model katalogda; 2 boyut birinci elden ölçülü (TurkishMMLU-Yüksel + Belebele-TR), diğer skorlar atıflı veya planlı. KVKK riskini azaltan yerel kurulum komutları (Ollama, llama.cpp), donanım rehberi ve sektörel uyum notları aynı yerde. İletişim: iletisim@yerelai.com.

Öne çıkan sayfalar

Liderlik Tablosu, birinci elden ölçülen 2 boyut + atıflı skorlarla Türkçe LLM sıralaması
Model Karşılaştırma, Trendyol-LLM, Llama 3.3, Qwen 2.5, Asure-12B yan yana
Yerel Modeller, Türkçe LLM'ler, donanım gereksinimleri
KVKK Rehberi, Yerel AI kurulumunda veri güvenliği ve uyum kontrolü
Hızlı Başlangıç, Ollama Türkçe kurulum adımları
Araçlar, 80+ AI aracı, Türkçe uyumluluk ve fiyat karşılaştırması
Rehberler, Adım adım Türkçe AI kullanım kılavuzları
Donanım, GPU karşılaştırma, VRAM hesaplayıcı
Kurumsal, Şirketler için özel AI çözümleri
Sektörler, Hukuk, sağlık, e-ticaret, finans, eğitim, KOBİ
Senaryolar, Sektörel AI kullanım senaryoları
Komutlar, Türkçe prompt kütüphanesi
En İyi Modeller

Benchmark & Araştırma

Araçlar & Laboratuvarlar

Kurumsal & Topluluk

Hakkımızda

YerelAI, 15 Mayıs 2026'da çalışmalara başlanan bağımsız bir editöryal girişimdir. Marka sponsorluğu veya ücretli sıralama yoktur. Tüm değerlendirmeler şeffaf metodolojimize dayanır.