ベンチマーク
MMLU
57 分野の選択問題で LLM の総合的な知識量を測るベンチマーク。
詳しい解説
Massive Multitask Language Understanding。数学、法律、医学など 57 分野の 4 択問題を解かせて正答率を測る。ベース知識量の代理指標として広く使われるが、近年は飽和傾向(多くのモデルが 80% 超)にあり、MMLU-Pro 等の難化版に移行している。
57 分野の選択問題で LLM の総合的な知識量を測るベンチマーク。
Massive Multitask Language Understanding。数学、法律、医学など 57 分野の 4 択問題を解かせて正答率を測る。ベース知識量の代理指標として広く使われるが、近年は飽和傾向(多くのモデルが 80% 超)にあり、MMLU-Pro 等の難化版に移行している。