ベンチマーク

MMLU

57 分野の選択問題で LLM の総合的な知識量を測るベンチマーク。

詳しい解説

Massive Multitask Language Understanding。数学、法律、医学など 57 分野の 4 択問題を解かせて正答率を測る。ベース知識量の代理指標として広く使われるが、近年は飽和傾向（多くのモデルが 80% 超）にあり、MMLU-Pro 等の難化版に移行している。