非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
ベンチマーク

MMLU

57 分野の選択問題で LLM の総合的な知識量を測るベンチマーク。

詳しい解説

Massive Multitask Language Understanding。数学、法律、医学など 57 分野の 4 択問題を解かせて正答率を測る。ベース知識量の代理指標として広く使われるが、近年は飽和傾向(多くのモデルが 80% 超)にあり、MMLU-Pro 等の難化版に移行している。

関連用語

← 用語集一覧へ