非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
ベンチマーク

GSM8K

小学校〜中学レベルの算数文章題 8.5K 問で推論力を測るベンチマーク。

詳しい解説

Grade School Math 8K。文章題を読んで多段階の計算を導く能力を測る。Chain-of-Thought 系手法の有効性を示す古典的ベンチで、現在はトップモデルがほぼ満点に達しており、MATH や AIME 等のより難しいベンチに主役が移っている。

関連用語

← 用語集一覧へ