非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
ベンチマーク

HumanEval

Python の関数 docstring から実装を書かせて、テストが通るか測るコーディングベンチマーク。

詳しい解説

OpenAI が 2021 年に公開。164 問の Python 関数問題で、生成されたコードがユニットテストを通る pass@1 で評価。SWE-bench 登場以前のデファクト指標で、今もウォームアップとしてよく使われるが、近年は飽和(90% 超)気味。

関連用語

← 用語集一覧へ