ベンチマーク

HumanEval

Python の関数 docstring から実装を書かせて、テストが通るか測るコーディングベンチマーク。

詳しい解説

OpenAI が 2021 年に公開。164 問の Python 関数問題で、生成されたコードがユニットテストを通る pass@1 で評価。SWE-bench 登場以前のデファクト指標で、今もウォームアップとしてよく使われるが、近年は飽和（90% 超）気味。