ベンチマーク
HumanEval
Python の関数 docstring から実装を書かせて、テストが通るか測るコーディングベンチマーク。
詳しい解説
OpenAI が 2021 年に公開。164 問の Python 関数問題で、生成されたコードがユニットテストを通る pass@1 で評価。SWE-bench 登場以前のデファクト指標で、今もウォームアップとしてよく使われるが、近年は飽和(90% 超)気味。
Python の関数 docstring から実装を書かせて、テストが通るか測るコーディングベンチマーク。
OpenAI が 2021 年に公開。164 問の Python 関数問題で、生成されたコードがユニットテストを通る pass@1 で評価。SWE-bench 登場以前のデファクト指標で、今もウォームアップとしてよく使われるが、近年は飽和(90% 超)気味。