ベンチマーク

SWE-bench

実際の GitHub Issue を AI に直させて、テストが通るかで採点するコーディング系ベンチマーク。

詳しい解説

Software Engineering Bench。Princeton/Stanford 等が構築。Django や scikit-learn 等の OSS リポジトリで報告された実 Issue を題材に、AI がパッチを提案し、人手レビュー済みテストでパスするかを判定する。コーディング能力の事実上のスタンダード指標。Verified 版（人手検証済み 500 件）がよく引用される。

別表記

SWE-benchSWE-bench Verified

詳しい解説

別表記

関連用語