ベンチマーク
SWE-bench
実際の GitHub Issue を AI に直させて、テストが通るかで採点するコーディング系ベンチマーク。
詳しい解説
Software Engineering Bench。Princeton/Stanford 等が構築。Django や scikit-learn 等の OSS リポジトリで報告された実 Issue を題材に、AI がパッチを提案し、人手レビュー済みテストでパスするかを判定する。コーディング能力の事実上のスタンダード指標。Verified 版(人手検証済み 500 件)がよく引用される。
別表記
SWE-benchSWE-bench Verified