非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
ベンチマーク

SWE-bench

実際の GitHub Issue を AI に直させて、テストが通るかで採点するコーディング系ベンチマーク。

詳しい解説

Software Engineering Bench。Princeton/Stanford 等が構築。Django や scikit-learn 等の OSS リポジトリで報告された実 Issue を題材に、AI がパッチを提案し、人手レビュー済みテストでパスするかを判定する。コーディング能力の事実上のスタンダード指標。Verified 版(人手検証済み 500 件)がよく引用される。

別表記

SWE-benchSWE-bench Verified

関連用語

← 用語集一覧へ