droid-code-review-evals のオープンソースベンチマークは、AIモデルがコードレビューで実際のバグをどれだけ検出できるかを測定します。Sentry、Grafana、Keycloak、Discourse、Cal.comの5つの大規模オープンソースコードベースから50件のプルリクエストを使い、13のフロンティアモデルとオープンソースモデルを評価します。手動でキュレーションされた167件の検証済みバグのゴールデンセットに対して採点します。Documentation Index
Fetch the complete documentation index at: https://factory-docs-academy-content-candidates.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
コスト対品質
| モデル | 平均F1 | PRあたりのコスト |
|---|---|---|
| GPT-5.2 | 60.5% | $1.25 |
| Claude Opus 4.6 | 59.8% | $3.11 |
| Claude Sonnet 4.6 | 57.9% | $1.15 |
| Claude Opus 4.7 | 56.4% | $4.18 |
| GLM-5.1 | 56.3% | $1.06 |
| GPT-5.3 Codex | 56.2% | $1.69 |
| Gemini 3.1 Pro | 52.6% | $2.04 |
| GPT-5.4 Mini | 52.0% | $0.68 |
| Kimi K2.5 | 51.9% | $0.41 |
| Gemini 3 Flash | 50.0% | $0.34 |
| GPT-5.5 | 47.9% | $5.63 |
| GPT-5.4 | 47.5% | $2.01 |
| MiniMax M2.7 | 45.6% | $0.15 |
手法
| 段階 | 説明 |
|---|---|
| テストセット | Python、Go、Java、Ruby、TypeScriptを含む5つのリポジトリ(Sentry、Grafana、Keycloak、Discourse、Cal.com)から50件のPR |
| ゴールデンセット | 正確なファイル/行位置とバグ種別分類を持つ、手動検証済みの167件のバグ(v3) |
| モデル評価 | 標準化されたプロンプトを使い、Droid Action経由で各モデルがすべてのPRをレビュー |
| LLMジャッジ | 独立したLLMが、モデルコメントとゴールデンコメントを意味的同等性で照合 |
| クロスジャッジ検証 | 採点バイアスを制御するため、2つ目のジャッジで照合結果をスポットチェック |
| F1計算 | F1は適合率(コメントのうち実際のバグである割合)と再現率(検出されたゴールデンバグの割合)を組み合わせます |
| 複数実行 | 一貫性を測定するため、各モデルを複数回実行して評価 |
| 外れ値除外 | エラーになった実行やトークン制限に達した実行は除外 |
Review Droid Benchmark
GitHubで完全な手法、生の結果、採点スクリプトを表示する
解説記事を読む
コードレビューが最も得意なモデルは?
