メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-academy-content-candidates.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

droid-code-review-evals のオープンソースベンチマークは、AIモデルがコードレビューで実際のバグをどれだけ検出できるかを測定します。Sentry、Grafana、Keycloak、Discourse、Cal.comの5つの大規模オープンソースコードベースから50件のプルリクエストを使い、13のフロンティアモデルとオープンソースモデルを評価します。手動でキュレーションされた167件の検証済みバグのゴールデンセットに対して採点します。

コスト対品質

モデル平均F1PRあたりのコスト
GPT-5.260.5%$1.25
Claude Opus 4.659.8%$3.11
Claude Sonnet 4.657.9%$1.15
Claude Opus 4.756.4%$4.18
GLM-5.156.3%$1.06
GPT-5.3 Codex56.2%$1.69
Gemini 3.1 Pro52.6%$2.04
GPT-5.4 Mini52.0%$0.68
Kimi K2.551.9%$0.41
Gemini 3 Flash50.0%$0.34
GPT-5.547.9%$5.63
GPT-5.447.5%$2.01
MiniMax M2.745.6%$0.15
最終更新: 2026年4月 GPT-5.2は、Claude Opus 4.6の約40%のコストで品質トップです。Kimi K2.5やMiniMax M2.7のようなオープンソースモデルは、PRあたり約3〜8倍低いコストでGPT-5.2の約75〜86%の品質を実現し、マルチパスやアンサンブルのレビュー戦略を可能にします。

手法

段階説明
テストセットPython、Go、Java、Ruby、TypeScriptを含む5つのリポジトリ(Sentry、Grafana、Keycloak、Discourse、Cal.com)から50件のPR
ゴールデンセット正確なファイル/行位置とバグ種別分類を持つ、手動検証済みの167件のバグ(v3)
モデル評価標準化されたプロンプトを使い、Droid Action経由で各モデルがすべてのPRをレビュー
LLMジャッジ独立したLLMが、モデルコメントとゴールデンコメントを意味的同等性で照合
クロスジャッジ検証採点バイアスを制御するため、2つ目のジャッジで照合結果をスポットチェック
F1計算F1は適合率(コメントのうち実際のバグである割合)と再現率(検出されたゴールデンバグの割合)を組み合わせます
複数実行一貫性を測定するため、各モデルを複数回実行して評価
外れ値除外エラーになった実行やトークン制限に達した実行は除外

Review Droid Benchmark

GitHubで完全な手法、生の結果、採点スクリプトを表示する

解説記事を読む

コードレビューが最も得意なモデルは?