Factory のベンチマークは、COBOL、Java 7、BASIC、C89、Fortran、AssemblyにまたがるレガシーエンジニアリングタスクでAIエージェントの性能を測定します。Documentation Index
Fetch the complete documentation index at: https://factory-docs-academy-content-candidates.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
結果 — 全体合格率
最終更新: 2026年4月手法
| 段階 | 説明 |
|---|---|
| タスクセット | 6つのレガシー言語ファミリーにまたがる数百件のタスクと、10件の代表的な公開サンプル |
| タスク形式 | 自然言語の指示、コンテナ化されたソース環境、参照解、非公開の検証テスト |
| タスク種別 | バグ修正、実装、移行、その他のレガシーエンジニアリング作業 |
| 評価 | エージェントが仕様を理解し、動作するコードを生成し、検証を通過する必要があるHarbor互換タスク |
| 採点 | 12のモデル/エージェント組み合わせについて、非公開テストの合格率で採点 |
ベンチマーク構成
| 言語 | 割合 | 例のドメイン |
|---|---|---|
| COBOL | 46% | 金融決済、給与処理、保険請求、通信課金、VSAMファイル処理 |
| Java 7 | 32% | エンタープライズミドルウェア、CDR処理、倉庫物流、バイナリ解析、EJBパターン |
| BASIC | 6% | ビジネスアプリケーション、会計、データ処理 |
| C89 | 5% | システムプログラミング、低レベルデバッグ、プロトコル実装 |
| Fortran | 5% | 科学技術計算、数値手法、物理シミュレーション |
| Assembly | 5% | x86ファームウェア解析、プロトコルデコード、ハードウェアシミュレーション |
Legacy-Bench
GitHubでサンプルタスクと評価ハーネスを表示する
解説記事を読む
Legacy-Bench: AIエージェントは世界で最も重要なソフトウェアを保守できるのか?
