tbench.ai のベンチマークは、ターミナルベースのインターフェースを使った実世界のソフトウェアエンジニアリングタスクでAIコーディングエージェントを評価します。エージェントがコードベースを移動し、コマンドを実行し、コマンドライン操作を通じて解決策を実装する能力を測定します。Documentation Index
Fetch the complete documentation index at: https://factory-docs-academy-content-candidates.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
結果
最終更新: 2025年12月手法
| カテゴリ | 説明 |
|---|---|
| コードナビゲーション | 関連するコードを見つけて理解する |
| バグ修正 | 問題を特定して解決する |
| 機能実装 | 新しい機能を追加する |
| リファクタリング | 既存のコード構造を改善する |
| テスト | テストを書いて実行する |
Terminal Bench リーダーボード
ライブランキングを表示し、エージェントを提出する
