代码Agent的苦涩教训!首次拆解上下文检索,直指自动化软件瓶颈
创始人
2026-03-07 18:20:26
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:新智元)

新智元报道

编辑:LRST

【新智元导读】ContextBench首次从「过程」评测代码智能体,不再只看是否修好代码,而是追踪它是否精准找到并真正使用了关键代码片段,揭示了当前模型多读少用、被关键词误导、复杂架构无效等深层问题,推动AI助手向更可靠、可解释的方向进化。

在自动化软件工程(Automated Software Engineering)领域,以SWE-bench为代表的评测基准已成为衡量大语言模型代码能力的事实标准,SWE-bench、SWE-bench Pro、Multi-SWE-bench、SWE-PolyBench等代码库级评测推动了代码智能体快速进步。

然而,这类评测仍以最终修复成功率为核心,主要关注端到端成功率(End-to-End Success Rate),即Agent是否能够生成通过测试用例的补丁。

这一评价方式隐含着一个关键缺陷:它仅观察最终结果,却无法刻画模型的中间推理过程,难以量化「过程中是否检索到解决问题必需的上下文、是否真正把它用进补丁」

换言之,我们无法判断Agent是真正理解了代码库的语义结构,还是通过试探式修改或偶然匹配测试条件而得到正确结果。

因此,现有评测更接近于「结果可验证」,而非「过程可解释」。

为了填补这一空白,来自南京大学、伦敦大学学院(UCL)等机构的研究团队推出了首个面向过程的代码上下文检索评测基准ContextBench,基于1,136个真实问题修复任务(66个代码库、8种语言),由专家在文件/代码块/行号三个粒度标注「关键上下文」,并自动追踪智能体的检索与阅读轨迹进行结构化对齐,用召回率、准确率、F1、效率与「使用衰减」等指标,把「找上下文」和「用上下文」拆开评估。

论文链接:https://arxiv.org/abs/2602.05892

项目主页:https://contextbench.github.io/

代码仓库:https://github.com/EuniAI/ContextBench

数据集:https://huggingface.co/datasets/Contextbench/ContextBench

ContextBench并非直接构造新的编程任务,而是从真实开源仓库的 Issue 与补丁出发,逆向追踪问题修复过程中实际依赖的代码片段,并将其组织为评测用的「黄金上下文」。评测的核心由「是否修复成功」转变为「是否定位到正确代码」

ContextBench不再只问「修好了吗?」,而是追问:「在解决问题时,Agent究竟检索并使用了哪些代码上下文?」

研究人员观察到几条典型现象:复杂的智能体脚手架不一定带来更好的上下文检索质量,反而像一种「苦涩的教训」(The Bitter Lesson)式的过度工程化;

很多最强大模型倾向「多捞少漏」,导致噪声偏多;

「检索到」不等于「用到了」,看过关键代码也可能没体现在最终补丁里;更均衡的检索策略往往在成功率与成本之间更划算。

ContextBench希望为代码智能体提供可观测、可度量、可优化的过程评测视角,帮助社区更精准地改进检索与推理链路。

「黄金上下文」由人类专家认证

为了构建这一基准,研究团队并没有依赖自动化生成,而是采用了一套严谨的「人机回环」(Human-in-the-loop)标注流程。

大规模覆盖包含来自66个真实代码仓库的 1,136个 问题解决任务,覆盖 Python、Java、C++、Go、Rust、JavaScript、TypeScript、C 等 8种主流编程语言。

专家级标注每一条数据都配有由专家开发者标注的「黄金上下文」(Gold Contexts)。这些上下文并非「相关代码」的简单集合,而是问题修复过程中不可或缺的最小代码依赖集。研究者通过分析真实补丁,沿函数调用、类引用与变量依赖关系逐步回溯,最终确定必须阅读的代码片段。

一个真实仓库中的依赖链条:若未阅读箭头所连接的函数与类,即使模型生成补丁,也难以保证语义正确

细粒度追踪:评测框架能够记录Agent的每一步操作轨迹,并在文件(File)、代码块(Block)、行(Line)三个层级上计算检索的精确率(Precision)和召回率(Recall)。这意味着模型的行为可以被量化为「定位能力」:不仅判断是否访问了关键文件,还能判断是否精确定位到关键函数乃至关键语句。

评测对象

顶尖模型与主流Agent

研究团队使用CONTEXTBENCH评测了当前最强的4款LLM和5种主流代码Agent框架:

各个LLM的表现情况如图所示,该排行榜将在主页上持续更新

代码Agent的「苦涩教训」

实验结果揭示了当前LLM和Agent在代码检索上的三大痛点:

1. 架构越复杂,效果越好?未必!

通过分析排行榜数据可以发现,复杂的 Agent 架构在上下文检索性能上带来的增益微乎其微。

实验显示,复杂的检索脚手架——比如基于图的检索或复杂的向量库——在检索成功率上,甚至有时还不如简单的基准方案(如 mini-SWE-agent)。这再次印证了 AI 领域的「苦涩教训」:复杂的工程堆砌,往往不如底层模型能力的提升。

不同Agent框架在检索F1分数上的差异远小于预期,复杂检索结构并未带来显著收益

对比不同Agent架构在不同层级检索上的成功率,数据表明复杂架构并未拉开显著差距

2. 宁滥勿缺:模型偏爱高召回率

所有的LLM在检索策略上都表现出惊人的一致性:重召回,轻精确。模型倾向于阅读大量的代码以确保覆盖相关信息,但这引入了大量的噪音。例如,GPT-5虽然召回率很高,但引入的无关代码严重拖累了精确率。这也解释了为什么更高昂的Token消耗并没有线性转化为解决率的提升。

从精确率与召回率的对比可以看到,多数模型倾向于扩大检索范围以避免遗漏,但代价是大量无关上下文被引入,从而干扰后续推理

数据展示了各模型Recall极高、Precision极低的「偏科」现状,精确率普遍偏低

3. 策略分化:GPT-5「大口吞」 vs Devstral 2「小步跑」

不同模型在检索策略上展现出了截然不同的性格 。

4. 致命的「关键词陷阱」:Agent 容易陷入局部视野

通过对失败案例的分析,研究者发现Agent极易被表面关键词误导,从而陷入「隧道视野」(Tunnel Vision)。

案例:在修复一个涉及Django多数据库(MySQL/SQLite)的 Bug 时,OpenHands因为搜索结果中大量出现MySQL相关关键词,就固执地将排查范围锁定在 MySQL 模块 。

后果:尽管Agent拥有查看整个代码库的权限,但关键词的干扰使其完全忽略了真正出问题的SQLite模块,导致结构性的检索失败 。

5. 「读了」不等于「用了」

这是一个更为致命的问题:检索与利用之间存在巨大鸿沟。轨迹分析显示,Agent经常在中间步骤成功检索到了「黄金上下文」,但在最终生成补丁时,却未能有效利用这些信息,导致修复失败。

这种「过目即忘」的现象(Information Consolidation Bottleneck)是当前Agent推理能力的一大短板。轨迹分析进一步表明,模型在中间步骤能够访问到黄金上下文,但在最终生成补丁时未能有效利用这些信息,即「检索成功但推理失败」。

总结

ContextBench的发布,标志着代码Agent的评测进入了「过程可解释」的新阶段。

该工作表明,端到端成功率不足以刻画代码Agent的真实能力。未来的代码Agent不仅需要具备代码生成能力,更需要具备稳定且精确的代码定位能力。只有当Agent能够精准地定位、检索并有效利用代码上下文时,它们才能真正成为开发者值得信赖的助手。

参考资料:

https://arxiv.org/abs/2602.05892

相关内容

上海市委原副书记陈铁迪逝世...
中国共产党的优秀党员、忠诚的共产主义战士,中共上海市委原副书记,上...
2026-03-07 20:07:55
伊朗:已摧毁82架美以无人...
伊朗军队当地时间7日发布公告称,过去24小时内,伊朗利用导弹和火炮...
2026-03-07 20:04:53
知名球星凌晨被捕!现场视频...
(来源:指尖新闻沈阳晚报)据报道,菲尼克斯太阳队球员狄龙·布鲁克斯...
2026-03-07 20:04:48
重磅!央行狂买黄金
3月7日,国家外汇管理局最新数据显示,截至2026年2月末,我国外...
2026-03-07 20:04:41
她经济升温,抖音女性消费规...
  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力...
2026-03-07 20:04:31
政府工作报告中的山西使命·...
文字整理:郭慧制图:杨殊宇编校:李丽君责编:蒋海霞审核:杨继红
2026-03-07 20:04:25
国泰海通:非农新增就业为何...
国泰海通发布研报称,2月美国新增非农就业人数大幅转负,失业率超预期...
2026-03-07 20:04:18
十四届全国人大四次会议海南...
十四届全国人大四次会议海南代表团举行开放团组活动冯飞刘小明等代表回...
2026-03-07 20:04:11
巾帼心向党,奋进新征程!镇...
转自:扬子晚报扬子晚报网3月7日讯(通讯员 孙怡 记者 姜天圣)春...
2026-03-07 20:04:05

热门资讯

上海市委原副书记陈铁迪逝世,享... 中国共产党的优秀党员、忠诚的共产主义战士,中共上海市委原副书记,上海市第十一届人大常委会主任,第八届...
伊朗:已摧毁82架美以无人机! 伊朗军队当地时间7日发布公告称,过去24小时内,伊朗利用导弹和火炮系统在该国境内击落了包括MQ-9无...
知名球星凌晨被捕!现场视频曝光 (来源:指尖新闻沈阳晚报)据报道,菲尼克斯太阳队球员狄龙·布鲁克斯于周五清晨因DUI(受影响驾驶)被...
重磅!央行狂买黄金 3月7日,国家外汇管理局最新数据显示,截至2026年2月末,我国外汇储备已突破3.4万亿美元关口,同...
她经济升温,抖音女性消费规模增...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:文汇报)近日...
政府工作报告中的山西使命·图解... 文字整理:郭慧制图:杨殊宇编校:李丽君责编:蒋海霞审核:杨继红
国泰海通:非农新增就业为何大幅... 国泰海通发布研报称,2月美国新增非农就业人数大幅转负,失业率超预期回升至4.4%。但1-2月非农数据...
十四届全国人大四次会议海南代表... 十四届全国人大四次会议海南代表团举行开放团组活动冯飞刘小明等代表回答中外记者提问3月7日上午,十四届...
巾帼心向党,奋进新征程!镇江市... 转自:扬子晚报扬子晚报网3月7日讯(通讯员 孙怡 记者 姜天圣)春和景明,万象更新。在第 116 个...
全国人大代表杨正平:国企应考核... 今年两会期间,全国人大代表、柳钢集团检测计量中心化学室高级技师杨正平带来了优化产业工人权益保障的建议...