观测性驱动的 harness 演化:它为何开始有实证收益
AHE 把 harness 从固定外壳推成可观测、可诊断、可自动进化的系统层:10 次迭代将 Terminal-Bench 2 从 69.7% 提到 77.0%,并证明了跨模型迁移。
观测性驱动的 harness 演化:它为何开始有实证收益
相关背景:harness engineering、Hermes、Meta-Harness。
先说结论
这篇论文最重要的地方,不是再给 coding agent 增加一个 benchmark 分数,而是把 harness 这层长期被低估的系统外壳,正式推成了一个可以被观测、诊断、修改和验证的优化对象。
如果说过去大家更多在问“模型还能不能更强”,AHE 逼着我们改问:同一个模型,为什么在不同 harness 下会差这么多? 一旦这个问题被摆到台面上,agent 的竞争就不再只是权重、参数和榜单,而会往更工程化的方向移动——上下文、工具、日志、反馈、评测回路,都会成为性能的一部分。
1. 这篇论文真正解决的不是“调参”,而是“把 harness 变成对象”
AHE 面对的是一个很现实的问题:coding agent 的失败往往不是单点模型失灵,而是出在模型和环境交互的那一层。工具定义不清晰、上下文太碎、轨迹不可回放、失败信号太噪、编辑效果无法归因——这些问题不会被“再训一个更大的模型”自动解决。
所以 AHE 的方向很明确:不要把 harness 当成一次性配置,而是把它当成可以持续演化的系统层。这样做的价值在于,工程团队不必每次都从头重做整个 agent,只要让外层可见、可改、可验证,系统就有了自动改进的入口。
2. 它怎么做:三层观测,把每次编辑变成可验证合同
论文把 harness 演化拆成了三层观测能力:
- component observability:把每个可编辑组件变成文件级对象,动作空间清晰、可回滚、可比较。
- experience observability:把海量轨迹压成可钻取的证据层,而不是只留一个摘要或分数。
- decision observability:每次编辑都带着预测,下一轮任务结果负责验证它。
这三层的共同作用,是把原本“拍脑袋改一改再跑一次”的流程,变成“每一步都可后验检验”的闭环。AHE 不是在找更聪明的 prompt,而是在把 harness 改造成一种能持续积累经验的工程装置。
3. 为什么这组结果有说服力
这篇论文不是只在单一任务上刷一个漂亮数字。它的说服力主要来自三点:
第一,主结果足够明确
10 次 AHE 迭代把 Terminal-Bench 2 的 pass@1 从 69.7% 提到 77.0%。这个提升不是边缘改进,而是很容易被工程团队感知到的实质收益。
第二,它超过了人类设计的 harness
论文里,AHE 超过了 human-designed harness Codex-CLI(71.9%),也压过了 ACE 和 TF-GRPO 这些基线。换句话说,这不是“自动化也能勉强追平”,而是“自动化闭环已经开始反超手工设计”。
第三,结果能迁移
AHE 冻结后的 harness 不需要重新进化,就能在 SWE-bench-verified 上以 12% 更少的 tokens 达到更好的综合成功率,并且在另外三个模型家族上还带来 +5.1 到 +10.1pp 的收益。这个跨模型迁移很关键,因为它说明改进并不只是对某个 benchmark 过拟合,而是编码了一些更通用的工程经验。
4. 这意味着什么:harness engineering 正在变成新基础设施
我对这篇论文的判断是:它真正重要的地方,不是“更高的分数”,而是 harness engineering 作为一层基础设施的成立。
这会带来几个方向性的变化:
-
agent 竞争从模型层下沉到系统层
以后很多差距,不再只是模型能力差,而是外层 harness 谁更会组织上下文、工具和反馈。 -
轨迹数据会比摘要更值钱
如果你要优化 harness,完整执行轨迹、失败演化和编辑前后对照,比一个压缩过的总结更有用。 -
评测会从静态分数变成可观测回路
benchmark 不是终点,评测本身也应该是可被修改、可被反复验证的对象。
5. 这篇论文的边界也要说清楚
当然,这不代表 harness 可以无边界地自动优化。它仍然有几个现实限制:
- 观测和回放本身会带来额外成本。
- 自动演化可能会朝某个 benchmark 过拟合。
- 复杂任务里,噪声和局部最优会干扰真正的系统改进。
- 这类方法更适合 coding agent / harness 密集场景,不一定能直接照搬到所有 agent 问题。
但这些限制并不削弱论文的主旨,反而说明它切中了一个真实的工程层:我们已经不能只把 agent 当成一个模型接口来理解了。
结语
AHE 最值得被记住的,不是某个分数,而是它把一条路讲得很清楚:当模型本身越来越像商品,真正的差异化会越来越转移到 harness、context、tools、trace 和 feedback loop 这些系统层。
也就是说,agent 时代的下一阶段,可能不是“谁的模型更大”,而是“谁的 harness 更会学习”。