观测性驱动的 harness 演化：它为何开始有实证收益

相关背景：harness engineering、Hermes、Meta-Harness。

先说结论

这篇论文最重要的地方，不是再给 coding agent 增加一个 benchmark 分数，而是把 harness 这层长期被低估的系统外壳，正式推成了一个可以被观测、诊断、修改和验证的优化对象。

如果说过去大家更多在问“模型还能不能更强”，AHE 逼着我们改问：同一个模型，为什么在不同 harness 下会差这么多？ 一旦这个问题被摆到台面上，agent 的竞争就不再只是权重、参数和榜单，而会往更工程化的方向移动——上下文、工具、日志、反馈、评测回路，都会成为性能的一部分。

AHE harness 演化总览

1. 这篇论文真正解决的不是“调参”，而是“把 harness 变成对象”

AHE 面对的是一个很现实的问题：coding agent 的失败往往不是单点模型失灵，而是出在模型和环境交互的那一层。工具定义不清晰、上下文太碎、轨迹不可回放、失败信号太噪、编辑效果无法归因——这些问题不会被“再训一个更大的模型”自动解决。

所以 AHE 的方向很明确：不要把 harness 当成一次性配置，而是把它当成可以持续演化的系统层。这样做的价值在于，工程团队不必每次都从头重做整个 agent，只要让外层可见、可改、可验证，系统就有了自动改进的入口。

2. 它怎么做：三层观测，把每次编辑变成可验证合同

论文把 harness 演化拆成了三层观测能力：

component observability：把每个可编辑组件变成文件级对象，动作空间清晰、可回滚、可比较。
experience observability：把海量轨迹压成可钻取的证据层，而不是只留一个摘要或分数。
decision observability：每次编辑都带着预测，下一轮任务结果负责验证它。

这三层的共同作用，是把原本“拍脑袋改一改再跑一次”的流程，变成“每一步都可后验检验”的闭环。AHE 不是在找更聪明的 prompt，而是在把 harness 改造成一种能持续积累经验的工程装置。

AHE 结果对比

3. 为什么这组结果有说服力

这篇论文不是只在单一任务上刷一个漂亮数字。它的说服力主要来自三点：

第一，主结果足够明确

10 次 AHE 迭代把 Terminal-Bench 2 的 pass@1 从 69.7% 提到 77.0%。这个提升不是边缘改进，而是很容易被工程团队感知到的实质收益。

第二，它超过了人类设计的 harness

论文里，AHE 超过了 human-designed harness Codex-CLI（71.9%），也压过了 ACE 和 TF-GRPO 这些基线。换句话说，这不是“自动化也能勉强追平”，而是“自动化闭环已经开始反超手工设计”。

第三，结果能迁移

AHE 冻结后的 harness 不需要重新进化，就能在 SWE-bench-verified 上以 12% 更少的 tokens 达到更好的综合成功率，并且在另外三个模型家族上还带来 +5.1 到 +10.1pp 的收益。这个跨模型迁移很关键，因为它说明改进并不只是对某个 benchmark 过拟合，而是编码了一些更通用的工程经验。

4. 这意味着什么：harness engineering 正在变成新基础设施

我对这篇论文的判断是：它真正重要的地方，不是“更高的分数”，而是 harness engineering 作为一层基础设施的成立。

这会带来几个方向性的变化：

agent 竞争从模型层下沉到系统层
以后很多差距，不再只是模型能力差，而是外层 harness 谁更会组织上下文、工具和反馈。
轨迹数据会比摘要更值钱
如果你要优化 harness，完整执行轨迹、失败演化和编辑前后对照，比一个压缩过的总结更有用。
评测会从静态分数变成可观测回路
benchmark 不是终点，评测本身也应该是可被修改、可被反复验证的对象。

5. 这篇论文的边界也要说清楚

当然，这不代表 harness 可以无边界地自动优化。它仍然有几个现实限制：

观测和回放本身会带来额外成本。
自动演化可能会朝某个 benchmark 过拟合。
复杂任务里，噪声和局部最优会干扰真正的系统改进。
这类方法更适合 coding agent / harness 密集场景，不一定能直接照搬到所有 agent 问题。

但这些限制并不削弱论文的主旨，反而说明它切中了一个真实的工程层：我们已经不能只把 agent 当成一个模型接口来理解了。

结语

AHE 最值得被记住的，不是某个分数，而是它把一条路讲得很清楚：当模型本身越来越像商品，真正的差异化会越来越转移到 harness、context、tools、trace 和 feedback loop 这些系统层。

也就是说，agent 时代的下一阶段，可能不是“谁的模型更大”，而是“谁的 harness 更会学习”。