← → · space · scroll
Edit mode · Ctrl+S to save file
01 / 43 Ch.1 临界点 · Title

一场关于 AI 运行环境的演讲

Harness 工程
从黑箱到规模

2026 年 AI 工程师的核心议题 ——
四层递进实践 · 自主循环终态 · 企业治理范式 · 六个判断

60 min 43 slides v0.4.0
02 / 43 Ch.1 临界点 · Metaphor

开场隐喻

大模型是千里马,但千里马随处可得。

  • 问题不是"去哪里找更强的模型",而是能不能驾驭它
  • 你需要的是一整套 挽具(Harness),不只是骑手和马
  • Harness = 围绕 AI 模型构建的运行环境的总和
  • 2026 年的质变:从理论走向生产 —— 前沿模型终于足够可靠
Harness 架构图:Context Injection / Control / Action / Persist / Observe & Verify Harness = Model 外围的完整运行环境
Harness 系列 · 篇 1
03 / 43 Ch.1 临界点 · The Shift

一道门 · 两种用法

信息工具生产工具

没有 Harness

信息工具

输入问题 → 输出答案
世界不变。

有设计的 Harness

生产工具

文件被修改,代码被运行,状态改变。
世界变了。

Harness 是跨越这道门的关键。今天的演讲,就是拆开它。

OpenClaw Always-on Agent Teams OpenClaw · 7×24 在线的 Agent 团队
Harness 系列 · 篇 1
04 / 43 Ch.2 Harness 解剖 · 全局地图

Harness 解剖 · 全局地图

五个维度 · 两个原则

管什么 · 五个维度
上下文管理 — 最稀缺的资源
工具集设计 — 粒度决定成本
反馈回路 — 最被忽视,最关键
状态与记忆 — 所有方案收敛到文件
约束与架构 — 速度的倍增器
设计哲学
怎么建 · 两个原则
Thin Harness · Fat Skills — 价值在 Markdown,不在代码
Latent vs Deterministic — 确定性问题不塞进模型

这张地图是本章的骨架。接下来逐一展开。

05 / 43 Ch.2 Harness 解剖 · 维度一 Context

维度一

上下文管理 · 最稀缺的资源

"你的 context 窗口是不可再生的。"

Harness 系列 · 篇 1 · 篇 3
06 / 43 Ch.2 Harness 解剖 · 维度二 Tools

维度二

工具集设计 · 粒度决定成本

Harness 系列 · 篇 1 · 篇 4
07 / 43 Ch.2 Harness 解剖 · 维度三 Feedback

维度三 · 最被忽视,也最关键

反馈回路 · 让 AI 知道自己做得对不对

最稀缺的能力,不是让 AI 生成更多,而是让 AI 知道"更多"里哪些是好的。

Harness 系列 · 篇 2
08 / 43 Ch.2 Harness 解剖 · 维度四 Memory

维度四

状态与记忆 · 所有方案都收敛到文件

Harness 系列 · 篇 1 · 篇 4 · 篇 5
09 / 43 Ch.2 Harness 解剖 · 维度五 Constraints

维度五

约束与架构 · 速度的倍增器

Harness 系列 · 篇 1 · 篇 3
10 / 43 Ch.2 Harness 解剖 · 原则一 Thin/Fat

架构原则一

Thin Harness · Fat Skills

Fat Skills

Markdown 过程文件,编码判断力与领域知识。价值的 90% 在这里。每次模型升级,Skills 自动变强。

Thin Harness

~200 行代码。运行模型循环 · 读写文件 · 管理 context · 强制安全边界。仅此而已。

Deterministic

你的应用层。SQL · 编译代码 · API 调用。相同输入永远相同输出。

反面:Fat harness —— 40+ 工具定义吃掉半个 context 窗口,MCP round-trip 2–5 秒

Garry Tan · Thin Harness Fat Skills · 2026
11 / 43 Ch.2 Harness 解剖 · 原则二 Latent

架构原则二

Skill 是方法调用,Latent 与 Deterministic 绝不混用

Skill as method call

  • 同一个 skill 文件 + 不同参数 = 完全不同的能力
  • /investigate(TARGET, QUESTION, DATASET)
  • → 指向 2.1M 封邮件:医学研究分析师
  • → 指向 FEC 档案:竞选捐款追踪员
  • 相同 7 步流程 · 相同 markdown · 不同的世界

Latent vs. Deterministic

  • Latent —— 判断力在这里。读 · 解释 · 决策。模型的领域。
  • Deterministic —— 信任在这里。SQL · 算术。永远相同输出。
  • 最常见错误 —— 把确定性问题塞进模型 → 看似合理的幻觉
  • Resolver —— CLAUDE.md 从 20,000 行 → 200 行指针,按需加载
Garry Tan · Thin Harness Fat Skills · 2026
12 / 43 Ch.3 实践 · Layer 1 · Mario · Overview
Layer 1 可见性是一切的前提

Mario · 你连 context 里有什么都不知道

  • 根本问题 —— 在优化任何事之前,先要看见你在优化什么
  • 黑箱工具的代价 —— 你以为在做 context engineering,其实是蒙眼驾驶
  • 极简方案 —— 4 个工具 / 900 token,Terminal-Bench 与 Claude Code 持平
  • 一个 DOS 时代工程师的本能 —— 凡是看不见状态的工具,一律不信任

可见性不是加出来的,是减出来的

Claude Code /context 用量面板 /context · 你的 context 里装了什么,一目了然
Harness 系列 · 篇 4
13 / 43 Ch.3 实践 · Layer 1 · Mario · Tools

极简方案

4 个工具 · 900 token,够了。

工具作用
read读文件
write写文件
edit局部编辑
bash执行一切

对比:Claude Code 数万 token。2026 年的前沿模型天生懂 coding agent,不需要长操作手册。

Harness 系列 · 篇 4
14 / 43 Ch.3 实践 · Layer 1 · Mario · State

砍掉一切不透明的状态

文件是唯一诚实的状态载体。

Harness 系列 · 篇 4
15 / 43 Ch.3 实践 · Layer 1 · Mario · Visibility
后台进程没有可见性。Mario 的解法是 tmux —— 因为 tmux 是你能看见的。
Harness 系列 · 篇 4
16 / 43 Ch.3 实践 · Layer 2 · Anthropic · Overview
Layer 2 质量需要对抗性反馈

Prithvi 的 5 个月实验

  • 核心问题 —— 可见性有了,但如何保证持续高质量?
  • 答案工具 —— Generator-Evaluator + Sprint Contract
  • 对照实验 —— 单 agent $9 / 20 分钟(游戏坏掉)
  • 完整 harness —— $200 / 6 小时(能玩,10 个细粒度特性)

20 倍成本,100 倍质量。这不是砸钱,是系统设计。

AI Level Assistant — Generate / Try Another / Discard AI 生成关卡 · Try Another / Discard —— Generator-Evaluator 的直观呈现
Harness 系列 · 篇 2 · Anthropic Labs 2026-03
17 / 43 Ch.3 实践 · Layer 2 · Anthropic · G-E

刻薄的质检员

Generator-Evaluator 分离

  • 为什么分离 —— AI 自评永远网开一面
  • GAN 启发 —— 对抗性反馈推动迭代
  • 四维评分(前端) —— 设计质量 / 原创性 / 工艺 / 可用性
  • 避免 —— "紫色渐变 + 白卡"的 AI slop
真实案例

荷兰博物馆 · CSS 3D 交互室

第 10 轮迭代,Evaluator 自主决策引入一个从未要求过的交互设计。

Harness 系列 · 篇 2
18 / 43 Ch.3 实践 · Layer 2 · Anthropic · Contract

先协商,再开工

Sprint Contract · 把"完成"变成机械可验证

把"什么叫完成"从感觉变成机械可验证的标准

Harness 系列 · 篇 2
19 / 43 Ch.3 实践 · Layer 2 · Anthropic · Evolution

诚实承认

Harness 里的每个组件,都是一个会过期的假设

Harness 系列 · 篇 2
20 / 43 Ch.3 实践 · Layer 3 · OpenAI · Overview
Layer 3 规模下,代码库会传染

Project Hulk · 0 行人工,百万行 AI

Harness 系列 · 篇 3
21 / 43 Ch.3 实践 · Layer 3 · OpenAI · Contagion
AI 没有品味,只有频率识别。
  • 人工编码时期 —— 坏模式停在那里,很少被复制
  • AI 时代 —— 一处反模式出现 → 被复制到 10 个地方
  • 传统 PR review 失效 —— 跟不上 3.5 PRs/人/天的速度
Claude Code terminal session Claude Code 终端实况 · Agent 操作完全可见、可追溯
22 / 43 Ch.3 实践 · Layer 3 · OpenAI · GC Agent

第二类 Agent

GC Agent · 自动垃圾回收

Harness 系列 · 篇 3
23 / 43 Ch.3 实践 · Layer 3 · OpenAI · KaC

Knowledge as Code

Slack 里的决策,对 Agent 而言不存在

Harness 系列 · 篇 3
24 / 43 Ch.3 实践 · Layer 3 · OpenAI · Constraints

约束的悖论

AI 时代,约束是唯一的护栏

  • AI 擅长 —— 局部优化、频率学习
  • AI 不擅长 —— 全局耦合、架构风险
  • 解法 —— CI linter 机械强制
约束是让 AI
能快速移动
而不腐烂的护栏。
Harness 系列 · 篇 3
25 / 43 Ch.3 实践 · Layer 4 · Hermes · Architecture
Layer 4 把前三层整合成完整参考实现

Hermes Agent · 一个完整的 Harness 参考实现

AIAgent 核心循环架构图 用户/CLI → Gateway → Session/Context → AIAgent 核心循环 → 六大能力层
  • 不是聊天壳 —— 是把 AI 变成长期在线系统的底座
  • 模型可替换 —— harness 与模型解耦,五个维度全覆盖
  • 工程已成熟 —— SSL · PID 管理 · 失败恢复 · streaming
  • 开源可自托管 —— GitHub 高活跃,真实生产验证
Hermes Agent · Nous Research · GitHub
26 / 43 Ch.3 实践 · Layer 4 · Hermes · Loop

自我改进闭环

Memory + Skills + Cron · 用着用着就更强

Memory

跨会话积累

用户画像 · 工作偏好 · 历史决策。每次对话结束后自动沉淀。

Skills

复杂任务固化

把一次性操作变成可复用流程。这就是 Garry Tan 说的 Fat Skills 层。

Cron

自动调度执行

定时运行 Skill,结果投递回平台。不用开口,系统自己跑。

三者形成闭环:执行 → Skills 沉淀 → Cron 自动运行 → Memory 更新 → 下次更精准。这不是功能堆叠,是自我改进机制。

Hermes Agent · Nous Research · GitHub
27 / 43 Ch.3 实践 · 逻辑终点

从实践到自主

当评估可以被机械化,人可以退出循环。

接下来看两个人是怎么做到的。

28 / 43 Ch.3 实践 · Apex · Karpathy
Apex 自主循环 · Karpathy

autoresearch · LOOP FOREVER 不是比喻

  • program.md —— 目标
  • train.py —— 行动
  • prepare.py —— 评估
  • 闭环 —— 读 → 修 → 训 5min → 看 val_bpb → commit/reset → 日志 → loop
autoresearch loop terminal autoresearch 实况 · Mac Mini M4 · 一晚 80+ 轮 · 对标 H100
Harness 系列 · 篇 5
29 / 43 Ch.3 实践 · Apex · Shopify · Overview
Apex 同一套循环 · 企业 CI Pipeline · Shopify Polaris

Pi-autoresearch · 把优化变成自主循环

Karpathy 在 Mac Mini 上做的事,Shopify 在 CI pipeline 上做了一遍。

Shopify Engineering · 2026
30 / 43 Ch.3 实践 · Apex · Shopify · Method

三阶段循环

定义指标 → 生成假设 → 二元淘汰

  • Baseline —— 19.1 秒构建时间
  • Agent 生成假设 —— 关于瓶颈和低效的假设
  • 结果只有三种 —— 更快(保留)/ 更慢(丢弃)/ 损坏(丢弃)
  • 直到优化达到平台期 —— 再停止
发现一

冗余 VRT 管道

预编译步骤重复了 Storybook 本来会做的工作。

发现二

过度 TS 转换

处理 580 个文件,实际只需变换 105 个。

Shopify Pi-autoresearch · 2026
31 / 43 Ch.4 企业范式 · 导入

企业范式 · 另一个问题

设计好的 Harness,
如何在组织里治理、分发、持续生长?

前三章是"一个 harness 怎么设计和运行"。这一章是另一个层面:多个 harness 在组织里如何不腐烂、不失控、还能自我繁殖?

32 / 43 Ch.4 企业范式 · Uber · Overview

企业案例:Uber

2 → 500+ · 五个月的有机生长

时间状态
2024 年 10 月2 个 Skills:CI 日志分类 / 基础代码审查
2024 年 12 月约 20 个
2025 年 1 月团队开始认识到实用价值
2025 年 3 月200+ 精选 Skills · 300+ 实验性工具

没有顶层设计,没有全公司推广令。只是真的省了时间。

Uber Claude Skills 增长时间线 Uber · Claude Skills 增长时间线 · 2024.10 → 2025.03
Uber Engineering · 2025
33 / 43 Ch.4 企业范式 · Uber · Architecture

组织级 Harness 的核心架构决策

Golden Marketplace · · Personal Sandbox

Golden MarketplacePersonal Sandbox
加载方式自动加载URL 手动加载
治理严格:Code Review + CI/CD + LLM-as-Judge无限制,快速迭代
规模100–200 核心 Skills300+ 实验性工具
作用保证一致性与质量保护创造力与探索

两层同时存在 —— 合并会同时扼杀规范性和创造力

Uber Engineering · 2025
34 / 43 Ch.4 企业范式 · Uber · Why

规模化的四个条件

有机 > 战略 · 为什么 Uber 成了

  • 解决高频痛点 —— logging · code review · monitoring,不是宏大自动化
  • 工程师即创造者 —— 自己造 skill,成功后进入 marketplace,形成飞轮
  • 验证优先于生成 —— 每个 skill 绑定验证管道:测试 · UI 检查 · 语言切换
  • 知识外部化 —— 高级工程师经验(GC 调优 · AWS 路由)→ 可复用 Skills
Uber Engineering · 2025
35 / 43 Ch.4 企业范式 · Uber · Principles

从 Uber 案例提取

这不是 AI 策略问题,是 Harness 架构问题

Uber Engineering · 2025
36 / 43 Ch.4 企业范式 · Ramp · Overview

企业案例:Ramp · 金融自动化

不要建一千个 Agent
要建一个 Agent + 一千种技能。

  • 背景 —— 估值 $320 亿,5 万家客户,年处理 $1000 亿交易
  • 教训 —— 各团队自由实验 → 四种实现方式 · 五个对话界面 → 混乱
  • 收敛 —— Omnihat 统一入口 + 内部工具目录(数百 → 数千)
  • 架构判断 —— 收敛 Agent,扩张技能。框架轻,工具重
核心公式

1 个 Agent
× N 种 Skills

一杯咖啡的 15 分钟行政时间 → 接近零。
从卡费、发票到对账,全链路 Agent 化。

Ramp · The Pragmatic Summit · 2026
37 / 43 Ch.4 企业范式 · Ramp · Policy Agent

上下文工程 · 正确性定义

出错的根源不是模型,是上下文不够。

  • 费用政策即代码 —— 英语是新的编程语言,自然语言文档直接驱动 Agent 决策
  • 关键上下文 —— 员工职级 · 收据细节 · 商户信息,比换模型更管用
  • 正确性定义 —— 用户不一定对;每周跨职能团队标注 ground truth
  • Eval 从 5 个开始 —— 不追求完美,确保这 5 个绝对不错,再不断积累
生产数据

$1000 亿支出中
2600 万次决策

阻止 51 万笔违规交易
节省约 $2.9 亿

Ramp · The Pragmatic Summit · 2026
38 / 43 Ch.4 企业范式 · Ramp · Trust & Scale

信任 · 自主性是赢得的,不是设计的

当月 50%+ 合并 PR 来自 AI

  • 从"建议"开始 —— 不做任何自动操作,用户先建立信任
  • 用户主动要求 —— "20 美元以下你基本都对,直接自动批"→ 自主性滑块
  • Ramp Inspect —— 产品 / 法务 / 营销等非工程团队同样在用
  • 工程师的价值转移 —— 写代码速度 → 判断力:知道该建什么,知道 AI 哪里错了
文化结论

Jobs not finished

AI 不只省时间,它把"值得去做"的边界往外推。软件永远处于没完成的状态。

Ramp · The Pragmatic Summit · 2026
39 / 43 Ch.5 我们的判断 · 01-03

我们的判断 · 关于 Harness 设计质量

你怎么知道 Harness 真的在工作?

判断 01

根源通常不是模型

不稳定的根源通常不是模型,是反馈回路缺失

判断 02

可见性来自减法

去掉看不见的工具 > 加监控。加法只是让黑箱更大。

判断 03

品味无法被机械化

任何声称完全自动化的方案,都值得追问这一点。

20 年企业 IT 经验,校准两三年 AI 经验。

Harness 系列 · 篇 6
40 / 43 Ch.5 我们的判断 · 04-05

我们的判断 · 关于规模与务实

极端条件下的务实选择

判断 04

独立开发者的约束是注意力

cron > 调度框架 · 文件 > 数据库。
复杂度本身就是成本。

判断 05

记忆是目前还没解的问题

所有方案都是外部存储模拟持久记忆。最务实的做法:接受不完美,选文件不选数据库

这两个判断都是在说同一件事:在不确定性面前,选简单的那个。

Four Layers of OpenClaw Memory Four Layers of OpenClaw Memory · 所有记忆方案都是外部存储的组合
Harness 系列 · 篇 6
41 / 43 Ch.5 我们的判断 · 06

判断 06 · 终极判断

企业 Harness 的终态:
设计时治理,运行时自由。

Shopify 证明了

循环有多强

19.1s → 12.4s。自主循环在没有人干预的情况下找到了人工找不到的优化点。

Uber 证明了

它能以什么姿态生长

2 → 500+ Skills,五个月,无顶层设计令。自下而上生产,自上而下治理。

Ramp 证明了

自主性是赢得的

从"建议模式"到用户主动要求自动化。信任不是设计出来的,是用出来的。

三个案例,同一个终态:设计时治理,运行时自由。

Harness 系列 · 篇 6
42 / 43 Ch.5 我们的判断 · 最小实验

这周就能做

三个最小可行实验

01

找到你的"19.1 秒"

找一个可机械评估的流程,跑 autoresearch loop,感受 LOOP FOREVER。

02

把 Harness 做薄

检查你现在的工具集。哪些可以合并或删除?目标:context 里的工具定义 < 1,000 token。

03

写第一个 Skill 文件

找一件你反复做的事,把它写成 skill。如果在团队:想清楚哪三个 Skill 值得进 Golden。

三个实验对应三个章节:自主循环 · 架构原则 · Fat Skills。同一套哲学的三种入口。加分项:找一个高频痛点,从"建议模式"开始,看用户什么时候主动要求自动化。

Harness 系列 · 综合
43 / 43 Ch.5 我们的判断 · 综合与尾声

从架构到组织 · 形态不同,底层相同

四层实践 · 两个循环 · 两个企业范式 · 一套哲学

  • 目标可机械评估 —— val_bpb / CI 秒数 / Sprint Contract / Ramp Policy 2600万次决策
  • 行动边界清晰 —— Thin Harness 200 行 / 只改 train.py / 一 skill 一模式
  • 反馈闭环存在 —— G-E 分离 / 二元淘汰 / ground truth 跨职能标注
  • 知识可沉淀复用 —— Fat Skills / AGENTS.md / Uber Golden Marketplace / Ramp 工具目录

诚实开始,harness 自然会生长。

Harness 系列 · 综合