01 / 43 Ch.1 临界点 · Title

一场关于 AI 运行环境的演讲

Harness 工程
从黑箱到规模

2026 年 AI 工程师的核心议题 ——
四层递进实践 · 自主循环终态 · 企业治理范式 · 六个判断

60 min 43 slides v0.4.0

02 / 43 Ch.1 临界点 · Metaphor

开场隐喻

大模型是千里马，但千里马随处可得。

问题不是"去哪里找更强的模型"，而是能不能驾驭它
你需要的是一整套 挽具（Harness），不只是骑手和马
Harness = 围绕 AI 模型构建的运行环境的总和
2026 年的质变：从理论走向生产 —— 前沿模型终于足够可靠

Harness 架构图：Context Injection / Control / Action / Persist / Observe & Verify

Harness = Model 外围的完整运行环境

Harness 系列 · 篇 1

03 / 43 Ch.1 临界点 · The Shift

一道门 · 两种用法

从信息工具到生产工具。

没有 Harness

信息工具

输入问题 → 输出答案
世界不变。

有设计的 Harness

生产工具

文件被修改，代码被运行，状态改变。
世界变了。

Harness 是跨越这道门的关键。今天的演讲，就是拆开它。

OpenClaw · 7×24 在线的 Agent 团队

Harness 系列 · 篇 1

04 / 43 Ch.2 Harness 解剖 · 全局地图

Harness 解剖 · 全局地图

五个维度 · 两个原则

管什么 · 五个维度

上下文管理 — 最稀缺的资源

工具集设计 — 粒度决定成本

反馈回路 — 最被忽视，最关键

状态与记忆 — 所有方案收敛到文件

约束与架构 — 速度的倍增器

→ 设计哲学

怎么建 · 两个原则

Thin Harness · Fat Skills — 价值在 Markdown，不在代码

Latent vs Deterministic — 确定性问题不塞进模型

这张地图是本章的骨架。接下来逐一展开。

05 / 43 Ch.2 Harness 解剖 · 维度一 Context

维度一

上下文管理 · 最稀缺的资源

工作记忆即瓶颈 —— Agent 的思考半径就是它的 context
Context Anxiety —— 接近上限时模型提前收尾，给出次优解
张力 —— 全量注入 vs 渐进式披露
经典做法 —— 目录 100 行 + 子目录详情按需加载

"你的 context 窗口是不可再生的。"

Harness 系列 · 篇 1 · 篇 3

06 / 43 Ch.2 Harness 解剖 · 维度二 Tools

维度二

工具集设计 · 粒度决定成本

Playwright MCP —— 21 个工具，13,700 token，占上下文 9%
第一句话还没说，预算已烧掉近一成
Mario 的替代 —— 4 个基础工具 + CLI README（按需加载）
原则 —— 渐进式披露，而不是一次性倾倒

Harness 系列 · 篇 1 · 篇 4

07 / 43 Ch.2 Harness 解剖 · 维度三 Feedback

维度三 · 最被忽视，也最关键

反馈回路 · 让 AI 知道自己做得对不对

AI 自评永远给好评 —— 这是默认行为，不是偶发现象
GAN 的启发 —— Generator 与 Evaluator 必须分离
独立的刻薄质检员 —— 事前给出 27 条验收标准
反面 —— "应该完成了"这种模糊期望直接失效

最稀缺的能力，不是让 AI 生成更多，而是让 AI 知道"更多"里哪些是好的。

Harness 系列 · 篇 2

08 / 43 Ch.2 Harness 解剖 · 维度四 Memory

维度四

状态与记忆 · 所有方案都收敛到文件

大模型无持久记忆 —— 每次从零开始
为什么是文件 —— Agent 可读 · 人类可读 · 可版本控制 · 跨 session 持久
常见载体 —— PLAN.md · TODO.md · AGENTS.md · program.md
三层记忆 —— 热（即时加载）· 暖（日归档）· 冷（检索库）

Harness 系列 · 篇 1 · 篇 4 · 篇 5

09 / 43 Ch.2 Harness 解剖 · 维度五 Constraints

维度五

约束与架构 · 速度的倍增器

OpenAI 的困境 —— 每周五花 20% 时间清 "AI 垃圾代码"
反模式会被 AI 无限复制 —— 一处坏味道 → 十处复刻
约束不是限制 —— 是"快速而不腐烂"的前提
机械强制 > 依赖自觉 —— CI linter 对人和机器都强制
吞吐量改变哲学 —— 3.5 PRs / 人 / 天

Harness 系列 · 篇 1 · 篇 3

10 / 43 Ch.2 Harness 解剖 · 原则一 Thin/Fat

架构原则一

Thin Harness · Fat Skills

Fat Skills

Markdown 过程文件，编码判断力与领域知识。价值的 90% 在这里。每次模型升级，Skills 自动变强。

↕

Thin Harness

~200 行代码。运行模型循环 · 读写文件 · 管理 context · 强制安全边界。仅此而已。

↕

Deterministic

你的应用层。SQL · 编译代码 · API 调用。相同输入永远相同输出。

反面：Fat harness —— 40+ 工具定义吃掉半个 context 窗口，MCP round-trip 2–5 秒。

Garry Tan · Thin Harness Fat Skills · 2026

11 / 43 Ch.2 Harness 解剖 · 原则二 Latent

架构原则二

Skill 是方法调用，Latent 与 Deterministic 绝不混用

Skill as method call

同一个 skill 文件 + 不同参数 = 完全不同的能力
/investigate(TARGET, QUESTION, DATASET)
→ 指向 2.1M 封邮件：医学研究分析师
→ 指向 FEC 档案：竞选捐款追踪员
相同 7 步流程 · 相同 markdown · 不同的世界

Latent vs. Deterministic

Latent —— 判断力在这里。读 · 解释 · 决策。模型的领域。
Deterministic —— 信任在这里。SQL · 算术。永远相同输出。
最常见错误 —— 把确定性问题塞进模型 → 看似合理的幻觉
Resolver —— CLAUDE.md 从 20,000 行 → 200 行指针，按需加载

Garry Tan · Thin Harness Fat Skills · 2026

12 / 43 Ch.3 实践 · Layer 1 · Mario · Overview

Layer 1 可见性是一切的前提

Mario · 你连 context 里有什么都不知道

根本问题 —— 在优化任何事之前，先要看见你在优化什么
黑箱工具的代价 —— 你以为在做 context engineering，其实是蒙眼驾驶
极简方案 —— 4 个工具 / 900 token，Terminal-Bench 与 Claude Code 持平
一个 DOS 时代工程师的本能 —— 凡是看不见状态的工具，一律不信任

可见性不是加出来的，是减出来的。

/context · 你的 context 里装了什么，一目了然

Harness 系列 · 篇 4

13 / 43 Ch.3 实践 · Layer 1 · Mario · Tools

极简方案

4 个工具 · 900 token，够了。

工具	作用
`read`	读文件
`write`	写文件
`edit`	局部编辑
`bash`	执行一切

对比：Claude Code 数万 token。2026 年的前沿模型天生懂 coding agent，不需要长操作手册。

Harness 系列 · 篇 4

14 / 43 Ch.3 实践 · Layer 1 · Mario · State

砍掉一切不透明的状态

文件是唯一诚实的状态载体。

砍掉 Plan Mode —— 只读分析，看不见思考过程
砍掉内置 Todo —— 额外维护的隐藏状态
改用 —— PLAN.md · TODO.md
四个条件 —— Agent 可读 · 人类可读 · 版本控制 · 跨 session 持久

Harness 系列 · 篇 4

15 / 43 Ch.3 实践 · Layer 1 · Mario · Visibility

后台进程没有可见性。Mario 的解法是 tmux —— 因为 tmux 是你能看见的。

Harness 系列 · 篇 4

子 agent 的陷阱 —— 表面并行，实则失控
Mario 的判断 —— 想用子 agent，是规划不足的信号
替代 —— 独立 session 收集 artifact，新 session 作输入

16 / 43 Ch.3 实践 · Layer 2 · Anthropic · Overview

Layer 2 质量需要对抗性反馈

Prithvi 的 5 个月实验

核心问题 —— 可见性有了，但如何保证持续高质量？
答案工具 —— Generator-Evaluator + Sprint Contract
对照实验 —— 单 agent $9 / 20 分钟（游戏坏掉）
完整 harness —— $200 / 6 小时（能玩，10 个细粒度特性）

20 倍成本，100 倍质量。这不是砸钱，是系统设计。

AI Level Assistant — Generate / Try Another / Discard

AI 生成关卡 · Try Another / Discard —— Generator-Evaluator 的直观呈现

Harness 系列 · 篇 2 · Anthropic Labs 2026-03

17 / 43 Ch.3 实践 · Layer 2 · Anthropic · G-E

刻薄的质检员

Generator-Evaluator 分离

为什么分离 —— AI 自评永远网开一面
GAN 启发 —— 对抗性反馈推动迭代
四维评分（前端） —— 设计质量 / 原创性 / 工艺 / 可用性
避免 —— "紫色渐变 + 白卡"的 AI slop

真实案例

荷兰博物馆 · CSS 3D 交互室

第 10 轮迭代，Evaluator 自主决策引入一个从未要求过的交互设计。

Harness 系列 · 篇 2

18 / 43 Ch.3 实践 · Layer 2 · Anthropic · Contract

先协商，再开工

Sprint Contract · 把"完成"变成机械可验证

事前锁定 —— Generator 与 Evaluator 事前达成验收标准
27 条具体标准 —— 比"应该完成"具体 1000 倍
案例 —— 矩形填充工具验收失败 → 指向具体代码行
打回机制 —— 不是建议改进，而是拒绝交付

把"什么叫完成"从感觉变成机械可验证的标准。

Harness 系列 · 篇 2

19 / 43 Ch.3 实践 · Layer 2 · Anthropic · Evolution

诚实承认

Harness 里的每个组件，都是一个会过期的假设。

Opus 4.5 时代 —— 必须 Sprint 分解，否则任务漂移
Opus 4.6 突破 —— 单次连续 build 4 小时不中断
费用下降 —— $200 → $124
原则 —— Harness 不是搭好就不动，要定期 stress test

Harness 系列 · 篇 2

20 / 43 Ch.3 实践 · Layer 3 · OpenAI · Overview

Layer 3 规模下，代码库会传染

Project Hulk · 0 行人工，百万行 AI

5 个月 —— 零行人工代码进入生产
核心问题 —— 7 倍吞吐量下，代码库的传染性
答案工具 —— GC Agent + Knowledge as Code + 严格分层
纪律转移 —— 从审查代码本身，转向审查产生代码的 harness

Harness 系列 · 篇 3

21 / 43 Ch.3 实践 · Layer 3 · OpenAI · Contagion

AI 没有品味，只有频率识别。

人工编码时期 —— 坏模式停在那里，很少被复制
AI 时代 —— 一处反模式出现 → 被复制到 10 个地方
传统 PR review 失效 —— 跟不上 3.5 PRs/人/天的速度

Claude Code 终端实况 · Agent 操作完全可见、可追溯

22 / 43 Ch.3 实践 · Layer 3 · OpenAI · GC Agent

第二类 Agent

GC Agent · 自动垃圾回收

使命 —— 找冗余代码、过时代码、规范违反
原周五 20% 时间 —— 自动化吞掉
工程师角色变化 —— 从逐行审查 → 看"这个 PR 做了什么、为什么"
核心洞见 —— 升级产生代码的 harness，而不是改代码

Harness 系列 · 篇 3

23 / 43 Ch.3 实践 · Layer 3 · OpenAI · KaC

Knowledge as Code

Slack 里的决策，对 Agent 而言不存在。

原则 —— 所有影响 agent 行为的知识必须结构化入 repo
不只是"是什么" —— 还要有"为什么不是另一种"
形式 —— AGENTS.md 100 行地图 + 分层 README
等式 —— Agent 能访问 = 能推理 = 能一致复用

Harness 系列 · 篇 3

24 / 43 Ch.3 实践 · Layer 3 · OpenAI · Constraints

约束的悖论

AI 时代，约束是唯一的护栏。

AI 擅长 —— 局部优化、频率学习
AI 不擅长 —— 全局耦合、架构风险
解法 —— CI linter 机械强制

约束是让 AI
能快速移动
而不腐烂的护栏。

Harness 系列 · 篇 3

25 / 43 Ch.3 实践 · Layer 4 · Hermes · Architecture

Layer 4 把前三层整合成完整参考实现

Hermes Agent · 一个完整的 Harness 参考实现

用户/CLI → Gateway → Session/Context → AIAgent 核心循环 → 六大能力层

不是聊天壳 —— 是把 AI 变成长期在线系统的底座
模型可替换 —— harness 与模型解耦，五个维度全覆盖
工程已成熟 —— SSL · PID 管理 · 失败恢复 · streaming
开源可自托管 —— GitHub 高活跃，真实生产验证

Hermes Agent · Nous Research · GitHub

26 / 43 Ch.3 实践 · Layer 4 · Hermes · Loop

自我改进闭环

Memory + Skills + Cron · 用着用着就更强

Memory

跨会话积累

用户画像 · 工作偏好 · 历史决策。每次对话结束后自动沉淀。

Skills

复杂任务固化

把一次性操作变成可复用流程。这就是 Garry Tan 说的 Fat Skills 层。

Cron

自动调度执行

定时运行 Skill，结果投递回平台。不用开口，系统自己跑。

三者形成闭环：执行 → Skills 沉淀 → Cron 自动运行 → Memory 更新 → 下次更精准。这不是功能堆叠，是自我改进机制。

Hermes Agent · Nous Research · GitHub

27 / 43 Ch.3 实践 · 逻辑终点

从实践到自主

当评估可以被机械化，人可以退出循环。

前四层的共同假设 —— 有人在盯着反馈，有人在判断质量
一旦这个假设消失 —— 评估变成数字，验证不再需要人类参与
LOOP FOREVER —— 不是比喻，是前四层做对之后的必然结果

接下来看两个人是怎么做到的。

28 / 43 Ch.3 实践 · Apex · Karpathy

Apex 自主循环 · Karpathy

autoresearch · LOOP FOREVER 不是比喻

program.md —— 目标
train.py —— 行动
prepare.py —— 评估
闭环 —— 读 → 修 → 训 5min → 看 val_bpb → commit/reset → 日志 → loop

autoresearch 实况 · Mac Mini M4 · 一晚 80+ 轮 · 对标 H100

Harness 系列 · 篇 5

29 / 43 Ch.3 实践 · Apex · Shopify · Overview

Apex 同一套循环 · 企业 CI Pipeline · Shopify Polaris

Pi-autoresearch · 把优化变成自主循环

核心问题 —— CI 反馈回路耗时 30 分钟，视觉回归缺陷制造漫长调试链
不是"让 AI 优化一次" —— 而是构建持续自主运行的优化引擎
前提不变 —— 评估必须可机械化：构建时间是数字，数字不骗人
结果 —— 19.1s → 12.4s，缩减 65%

Karpathy 在 Mac Mini 上做的事，Shopify 在 CI pipeline 上做了一遍。

Shopify Engineering · 2026

30 / 43 Ch.3 实践 · Apex · Shopify · Method

三阶段循环

定义指标 → 生成假设 → 二元淘汰

Baseline —— 19.1 秒构建时间
Agent 生成假设 —— 关于瓶颈和低效的假设
结果只有三种 —— 更快（保留）/ 更慢（丢弃）/ 损坏（丢弃）
直到优化达到平台期 —— 再停止

发现一

冗余 VRT 管道

预编译步骤重复了 Storybook 本来会做的工作。

发现二

过度 TS 转换

处理 580 个文件，实际只需变换 105 个。

Shopify Pi-autoresearch · 2026

31 / 43 Ch.4 企业范式 · 导入

企业范式 · 另一个问题

设计好的 Harness，
如何在组织里治理、分发、持续生长？

前三章是"一个 harness 怎么设计和运行"。这一章是另一个层面：多个 harness 在组织里如何不腐烂、不失控、还能自我繁殖？

32 / 43 Ch.4 企业范式 · Uber · Overview

企业案例：Uber

2 → 500+ · 五个月的有机生长

时间	状态
2024 年 10 月	2 个 Skills：CI 日志分类 / 基础代码审查
2024 年 12 月	约 20 个
2025 年 1 月	团队开始认识到实用价值
2025 年 3 月	200+ 精选 Skills · 300+ 实验性工具

没有顶层设计，没有全公司推广令。只是真的省了时间。

Uber · Claude Skills 增长时间线 · 2024.10 → 2025.03

Uber Engineering · 2025

33 / 43 Ch.4 企业范式 · Uber · Architecture

组织级 Harness 的核心架构决策

Golden Marketplace · 与 · Personal Sandbox

	Golden Marketplace	Personal Sandbox
加载方式	自动加载	URL 手动加载
治理	严格：Code Review + CI/CD + LLM-as-Judge	无限制，快速迭代
规模	100–200 核心 Skills	300+ 实验性工具
作用	保证一致性与质量	保护创造力与探索

两层同时存在 —— 合并会同时扼杀规范性和创造力。

Uber Engineering · 2025

34 / 43 Ch.4 企业范式 · Uber · Why

规模化的四个条件

有机 > 战略 · 为什么 Uber 成了

解决高频痛点 —— logging · code review · monitoring，不是宏大自动化
工程师即创造者 —— 自己造 skill，成功后进入 marketplace，形成飞轮

验证优先于生成 —— 每个 skill 绑定验证管道：测试 · UI 检查 · 语言切换
知识外部化 —— 高级工程师经验（GC 调优 · AWS 路由）→ 可复用 Skills

Uber Engineering · 2025

35 / 43 Ch.4 企业范式 · Uber · Principles

从 Uber 案例提取

这不是 AI 策略问题，是 Harness 架构问题。

不要从顶层设计开始 —— 从解决一个真实、高频的工程痛点开始
治理层和实验层必须分离 —— 混合两层，同时失去规范和活力
Harness 能自我生长的条件 —— 工程师能看到贡献的价值，能触达 harness 本身
Knowledge as Code 的组织版 —— Skills = 组织级 SOP，自下而上生产，自上而下治理

Uber Engineering · 2025

36 / 43 Ch.4 企业范式 · Ramp · Overview

企业案例：Ramp · 金融自动化

不要建一千个 Agent，
要建一个 Agent + 一千种技能。

背景 —— 估值 $320 亿，5 万家客户，年处理 $1000 亿交易
教训 —— 各团队自由实验 → 四种实现方式 · 五个对话界面 → 混乱
收敛 —— Omnihat 统一入口 + 内部工具目录（数百 → 数千）
架构判断 —— 收敛 Agent，扩张技能。框架轻，工具重

核心公式

1 个 Agent
× N 种 Skills

一杯咖啡的 15 分钟行政时间 → 接近零。
从卡费、发票到对账，全链路 Agent 化。

Ramp · The Pragmatic Summit · 2026

37 / 43 Ch.4 企业范式 · Ramp · Policy Agent

上下文工程 · 正确性定义

出错的根源不是模型，是上下文不够。

费用政策即代码 —— 英语是新的编程语言，自然语言文档直接驱动 Agent 决策
关键上下文 —— 员工职级 · 收据细节 · 商户信息，比换模型更管用
正确性定义 —— 用户不一定对；每周跨职能团队标注 ground truth
Eval 从 5 个开始 —— 不追求完美，确保这 5 个绝对不错，再不断积累

生产数据

$1000 亿支出中
2600 万次决策

阻止 51 万笔违规交易
节省约 $2.9 亿

Ramp · The Pragmatic Summit · 2026

38 / 43 Ch.4 企业范式 · Ramp · Trust & Scale

信任 · 自主性是赢得的，不是设计的

当月 50%+ 合并 PR 来自 AI

从"建议"开始 —— 不做任何自动操作，用户先建立信任
用户主动要求 —— "20 美元以下你基本都对，直接自动批"→ 自主性滑块
Ramp Inspect —— 产品 / 法务 / 营销等非工程团队同样在用
工程师的价值转移 —— 写代码速度 → 判断力：知道该建什么，知道 AI 哪里错了

文化结论

Jobs not finished

AI 不只省时间，它把"值得去做"的边界往外推。软件永远处于没完成的状态。

Ramp · The Pragmatic Summit · 2026

39 / 43 Ch.5 我们的判断 · 01-03

我们的判断 · 关于 Harness 设计质量

你怎么知道 Harness 真的在工作？

判断 01

根源通常不是模型

不稳定的根源通常不是模型，是反馈回路缺失。

判断 02

可见性来自减法

去掉看不见的工具 > 加监控。加法只是让黑箱更大。

判断 03

品味无法被机械化

任何声称完全自动化的方案，都值得追问这一点。

20 年企业 IT 经验，校准两三年 AI 经验。

Harness 系列 · 篇 6

40 / 43 Ch.5 我们的判断 · 04-05

我们的判断 · 关于规模与务实

极端条件下的务实选择

判断 04

独立开发者的约束是注意力

cron > 调度框架 · 文件 > 数据库。
复杂度本身就是成本。

判断 05

记忆是目前还没解的问题

所有方案都是外部存储模拟持久记忆。最务实的做法：接受不完美，选文件不选数据库。

这两个判断都是在说同一件事：在不确定性面前，选简单的那个。

Four Layers of OpenClaw Memory · 所有记忆方案都是外部存储的组合

Harness 系列 · 篇 6

41 / 43 Ch.5 我们的判断 · 06

判断 06 · 终极判断

企业 Harness 的终态：
设计时治理，运行时自由。

Shopify 证明了

循环有多强

19.1s → 12.4s。自主循环在没有人干预的情况下找到了人工找不到的优化点。

Uber 证明了

它能以什么姿态生长

2 → 500+ Skills，五个月，无顶层设计令。自下而上生产，自上而下治理。

Ramp 证明了

自主性是赢得的

从"建议模式"到用户主动要求自动化。信任不是设计出来的，是用出来的。

三个案例，同一个终态：设计时治理，运行时自由。

Harness 系列 · 篇 6

42 / 43 Ch.5 我们的判断 · 最小实验

这周就能做

三个最小可行实验

01

找到你的"19.1 秒"

找一个可机械评估的流程，跑 autoresearch loop，感受 LOOP FOREVER。

02

把 Harness 做薄

检查你现在的工具集。哪些可以合并或删除？目标：context 里的工具定义 < 1,000 token。

03

写第一个 Skill 文件

找一件你反复做的事，把它写成 skill。如果在团队：想清楚哪三个 Skill 值得进 Golden。

三个实验对应三个章节：自主循环 · 架构原则 · Fat Skills。同一套哲学的三种入口。加分项：找一个高频痛点，从"建议模式"开始，看用户什么时候主动要求自动化。

Harness 系列 · 综合

43 / 43 Ch.5 我们的判断 · 综合与尾声

从架构到组织 · 形态不同，底层相同

四层实践 · 两个循环 · 两个企业范式 · 一套哲学

目标可机械评估 —— val_bpb / CI 秒数 / Sprint Contract / Ramp Policy 2600万次决策
行动边界清晰 —— Thin Harness 200 行 / 只改 train.py / 一 skill 一模式

反馈闭环存在 —— G-E 分离 / 二元淘汰 / ground truth 跨职能标注
知识可沉淀复用 —— Fat Skills / AGENTS.md / Uber Golden Marketplace / Ramp 工具目录

从诚实开始，harness 自然会生长。

Harness 系列 · 综合

Harness 工程从黑箱到规模

大模型是千里马，但千里马随处可得。

从信息工具到生产工具。

信息工具

生产工具

五个维度 · 两个原则

上下文管理 · 最稀缺的资源

工具集设计 · 粒度决定成本

反馈回路 · 让 AI 知道自己做得对不对

状态与记忆 · 所有方案都收敛到文件

约束与架构 · 速度的倍增器

Thin Harness · Fat Skills

Skill 是方法调用，Latent 与 Deterministic 绝不混用

Mario · 你连 context 里有什么都不知道

4 个工具 · 900 token，够了。

文件是唯一诚实的状态载体。

Prithvi 的 5 个月实验

Generator-Evaluator 分离

荷兰博物馆 · CSS 3D 交互室

Sprint Contract · 把"完成"变成机械可验证

Harness 里的每个组件，都是一个会过期的假设。

Project Hulk · 0 行人工，百万行 AI

GC Agent · 自动垃圾回收

Slack 里的决策，对 Agent 而言不存在。

AI 时代，约束是唯一的护栏。

Hermes Agent · 一个完整的 Harness 参考实现

Memory + Skills + Cron · 用着用着就更强

跨会话积累

复杂任务固化

自动调度执行

当评估可以被机械化，人可以退出循环。

autoresearch · LOOP FOREVER 不是比喻

Pi-autoresearch · 把优化变成自主循环

定义指标 → 生成假设 → 二元淘汰

冗余 VRT 管道

过度 TS 转换

设计好的 Harness，如何在组织里治理、分发、持续生长？

2 → 500+ · 五个月的有机生长

Golden Marketplace · 与 · Personal Sandbox

有机 > 战略 · 为什么 Uber 成了

这不是 AI 策略问题，是 Harness 架构问题。

不要建一千个 Agent，要建一个 Agent + 一千种技能。

1 个 Agent× N 种 Skills

出错的根源不是模型，是上下文不够。

$1000 亿支出中2600 万次决策

当月 50%+ 合并 PR 来自 AI

Jobs not finished

你怎么知道 Harness 真的在工作？

根源通常不是模型

可见性来自减法

品味无法被机械化

极端条件下的务实选择

独立开发者的约束是注意力

记忆是目前还没解的问题

企业 Harness 的终态：设计时治理，运行时自由。

循环有多强

它能以什么姿态生长

自主性是赢得的

三个最小可行实验

找到你的"19.1 秒"

把 Harness 做薄

写第一个 Skill 文件

四层实践 · 两个循环 · 两个企业范式 · 一套哲学

Harness 工程
从黑箱到规模

设计好的 Harness，
如何在组织里治理、分发、持续生长？

不要建一千个 Agent，
要建一个 Agent + 一千种技能。

1 个 Agent
× N 种 Skills

$1000 亿支出中
2600 万次决策

企业 Harness 的终态：
设计时治理，运行时自由。