首页 / 作品展示 / 作品详情
模型已经够强了, 真正值钱的变成了Harness_

模型已经够强了, 真正值钱的变成了Harness_

发布日期:2026-05-29 11:02 张文娟主页
模型已经够强了, 真正值钱的变成了Harness_

你有没有注意到一个反常识的现象:

2026 年 5 月的大模型排行榜,Kimi K2.6 跑分 94.3,DeepSeek V4 跑 93.8,GPT-5 跑 93.5——前三名差距不到 1 分。模型军备竞赛,已经从"碾压级差距"变成了"微厘之分"。

但与此同时,另一条赛道正在悄悄决定胜负:Claude Code 和 Codex 用的模型水平差不多,但大多数人选 Claude Code。OpenAI 工程师 Ryan Lopopolo 做了一个极端实验——3 个人、5 个月、0 行人工代码,用 AI Agent 写出了百万行生产级产品——但前几周产出几乎不可用,直到他们开始给 Agent"搭环境"。

这个环境,现在有了一个正式的名字:Harness(驾驭系统)

DeepMind Staff Engineer Philipp Schmid 给了一句定性:

"The Harness is the Dataset.

Competitive advantage is now the trajectories your harness captures."

翻译:Harness 就是数据集。现在真正的竞争优势,在于你的 Harness 能捕获到怎样的执行轨迹。

这篇文章不长,但我想把这个问题讲透:为什么模型不再是瓶颈,为什么 Harness 才是下一个竞争制高点,以及这对所有人意味着什么。

图片

一、一个公式,三个时代

先给一个公式:

Agent = Model + Harness

模型决定"能做什么",Harness 决定"能稳定做成什么"。

AI 工程方法在过去四年经历了三次演进,每次都是因为一个矛盾被解决后,瓶颈外移到了下一层:

Prompt Eng.2022–2024"怎么说话"单轮指令优化Context Eng.2025"看什么资料"上下文管理Harness Eng.2026"什么环境干活"工具+记忆+护栏+验证← 当前

Prompt ⊂ Context ⊂ Harness —— 三者是包含关系,不是替代关系

这三层演进背后有一个共同逻辑:一旦模型能力过线,瓶颈就开始外移。

以前你跟 AI 说不清楚需求,所以卷 Prompt;后来发现光说清楚不够,还得喂对资料,所以卷 Context;现在资料也喂了、话也说明白了,AI 还是会犯蠢——因为它没有工具、没有护栏、没有验证闭环、犯错不会自动修。所以,卷 Harness。

今年 2 月 5 日,HashiCorp 联合创始人 Mitchell Hashimoto——那个创造了 Terraform、改变了全球基础设施管理的男人——在他的博客里第一次正式命名了这个范式:

"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent will never make that mistake again."

每次 Agent 犯错,就花时间工程化一个方案,让它永远不再犯同样的错。

6 天后,OpenAI 官方工程博客直接用 "Harness Engineering" 做标题。然后 Anthropic 跟进,Martin Fowler 深度分析。一个月内,这个词从一个人的博客变成了全球开发者社区的高频词。

二、为什么 Harness 比 Model 更值钱

听起来 Harness 只是个"外围辅助"?错了。三个理由:

理由一:模型趋同,Harness 分化

上面的跑分图已经很清楚了——前五名差距不到 2 分,你在模型层面已经很难拉开身位了。

但 Harness 层面呢?Claude Code 和 Codex 用着几乎同等水平的模型,用户体验却有显著差距。因为 Anthropic 在 Harness 上领先了大约 3-6 个月——就在模型打平的情况下,大多数人依然选 Claude Code。

这几个月的窗口期,就是护城河。

理由二:Harness 产生数据飞轮

这才是核心。

Harness 不只是"模型外面的脚手架",它是执行轨迹的捕获器。当 Agent 在你的 Harness 里跑任务时,它留下了完整的行为轨迹:看到了什么信息、用了什么工具、做了什么决策、哪一步出了错、什么反馈让它变好了。

这些轨迹,就是下一代模型最好的训练数据。

更好的 Harness捕获轨迹RL训练·更强更多用户数据飞轮

Harness → 执行轨迹 → RL训练 → 更强模型 → 更多用户 → 更多轨迹 → ……

谁先跑通这个飞轮,谁就进入正循环。后进者不是差一个模型,而是差一整个数据飞轮。

理由三:训练即部署——模型从 Harness 里"长"出来

很多人以为的开发顺序是:先训练一个好模型,再给它接工具、接工作流——模型是主体,Harness 是后装件。

Agentic RL 的训练逻辑恰恰相反。

Windsurf 在训练 SWE-1.5 时说得很直白:

"We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance."

在 RL 过程中,coding 环境本身的质量,对模型最终表现的影响是最大的。

他们的做法是:把模型和 Harness 当成一个整体来共同优化——一边反复使用模型,一边暴露 Harness 的问题,调整工具和 prompt,然后基于新的 Harness 重新训练模型。

Cursor 训练 Composer 1.5 也是类似:并发跑数十万个沙盒,让模型在真实 coding 环境中反复试错。结果模型自发涌现了很多能力——学会深入搜索、顺手修 linter 错误、自己补单元测试、从大改一片转向先多读少改。

这些能力不是从训练数据里学来的,是从 Harness 环境里"长"出来的。

三、Harness 在做一件很奇特的事

它一边创造价值,一边被模型吃掉。

这是最反直觉的部分。

Harness 创造的价值,正在被模型一点点内化。比如 tool search、programmatic tool use、context compaction、多步工具调用——这些原本都需要 Harness 强行维持的能力,正在变成模型自己的能力。过程是这样的:

前线摸索哪些方法有效Post-training模式做进模型模型内化能力变成模型的新 Harness支持新能力循环往复

Claude Code 负责人 Boris Cherny 说过:Claude Code 的 Harness 在不断被重写,里面每行代码的保质期可能也就 2 个月。

但——这恰恰说明 Harness 有多重要。因为谁在写这些保质期 2 个月的代码,谁就在定义模型的下一轮进化方向。

Harness 是模型的矿脉。模型从 Harness 里采矿,然后把矿脉向前推进。矿脉在哪,矿就往哪走。

四、资本已经开始下注

如果你觉得这只是技术圈的理念之争,看看钱在往哪流:

图片

注意这些公司的投资人:a16z、Sequoia、FirstMark、ICONIQ——这层基础设施已经在被认真下注了。

而在大公司端,更有意思的竞争格局正在形成:头部模型公司在端到端做 Harness,而应用公司开始自己训模型。

湾区已经有很多大 AI 应用公司在搭建自己的 continuous learning 平台——基于自己的 Harness 和业务数据做开源模型的 RL,并且开始从头部 AI Labs 迁移模型用量。

他们的判断是:在很多垂直场景里,今天的开源模型能力已经够用了。接下来的差距,不来自谁有更好的模型,而来自谁能把模型+任务结构+反馈闭环+后训练结合得更好。

五、所以,这跟你有什么关系

图片
图片
免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。
标签: 个人博客
« 上一篇:胡培华:校园安全的守护者|安全教育|中小学|实验学校|胡校长_网易 下一篇:舞动童年 “桌”尔不凡 淖马小学开展校园课桌舞展示活动|少年中国 »