什么是 Harness Engineering?
Harness Engineering(驾驭工程)是一门新兴的工程学科,专注于设计约束(constraints)、工具(tools)、反馈循环(feedback loops)、文档(documentation)和验证系统(verification systems),以引导强大但不可预测的 AI 代理产生可靠、可维护和可扩展的软件输出[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)。
用一句话概括:Harness Engineering 不是让 AI 变得更聪明,而是让 AI 在系统中变得更可靠。
核心洞察
• AI 模型 = 大脑
• Harness = 神经系统 + 骨骼系统 + 反馈系统
当企业发现 AI 采用遇到瓶颈时,问题很少出在模型本身[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)。真正的挑战在于如何构建一个让 AI 能够持续、稳定输出高质量工作的系统架构。
起源与演进历程
时间线
关键里程碑
1. Mitchell Hashimoto 的贡献
- Terraform、Vagrant、Vault 等知名开源工具的创始人
- 2025年6月发布"Agentic Engineering in Action"分享[Agentic Engineering Mitchell Hashimoto](https://www.youtube.com/watch?v=XyQ4ZTS5dGw)
- 提出了"提示就像指导初级工程师"的理念
- 推动"AI 代理应该与人类工程师使用相同开发环境"的实践
2. OpenAI 的实验
- 2026年初,OpenAI 团队发布重磅实验结果[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)
- 实验设定:构建一个没有任何手动编写代码的产品
- 结果:代理生成了约100万行代码
- 关键发现:瓶颈从来不是代理写代码的能力,而是缺乏结构、工具和周围机制的支撑
核心概念与原理
什么是"Harness"(驾驭系统)?
Harness 是一套约束、工具、文档和反馈循环,它们共同保持代理的生产力和正确方向[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)。
核心原理
1. 熵增管理(Entropy Management)
Harness Engineering 文档[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)指出,代理生成的代码会以不同于人类编写代码的方式积累"熵"(混乱)。Harness 系统需要:
- 阻止架构漂移:通过 linter 阻止架构偏离
- CI 门禁:拒绝熵增的代码合并
- 自我验证指标:让代理能够验证自己的工作
2. 反馈循环强化
有效的 Harness 系统需要多个层次的反馈:
3. 约束即自由
看似矛盾的是:约束越多,AI 代理的表现越稳定。约束不是限制创造力,而是:
- 提供清晰的成功标准
- 防止代理在错误方向上浪费计算资源
- 建立可预测的行为模式
Harness Engineering 的核心要素
1. 约束设计(Constraints)
约束是 Harness 的"边界",定义了代理可以做什么、不可以做什么。
约束类型:
| 约束类型 | 示例 | 目的 |
|---|---|---|
| 架构约束 | "所有 API 必须遵循 RESTful 规范" | 保持架构一致性 |
| 技术约束 | "禁止使用全局变量" | 代码质量保证 |
| 流程约束 | "每个 PR 必须包含测试" | 质量门禁 |
| 资源约束 | "单次函数调用不超过 100 行" | 可维护性 |
约束设计原则:
- 约束应该是可验证的
- 约束应该是可执行的
- 约束应该随着系统演化而调整
2. 工具系统(Tools)
工具是代理与世界交互的接口。
工具设计模式:
# 示例:浏览器自动化工具接口
class BrowserTool:
"""
代理可以通过此工具进行端到端测试
捕获从代码层面看不到的 bug
"""
def navigate_to(self, url: str) -> None:
...
def click(self, selector: str) -> ActionResult:
...
def verify(self, condition: str) -> bool:
...
关键工具类型:
- 开发环境工具:IDE 集成、终端访问、版本控制
- 测试工具:单元测试、集成测试、E2E 测试
- 调试工具:日志、追踪、性能分析
- 文档工具:API 文档、架构图、变更日志
3. 反馈循环(Feedback Loops)
反馈循环是 Harness 的"神经系统"。
反馈循环设计模式:
实践中的反馈循环:
- 代理自我验证:代理在提交前运行自己的测试
- 持续集成门禁:自动化检查阻止低质量代码合并
- 文档 freshness 监控:后台代理扫描过期文档并创建修复 PR[Mtrajan Blog](https://mtrajan.substack.com/p/harness-engineering-is-not-context)
4. 文档系统(Documentation)
文档是 Harness 的"记忆"。
Harness 文档类型:
- AGENTS.md:指向更深层真相的入口
- 设计文档
- 架构图
- 执行计划
- 质量标准
- 任务列表和进度追踪
- AI 系统可以将进度写入简单文件
- 引用之前的工作[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)
- 决策日志
- 记录为什么做某项技术决策
- 供代理和人类参考
5. 验证系统(Verification)
验证系统确保输出符合预期。
验证层次:
与传统工程范式的对比
演进路径
三种范式对比
| 维度 | Prompt Engineering | Context Engineering | Harness Engineering |
|---|---|---|---|
| 焦点 | 问题表述 | 上下文窗口 | 执行环境与循环 |
| 核心问题 | 如何提问? | 给什么看? | 如何保持稳定? |
| 假设 | 模型理解能力是关键 | 信息充足就能做好 | 约束和反馈是关键 |
| 方法 | 提示词优化 | RAG、文档工程 | 系统架构设计 |
| 挑战 | 提示脆弱性 | 上下文溢出 | 熵增失控 |
关键区别:Harness ≠ Context
Harness Engineering 不是 Context Engineering 的扩展,而是完全不同的范式[Mtrajan Blog](https://mtrajan.substack.com/p/harness-engineering-is-not-context):
| Context Engineering | Harness Engineering |
|---|---|
| 问:代理应该看到什么? | 问:如何让系统保持稳定? |
| 停留在指令文件层面 | 进入 linter、CI 门禁、指标系统 |
| 关注输入质量 | 关注输出质量和长期稳定性 |
实践方法论
12条 Harness Engineering 规则
根据 OpenAI 的实验和行业实践[12 Rules of Harness Engineering](https://www.youtube.com/watch?v=BabEnt6VjtE),以下是核心规则:
第一部分:约束设计
- 明确代理可以修改和不可以修改的代码区域
- 使用代码所有者文件(CODEOWNERS)限制关键区域
- 强制执行设计模式和代码风格
- 使用 architectural linter 检测违规
- 设置代码复杂度阈值
- 强制要求测试覆盖率
第二部分:反馈循环
- 代理每次修改后立即运行 linter
- 本地预提交检查
- 使用不同模型和代理运行相同任务
- 对比结果发现盲点[Agentic Engineering Mitchell Hashimoto](https://zed.dev/blog/agentic-engineering-with-mitchell-hashimoto)
- 所有代码必须通过自动化测试才能合并
- 代理必须修复自己的测试失败
第三部分:工具与基础设施
- 代理应该能够访问与人类工程师相同的开发环境
- 包括 IDE、终端、调试工具
- 代理应该能够进行端到端测试
- 捕获 UI 层面的 bug[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)
- 定义清晰的健康指标
- 代理可以查询这些指标来验证工作
第四部分:文档与知识管理
- 避免分散的指令
- 使用版本化的设计文档
- 后台代理监控文档 freshness
- 自动创建文档更新 PR
- 记录技术决策及其理由
- 供未来代理和开发者参考
构建 Harness 系统的步骤
- 识别当前 AI 代理的痛点
- 确定可靠性要求
- 定义成功标准
- 设计约束系统
- 选择和构建工具
- 建立反馈循环
- 实现约束执行机制
- 集成开发环境
- 设置验证系统
- 收集指标
- 迭代调整约束
- 扩展工具能力
行业应用案例
案例1:OpenAI 的 0 行手写代码实验
背景:OpenAI 团队进行了一个为期5个月的实验[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)
设定:
- 从第一行代码开始就不手动编写
- 所有代码由 Codex 代理生成
- 目标是构建一个完整的软件产品
关键发现:
- 瓶颈不是代理写代码的能力
- 真正的挑战是缺乏结构、工具和反馈机制
- 最终产出:约100万行 AI 生成的代码
解决方案:
- 将 Chrome DevTools 集成到运行时,使代理能够看到 UI 并复现 bug
- 使用小型 AGENTS.md 文件指向更深层的真相来源
- 后台代理扫描过期文档并创建清理 PR
案例2:Mitchell Hashimoto 的 Agentic 工作流
背景:HashiCorp 创始人 Mitchell Hashimoto 分享了他的 AI 采用历程[Mitchell Hashimoto AI Adoption](https://mitchellh.com/writing/my-ai-adoption-journey)
实践:
- 每天最后30分钟启动一个或多个代理
- 代理在后台运行 while 他处理其他任务
- 第二天早上获得"温暖启动"的工作进展
成果:
- 背景代理大约覆盖了正常工作日的 10-20%
- 代理用于库比较、边缘情况分析、深度研究
- 不是只用于代码生成
关键洞察:
"开源正在从'默认信任'转向'默认否认'——我认为这是应该的。因为 AI 让创建看似正确但实际错误和低质量的贡献变得 trivial。"
案例3:Anthropic 的长时运行代理研究
发现[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering):
- 与 OpenAI 类似,Anthropic 工程团队发现了代理生成代码积累"熵"的问题
- 解决方案是从相反方向构建有效的 Harness
- 提示代理使用浏览器自动化工具进行端到端测试显著提高了彻底性和准确性
工具与技术栈
开发环境工具
| 工具 | 用途 | 特点 |
|---|---|---|
| Claude Code | AI 代理编程 | 集成到开发环境 |
| GitHub Copilot | 代码补全 | 上下文感知 |
| Cursor | AI 增强 IDE | 完整的开发环境 |
| Zed | 高性能编辑器 | 代理集成 |
测试与验证工具
| 工具 | 用途 | 特点 |
|---|---|---|
| Playwright | E2E 测试 | 浏览器自动化 |
| Puppeteer | 浏览器控制 | Node.js API |
| Jest/Vitest | 单元测试 | 快速反馈 |
| Cypress | UI 测试 | 开发者友好 |
CI/CD 与自动化
| 工具 | 用途 | 特点 |
|---|---|---|
| GitHub Actions | 工作流自动化 | 集成度高 |
| Harness.io | 持续交付 | AI 增强 |
| Argo CD | GitOps | 云原生 |
| Jenkins | CI/CD | 成熟生态 |
代码质量工具
| 工具 | 用途 | 特点 |
|---|---|---|
| ESLint | JavaScript linting | 可扩展 |
| pre-commit | Git hooks | 多语言支持 |
| SonarQube | 代码分析 | 全面覆盖 |
Harness 专用工具模式
# 示例:Harness 配置结构
harness:
constraints:
- type: "architectural"
rules:
- "no-global-state"
- "api-restful"
- "max-function-lines: 50"
- type: "quality"
rules:
- "test-coverage: 80%"
- "no-lint-errors"
feedback_loops:
- name: "immediate"
triggers: ["file-change"]
actions: ["lint", "type-check"]
- name: "short-term"
triggers: ["pull-request"]
actions: ["full-test-suite", "security-scan"]
- name: "long-term"
triggers: ["daily"]
actions: ["tech-debt-report", "doc-freshness-check"]
tools:
- name: "browser-automation"
type: "playwright"
- name: "debug-access"
type: "devtools-integration"
- name: "metrics-query"
type: "prometheus"
挑战与局限性
当前挑战
1. 工具链复杂性
构建有效的 Harness 系统需要:
- 深厚的软件工程知识
- 对 AI 代理行为的深入理解
- 持续的维护和迭代
2. 约束与创造力的平衡
过于严格的约束会:
- 限制代理解决新问题的能力
- 增加系统的脆弱性
过于宽松的约束会:
- 导致熵增失控
- 产出质量不稳定
3. 验证困难
- 如何验证代理的输出是正确的?
- 测试覆盖永远不可能100%
- 边缘情况难以穷举
4. 长期维护
- 系统会随时间累积技术债务
- Harness 本身需要演进
- 文档和约束需要持续更新
常见陷阱
| 陷阱 | 描述 | 解决方案 |
|---|---|---|
| 过度工程 | 构建过于复杂的 Harness | 从简单开始,渐进式演进 |
| 忽视反馈 | 只关注输入,不关注输出 | 建立多层次反馈循环 |
| 单一模型依赖 | 只使用一个模型 | 多模型验证 |
| 文档缺失 | Harness 配置没有文档 | 强制要求 Harness 文档化 |
| 缺乏监控 | 不跟踪 Harness 效果 | 指标驱动的优化 |
未来展望
2026-2027 年趋势预测
- 大型科技公司内部使用
- 开源工具和最佳实践涌现
- 专业角色"Harness Engineer"出现
- Harness 成为 AI 开发的标准实践
- 工具链成熟和标准化
- 教育和培训资源普及
- Harness 能力内置到 IDE 和 CI/CD 中
- 自动化 Harness 生成和优化
- 跨组织 Harness 共享和复用
发展方向
1. 标准化
- 行业标准的约束定义语言
- 通用的 Harness 接口规范
- 可复用的 Harness 组件库
2. 自动化
- AI 辅助的 Harness 设计
- 自动化的约束优化
- 智能的反馈循环调整
3. 专业化
- Harness Engineering 作为独立职业
- 专门的培训和认证
- 咨询和实施服务
推荐的学习资料
官方文档与论文
- OpenAI Harness Engineering 实验报告
链接:Mass Programming Resistance
描述:OpenAI 团队 0 行手写代码构建产品的实验总结 - Mitchell Hashimoto 的 Agentic Engineering 实践
链接:Agentic Engineering in Action
描述:详细的实践分享和代码示例 - Harness Engineering 完整指南
链接:Harness Engineering: The Complete Guide (2026)
描述:全面的入门到进阶指南
深度分析文章
- 为什么 2026 年是 Harness Engineering 元年
链接:Beyond the Model: Why 2026 Is the Year of Harness Engineering
描述:从行业视角分析 Harness Engineering 的重要性 - Harness Engineering 不是 Context Engineering
链接:Harness Engineering Is Not Context Engineering
描述:澄清两种范式的本质区别 - 新兴的 Harness Engineering 方法论
链接:The Emerging "Harness Engineering" Playbook
描述:实践者的方法论总结
视频与课程
- 12条 Harness Engineering 规则
链接:YouTube: 12 Rules of Harness Engineering
描述:视频形式的规则讲解 - Mitchell Hashimoto 的 AI 工作流
链接:Agentic Engineering with Mitchell Hashimoto
描述:创始人亲述如何使用 AI 代理 - Harness Engineering: The Skill That Will Define 2026
链接:YouTube: Harness Engineering for Solo Devs
描述:独立开发者的视角
实践工具与资源
- Harness.io - CI/CD 平台
链接:Harness.io
描述:提供 AI 增强的持续交付能力 - Capital Harness Designer - 线束设计软件
链接:Siemens Capital Essentials
描述:传统 Harness 工程的工具参考 - IPC 标准(电子行业)
链接:IPC Standards Overview
描述:电子组件设计标准参考
社区与动态
- LinkedIn: 2026 is all about Harness Engineering
链接:LinkedIn Post
描述:行业讨论和趋势分析 - The Rise of AI Harness Engineering
链接:Medium: The Rise of AI Harness Engineering
描述:分析 Harness 作为 AI 代理的缺失架构层
总结
核心要点
- 范式转变:从"优化模型"到"设计系统"
AI 的能力已经足够强,瓶颈在于如何让其稳定工作 - Harness 是系统架构
不是单一工具,而是一套约束、工具、反馈循环和验证系统 - 约束即自由
看似矛盾,但清晰的边界让 AI 代理表现更稳定 - 反馈循环是核心
多层次的反馈机制确保系统长期稳定 - 实践正在进行
OpenAI、Mitchell Hashimoto、Anthropic 等领先团队已经在实践中
行动建议
对于个人开发者:
- 开始尝试在日常工作中使用 AI 代理
- 记录哪些约束和反馈机制有效
- 逐步构建自己的 Harness 系统
对于工程团队:
- 评估当前 AI 代理使用的痛点
- 设计适合团队的 Harness 方案
- 从小规模实验开始,逐步推广
对于组织领导者:
- 认识到 Harness Engineering 的战略重要性
- 投资于 Harness 工具和最佳实践
- 培养 Harness Engineering 人才
最后思考
"AI 成功的关键将不再是选择'最好'的模型,而是围绕它设计正确的系统。"
Harness Engineering 代表了软件工程的新时代——不是让机器更像人,而是让人机协作更可靠。掌握这一学科,将是未来工程师的核心竞争力。
Sources
• Harness Engineering Guide 2026 - NxCode 完整指南
• Beyond the Model: Why 2026 Is the Year of Harness Engineering - Imbila AI 分析
• Agentic Engineering with Mitchell Hashimoto - Zed 官方博客
• The Emerging "Harness Engineering" Playbook - Artificial Ignorance
• Harness Engineering Is Not Context Engineering - Mtrajan Blog
• Mass Programming Resistance - OpenAI Harness Experiment - OpenAI 实验报告
• 12 Rules of Harness Engineering - YouTube - 视频讲解
• Agentic Engineering with Mitchell Hashimoto - YouTube - Mitchell Hashimoto 分享
• Mitchell Hashimoto's AI Adoption Journey - Mitchell Hashimoto 博客
• The Rise of AI Harness Engineering - Medium 分析
• LinkedIn: 2026 is all about Harness Engineering - LinkedIn 讨论
• Harness.io - DevOps Platform - 官方产品
• Siemens Capital Harness Designer - Siemens 官方
• IPC Standards Overview - 行业标准