人机协作范式：验收驱动模型

第四章的追问#

第四章让我们看到了一个清晰的结论：人对线上系统的最终责任不可转移。 AI 可以生成代码、运行测试、分析日志，但 AI 不会承担责任。当 sprint 因为错误预算耗尽而停止时，需要人类来判断——验收标准是否设得太高？Generator 的能力是否不足？是继续投入预算，还是调整需求范围？

这些决策涉及业务判断、成本权衡和风险承受度。但这里有一个更深层的问题没有被回答：在 Harness 框架中，人类与 AI 的具体分工边界在哪里？

不是"哪些工作给 AI、哪些工作留给人"这么简单。真正的问题是：当 AI 接管了越来越多的执行层工作后，人的核心价值从"动手"转向了哪里？ 各岗位的能力模型需要如何重构？

这就是本章要建立的"人机协作范式"——不是一张分工表，而是一套认知框架：人类从"执行者"变为"判断者"，从"做事"变为"验收事"。

5.1 范式转移：从"人执行"到"人判断"#

Harness 框架运转起来后，一个令人不安又令人兴奋的事实会逐渐浮现：AI 在执行层的效率已经超越人类。

Generator 可以在几分钟内写出人类需要几小时才能完成的代码；Evaluator 可以在几十秒内运行完人类需要半天才能跑完的测试套件；Planner 可以在一轮对话中梳理出人类需要开三次会才能对齐的需求边界。这不是未来的愿景，而是正在发生的现实。

但效率的超越不等于价值的替代。历史上每一次技术革命都遵循同一个模式：机器替代的不是"人"，而是"人的某类动作"。 工业革命中，纺织机替代了手工纺织的动作，但设计师、品控员、市场判断者的价值反而上升；计算机普及后，算盘和手工计算消失，但数据分析师、算法工程师、业务建模者的价值大幅放大。

AI 对软件开发的影响也不例外。Generator 替代的是"写代码"这个动作，Planner 替代的是"拆需求"这个动作，Evaluator 替代的是"跑测试"这个动作——但判断代码是否值得写、需求是否拆对了、测试是否测到了点子上，这些判断权仍然在人手中。

这就是范式转移的核心：人类工作的本质从"把事情做对"（执行）转向"判断什么事情值得做、做到什么程度算够好"（判断与验收）。

需要特别澄清的是，这不是"AI 取代人"的焦虑叙事。“取代"暗示的是零和博弈——AI 多做一些，人就少做一些，直到人没有事情可做。但"重构"是另一套逻辑：AI 把执行层的边际成本压到趋近于零，人类的差异化价值就从执行层转移到了判断层。不是人被边缘化，而是人的能力重心发生了转移。

这不是关于谁取代谁，而是关于人类在 AI 时代重新定义自己的价值坐标。

5.2 各角色的 AI 协同模式#

范式转移是抽象的认知升级。要让它落地，需要回到具体的岗位，看看每个角色在 Harness 时代的工作边界发生了哪些变化。

5.2.1 产品经理：需求真伪判断、优先级权衡、市场预判#

AI 接管什么： 需求文档的结构化梳理、用户故事的格式转换、竞品功能的对标分析、数据报表的自动生成。

人类保留什么： 需求真伪的判断、优先级的权衡、市场趋势的预判。

关键转变： 从"写 PRD 的人"变为"判断什么需求值得做的人”。

传统产品经理的大量时间花在写文档、画原型、开对齐会上——这些工作 Planner 可以做得很好。但 Planner 不会告诉你"这个功能用户真的需要吗"“现在做还是三个月后做"“做了之后对留存率有什么影响”。这些判断依赖对业务的深刻理解、对用户心理的洞察、对市场竞争的感知，AI 无法替代。

Harness 时代的产品经理，核心竞争力不再是文档写得有多规范，而是判断能力有多准——在十个看似合理的需求中，识别出哪三个真正值得投入资源。

5.2.2 程序员：Agent 范式 mastery，通过优化模型提升 AI 生产力#

AI 接管什么： 代码编写、单元测试生成、文档注释、代码重构、bug 修复。

人类保留什么： 系统架构设计、技术选型决策、代码审查（从语法层上升到设计层）、Harness Agent 的调优与编排。

关键转变： 从"写代码的人"变为"设计如何让 AI 写出好代码的人”。

这是最反直觉也最重要的转变。初级程序员还在手动修改 AI 生成的代码，逐行审阅、逐句修正——他们把 AI 当作一个"需要被纠正的实习生"。高级程序员已经在优化 Generator 的上下文配置、调整 Evaluator 的验收标准、设计更高效的反馈闭环——他们把 AI 当作一个"可以被调校的生产力系统"。

两者的根本区别，不在于代码能力，而在于对 AI 工作范式的理解深度。

Agent 范式 mastery 的核心不是写代码，而是三个层面的设计能力：

上下文设计：给 Generator 提供什么样的设计蓝图（Design）、什么样的参考代码、什么样的约束条件，能让它一次性产出更高质量的代码；
工具链设计：为 Generator 配置哪些 MCP 工具、哪些测试框架、哪些监控接口，能让它在执行阶段拥有正确的"感官"；
反馈闭环设计：当 Evaluator 发现问题时，如何设计反馈的格式和路径，让 Generator 在下一轮迭代中精准修正，而不是反复踩同一个坑。

未来的高价值工程师，不是代码写得最快的，而是最懂得如何让 AI 把代码写对的人。

5.2.3 架构师：演进路线判断、约束条件下的取舍#

AI 接管什么： 技术方案的代码实现、接口定义的自动生成、依赖关系的可视化梳理、性能基准测试的执行。

人类保留什么： 演进路线的判断、约束条件下的取舍、技术债务的权衡。

关键转变： 从"画架构图的人"变为"判断技术演进方向的人"。

AI 可以生成一个微服务拆分方案，可以画出漂亮的架构图，甚至可以论证为什么选 Kafka 而不是 RabbitMQ。但 AI 不会理解"公司明年要进入东南亚市场，架构需要支持多地域部署"“这个业务线的生命周期可能只有两年，不需要过度设计"“团队目前有五个新人，复杂度太高的架构会拖慢交付”。

架构设计的本质是在约束条件下做取舍。约束条件来自业务战略、团队能力、时间窗口、成本预算——这些都是动态的、组织特有的、AI 无法从代码库中推断出来的信息。Harness 时代的架构师，核心价值不是画出最优雅的架构，而是做出最符合当前约束的取舍。

5.2.4 项目经理：风险预判、资源冲突权衡、危机识别#

AI 接管什么： 进度跟踪、任务状态更新、工时估算（基于历史数据）、会议纪要的自动生成、依赖关系的可视化。

人类保留什么： 风险预判、资源冲突的权衡、危机识别与升级决策。

关键转变： 从"盯进度的人"变为"判断风险在哪里的人”。

AI 可以精确地告诉你"任务 A 延迟了 2 天，任务 B 因此受到影响，预计整体延期 3 天"——但这只是对已发生事实的陈述。人类项目经理的价值在于在延迟发生前就嗅到风险：为什么这个估算看起来过于乐观？为什么两个团队负责人最近没有在同步会上发言？为什么需求变更的频率在悄然上升？

Harness 可以压缩执行周期，但无法消除不确定性。项目经理的核心能力从"管理确定性"（排期、跟踪、汇报）转向"管理不确定性"（预判、权衡、危机响应）。

5.2.5 测试工程师：策略设计、边界风险预判#

AI 接管什么： 测试用例的自动生成、回归测试的执行、覆盖率报告的生成、边界条件的穷举、性能基准的自动化跑测。

人类保留什么： 测试策略的设计、边界风险的预判、验收标准的定义。

关键转变： 从"写测试用例的人"变为"判断什么风险最值得测的人"。

Evaluator 可以生成和执行海量测试用例，但 Evaluator 不会判断"这个系统的核心风险是并发一致性还是数据迁移兼容性"。测试策略的设计需要理解业务场景、用户行为模式、系统架构的脆弱点——这些判断决定了测试资源的分配方向。

Harness 时代的测试工程师，核心竞争力不是用例写得多全面，而是风险判断有多准——在有限的验收轮次和 token 预算内，让 Evaluator 测到最关键的地方。

5.2.6 实施/运维：故障模式预判、应急预案制定#

AI 接管什么： 部署脚本的执行、监控告警的响应、日志分析、常规故障的自动修复、容量扩缩容的自动化。

人类保留什么： 故障模式的预判、应急预案的设计、重大故障的指挥决策。

关键转变： 从"盯监控的人"变为"判断系统可能以什么方式崩溃的人"。

AI 可以在内存使用率超过 90% 时自动扩容，可以在服务实例挂掉时自动重启，可以在错误率飙升时自动回滚。但 AI 不会提前三个月预判"双十一期间支付链路可能因为第三方接口限频而雪崩"，不会设计"当主数据库所在可用区整体故障时的降级策略"，不会在凌晨三点的 P0 故障中决定"是先止损还是先去根因"。

运维的终极价值不是让系统不出问题，而是当问题不可避免地发生时，有人已经预判过、有预案、能决策。

小结：执行层被接管，经验层 + Agent 设计能力价值放大#

六个角色的分析指向同一个结论：

AI 接管的是执行层——写文档、写代码、跑测试、盯监控、做部署。这些工作的共同特点是：目标明确、标准清晰、可重复、可验证。
人类保留的是判断层——需求真伪、技术取舍、风险预判、验收标准、危机决策。这些工作的共同特点是：依赖经验、需要权衡、标准模糊、后果重大。
程序员多了一个独特维度——Agent 设计能力。这是其他角色没有的：不仅要判断，还要设计如何让 AI 更好地执行。

执行层被 AI 接管后，经验层的判断力和程序员的 Agent 设计能力，成为价值放大的两个核心杠杆。

5.3 能力门槛重构：数控机床与八级钳工#

上一节描述了各角色的分工变化，但有一个问题需要更直观的回答：这种变化对个人的能力门槛意味着什么？ 是门槛降低了（AI 帮忙，人人都可以），还是门槛提高了（需要新技能）？

工业史提供了一个精准的类比。

二十世纪中叶，制造业有一个备受尊崇的工种——八级钳工。八级钳工靠手工就能将零件加工到微米级精度，这种技艺需要十年以上的磨练，是工厂里技术地位最高、收入最丰厚的岗位。同一时期，数控机床开始出现。最初的数控机床精度并不如顶级钳工，但它有两个特征：一旦调好程序，它可以不眠不休地重复同一精度；它的精度提升曲线是指数级的，每五年翻一番。

到二十世纪末，数控机床的精度已经全面超越手工。八级钳工的手艺不再是稀缺资源——工厂不再愿意为一个"手工精度"支付高昂溢价，因为机床可以以十分之一的成本提供更高的精度。执行技能贬值了。

但故事没有以"钳工下岗"结束。真正发生的是能力门槛的重构：

操作工——只需要按按钮、装夹具、看仪表，门槛极低，可替代性极高；
调机师——能读懂图纸、编写数控程序、选择刀具参数、诊断加工异常，门槛显著提升，价值也显著提升；
工艺设计师——能判断什么零件适合什么加工方式、如何优化生产流程、如何在质量和成本之间取舍，这是最高门槛，也是最高价值。

AI 对软件开发的影响正在复刻这个故事。

Generator 相当于数控机床：它可以不眠不休地生成代码，且代码质量在持续提升。纯"写代码"的能力——就像"手工加工精度"一样——正在从稀缺技能变为基础能力。未来的程序员分层将会是：

操作工型——能看懂 AI 生成的代码、能手动修 bug、能完成简单的功能实现。门槛极低，可替代性极高。
调机师型——能设计好的上下文、能调优 Evaluator 的验收标准、能诊断 AI 产出中的系统性问题。门槛提升，价值提升。
工艺设计师型——能判断系统架构方向、能设计 Harness 工作流、能在业务约束下做出技术取舍。这是最高门槛，也是最高价值。

执行技能贬值的技术逻辑很直接：AI 的执行成本趋近于零，执行质量趋向标准化，执行速度指数级提升——纯执行能力的稀缺性必然下降。

判断技能升值的逻辑同样直接：业务复杂度在上升（系统越来越复杂、用户场景越来越多样），AI 无法自主定义"够好"的标准（因为标准依赖业务目标），战略权衡需要组织上下文（而组织上下文不在代码库中）——判断能力的稀缺性必然上升。

未来的高价值工程师，不是代码写得最快的，而是最懂得如何让 AI 把代码写对的人。这不是安慰，而是正在发生的工业规律。

5.4 验收驱动机制#

理解了范式转移、角色分工和能力重构之后，最后一个问题需要回答：Harness 中的人类验收，与 Evaluator 的自动验收，是什么关系？

第四章已经论证了一个原则：人对线上系统的最终责任不可转移。但"责任"是一个抽象概念，需要转化为具体的机制。这个机制就是分层验收模型。

第一层：Evaluator 验"对不对"

Evaluator 的职责是验证 Generator 的产出是否达到了预设的技术标准——功能是否正确、性能是否达标、安全是否合规、边界条件是否覆盖。这些是"对不对"的问题，标准清晰、可量化、可自动化。

第二层：人类验"值不值"

人类的职责是在 Evaluator 通过之后，验证一个更深层的问题：这个结果对业务来说是否有价值？

功能完整，但用户真的需要这个功能吗？（需求真伪）
性能达标，但投入的成本（token、时间、算力）与收益是否匹配？（成本权衡）
安全合规，但安全策略是否过度影响了用户体验？（取舍平衡）
代码正确，但与现有系统的集成是否引入了隐性风险？（兼容性判断）

这些是"值不值"的问题，标准模糊、依赖上下文、需要权衡——AI 无法替代。

为什么 AI 无法自主定义"足够好"？

因为"足够好"的标准不是技术问题，而是业务问题。Evaluator 可以判断"API 响应时间是否低于 200ms"，但它无法判断"200ms 对我们的用户来说是否足够好"——也许对于 B 端后台管理，500ms 也够用；也许对于 C 端实时交互，100ms 才是及格线。这个判断需要理解用户场景、竞争环境、业务目标，而这些信息不在代码里。

Harness 的 Evaluator 和人类验收不是对立关系，而是互补关系。Evaluator 确保"技术正确"，人类确保"业务正确"——两者叠加，才是完整的"正确"。

这与第二章"人类的角色：需求校准层"形成呼应，但视角不同。第二章从 Harness 框架的功能必要性出发——框架需要一个人类校准层来防止方向性偏差；本章从人的工作范式重构出发——人类的验收权是 AI 时代不可被替代的核心权力。前者回答"为什么 Harness 需要人"，后者回答"人如何在 Harness 中重新定义自己"。

5.5 本章小结#

让我们回顾本章的核心脉络。

范式转移：AI 在执行层的效率已经超越人类，人类工作的本质从"动手执行"转向"判断与验收"。这不是"被替代"，而是"被重构"。

角色分工：产品经理保留需求判断，程序员升级为 Agent 设计能力，架构师保留取舍权衡，项目经理保留风险预判，测试工程师保留策略设计，运维保留故障预判与应急决策。执行层被 AI 接管，经验层 + Agent 设计能力价值放大。

能力门槛重构：以"数控机床与八级钳工"为鉴，执行技能必然贬值，判断技能必然升值。未来工程师的分层将从"代码能力"转向"Agent 设计能力 + 业务判断力"。

验收机制：Evaluator 验"对不对"（技术指标），人类验"值不值"（业务价值）。两者互补，构成完整的正确性验证。

至此，我们从"AI 能做什么"（第一章）→“如何让 AI 协作”（第二章）→“如何在工程理论中落地”（第三、四章）→“人如何与 AI 共处”（本章），完成了从问题到框架、从理论到人的完整闭环。

但闭环不是终点。当 Harness 的三角色开始运转、当人类的验收权确立、当各角色的分工边界清晰之后，下一个问题是：如何把这些碎片组装成一个可运转的、覆盖软件全生命周期的闭环系统？ 从需求分析到设计、开发、测试、部署、运维——Harness 的框架如何贯穿始终？

下一章，我们将设计这个全生命周期闭环框架。

本章内容说明

论文原意：Harness 三角色（Planner / Generator / Evaluator）体系及 AI-AI 验收标准协商机制，源自 Anthropic《Harness Design for Long-Running Application Development》。
作者分析：“范式转移”（从人执行到人判断）、各角色 AI 协同模式、“数控机床与八级钳工"类比、分层验收模型（Evaluator 验"对不对”、人类验"值不值"），为本文作者基于 Harness 框架与软件工程实践的分析推导。
工程扩展：“Agent 范式 mastery"概念（程序员从写代码到优化 Agent 模型的能力升级）、“操作工/调机师/工艺设计师"三层工程师模型，是基于 AI 落地实践的观察总结，非论文原文。
虚构示例：本章未构造具体场景示例，角色分析基于通用岗位模型推导。