从“用”到“管”：AI也需要权限、流程与证据链

发布日期：2026-04-10 来源：幂律智能分享到：

很多人以为，AI最大的问题是不够聪明。

但现实正好相反——AI 现在最大的问题，是"太能干，但没人管"。

它能写代码、改合同、跑流程，甚至可以连续执行复杂任务。问题不再是"它说得对不对"，而是：它做的事，能不能被控制？

这也是为什么，最近行业内都在讨论一个词：Harness。

01 Harness到底是什么？

2026年2月5日，HashiCorp 联合创始人 Mitchell Hashimoto 首次正式提出了"Harness Engineering"这一概念。六天后，OpenAI 在百万行代码实验报告中正式采用了这一术语。随后 Martin Fowler 撰文深度分析，一个月内，"驾驭工程"成为全球开发者社区的高频词。

Mitchell Hashimoto 的原始定义简洁而精准：

"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent will not make that mistake again in the future."
（每当 Agent 犯了一个错误，你就花时间设计一个解决方案，使它永远不再犯同样的错误。）

也就是说：Agent 的每一次失败，都是环境设计不完善的信号。正确的回应不是换一个更强的模型，而是重新设计它运行的环境。

Anthropic 在《Harness design for long-running application development》中进一步阐释：Harness 不是单一算法，而是支撑复杂 AI 智能体运行的外部框架、控制结构与编排系统—— 一整套工程化的"脚手架"。

很多人以为 Harness 是新概念，其实不是。调度系统（Airflow）、工作流引擎（Camunda）、权限与审计系统、沙箱环境——这些能力一直存在。

真正的变化只有一个：

大模型，让“执行主体”发生了改变。

过去：系统执行流程，人做判断
现在：AI做判断，系统必须“管住AI”

👉 所谓 Harness，本质就是这套“管住AI”的系统。

02 为什么现在被关注？

模型能力跨过了"可用阈值"

从 GPT-4o、Claude 到 Codex，AI 开始具备多步推理、工具调用、长任务执行的能力。AI 从建议者变成了执行者。

问题随之改变：不再是它说得对不对，而是"它做的事能不能被控制"。

Agent需要“运行制度”

Agent倾向于在一个会话里把所有功能都做完，写完代码就标记"Done"，却没做完整的测试。单元测试通过了不代表功能真正可用，Agent失败的根本原因，不是AI不够强，而是没有"运行制度"。

于是行业开始反思：

Prompt 不够 → 加上下文
上下文不够 → 加记忆
记忆不够 → 加系统

最终走到：必须有一层"统一控制系统"——Harness

AI开始"独立产出结果"

OpenAI 用 Codex Agent 几个月生成百万行代码，人类没有参与执行过程。这带来三个治理问题：

谁定义目标？
谁控制过程？
谁承担责任？

而 Harness，正是"AI时代的治理基础设施"。

03 一句话看懂Harness

它是 Prompt Engineering（提示词工程）之上的更高级抽象。

Prompt 决定了单次对话的质量，而 Harness 决定了多轮、多智能体、长时任务的执行流程和可靠性。

Harness 的核心作用是解决 AI 在完成复杂、耗时任务时的“失控”问题，通过外部控制机制弥补模型内在的缺陷（如上下文焦虑、自我美化）。

用更底层的话来说：

Harness 解决的不是"AI怎么用"，而是"AI如何被约束"。

就像马需要缰绳才能拉车，AI 需要 Harness 才能在企业里可靠干活。

我们可以把它拆成三个"控制权问题"：

控制权	核心问题	Harness 提供的机制
决策权	AI可以决定什么？	决策边界（什么能改、什么不能改）
执行权	AI可以做到什么程度？	权限控制（工具调用、跨系统操作）
责任权	出问题怎么算？	日志、回溯、证据链

用法律语言总结就是：权限 + 流程 + 证据链

04 Harness在合同管理中的形态

结合Anthropic和OpenAI的工程实践来看，Agent的常见错误在合同管理场景中同样普遍存在。相应地，Harness 在合同管理中可构建为四层管控结构，层层递进、闭环管控：

第一层：记忆层

问题：LLM 每次对话都是白板一张，记不住制度、偏好、情况等等。

Harness 做法：

把《合同管理制度》《各类业务指引》《供应商档案》写成结构化知识库
自动加载历史情况，不用重复交代"这是什么业务、关注什么风险"
理解不同业务线的风险重点

效果：从每次重建上下文变成"系统自动加载上下文"

第二层：执行层

问题：AI 只会给意见，无法基于完整信息进行判断。

Harness 做法：

调用合同库、案例库、业务数据
自动比对历史合同
结合财务、履约信息判断条款合理性

效果：AI 不只是"给你一段意见"，而是"基于真实数据做判断"

第三层：反馈层（核心）

问题：AI 输出是概率性的，这次对，下次可能错。怎么确定它是对的？

Harness 做法：

找到合同管理中的"编译器"——确定性的验证机制：

格式校验：输出必须符合标准合同模板或审查意见模板
规则校验：用清单逐项核对，不漏项、不误判
冲突检测：本次意见与历史案例、公司制度是否矛盾等
人工抽检：高风险合同或异常进入人工复核队列

关键洞察：代码领域 Harness 先行，是因为有编译器（跑不通就报错）。合同管理也要找到自己的编译器——条款库、审批规则、履行监控指标、风险预警阈值。

第四层：编排层（复杂任务拆解）

问题：合同流程涉及多个角色与环节，容易出现信息断层和遗漏。

将任务拆解为多个子模块协同完成，主 Agent负责统筹输出最终意见。

效果：专业化分工，每份合同都经过完整的质检。

05 一个更本质的变化：

合同的系统化

很多人还停留在"AI帮我审合同"、"AI帮我改条款"。但真正的变化其实是：合同本身正在"系统化"。

具体体现在三个方面：

1. 从“文本合同” → “可执行规则”

条款不再只是描述，而可以被系统自动识别和执行。

2. 从“审查一次” → “持续控制”

合同从签署扩展到执行、监控与反馈。

3. 从“人承担责任” → “系统参与责任链”

Harness 具备日志、回溯与记录能力，AI行为首次可以被纳入责任分析框架。

这意味着，未来法律人可能需要面对：

AI决策的合规性问题
AI执行的责任归属问题
AI系统的审计标准问题

说到这里，这套管控结构听起来像是工程理想。但实际上，幂律智能正在做的，就是为法律人搭建这套 Harness。它在法律场景中的真正难点，其实并不在于技术组件的堆砌，而在于如何把法律人的规则、经验与风险判断，转化为一套可以被机器执行、并且可持续演进的约束体系。

第一层：把经验变成规则

传统的合同管理高度依赖个体经验，哪类条款需要重点关注、哪些风险可以接受、哪些必须升级审批。这些判断往往存在于资深法务的大脑中，而非系统里。幂律智能所做的，是将这些隐性经验编码为结构化的决策边界，让审查标准具备可复用、可更新、可被系统执行的特性。

第二层：把信息变成上下文能力

过去，合同相关信息是分散的：历史合同躺在档案室、履约情况在ERP里、供应商风险在风控报告中、财务记录又在另一套系统。即便存在，也很难在审查时被实时调用。我们所做的，是把这些离散信息转化为可实时调用的上下文与证据链。当 AI 审查一份采购合同时，它调用的不仅是当前文档，还包括该供应商的历史履约评分、同类合同的实际付款节点分布、以及特定行业的监管红线，让判断从基于当前输入升级为基于组织的完整知识。

第三层：把判断纳入约束与验证体系（Verification Layer）

AI 的本质问题不是能力，而是不确定性。幂律智能的核心设计不是无限增强模型参数，而是在模型之外建立确定性的约束机制：模板与格式校验确保输出符合企业标准；审查清单引擎逐项核对，不漏项、不误判；制度冲突检测识别 AI 建议与既有判例或公司制度的矛盾；风险等级判定与人工复核机制确保高风险事项必须经由人类确认。让 AI 的输出从"概率结果"变成可验证、可解释、可追责的决策过程。

第四层：把流程变成可编排的执行系统（Orchestration Layer）

合同本质上是一个跨角色、多阶段的复杂流程，信息断层和遗漏是常态。我们所做的，是将其转化为可编排的多Agent协同执行体系。每个子模块有明确输入输出、有规则约束、有状态记录，主Agent统筹全局，最终形成一条可回溯、可重放的完整合同执行链路。

如果用一句话概括：幂律智能做的不是"让 AI 更聪明地写合同"，而是构建一套 AI 时代的合同治理与执行系统——让 AI 在法律人的规则之下稳定运行，让每一次 AI 决策都可被审计、被回溯、被归责。我们向企业交付的，不是一个能生成文本的工具，而是一套让 AI 可以被信任、被风控体系接纳、被监管机构认可的基础设施。

06 法律人该怎么做？

技术的发展正在以周为单位迭代。从大模型基础能力到Agent自主决策，再到多Agent协同，法律科技的成熟度曲线正在迅速爬升。

面对"全自动AI智能化管理"这些字眼，很多法律人第一反应不是兴奋，而是下意识的抵触；怕被取代，怕AI不靠谱捅娄子，怕又要学新工具增加负担，更怕那种"非黑即白"的焦虑感。

先别急着说"不"。换个角度想：这也许是你夺回时间主权的机会。

法律工作的痛苦从不是"不够忙"，而是处理大量的dirty work。法律工作容错率极低，与其搞大跃进式的变革，不如先从基础能力建设开始，让技术慢慢长出你熟悉的模样。

1.写好 AGENTS.md

给 AI 的"入职手册"：公司合同分类、每类关注重点、输出格式要求、禁止事项。写进文件，不是每次口头交代。

2.建立机械化约束

哪些动作 AI 可以自动做（读文件、查模板），哪些必须人工确认（改条款、发审批），提前定好规则。

3.找到你的"编译器"

合同审查不像代码有编译器，但可以有：审查清单核对、标准条款匹配、历史案例比对、风险等级自动判定。

4.上 Eval 和日志

记录 AI 每次审查了什么、漏了什么、为什么错。用数据改进，不是碰运气。

总结

如果说大模型解决的是"AI能不能思考"，那么Harness解决的是"AI能不能被信任"。

整体来说：

Prompt Engineering 解决的是“怎么说”
Context Engineering 解决的是“给什么”
Harness Engineering 解决的是“怎么让它持续做下去”

过去大家在调一句 Prompt，现在大家开始调一整套 Agent 运行系统。

这不是因为Prompt不重要了，而是因为AI应用已经从"回答问题"走到了"连续执行任务"的阶段。

对法律人而言，这不是一个技术概念，而是一套正在成型的——AI时代的"行为约束与责任体系"。

法律人一直在做一件事：用规则约束行为，用流程控制风险，用证据链确定责任。

真正的变化，从来不是技术概念的堆砌，而是工程重心的转移——从“用好AI”，到“管好AI”。

从“用”到“管”：AI也需要权限、流程与证据链

第一层：记忆层

第二层：执行层

第三层：反馈层（核心）

第四层：编排层（复杂任务拆解）

你知道你的Internet Explorer是过时了吗?