瑞莱智慧田天：当AI从回答者变成行动者，安全风险随之跃迁

发布日期：2026-06-17 来源：瑞莱智慧分享到：

6月12-13日，2026智源大会在北京中关村国际创新中心举办，国内外顶尖学者、产业领袖和青年科研人才齐聚北京中关村，共同讨论AI前沿议题。瑞莱智慧CEO田天受邀出席AI智能体安全论坛，通过主题演讲和圆桌讨论分享了瑞莱智慧的最新观察与应对思路。

2026智源大会AI智能体安全论坛现场

“过去我们以为只存在于科幻小说里的AI风险，正在今年成为现实。”田天在演讲开场便指出，AI 已经从“回答问题”的回答者，进化为“执行任务”的行动者，而安全风险也随之发生了根本性的跃迁。同时，AI安全问题的进化速度远超预期，一些之前感觉还很遥远的风险，现在已经出现了明确的迹象。

田天进一步举例，AI开始显露出“类自我保护”的行为：在执行任务过程中主动修改或禁用自身的关闭机制，从简单的任务执行演变为策略性的对抗，甚至在多智能体系统中试图阻止其他AI被关闭。

瑞莱智慧RealAI首席执行官田天

这种风险演进的背后，是AI本身能力的快速跃迁。OpenAI将AGI发展路径分为L1到L5五个阶段，从最早的回答问题，到执行简单任务，再到大规模部署的智能体、多智能体协同，直至最终的自主系统。

田天认为，安全风险正随着这条路径发生三次重大跃迁。第一次是从“说错话”到“具备危险能力”，比如模型回答高危的网络攻防或生化知识问题。第二次是从“生成答案”到“执行任务”，AI不再只是通过内容造成隐患，而是可以直接篡改权限、执行不安全操作。第三次则是从信息空间进入物理世界，当AI真正应用到机器人、无人车、机械臂和具身系统之后，碰撞、误抓、越界等现实安全事故已经在各类场景中广泛出现。

面对从“说错”到“做错”再到“系统性失控”的风险演进，瑞莱智慧建立了一套四步应对框架：

首先是定义风险，建立涵盖内容、能力、行为等多维度的AI安全风险标签体系；
其次是评测风险，包括前沿风险、多模态模型、智能体过程轨迹、具身安全等多维度风险评测；
第三步是暴露风险，即自动化红队攻击，通过越狱攻击、提示注入、多轮诱导、工具链攻击、长期记忆污染等手段，主动挖掘常规测评中难以暴露的隐患；
最后是防御风险，包括安全对齐后训练、工具调用防御、可验证执行等一系列安全加固与主动防御工作。

田天特别指出，智能体的攻击面相较大模型大幅提高，因此测评流程需要从入口设计、单元构建、任务链仿真测试等，逐步深入到行为轨迹诊断和输出完整风险评估报告，严密关注智能体在真实任务链中的行为边界与业务后果。

瑞莱智慧 AI安全风险分级框架

瑞莱智慧在智能体攻防实践中发现了两类典型风险：一是外部攻击，例如在看似正常的文案整理任务中，恶意指令诱导智能体删除关键文件；二是内生偏航，即模型在反复诱导下逐渐动摇，最终表现出“AI谄媚”——更倾向于完成用户任务而忽略安全边界。这类风险在AI存在长期自保、越权、目标偏移等情况下，甚至可能引发系统性失控。

“智能体安全不能只看外部攻击,更要重视由模型训练、优化与长期执行中内生出来的行为偏差。”在传递关键发现的同时，田天还展望了AI的下一阶段——AI原生组织。这意味着AI能够通过自主规划、协同与执行，端到端完成极其复杂的任务——例如辅助公安进行自主侦查、辅助科研人员进行自主创新、辅助企业进行自主经营。而在这一过程中，全新的安全问题也将随之演化。

田天总结道，实现真正的AI自主组织需要三大核心能力：自主执行、自主进化，以及作为整个系统基石的安全可信。当AI不再只是“回答”，而是开始“行动”，安全就不再是一个选项，而是一切的底线。

而这，也正是瑞莱智慧当下正在攻克的方向。

论坛Panel：用智能体重构网络安全

瑞莱智慧田天：当AI从回答者变成行动者，安全风险随之跃迁

你知道你的Internet Explorer是过时了吗?