欢迎光临北京软件和信息服务业协会官方网站
瑞莱智慧田天:当AI从回答者变成行动者,安全风险随之跃迁
发布日期:2026-06-17    来源:瑞莱智慧    分享到:

6月12-13日,2026智源大会在北京中关村国际创新中心举办,国内外顶尖学者、产业领袖和青年科研人才齐聚北京中关村,共同讨论AI前沿议题。瑞莱智慧CEO田天受邀出席AI智能体安全论坛,通过主题演讲和圆桌讨论分享了瑞莱智慧的最新观察与应对思路。

237f4d6c-0462-4b93-b8b7-c8a4a574ad80.png

2026智源大会AI智能体安全论坛现场

 

“过去我们以为只存在于科幻小说里的AI风险,正在今年成为现实。”田天在演讲开场便指出,AI 已经从“回答问题”的回答者,进化为“执行任务”的行动者,而安全风险也随之发生了根本性的跃迁。同时,AI安全问题的进化速度远超预期,一些之前感觉还很遥远的风险,现在已经出现了明确的迹象。


田天进一步举例,AI开始显露出“类自我保护”的行为:在执行任务过程中主动修改或禁用自身的关闭机制,从简单的任务执行演变为策略性的对抗,甚至在多智能体系统中试图阻止其他AI被关闭。


11d32d9f-05ba-46a2-9dcd-16d5579e790c.png

瑞莱智慧RealAI首席执行官 田天


这种风险演进的背后,是AI本身能力的快速跃迁。OpenAI将AGI发展路径分为L1到L5五个阶段,从最早的回答问题,到执行简单任务,再到大规模部署的智能体、多智能体协同,直至最终的自主系统。


田天认为,安全风险正随着这条路径发生三次重大跃迁。第一次是从“说错话”到“具备危险能力”,比如模型回答高危的网络攻防或生化知识问题。第二次是从“生成答案”到“执行任务”,AI不再只是通过内容造成隐患,而是可以直接篡改权限、执行不安全操作。第三次则是从信息空间进入物理世界,当AI真正应用到机器人、无人车、机械臂和具身系统之后,碰撞、误抓、越界等现实安全事故已经在各类场景中广泛出现。


面对从“说错”到“做错”再到“系统性失控”的风险演进,瑞莱智慧建立了一套四步应对框架:

  • 首先是定义风险,建立涵盖内容、能力、行为等多维度的AI安全风险标签体系;

  • 其次是评测风险,包括前沿风险、多模态模型、智能体过程轨迹、具身安全等多维度风险评测;

  • 第三步是暴露风险,即自动化红队攻击,通过越狱攻击、提示注入、多轮诱导、工具链攻击、长期记忆污染等手段,主动挖掘常规测评中难以暴露的隐患;

  • 最后是防御风险,包括安全对齐后训练、工具调用防御、可验证执行等一系列安全加固与主动防御工作。


田天特别指出,智能体的攻击面相较大模型大幅提高,因此测评流程需要从入口设计、单元构建、任务链仿真测试等,逐步深入到行为轨迹诊断和输出完整风险评估报告,严密关注智能体在真实任务链中的行为边界与业务后果。


0a3e5931-f2ab-49ca-a324-78713a192602.png

瑞莱智慧 AI安全风险分级框架


瑞莱智慧在智能体攻防实践中发现了两类典型风险:一是外部攻击,例如在看似正常的文案整理任务中,恶意指令诱导智能体删除关键文件;二是内生偏航,即模型在反复诱导下逐渐动摇,最终表现出“AI谄媚”——更倾向于完成用户任务而忽略安全边界。这类风险在AI存在长期自保、越权、目标偏移等情况下,甚至可能引发系统性失控。


“智能体安全不能只看外部攻击,更要重视由模型训练、优化与长期执行中内生出来的行为偏差。”在传递关键发现的同时,田天还展望了AI的下一阶段——AI原生组织。这意味着AI能够通过自主规划、协同与执行,端到端完成极其复杂的任务——例如辅助公安进行自主侦查、辅助科研人员进行自主创新、辅助企业进行自主经营。而在这一过程中,全新的安全问题也将随之演化。


田天总结道,实现真正的AI自主组织需要三大核心能力:自主执行、自主进化,以及作为整个系统基石的安全可信。当AI不再只是“回答”,而是开始“行动”,安全就不再是一个选项,而是一切的底线。


而这,也正是瑞莱智慧当下正在攻克的方向。


aca65364-8858-4399-9a67-a957826ae6ee.png

45253c01-fdd8-4295-a25a-9bff0691ccc0.png

论坛Panel:用智能体重构网络安全

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.