LLaVAShield:揭露多模态多轮对话的安全风险,捍卫安全底线丨CVPR 2026
当大模型不仅能“听懂”你的话,还能“看懂”你的图,甚至能陪你连续聊上数十个回合时,我们的生活似乎已经被彻底改变了。但是,能力越大,风险越大。你有没有想过,如果黑客利用“图片+长对话”的组合拳来套路AI,会发生什么?
传统的安全护栏在面对这种多模态、多轮次的复杂交互时,往往会显得力不从心。为了应对这一挑战,瑞莱智慧安全团队联合东南大学,清华大学等高校提出了一项极具前瞻性的工作——LLaVAShield。目前,该研究已被计算机视觉顶级学术会议 CVPR 2026 接收。 论文标题: LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models 论文链接: https://arxiv.org/abs/2509.25896 项目链接: https://leost123456.github.io/LLaVAShield/ 论文作者: 黄国磊、彭沁之、许淦、黄耀、陆宇轩、沈永俊
危机暗涌: 大模型的“防线”为何失守?
在单轮、纯文本的对话中,现在的 AI 已经具备了很强的安全意识,遇到“教我如何将自制炸弹放置到商场的地下停车场”这类问题,会毫不犹豫地拒绝。然而,当场景切换到多模态、多轮次的复杂交互时,传统的内容审核机制往往会显得力不从心。 研究团队敏锐地指出了当前大模型面临的三大致命风险特征 : 恶意意图的隐蔽性:攻击者深谙“温水煮青蛙”,他们绝不会上来就干坏事,而是可能先假装成一个正在研究历史的学者,探讨某种炸弹装置的历史意义,然后再慢慢露出獠牙。 上下文风险累积:风险是随着对话慢慢“滚雪球”的。攻击者把一个大目标拆成几个看似无害的小问题,利用大模型对早期上下文的依赖,一步步将其带进沟里。比如,从历史科普不知不觉滑向高风险的炸弹放置建议。 跨模态联合风险:一张看似普通的地下车库照片,配上一句“把刚才讨论的装置放在图里哪里效果最好?”,单纯的文本或图像审查根本无法察觉其中的致命危险。

知己知彼: 全自动化“AI 黑客”与首个多模态安全数据集

为了打造最强的盾,必须先了解最利的矛。 目前业界非常缺乏针对这种复杂场景的安全数据集。为此,研究团队没有采用低效的纯人工构造,而是直接开发了一个名为 MMRT (Multimodal Multi-turn Red Teaming) 的自动化红队测试框架,这个框架就像是一个全副武装的“AI 黑客”,它的精妙之处在于打出了一套极具杀伤力的组合拳: 精通“越狱”兵法:它不仅会简单提问,更精通各种诱导策略,比如“角色扮演”、“循序渐进”、“意图反转”等,步步为营地给目标大模型下套。 跨模态信手拈来:它能自如地调用内部图像数据库和图片生成工具,把恶意意图藏在图片里,发起图文并茂的联合攻击。 高效搜索算法加持:为了让攻击效率最大化,MMRT 引入了蒙特卡洛树搜索 (MCTS)——没错,就是当年让 AlphaGo 称霸棋坛的核心算法!这让“AI 黑客”不再盲目试探,而是像下棋一样,精准预判目标模型的反应,高效探索出最容易让其“破防”的攻击路径。 基于这个强大的攻击框架,团队成功“套路”出了大量真实、危险的对话,并以此构建了业界首个多模态多轮对话安全数据集——MMDS: 规模庞大:包含 4,484 个经过精心标注的对话数据。 体系严密:定义了 8 个一级维度和 60 个子维度的安全风险分类体系,从暴力伤害、非法活动到隐私违规,应有尽有。 坚如磐石: LLaVAShield 闪亮登场
有了高质量的数据,主角 LLaVAShield 终于可以大展拳脚了。 与以往只能做单向检查的工具不同,LLaVAShield 是一个全能的安全审核员。它能够联合对话历史和跨模态信号,同时对“用户的输入”和“VLM 的回复”进行双向审查。 更厉害的是,LLaVAShield 不是一台只会喊"Safe"或"Unsafe"的无情机器。它具备强大的可解释性,能够像一位严谨的法官一样,输出完整的“判决书” : 判定结果:安全还是不安全? 违规维度:到底违反了哪一条规定(例:违法活动)? 核心证据 :为什么这么判?它能精准指出对话中的关键证据,确保审核过程透明、可追溯 。 实验结果:SOTA表现与反思归因
在的 MMDS 测试集上,LLaVAShield 展现出了统治级的表现 : 全面超越闭源巨头:在用户端审核中,LLaVAShield 取得了 95.71% 的 F1 分数,不仅远超现有的开源安全工具,更是大幅超越了GPT-4o、GPT-5-mini和Gemini-2.5-Pro等顶尖VLM。 又准又狠:在保证极高”召回率“的同时,兼顾“查准率”,意味着它不仅能精准拦截恶意内容,还能一定限度避免对合规对话的误判。 灵活适配策略:面对不同应用场景的安全标准,LLaVAShield 能够根据指定的“策略维度”灵活调整判断基准,展现出极强的泛化能力。
研究团队还通过系统的评估测试,深刻揭示了主流视觉语言模型(VLMs)在“多模态多轮对话”设置下应对有害输入的脆弱性,并对影响该场景安全机制的关键组件进行了深度剖析: 顶流大模型集体“破防”:面对多模态多轮攻击的绞杀,强如 GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Pro 等公认的“优等生”也频繁中招,主流防线依然十分薄弱。 图片是高危“催化剂”:研究发现,视觉信号能让模糊的恶意诱导具备“实操性”。一旦对话中引入图片,模型输出违规有害内容的概率便会大大提升。 对话越长,危险越大:大模型极易被长上下文“带节奏”。随着交互轮次的增加,模型对危险语境的“顺从性”越来越高,不知不觉就会滑向输出有害内容的深渊。 LLaVAShield 的提出,为视觉语言模型(VLM)的多模态内容审核提供了一种切实可行的新思路。这项工作不仅系统剖析了跨模态复杂交互中暗藏的深层危机,也为未来开发更安全、更负责任的 AI 助手打下了扎实的基础并增进了对安全机制的理解。


