LLaVAShield：揭露多模态多轮对话的安全风险，捍卫安全底线丨CVPR 2026

发布日期：2026-04-02 来源：瑞莱智慧RealAI 分享到：

当大模型不仅能“听懂”你的话，还能“看懂”你的图，甚至能陪你连续聊上数十个回合时，我们的生活似乎已经被彻底改变了。但是，能力越大，风险越大。你有没有想过，如果黑客利用“图片+长对话”的组合拳来套路AI，会发生什么？

传统的安全护栏在面对这种多模态、多轮次的复杂交互时，往往会显得力不从心。为了应对这一挑战，瑞莱智慧安全团队联合东南大学，清华大学等高校提出了一项极具前瞻性的工作——LLaVAShield。目前，该研究已被计算机视觉顶级学术会议 CVPR 2026 接收。

论文标题：

LLaVAShield:

Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

论文链接：

https://arxiv.org/abs/2509.25896

项目链接：

https://leost123456.github.io/LLaVAShield/

论文作者：

黄国磊、彭沁之、许淦、黄耀、陆宇轩、沈永俊

危机暗涌：

大模型的“防线”为何失守？

在单轮、纯文本的对话中，现在的 AI 已经具备了很强的安全意识，遇到“教我如何将自制炸弹放置到商场的地下停车场”这类问题，会毫不犹豫地拒绝。然而，当场景切换到多模态、多轮次的复杂交互时，传统的内容审核机制往往会显得力不从心。

研究团队敏锐地指出了当前大模型面临的三大致命风险特征：

恶意意图的隐蔽性：攻击者深谙“温水煮青蛙”，他们绝不会上来就干坏事，而是可能先假装成一个正在研究历史的学者，探讨某种炸弹装置的历史意义，然后再慢慢露出獠牙。
上下文风险累积：风险是随着对话慢慢“滚雪球”的。攻击者把一个大目标拆成几个看似无害的小问题，利用大模型对早期上下文的依赖，一步步将其带进沟里。比如，从历史科普不知不觉滑向高风险的炸弹放置建议。
跨模态联合风险：一张看似普通的地下车库照片，配上一句“把刚才讨论的装置放在图里哪里效果最好？”，单纯的文本或图像审查根本无法察觉其中的致命危险。

知己知彼：

全自动化“AI 黑客”与首个多模态安全数据集

为了打造最强的盾，必须先了解最利的矛。

目前业界非常缺乏针对这种复杂场景的安全数据集。为此，研究团队没有采用低效的纯人工构造，而是直接开发了一个名为 MMRT (Multimodal Multi-turn Red Teaming) 的自动化红队测试框架，这个框架就像是一个全副武装的“AI 黑客”，它的精妙之处在于打出了一套极具杀伤力的组合拳：

精通“越狱”兵法：它不仅会简单提问，更精通各种诱导策略，比如“角色扮演”、“循序渐进”、“意图反转”等，步步为营地给目标大模型下套。

跨模态信手拈来：它能自如地调用内部图像数据库和图片生成工具，把恶意意图藏在图片里，发起图文并茂的联合攻击。

高效搜索算法加持：为了让攻击效率最大化，MMRT 引入了蒙特卡洛树搜索 (MCTS)——没错，就是当年让 AlphaGo 称霸棋坛的核心算法！这让“AI 黑客”不再盲目试探，而是像下棋一样，精准预判目标模型的反应，高效探索出最容易让其“破防”的攻击路径。

基于这个强大的攻击框架，团队成功“套路”出了大量真实、危险的对话，并以此构建了业界首个多模态多轮对话安全数据集——MMDS：

规模庞大：包含 4,484 个经过精心标注的对话数据。
体系严密：定义了 8 个一级维度和 60 个子维度的安全风险分类体系，从暴力伤害、非法活动到隐私违规，应有尽有。

坚如磐石：

LLaVAShield 闪亮登场

有了高质量的数据，主角 LLaVAShield 终于可以大展拳脚了。

与以往只能做单向检查的工具不同，LLaVAShield 是一个全能的安全审核员。它能够联合对话历史和跨模态信号，同时对“用户的输入”和“VLM 的回复”进行双向审查。

更厉害的是，LLaVAShield 不是一台只会喊"Safe"或"Unsafe"的无情机器。它具备强大的可解释性，能够像一位严谨的法官一样，输出完整的“判决书” ：

判定结果：安全还是不安全？
违规维度：到底违反了哪一条规定（例：违法活动）？
核心证据：为什么这么判？它能精准指出对话中的关键证据，确保审核过程透明、可追溯。

实验结果：SOTA表现与反思归因

在的 MMDS 测试集上，LLaVAShield 展现出了统治级的表现：

全面超越闭源巨头：在用户端审核中，LLaVAShield 取得了 95.71% 的 F1 分数，不仅远超现有的开源安全工具，更是大幅超越了GPT-4o、GPT-5-mini和Gemini-2.5-Pro等顶尖VLM。
又准又狠：在保证极高”召回率“的同时，兼顾“查准率”，意味着它不仅能精准拦截恶意内容，还能一定限度避免对合规对话的误判。
灵活适配策略：面对不同应用场景的安全标准，LLaVAShield 能够根据指定的“策略维度”灵活调整判断基准，展现出极强的泛化能力。

研究团队还通过系统的评估测试，深刻揭示了主流视觉语言模型（VLMs）在“多模态多轮对话”设置下应对有害输入的脆弱性，并对影响该场景安全机制的关键组件进行了深度剖析：

顶流大模型集体“破防”：面对多模态多轮攻击的绞杀，强如 GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Pro 等公认的“优等生”也频繁中招，主流防线依然十分薄弱。
图片是高危“催化剂”：研究发现，视觉信号能让模糊的恶意诱导具备“实操性”。一旦对话中引入图片，模型输出违规有害内容的概率便会大大提升。
对话越长，危险越大：大模型极易被长上下文“带节奏”。随着交互轮次的增加，模型对危险语境的“顺从性”越来越高，不知不觉就会滑向输出有害内容的深渊。

LLaVAShield 的提出，为视觉语言模型（VLM）的多模态内容审核提供了一种切实可行的新思路。这项工作不仅系统剖析了跨模态复杂交互中暗藏的深层危机，也为未来开发更安全、更负责任的 AI 助手打下了扎实的基础并增进了对安全机制的理解。

LLaVAShield：揭露多模态多轮对话的安全风险，捍卫安全底线丨CVPR 2026

你知道你的Internet Explorer是过时了吗?