12月31日,HAUST-HNU大模型与安全联合研究团队第38期组会在线召开。本次主题一种基于博弈论的提示注入攻击检测方法及通过跨模态 触发器对仇恨表情包检测的后门攻击技术。会议由河南师范大学荆军昌副教授主持。
河南科技大学2025级硕士研究生谢中原汇报了有关“数据哨兵:一种基于博弈论的提示注入攻击检测方法(DataSentinel)”的研究。该方法创新性地提出了针对LLM集成应用的博弈论驱动检测方案,旨在解决现有技术面对自适应攻击时误报率高、漏报率高的核心痛点。DataSentinel通过内层**大化策略生成能同时绕过检测LLM与误导后端LLM的强自适应攻击样本,外层**小化策略则用干净样本与**新攻击样本微调检测模型,依托秘密密钥验证规则实现污染数据的精准识别,**后交替迭代求解实现攻防对抗。该方法在覆盖7类目标任务9种现有攻击及3种自适应攻击的**度实验中假阳性率(FPR)接近0,假阴性率(FNR)**高仅为0.07,展现出高鲁棒性与跨LLM泛化能力,为LLM集成应用提供了高效可靠的安全防护方案。

河南科技大学2025级硕士研究生唐寅皓于会议中汇报了题为“通过跨模态触发器对仇恨表情包检测的后门攻击”的研究,该汇报围绕 Meme Trojan 框架展开,核心是通过跨模态触发器(CMT)对仇恨模因检测模型实施后门攻击。CMT设计为“··”视觉图案,仅注入图片模态却能被OCR识别为文字,实现“单注入双模态攻击”,搭配触发器增强器(TA)融合中毒特征与基础触发,平衡隐蔽性与攻击精准度。训练采用分类损失(保障检测与攻击功能)+ 多样性损失(提升触发泛化性),1%毒化率构建中毒数据集。实验在3个数据集、6种模型上验证,CMT 自动文字提取场景ASR比基线高50%+,抗Neural Polarizer防御后FBHM数据集ASR仍100%,视觉(PSNR>60)与文字(USE≈0.98)隐蔽性**优,填补多模态模因后门攻击空白。

在交流讨论环节,与会师生主要围绕两项研究的创新性、目前研究方向的相关性及对后续科研工作的启发性展开了务实探讨,为课题的深入推进奠定了良好基础。