2026年4月12日,HAUST-HNU大模型与安全联合研究团队第39期组会在线召开。本次组会主题是基于反向翻译与动态自我提醒的LLM越狱防御方法和一种用于深度伪造视频检测的多粒度并行时空学习架构。会议由河南师范大学荆军昌副教授主持。
河南科技大学2024级硕士研究生师灿于会议中汇报了题为《语义回滚防御:一种用于大语言模型意图重构的模型无关框架》的研究,该研究聚焦大语言模型(LLM)面临的越狱攻击安全风险,提出了一种模型无关的防御框架,将越狱攻击缓解任务重构为语义意图还原任务。该框架融合稠密风险表征与递归式意图回滚机制,能够精准识别并消解隐藏在复杂对抗性提示词中的潜在恶意目标。当前多模态大模型融合文本、图像等多种模态信息,其“越狱”攻击问题日益严峻,这类攻击通过精心设计的提示规避模型安全机制,诱导生成违反**规范、危害社会安全的内容。
研究的核心内容是提出“反向翻译意图还原-动态提醒生成-双重校验”的一体化防御框架;同时基于安全-关键参数梯度分析设计动态模板生成机制,通过二分类模型区分有害与无害提示,适配不同自我提醒模板,克服固定模板易被绕过的缺陷,降低误判风险,同时保留模型对良性提示的正常响应能力。不同于表层过滤方法,本方法基于重构出的用户意图动态调整安全约束,无需访问模型内部信息即可实现精准干预。全面的评估实验表明,这种以意图为核心的防御范式,在不同模型架构上均能对自适应黑盒攻击保持稳定的鲁棒性。

河南师范大学 2024 级硕士研究生苏汉于会议中汇报了题为《一种用于深度伪造视频检测的多粒度并行时空学习架构》的研究,该研究针对Deepfake伪造痕迹细微、现有检测方法泛化性与鲁棒性不足的问题,提出多粒度并行时空学习检测架构,从网络结构、训练数据、监督策略三大核心环节系统性融入多粒度学习,实现更精准、泛化性更强的Deepfake视频检测。研究提出一种多粒度并行时空深度伪造视频检测架构,通过全新框架在整个训练流程中挖掘更具判别性的伪造线索。设计了结合交叉引导机制的并行时空网络,同步提取帧级空间特征与块级时间特征,并利用空间伪影与时间不一致性之间的关联,实现多粒度时空同步学习。作者提出片段级数据增广策略,包括帧随机一致性自融合与时空数据增广,在帧级与块级提升训练数据多样性,增强模型学习全面伪造特征的能力。**后构建多粒度监督机制,包含块级时间损失、基于距离的帧级空间损失与标准片段级损失,用于学习细微的深度伪造特征。

交流讨论阶段,与会师生围绕两项研究的创新亮点、研究方向的内在关联展开深入交流,既针对实验设计思路与关键技术细节进行了细致研讨,也就研究方法的借鉴应用、对后续科研工作的启发价值开展务实探讨,为课题后续深化推进夯实了基础。