新闻中心
新闻中心

当前位置:首页 / 新闻中心 / 实验室动态 / 正文

HAUST-HNU大模型与安全联合研究团队第35期组会召开

2025-11-16

       11月16日,HAUST-HNU大模型与安全联合研究团队第35期组会在线召开。本次主题基于反向翻译与动态自我提醒的越狱防御方案及可解释性增强的文本对抗防御技术。会议由河南师范大学荆军昌副教授主持。

       河南科技大学2024级硕士研究生师灿于会议中汇报了题为《基于反向翻译与动态自我提醒的LLM越狱防御方法》的研究,该研究聚焦大语言模型(LLM)面临的越狱攻击安全风险,提出了一套兼顾准确性与鲁棒性的一体化防御方案。该研究提出“反向翻译意图还原-动态提醒生成-双重校验”的一体化防御框架;同时基于安全-关键参数梯度分析设计动态模板生成机制,通过二分类模型区分有害与无害提示,适配不同自我提醒模板,克服固定模板易被绕过的缺陷,还引入多模型双重校验逻辑,结合意图还原结果与动态自我提醒的强化作用,降低误判风险,同时保留模型对良性提示的正常响应能力。具体技术路线为:先通过反向翻译模型从目标LLM的初始响应中提取潜在意图,剥离对抗性提示伪装;再通过安全-关键参数梯度分析检测意图安全性,生成适配的自我提醒系统提示;**后将动态自我提醒与提取的意图结合,输入多模型共同判断,任一模型拒绝即判定原始提示为恶意。

图片3.png

       河南科技大学2024级硕士研究生薛梦丹汇报了有关“基于局部可解释性增强的掩码语言模型(MLM)协同防御方法”的研究进展。该方法首先利用LIME分析模型输出的局部重要性分布,精准定位潜在的对抗性token,再通过预训练MLM对被扰动词进行分层掩码重建与语义修复。为保证语义一致性,引入Sentence-BERT相似度与BERTScore指标对修复结果进行动态约束,实现语义保持与防御鲁棒性的平衡。与传统对抗训练方法相比,该方法无需额外模型微调即可实现自动检测与净化,有效提升防御精度与可部署性,为文本模态下的轻量化防御提供新的实现路径。

图片4.png

       在交流讨论环节,与会师生主要围绕两项研究的创新性、方法可行性及实验设计等具体技术细节展开了务实探讨,并就后续改进方向提出了建设性意见,为课题的深入推进奠定了良好基础。

微信扫码分享