12月8日,HAUST-HNU大模型与安全联合研究团队第20期组会在线召开。本次组会主题是大语言模型威胁分类和无差别数据投毒攻击。会议由河南师范大学荆军昌副教授主持。
河南科技大学2023级硕士研究生汤思敏汇报了CSA大中华区发布的《大语言模型威胁分类》报告。该报告旨在为行业提供一个全面的风险管理框架,帮助各行业识别、评估和管理LLM应用过程中可能遇到的风险。报告分别从大语言模型概述、大语言模型服务生命周期、大语言模型服务影响因子、大语言模型服务威胁因子等四个方面对大语言模型的风险分类进行分析。接着又汇报了自己的课题《一种样本级融合触发检测后门的通用方法》相关工作进展。
河南科技大学2023级硕士研究生胡奥迪汇报了题为《无监督对比学习的无差别数据投毒攻击》的论文,该论文提出了一种无差别数据投毒攻击方法——对比中毒(Contrastive Poisoning,CP),即通过在训练期间对模型添加扰动信息,从而达到攻击目的。为了验证该方法的有效性和先进性,论文对不同的对比学习算法进行了攻击测试,实验结果表明,论文所提的攻击方法更加有效并且能够成功的欺骗受害者模型。
在交流环节,与会成员主要针对文献的研究思路、创新点及不明之处展开了热烈的讨论,为下一阶段课题研究提供了新思路。
(图文/汤思敏、胡奥迪 审核/权高原)