11月24日,HAUST-HNU大模型与安全联合研究团队第19期组会在线召开。本次组会主题是大语言模型提示注入攻击和后门攻击。会议由河南师范大学荆军昌副教授主持。
河南科技大学2024级博士研究生权高原汇报了研究论文《大语言模型提示注入攻防博弈模型》。该研究论文围绕大语言模型的提示注入攻击问题,提出了一种基于博弈模型的威胁识别框架,旨在通过分析攻防策略间的博弈关系,为大语言模型代理的开发者提供了优化防御方案的理论依据。研究论文实验对GPT-3.5-Turbo和GPT-4o-latest进行了基准黑盒提示注入攻击,结合十种黑盒提示注入防御方法,测试了不同攻击防御策略下的攻击成功率。进一步通过对攻击者和防御者双方的收益矩阵的博弈演化,评估了当前防御策略的有效性。
河南科技大学24级博士研究生潘俊艳对研究论文内容做汇报交流。该研究主要是针对多模态大模型的后门攻击,提出了一种新的后门攻击方法,其中后门视觉触发器是根据不同的样本动态变化且不可见的。为了验证方法的有效性和先进性,在不同的多模态大模型和数据集上进行了攻击测试并达到了较高的攻击成功率。跟经典的后门攻击方法对比结果表明,本文所提的攻击方法更加有效且模型精确度更好,并能够更好的通过当前的防御方法。
在交流环节,与会成员对研究内容展开了深入讨论,围绕论文的研究思路、技术细节、创新点及疑问进行了热烈交流,并提出了具体的修改建议。
(图文/权高原、潘俊艳 审核/权高原)