2025年6月8日,HAUST-HNU大模型与安全联合研究团队第25期组会在线召开。本次组会主题是基于反向翻译的大语言模型越狱攻击防御和对齐语言模型通用可转移对抗攻击。
河南科技大学2024级硕士研究生师灿汇报了题为《Defending LLMs against Jailbreaking Attacks via Backtranslation》的论文。该论文聚焦于大语言模型(LLM)面临的越狱攻击问题,提出了一种基于反向翻译的防御方法。通过目标LLM对输入提示生成的初始响应,反向翻译模型推断出可能的输入提示(即反向翻译提示),该提示倾向于揭示原始提示的真实意图。若目标LLM拒绝反向翻译提示,则拒绝原始提示。此方法在有效性和效率上具多重优势,如基于模型响应而非易被操纵的输入提示,利用模型固有拒害能力,不影响良性输入生成质量,且无需额外训练、推理高效。实验表明,该防御在基线方法表现不佳的场景下显著优于基线,对良性输入生成质量影响甚微,为LLM越狱攻击防御提供了新思路。
河南科技大学2024级硕士研究生薛梦丹汇报了题为《Universal and Transferable Adversarial Attacks on Aligned Language Models》的论文。该研究创新性地提出了GCG对抗性攻击方法,系统揭示了当前主流对齐语言模型在安全性方面存在的重大隐患。通过结合贪婪搜索与梯度信息的智能算法,成功开发出能够自动生成攻击后缀的高效攻击技术。实验结果表明,这种攻击方法不仅能有效诱导目标模型产生不当行为,还展现出跨模型迁移能力。值得注意的是,该研究深入探讨了攻击成功率与模型优化之间的内在关联,为理解语言模型的安全脆弱性提供了新的理论视角。
在交流环节,与会成员主要针对文献的研究思路、创新点及不明之处展开了热烈的讨论,为下一阶段课题研究提供了新思路。
(图文/师灿、薛梦丹 审核/权高原)