新闻中心
新闻中心

当前位置:首页 / 新闻中心 / 实验室动态 / 正文

实验室在大语言模型越狱攻击方向发表论文

2025-09-29

一、方法简介  

在针对国内大语言模型的安全研究中,研究团队提出了中文语义混淆黑盒越狱攻击方法,该方法聚焦中文语言特性,解决了现有英文越狱技术在中文环境中的适配问题。研究首先通过中文敏感词数据库与特定算法,精准识别恶意提示中的敏感关键词,再针对这些关键词生成同音词列表,挑选出与原词语义偏差**大的同音词进行替换,以此制造语义混淆。同时,结合师生场景嵌套、前缀注入、拒绝抑制等策略,将混淆后的内容构建成**终的越狱提示,从而绕过模型的安全机制。为准确评估攻击效果,研究还构建了中文专用评估模型,从特定数据集中提取高频拒绝短语,结合情感偏差特征训练分类器,评估准确率显著高于传统方法,避免了依赖外部模型评估的局限性。

图片1.png

二、实验评估  

实验环节选取了多个主流国内大语言模型作为测试对象,同时从专用数据集中随机选取大量有害提示作为输入数据。评估过程中,除了常用的攻击成功率和危害分数,还创新提出综合攻击效能指标,综合衡量攻击的达成效果与输出危害程度,并选取多种主流黑盒越狱方法作为基线进行对比。实验结果显示,传统基线方法在中文环境中存在明显不足,部分方法因模型解码能力弱导致攻击无效,部分方法虽能提高攻击成功率但危害程度低。而研究提出的中文语义混淆攻击在多数模型上表现更优,攻击效能显著提升,仅在个别模型上因针对性防御策略效果稍弱。

图片2.png

消融实验进一步验证了中文同音混淆在攻击中的关键作用,移除该模块后,攻击效能平均下降明显,部分模型降幅甚**超过三成,证实了该模块对提升攻击效果的重要性。此外,实验还发现模型能力与攻击效能存在关联,计算能力和生成创造力强的模型对攻击的抵抗力更强,而百科知识丰富的模型因更关注语**读,对敏感信息的敏感度相对较低。同时,不同攻击在各类安全场景中的效果存在差异,研究提出的攻击能有效放大国内大语言模型在特定场景的漏洞,为后续针对性防御提供了方向。

图片3.png

论文信息  

相关论文已被Cybersecurity 2025录用,作者是河南科技大学的岳欣馨、张志勇(通讯作者)、汤思敏、薛梦丹,河南师范大学的荆军昌,新华三集团的汪卫国。

 

供稿:岳欣馨

微信扫码分享