2026年4月26日,HAUST-HNU大模型与安全联合研究团队第40期组会在线召开。本次组会主题是面向视觉语言模型的零样本对抗鲁棒性和图像伪造定位的伪造引导视觉 Mamba 与多尺度频率感知。会议由河南师范大学荆军昌副教授主持。
河南科技大学2024级硕士研究生薛梦丹于会议中汇报了题为《On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free Approach》的研究,该研究针对现有预训练视觉语言模型CLIP在对抗样本下易出错、而传统对抗训练方法依赖额外数据且易过拟合、不符合真正零样本设定的问题,提出了一种锚点引导的一步线性移动(AOM)检测防御架构。从特征移动方向构造、锚点建立、线性插值三大核心环节系统性融入无需训练的对抗净化思想,实现更鲁棒、泛化性更强的零样本对抗防御。研究提出一种真正零样本且无需训练的对抗鲁棒性增强框架,通过全新特征空间操作在整个推理流程中挖掘对抗样本的干净语义方向。设计了结合随机平滑启发的锚点构建机制,同步采用多次加噪编码平均的方式获取稳定锚点特征,并利用对抗特征与锚点特征之间的线性路径,实现单步特征移动。该方法无需任何监督损失或微调,仅通过超参数σ和α控制噪声强度与移动步长即可学习细微的对抗偏移纠正能力,在16个数据集上显著超越现有**先进方法,保持原有泛化能力几乎无损。

河南师范大学 2025 级硕士研究生赵文豪于会议中汇报了题为《F2Mamba:用于通用图像伪造定位的伪造引导视觉 Mamba 与多尺度频率感知》的研究,该研究针对图像伪造痕迹细微、传统方法难以兼顾宏观结构不一致与微观频域伪影、现有检测定位方法泛化性与鲁棒性不足的问题,提出伪造引导 + 多尺度频域感知的 F2Mamba 通用图像伪造定位架构,从编码器设计、频域特征建模、解码预测三大核心环节系统性融合全局感知与细粒度频域学习,实现更精准、泛化性更强的图像伪造像素级定位。研究提出一种伪造引导视觉 Mamba(FGMamba)编码器,通过专用 forgeryaware 结构在特征提取阶段聚焦伪造异常而非语义内容,挖掘更具判别性的伪造线索。设计了多尺度自适应频域感知(MAFP)模块,对编码器中间特征进行自适应高低频分解与融合,同步捕捉宏观结构不连续与微观频域痕迹,抑制背景干扰并强化细微伪造 artifact。作者提出中间特征频域分解策略,替代传统直接对原图做 DCT 的方式,在多尺度层级提升有效特征多样性,增强模型学习通用伪造模式的能力。**后构建结合二分类交叉熵与 Dice 损失的监督机制,用于端到端学习细微的图像伪造特征,实现跨数据集、跨伪造类型的稳定定位。

交流讨论阶段,与会师生围绕相关研究的创新亮点、与当前研究方向的内在关联展开深入交流,既针对跨数据集实验设计、特征提取等关键技术细节进行了细致研讨,也就两篇文献的创新机制研究对后续科研工作的启发价值开展务实探讨,为课题后续深化推进夯实了基础。