HAUST-HNU大模型与安全联合研究团队第43期组会召开 - 河南科技大学河南省网络空间安全应用国际联合实验室/河南省智能制造大数据发展创新实验室

2026年6月5日，HAUST-HNU大模型与安全联合研究团队第43期组会在线召开。本次组会主题是针对视觉语言模型驱动的具身智能体安全和融合渐进式时序线索解析伪造人脸视频检测方法。会议由河南师范大学荆军昌副教授主持。

河南科技大学2025级硕士研究生张艺馨于会议中汇报了题为《BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning》的研究，该研究针对视觉语言模型驱动的具身智能体，提出了**基于对比触发学习的视觉后门攻击框架，通过在环境中植入真实物体作为触发器，在不显著影响智能体正常任务性能的前提下，实现了隐蔽、精准的多步恶意行为激活。该方法通过两阶段训练——监督微调与对比触发学习——有效解决了视觉触发器因视角、光照、遮挡等因素导致的不稳定性问题。实验结果表明，BEAT在VAB-OmniGibson和EB-ALFRED两个家庭仿真基准上，实现了**高80%的攻击成功率，误触发率降**0%，且对后门数据量、超参数和触发器位置变化表现出高度鲁棒性。消融实验进一步验证了监督微调与对比触发学习各自的关键作用，两者缺一不可。这说明，在视觉语言模型与具身智能深度融合后，模型不仅继承了传统后门攻击的脆弱性，还暴露出视觉触发器多变带来的新攻击面，使得物理环境中的物体感知与决策之间的耦合成为重要安全隐患。该工作揭示了当前VLM具身智能体的严重安全漏洞，呼吁开发针对性防御机制。

图片1.png

河南师范大学2025级硕士研究生胡天赐于会议中汇报了题为《Face Forgery Video Detection via Temporal Forgery Cue Unraveling》的研究，该研究针对当前伪造人脸视频检测方法仅依赖单帧空间信息或粗粒度时空融合、忽视时序伪造线索中瞬时异常、渐进不一致与累积失真三个层次的核心痛点，提出了融合渐进式时序线索解析的创新模型TFCU。研究围绕两大挑战展开：一是时序伪造线索高度隐蔽，容易被自然的面部运动（如头部转动、表情变化）所掩盖，导致模型难以区分自然变化与伪造痕迹；二是现有方法在时序建模上存在粗粒度问题，无法有效捕捉从短时异常到长时不一致的渐进演变过程，且早期帧因缺乏历史信息而判别能力明显弱于后期帧。为此，TFCU设计了两大核心模块：一是连续关联模块，引入下三角掩码与随机掩码的交叉注意力机制，从连续帧的稀疏交互中捕捉瞬时异常线索；二是未来引导模块，通过异常线索聚合与不一致性传播两个子机制，结合面部关键点位移提示消除自然运动干扰，实现历史到未来的渐进不一致线索传播。此外，研究还设计了历史回顾模块，在推理阶段通过动量累积操作将未来帧的失真线索回传给历史帧，采用逆线性衰减权重控制距离衰减，从而强化早期帧的判别能力。在FaceForensics++数据集上训练后，在Celeb-DF、DFDC、FFIW三个跨数据集以及7种跨伪造方法（包括音频驱动、视频驱动、换脸等）上的大量实验验证表明，TFCU在帧级AUC上平均提升超过3%，视频级与帧级AUC差距从现有方法的大于5%缩小**1.8%，显著优于11种主流基线方法。消融实验、鲁棒性评估和渐进式线索可视化分析进一步证明了连续关联模块、未来引导模块与历史回顾模块各自的关键贡献，充分揭示了瞬时异常、渐进不一致与累积失真三层时序线索联合建模在提升伪造人脸视频检测泛化能力方面的重要作用，为构建高鲁棒、高泛化的视频伪造检测系统提供了新的技术路径。

图片2.png

交流讨论阶段，与会师生积极借鉴其“分层特征解耦”与“跨模态一致性约束”的思路，反思自身研究中是否存在特征利用粗放或忽略细粒度关联的问题。总体而言，这两项工作不仅展示了扎实的实验设计与**的性能表现，更为课题组后续在相关安全领域挖掘科学问题、设计创新算法提供了**价值的参考范本。