新闻中心
新闻中心

当前位置:首页 / 新闻中心 / 实验室动态 / 正文

HAUST-HNU大模型与安全联合研究团队第28期组会召开

2025-06-29

2025年6月29日,HAUST-HNU大模型与安全联合研究团队第28期组会在线召开。本次组会主题是改进的捷径融合选择性合理化方法和大语言模型进行预训练视觉语言模型的方法。

河南科技大学2024级博士研究生权高原汇报了《Towards faithful explanations: Boosting rationalization with shortcuts discovery》。针对传统的无监督合理化方法虽然不依赖人工标注,但往往容易依赖数据中的捷径特征(shortcuts)进行预测,导致生成的基本原理缺乏语义合理性与人类可解释性。尽管引入人工标注的有监督合理化方法能缓解该问题,但高质量标注的获取成本极高,难以在实际任务中广泛应用。为兼顾性能与标注成本,半监督合理化方法逐渐成为研究重点。然而,现有半监督方法依然面临两个关键问题:一是无监督阶段生成的解释中仍存在大量捷径干扰;二是标注样本稀缺导致模型泛化能力不足。因此,论文提出了一种融合捷径的选择性解释方法,通过显式引入捷径来提升模型的解释能力。具体而言,论文首先构建了一种捷径发现方法,用以识别多个潜在的捷径token。随后,论文设计了两种策略将识别出的捷径融入解释生成过程,从而缓解捷径干扰解释组成并导致分类结果误判的问题。**后,论文还利用这些捷径进行数据增强,将其替换为随机或语义相近的token。四个真实数据集上的实验结果验证了论文方法的有效性。该研究为可信人工智能的后续研究提供了新的思路和方法。

图片3.png

河南科技大学2024级博士研究生潘俊艳汇报了题为《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》的研究成果。端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行frozen,为了将两任务对齐,作者提出Querying Transformer (Q- Former)预训练。文中基于现有的图像编码器预训练模型,大规模语言模型进行预训练视觉语言模型;BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间的差异,**阶段从冻结图像编码器学习视觉语言表征,第二阶段基于冻结语言模型,进行视觉到语言生成学习。实验结果表明,BLIP-2是一种通用且计算高效的视觉语言预训练方案,使用frozen预训练图像编码器及LLM,在多个视觉语言任务达到SOTA,也证明了其在零样本instructed image-to-text生成能力。

图片4.png

在交流环节,与会成员主要针对文献的研究思路、创新点及不明之处展开了热烈的讨论,为下一阶段课题研究提供了新思路。

(图文/权高原、潘俊艳 审核/权高原)


微信扫码分享