CSA多模态情感计算课题组第43期学术组会召开 - 河南科技大学河南省网络空间安全应用国际联合实验室/河南省智能制造大数据发展创新实验室

2026年5月7日，CSA多模态情感计算课题组第43期学术组会成功召开，会议由国际联合实验室宋斌老师主持。本次组会的主题是多模态对话情感识别技术和基于文本中心层次化融合网络的多模态情感分析。

河南科技大学2025级硕士研究生张傲对《用于对话情感识别的多层次对齐与跨模态统一语义图精炼网络》文献进行汇报交流。本次汇报分为五个部分：第**部分为研究背景与问题提出，介绍多模态对话情感识别的研究意义，指出传统方法存在跨模态对齐偏差、情感不确定性忽略、语义特征提取不充分等关键问题。第二部分为核心模型架构，介绍 MACMUSGRNet网络整体设计，明确模型以多级对齐、跨模态融合、语义图精炼为核心技术路线。第三部分为关键技术模块，分别阐述多级表示对齐、跨模态不确定性感知统一、双编码语义图精炼三大模块的实现思路与作用。第四部分为实验与结果分析，汇报模型在 IEMOCAP、MELD、CMUMOSEI三大公开数据集上的测试效果，证明其性能优于现有主流方法。**后一部分为总结与展望，总结模型创新点与优势，分析当前研究局限，并提出未来可结合视觉模态、面向中文场景优化的发展方向。

图片1.png

随后，河南科技大学2025级研究生姜先博对《TCHFN: Multimodal Sentiment Analysis Based on Text-Centric Hierarchical Fusion Network》文献进行汇报交流。本次汇报主要分为五部分：一是介绍论文的研究背景与问题动机，指出多模态情感分析虽然已经能够融合文本、音频和视觉信息，但仍需要进一步解决模态贡献区分、非文本噪声抑制和融合冗余筛选等问题；二是梳理TCHFN的总体框架，包括“单模态特征提取—低层融合—高层融合—输出与训练”的完整流程，其中文本使用BERT提取特征，音频和视觉通过预训练工具提取初始特征后，再经Transformer与Linear层进行时序建模和维度映射；三是重点说明论文的核心方法：通过Cross-modal Reinforced Transformer（CRT）实现有方向的跨模态增强，通过Text Enhancement Network让音频和视觉辅助文本表示，通过Text-Centric Contrastive Learning（TCCL）以文本为锚点拉近同一样本的文本-音频、文本-视觉表示，并推远不同样本的跨模态表示，同时利用高层融合机制构建text-visual和text-audio两条双模态分支进行交叉融合；四是对实验结果与消融实验进行分析，指出TCHFN在CMU-MOSI、CMU-MOSEI和CH-SIMS三个数据集上取得较强表现，其中CMU-MOSEI上整体效果较为突出，CH-SIMS上也体现出文本中心融合思想在中文场景下的适用性，消融实验进一步表明文本模态**为关键，文本增强、非文本增强、TCCL和Output Gate均对性能提升具有贡献；五是总结论文的局限与启示：该方法的优势在于文本中心动机清晰、层次化结构完整、模块设计与问题对应明确，但也存在模型模块较多、结构复杂度较高、TCCL可能过度压缩非文本独有信息、缺少缺失模态和噪声模态鲁棒性实验等问题。通过本次汇报，参会同学进一步理解了文本中心多模态融合的研究思路，也为后续开展文本引导的非对称融合、共享瓶颈约束、特征级去噪以及缺失模态鲁棒性实验等研究提供了参考。

图片2.png

在交流环节，宋斌老师对汇报进行了总结，并提出建设性建议，指明了下一步学习的方向。

（图文/张傲、姜先博审核/宋斌）