2026年1月14日,CSA多模态情感计算课题组第37期学术组会顺利召开。本次会议由国际联合实验室宋斌老师主持。本次组会的主题是《Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning A Survey》和《TF-BERT: Tensor-based fusion BERT for multimodal sentiment analysis》。
河南科技大学2025级硕士研究生张笑笑对《Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning A Survey》文献进行汇报交流,汇报围绕五大核心内容展开:在研究背景与问题部分,大型语言模型(LLMs)擅长自然语言处理却“盲视”多模态数据,大型视觉模型(LVMs)则在语言推理上存在局限,而多模态大型语言模型(MLLMs)的出现为跨模态情感理解提供了新范式,但该领域缺乏系统性综述,本次汇报恰好填补这一空白,重点探讨了LLM/MLLM应用现状、传统方法与MLLM的互补关系、未来发展方向三大核心问题。重点介绍了三类技术路径,即传统深度表示学习方法、LLM-based方法及MLLM-based端到端推理方法,并明确“参数冻结”“参数调优”两大核心范式,前者高效低耗,后者适配复杂场景。同时梳理了数据集自动化构建流程及经典基准数据集特征。实验结果显示,全模态融合模型泛化性能**优,开源模型通过指令微调可缩小与闭源模型的差距,参数高效调优能平衡性能与资源消耗。汇报还分析了细粒度对齐不足等三大挑战,提出分层对齐、因果建模等未来方向。

随后,河南科技大学2025级硕士周雅欣对《TF-BERT: Tensor-based fusion BERT for multimodal sentiment analysis》文献进行汇报交流,先介绍了多模态情感计算的发展趋势及现有方法的缺陷——传统Transformer仅能两两处理模态易致信息丢失,基于BERT的模型单一层级融合不充分,还存在噪声引入、维度适配等问题。随后详细阐述了TF-BERT模型的核心架构,包括实现多模态渐进式融合的TCF模块和实现三模态同步交互的TCT模块的功能、流程与工作原理。接着通过CMU-MOSI和CMU-MOSEI数据集的实验、消融实验及对比实验,验证了TF-BERT在多数指标上优于现有SOTA模型,且多层嵌入效果优于单层嵌入。**后总结了模型突破“两两交互”和“单一层级融合”瓶颈的核心创新,同时指出了其易引入噪声、计算成本高、未处理数据缺失等局限性。

在交流讨论环节,宋斌老师对汇报进行了总结,并提出了宝贵的建设性建议。其他与会组员围绕汇报内容提出了问题并展开了深入讨论,进一步加深了对相关问题的理解。
(图文/张笑笑、周雅欣 审核/宋斌)