2月20日,CSA多模态情感计算课题组第16期学术组会成功召开,会议由国际联合实验室宋斌老师主持。本次组会的主题是《TCMT: Target-oriented Cross Modal Transformer for Multimodal Aspect-Based Sentiment Analysis》。
河南科技大学2024级硕士研究生刘文静汇报了论文《TCMT: Target-oriented Cross Modal Transformer for Multimodal Aspect-Based Sentiment Analysis》。论文针对多模态情感分析中的噪声干扰、文本信息利用不足等问题,提出了一种目标导向的跨模态Transformer模型(TCMT),用于多模态细粒度情感分析。该模型包括文本辅助模块、视觉辅助模块和主模块(文本方面-情感提取模块、视觉方面-情感预测模块和文本-视觉对齐跨模态模块)。在文本辅助模块中,利用句法特征来帮助模型识别多词方面术语的边界,并采用光学字符识别(OCR)技术来捕获图像中包含的文本信息。在视觉辅助模块中,采用形容词-名词对(ANPs)检测对图像进行监督训练。此外,模型还改进了跨模态Transformer结构,在文本辅助模块中设计了一个基于GCN的Transformer来学习语法图,在视觉辅助模块中设计了一个基于CNN的Transformer来更多地关注图像中的重要信息。在跨模态MABSA模块中,设计了一个面向目标的交互组件,以促进模态交互学习和减轻图像噪声的影响,沿着对齐辅助组件,以优化模态对齐训练。模型在两个公开的基准数据集上进行了广泛的实验。结果表明,TCMT模型的性能显着上级基线模型,实现了**先进的结果。
在交流讨论环节,宋斌老师对汇报内容进行了总结,并提出了改进建议。其他与会组员也针对汇报内容提出了问题并分享了自己的见解,大家相互学习,填补了知识空白。
(图文/刘文静 审核/宋斌)