当前位置: 首页 > 新闻要览 > 内大要闻 > 正文

我校蒙古文智能信息处理技术国家地方联合工程研究中心6篇论文被多媒体领域顶级国际会议ACM MM 2025录用


近日,我校蒙古文智能信息处理技术国家地方联合工程研究中心6篇论文被ACM MM 2025录用。ACM MM 2025也称为第33届ACM国际多媒体大会,英文全称The 33nd ACM International Conference on Multimedia (ACM MM),是CCF推荐的A类国际会议。ACM MM 2025将于2025年10月27日至10月31日在爱尔兰都柏林举行。本次录用的6篇论文研究内容涵盖大语言模型谄媚评估与缓解、三维人体运动序列检索、假新闻检测、对话语音合成、缺失模态情感识别和改善通用模型领域迁移能力等,以下为论文简述。

论文题目:Evaluating and Mitigating Sycophancy in Large Vision-Language Models

作者:高嘉怿,张怀文*

单位: 内蒙古大学计算机学院

工作简介:大型视觉语言模型(Large Vision-Language Model, LVMLs)展现出了对视觉信息理解与推理方面的强大能力。然而,这类模型可能会过度迎合用户观点而生成偏离事实的响应,这一现象被称为谄媚(Sycophancy)。谄媚对LVLMs的性能、可信度与安全性构成了严峻的挑战,并限制了其在实际应用中的可靠性。然而,目前关于LVLMs中谄媚行为的系统性评估与缓解的研究仍然较为有限。为此,我们提出了SyEval-VL,一个专为评估LVLMs中谄媚行为设计的评估基准。SyEval-VL采用多轮对话的评估方式,覆盖了多种视觉理解与视觉推理场景,实现了对LVLMs中谄媚行为的全面的量化评估。我们基于SyEval-VL评估了多个主流的大型视觉语言模型,并从多个角度深入分析了不同的谄媚模式以及谄媚产生的原因。此外,我们还提出了基于人类反馈的检索增强生成方法(Human Feedback-based Retrieval-Augmented Generation, HFRAG)用于缓解LVLMs中的谄媚行为。HFRAG通过确定合适的检索时机、剖析合理的检索目标,并增强模型的生成过程,可以有效降低大型视觉语言模型过度依赖语言先验的模态不平衡问题,从而减轻LVLMs的谄媚倾向。大量实验结果表明,该方法无需额外训练即可显著缓解LVLMs中的谄媚行为。

图1. 基于人类反馈的检索增强生成方法

论文题目:Sequence-Event Semantic Consistent Learning for Text-to-Motion Retrieval

作者:时浩宇,张怀文*

单位: 内蒙古大学计算机学院

工作简介:文本到三维运动序列检索(TMR)是一项重要的跨模态任务,它旨在检索语义上与给定查询文本相似的运动序列。现有的方法主要利用单个嵌入来表示和对齐文本和运动序列。然而,现实世界中的动作序列通常包含多个具有复杂语义的连续动作,这些动作很难通过单一嵌入精确捕获。此外,仅仅依靠简单的对比训练来获取高层次的语义可能难以感知和捕获精确文本-动作对齐所需的细粒度动作细节。针对上述问题,我们提出了一个运动序列-事件语义一致性学习框架(SECL),从运动序列和动作事件两个语义层面进行语义建模,从而实现了更为详尽的跨模态语义对齐。SECL框架通过扩散模型(Diffusion)的生成反馈机制优化细粒度动作语义捕获,并引入重要性采样策略,强调硬负样本在表征学习中的作用。大量实验结果表明,SECL在两个主流基准数据集上均显著超越现有方法,不仅大幅提升了三维人体运动检索的性能,并在多个相关任务(如多人运动序列交互、三维人体运动时序定位)中展现出强大的泛化能力。

图2. SECL的模型结构图

论文题目:ECR-FND: Event Consistency-aware Robust Fake News Detection

作者:曹力元,郭子航,张怀文*

单位:内蒙古大学计算机学院

工作简介:短视频平台已成为信息传播的重要渠道,但随之而来的多模态虚假新闻愈发猖獗,对社会舆论造成严重干扰。现有多模态虚假新闻检测方法普遍仅基于简单的多模态特征融合,忽视了真实新闻事件的逻辑一致性和音视频中潜藏的篡改线索,因而检测性能受限。针对这一问题,本文提出事件一致性感知鲁棒虚假新闻检测(ECR-FND) 任务,作为传统多模态检测的扩展,通过深入建模短视频新闻中文本、视频、音频三模态之间的语义一致性与篡改特征,提升检测鲁棒性。为此,我们设计了统一的 ECR-FND 框架,融合事件感知视频去噪学习(EVDL) 与 音频篡改信息捕捉模块(ATCM) 两大关键模块。EVDL 基于大语言模型增强的文本查询,通过跨模态一致性评分,有效剔除视频中与核心新闻事件无关的片段;ATCM则利用文本-音频语义不一致性打分,自适应放大音频中潜藏的篡改特征。为保证检测过程的鲁棒性和精度,我们进一步提出 全局信息感知对比学习 和 情感一致性建模 等优化策略。大量实验结果显示,ECR-FND 在两个主流基准数据集上均显著优于现有方法,不仅提升了对事件一致性的感知能力,也增强了模型对音频篡改的敏感性,从而实现更精准的多模态虚假新闻检测。

图3. ECR-FND模型结构图

论文题目:UniTalker: Conversational Speech-Visual Synthesis

作者:胡一帆1,刘瑞1*,任意2,殷翔2,李海洲3

单位:1 内蒙古大学计算机学院, 2字节跳动(新加坡),3香港中文大学(深圳)

工作简介:对话式语音合成(CSS)作为人机交互领域的核心任务,旨在为用户生成更具表现力与共情力的语音。然而现实人际交流中,"用心倾听"与"视觉交互"对情感传递起着关键作用。现有CSS研究仅能感知对话上下文中的文本与语音,其效果存在局限,纯语音响应模式更制约了交互体验。为突破这些限制,本文提出对话式音视频合成(CSVS)任务作为传统CSS的扩展,通过利用文本、语音、视觉多模态对话上下文,为用户提供连贯的音视频响应。为此,我们开发了名为UniTalker的CSVS系统——这是一个集多模态感知与多模态渲染能力于一体的统一模型。该系统基于大语言模型全面理解对话上下文中的多模态线索(包括说话者、文本、语音及说话人脸动画),继而通过多任务序列预测,先推断目标话语情感,再生成共情语音与自然的说话人脸动画。为确保生成的音视频内容在情感、内容和时长上保持同步,我们提出三项关键优化:1)设计专用的Landmark Codec量化和重建面部表情序列;2)提出双模态音视频硬对齐解码策略;3)在生成阶段实施情感引导渲染。主客观实验表明,本模型合成的语音更具共情力,并为用户提供更自然、情感更一致的说话人脸动画。

图4. UniTalker的模型结构图

论文题目:Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities

作者:刘瑞1*,左昊麟1,连政2,袁宏宇1,范齐1

单位:1 内蒙古大学计算机学院, 2 中科院自动化所

工作简介:缺失模态处理已成为多模态情感识别(MER)领域的关键研究方向。传统方法通常通过缺失模态重构来解决该问题,但这些方法未能考虑不同样本重构难度的差异性,导致模型难以有效处理困难样本。为突破此局限,本文提出新型难度感知动态课程学习框架HARDY-MER。该框架分两阶段运作:首先评估各样本的难度等级,继而在训练中策略性强化困难样本的学习,以提升模型处理挑战性实例的能力。具体而言,我们创新性提出:1)多视角难度评估机制,通过综合考量直接难度(模态重构误差)与间接难度(跨模态互信息)量化重构难度;2)基于检索的动态课程学习策略,通过检索语义相似样本并平衡难易样本的学习权重,动态调整训练课程。在基准数据集上的大量实验表明,HARDY-MER在缺失模态场景下始终优于现有方法。

图5. HARDY-MER模型结构图

论文题目:Fourier Self-Adaptation for Transferring General Pretrained Models to Specific Domains

作者:刘磊,苏向东*,高光来

单位:内蒙古大学计算机学院

工作简介:通用预训练模型已成为各个领域的重要支撑,但其在特定领域的迁移仍面临挑战。现有方法多依赖源域数据进行分布对齐,且大多聚焦于单一任务,限制了模型的泛化能力与应用范围。为解决这一问题,本文提出一种无需源数据的图像自适应方法,Fourier Self-Adaptation(FSA),旨在提升通用模型在多领域任务中的迁移能力。该方法充分利用傅里叶相位与幅度在语义与感知上的差异特性:相位含有高级的结构和位置信息,稳定性强;振幅则承载亮度与细节信息,易受领域漂移影响。FSA通过从高斯分布中初始化一个可学习的自适应图像,并与目标图像在频域进行幅度插值,其中插值比重由可学习weight和bias动态调节,实现对目标数据分布的动态对齐。同时,FSA引入去偏正则化机制,引导模型关注目标领域内在关系,剔除无关冗余表征。基于FSA框架,我们在11个图像分类任务和6个多模态视觉问答任务中开展评估,涵盖放射学、病理学、遥感、艺术等多个专业领域。实验结果表明,FSA在多个数据集上均显著优于基础预训练模型,性能提升幅度达1%至8%,验证了其在复杂领域迁移场景中的广泛适用性与领先性能。

图6. FSA模型结构图

上述研究工作获得了国家自然科学基金项目、内蒙古自治区自然科学基金项目、内蒙古大学“骏马计划”项目、内蒙古自治区高校青年科技英才等项目的支持。

(供稿:蒙古文智能信息处理技术国家地方联合工程研究中心   编辑:李文娟    终审:阿茹娜)


-------- 相关新闻 --------

读取内容中,请等待...