近日,张怀文研究员团队最新研究成果被2024年的计算机信息检索领域国际顶级会议(International ACM SIGIR Conference on Research and Development in Information Retrieval, CCF-A)录用,题为" Hierarchical Semantics Alignment for 3D human motion retrieval"。文章作者均来自我校计算机学院(软件学院),包括2021级博士生杨洋(第一作者),2023级硕士生时浩宇,张怀文研究员(通讯作者)。文本到三维人体运动检索(TMR)是内容检索中的一项重要的任务,它旨在用自然语言描述查询相关的运动序列。TMR的传统方法是将数据实例表示为对齐的点嵌入。然而,在现实场景中,多个动作经常同时出现并叠加在单个角色上,简单地将文本和动作序列聚合到单个全局嵌入中可能不足以捕获叠加动作的复杂语义。此外,大多数运动变化都由三维模型的局部肢体发出,这进一步给运动序列和对应文本的精准对齐带来了相当大的挑战。张怀文研究员团队提出了一种层次化语义对齐的方法,通过全局、局部特征对比学习,有效捕获了不同粒度下文本和运动特征的语义关系,从而提升模型的检索性能。
图1 文本到三维动作检索存在动作叠加等挑战
文章提出了一种新的层次化语义对齐方法,利用概率分布编码器将文本和运动序列编码成多维概率分布,有效地捕获叠加动作的语义;为了捕获更加细微的动作,文章对细粒度特征进行过滤,将有代表性的细粒度文本和运动特征进行聚合,通过对聚合后的特征进行对齐,从而达到高效、精确的跨模态对齐。实验结果表明,这项工作提出的方法有效的对齐了文本和运动模态的数据,极大地提升了文本和三维动作特征的检索性能。
这项研究得到了国家自然科学基金青年项目、内蒙古大学骏马计划、内蒙古自治区高校青年科技英才、内蒙古自治区自然科学基金面上项目、内蒙古自治区研究生科研创新项目等项目的支持。
供稿:计算机学院(软件学院) 编辑:李文娟 审核:刘雪峰