[ICME 2025] 华科大认知计算与智能信息处理实验室论文被被IEEE国际多媒体大会ICME2025录用!

来源: 浏览量: 日期:2025-03-27

 

26届国际多媒体大会Main Track录用CCIIP实验室2022级研究生谭震同学(导师:魏巍)的论文“ConAvatar: Harnessing Facial Mesh for Controllable Avatar Animation”。第26届国际多媒体与博览大会(ICME2025)计划于2025630-74日在法国南特市召开。ICMEIEEE旗下的多媒体计算旗舰会议,同时也是CCF推荐的多媒体计算领域B类国际学术会议。

  • 论文标题ConAvatar: Harnessing Facial Mesh for Controllable Avatar Animation

  • 作者Zhen TanWei Wei*

  • 内容简介:虚拟人说话视频合成(Talking Face Generation)任务主要是根据给定的真实人脸图像+给定音频合成高质量的虚拟人实时说话视频,该技术可以广泛应用于虚拟主播、智能助手、影视制作和远程交流等领域,具有极其重要的商业化应用价值。目前,已有研究重点关注生成人脸的嘴型准确性以及语音一致性问题,往往忽略了头部运动真实性以及语音内容同步性,以至于生成的视频中人脸头部运动出现模式单一化、运动僵化而缺乏真实人脸转动的真实性,导致用户互动体验和沉浸感降低。针对该问题,提出了一种基于扩散(Diffusion-based)模型的虚拟人说话视频生成框架,主要利用面部姿态和空间旋转建模以生成自然流畅的头部运动轨迹,并结合身份保持---口型同步机制,以确保生成视频在头部姿态、语音同步及身份一致方面的协调性和可控性。同时,为进一步提升生成视频的稳定性和真实感,引入显式面部网格表征中的结构化信息约束面部运动的准确性和时序一致性,从而实现自然流畅的可控姿态虚拟人说话视频生成。

1模型架构图


 2真实效果