[CVPR 2025] 华科大认知计算与智能信息处理实验室论文被国际计算机视觉顶级会议CVPR 2025全文录用!

来源: 浏览量: 日期:2025-03-03

 

 

CCIIP实验室22级研究生田杰、鲁镇义及23级博士生瞿晓烨导师:魏巍的论文 “Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think”计算机视觉顶级会议CVPR 2025高分录用(4,4,4,5本次CVPR 2025会议共有13,008篇投稿,录用2,878篇,录用率22.1%。相较于去年,CVPR 2025总投稿数再次增加,而录用率却降低1.5%

论文标题Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You ThinkCVPR 2025

论文作者Jie Tian, Xiaoye Qu, Zhenyi Lu, Wei Wei*, Sichen Liu, Yu Cheng

内容介绍:在图像生成视频任务(Image-to-Video Generation, I2V)中,通常需要根据给定的静态图像和条件(如文本描述)生成逻辑连贯的视频序列,其核心挑战之一在于如何保证生成视频内容中目标的外观一致性,且确保生成视频内容的语义一致性及逻辑连贯性,比如运动的流畅性。然而,现有I2V扩散模型(I2V-DMs)普遍存在两类典型问题:(1) 生成的视频序列受限于运动幅度;及(2)图像条件与文本条件间容易产生冲突,导致文本指令失效,即当模型过度依赖图像信息时,而往往很难有效遵循给定的复杂指令生成视频序列。针对上述问题,本文提出了一种创新的"外推-解耦"框架,旨在有效缓解I2V任务中的图像依赖问题,该框架采用多阶段处理策略,主要包含三个独立处理阶段:

1:外推-解耦视频生成框架

1)在I2V-DM模型的基础上,利用轻量级、可学习的适配器将文本条件注入时间模块中微调,以提高运动可控性(如图1-a)部分);

2)引入无训练外推策略扩大运动的动态范围,有效反转微调过程以显著增强运动幅度(如图1-b)部分);

3)解耦不同运动能力相关参数,并将其更新到基础I2V-DM模型中,以便于I2V-DM在不同去噪时间步长下处理不同程度的运动可控性和动态性,并根据时间动态调整与运动相关参数(如图1-c)部分)。

通过在最新的视频生成榜单VBench上的实验结果显示,所提模型较基于图像I2V的常规模型(如Animate-AnythingSVDDynamicicCrafter)在Motion Degree Motion Control性能指标上有大幅提升(20.67%12.76%, 同时能够保证生成视频的语义一致性和质量不受任何影响,甚至有略有提升。

图二 Vbench-I2V基准实验结果