研究如何编辑视频中目标物体的运动轨迹,同时保持原始场景内容不变。现有方法主要关注外观编辑或依赖基于点跟踪的轨迹控制,这在推理时对用户来说通常很困难,尤其是在存在相机运动的视频中。因此,需要一种更实用、易用的方法来控制以物体为中心的运动编辑。
提出了一个名为TRACE的两阶段框架:
- 跨视图运动变换模块(cross-view motion transformation module):将用户在单张锚定帧(anchor frame)中设计的期望轨迹,映射为考虑相机运动后的、逐帧对齐的边界框轨迹(frame-aligned box trajectories)。
- 运动条件视频重合成模块(motion-conditioned video re-synthesis module):遵循上述生成的轨迹,重新生成目标物体,同时保留输入视频的其余内容。
核心创新在于提出了一种用户友好的、基于单帧轨迹引导的视频物体运动编辑范式:
- 与现有主要关注外观编辑或需要用户提供复杂点跟踪轨迹的方法不同,本方法允许用户仅在视频的第一帧(锚定帧)中直观地设计期望的物体运动路径。
- 通过专门的跨视图运动变换模块,自动将单帧的路径设计转化为适应相机运动的、跨所有帧的精确物体边界框轨迹,解决了在动态相机场景下用户难以提供逐帧控制信号的难题。
- 实现了对物体运动轨迹的高效、直观且可控的编辑,显著降低了用户交互的复杂性。
论文的整体贡献包括:
- 提出了TRACE框架,为视频中的物体运动路径编辑任务提供了一种新颖且实用的解决方案。
- 设计了一个两阶段流水线,将用户友好的单帧交互与鲁棒的、考虑相机运动的轨迹生成和视频重合成相结合。
- 在多样化的真实世界视频上的实验表明,该方法比近期的图像到视频(image-to-video)和视频到视频(video-to-video)方法能产生更连贯、更真实且更可控的运动编辑结果。