站长之家 - 业界 2024-01-05 14:45

英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹

划重点:

🔍 该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。

🔍 通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。

🔍 TrailBlazer 算法基于预训练模型,无需进一步训练、微调或在线优化。

站长之家(ChinaZ.com)1月5日 消息:在最近的文本到视频生成(T2V)方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。然而,获取这样的指导可能需要大量的劳动力,并且限制于现有视频会限制创造力。

TrailBlazer是英伟达的一个预训练好的模型,他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为,而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如,你可以通过改变边界框的大小、方向,让视频中的对象看起来更接近或更远离,也可以控制移动方向。

image.png

TrailBlazer 算法基于预训练的 T2V 模型构建,易于实现。通过边界框来引导物体,在空间和时间上进行注意力图编辑。

此外,TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置,来指导物体的轨迹和外观,无需提供详细的掩码。该方法非常高效,与底层预训练模型相比,附加计算量几乎可以忽略不计。尽管边界框引导的简单性,生成的运动令人惊讶地自然,出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。

TrailBlazer 还支持通过关键帧设置来动画化边界框和提示,使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接,为非专业用户提供了一个可行的视频叙事流程。

image.png

TrailBlazer 算法有一些局限性,其中包括继承了底层预训练模型(ZeroScope)的限制,如动物的错误肢体数目等问题,这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。

TrailBlazer的主要功能特点如下:

1. 文本到视频扩散(text-to-video diffusion):使用预训练模型进行视频编辑,无需进一步的模型训练、微调或在线优化。

2. 支持控制多个对象:如果视频中有多个人物或物体,TrailBlazer允许您同时控制它们的动作,这对于创造复杂的场景非常有用。

3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动,而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。

4. 关键帧动画:可以在视频中设置“关键帧”,在这些关键帧上定义对象的位置和动作。

5. 高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。

项目演示网址:https://top.aibase.com/tool/trailblazer

论文网址:arxiv.org/abs/2401.00896

推荐关键词

24小时热搜

查看更多内容

大家正在看