英伟达出品！文生图模型TrailBlazer：利用边界框控制视频对象轨迹

划重点:
🔍 该论文介绍了一种使用边界框来引导视频合成的方法，实现了视频的可控性。
🔍 通过简单的边界框引导，可以实现对视频中物体轨迹和外观的控制。
🔍 TrailBlazer 算法基于预训练模型，无需进一步训练、微调或在线优化。

站长之家（ChinaZ.com）1月5日消息:在最近的文本到视频生成（T2V）方法中，实现合成视频的可控性通常是一个挑战。通常情况下，为了解决这个问题，需要提供低级别的每帧指导，如边缘图、深度图或待修改的现有视频。然而，获取这样的指导可能需要大量的劳动力，并且限制于现有视频会限制创造力。

TrailBlazer是英伟达的一个预训练好的模型，他们提出一个边界框的概念，来控制视频对象的运动方向、速度和行为，而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如，你可以通过改变边界框的大小、方向，让视频中的对象看起来更接近或更远离，也可以控制移动方向。

TrailBlazer 算法基于预训练的 T2V 模型构建，易于实现。通过边界框来引导物体，在空间和时间上进行注意力图编辑。

此外，TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置，来指导物体的轨迹和外观，无需提供详细的掩码。该方法非常高效，与底层预训练模型相比，附加计算量几乎可以忽略不计。尽管边界框引导的简单性，生成的运动令人惊讶地自然，出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。

TrailBlazer 还支持通过关键帧设置来动画化边界框和提示，使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接，为非专业用户提供了一个可行的视频叙事流程。

TrailBlazer 算法有一些局限性，其中包括继承了底层预训练模型（ZeroScope）的限制，如动物的错误肢体数目等问题，这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。

TrailBlazer的主要功能特点如下:

1. 文本到视频扩散（text-to-video diffusion）:使用预训练模型进行视频编辑，无需进一步的模型训练、微调或在线优化。

2. 支持控制多个对象:如果视频中有多个人物或物体，TrailBlazer允许您同时控制它们的动作，这对于创造复杂的场景非常有用。

3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动，而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。

4. 关键帧动画:可以在视频中设置“关键帧”，在这些关键帧上定义对象的位置和动作。

5. 高效且自然的运动生成:尽管使用简单的边界框进行指导，TrailBlazer生成的运动效果仍然非常自然，包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。

项目演示网址：https://top.aibase.com/tool/trailblazer

论文网址：arxiv.org/abs/2401.00896

抖音推出AI相机类产品“星绘” 支持AI分身、 AI修图、文生图功能

2024-04-302.9万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英伟达出品！文生图模型TrailBlazer：利用边界框控制视频对象轨迹

推荐关键词

24小时热搜

大家正在看

AI文生图模型PixArt-sigma，可以生成4K分辨率图片

抖音推出AI相机类产品“星绘” 支持AI分身、 AI修图、文生图功能

Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

刚刚，Mistral AI最新磁力链放出！8x22B MoE模型，281GB解禁

Mamba 模型在视频理解任务中展现出强劲潜力打败Transformer

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

Stability AI发布CosXL模型图像处理能力更精细

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

Mixtral-8x22B官网体验入口语言模型文本生成工具使用指南

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

moto首款AI手机！moto X50 Ultra官宣

vivo官宣BlueImage蓝图影像 vivo X100 Ultra首发

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

AI日报：Adobe全新生图模型Firefly3可以垫图了；免费用户将可创建GPTs；妙鸭相机加入钉钉个人版；AI砍价是懂怎么让人尴尬的

“灭霸”机皇！vivo X100 Ultra入网：首发自研蓝图影像vivo BlueImage

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布

Nightshade：使AI模型在未经许可的情况下无法训练图片

Meditron：先进的医学大语言模型

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英伟达出品！文生图模型TrailBlazer：利用边界框控制视频对象轨迹

推荐关键词

24小时热搜

大家正在看

AI文生图模型PixArt-sigma，可以生成4K分辨率图片

抖音推出AI相机类产品“星绘” 支持AI分身、 AI修图、文生图功能

Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

刚刚，Mistral AI最新磁力链放出！8x22B MoE模型，281GB解禁

Mamba 模型在视频理解任务中展现出强劲潜力 打败Transformer

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

Stability AI发布CosXL模型 图像处理能力更精细

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

Mixtral-8x22B官网体验入口 语言模型文本生成工具使用指南

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

moto首款AI手机！moto X50 Ultra官宣

vivo官宣BlueImage蓝图影像 vivo X100 Ultra首发

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

AI日报：Adobe全新生图模型Firefly3可以垫图了；免费用户将可创建GPTs；妙鸭相机加入钉钉个人版；AI砍价是懂怎么让人尴尬的

“灭霸”机皇！vivo X100 Ultra入网：首发自研蓝图影像vivo BlueImage

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布

​Nightshade：使AI模型在未经许可的情况下无法训练图片

Meditron：先进的医学大语言模型

Mamba 模型在视频理解任务中展现出强劲潜力打败Transformer

Stability AI发布CosXL模型图像处理能力更精细

Mixtral-8x22B官网体验入口语言模型文本生成工具使用指南

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布

Nightshade：使AI模型在未经许可的情况下无法训练图片