站长之家(ChinaZ.com)9月24日 消息:在2024年AI创新巡展上,火山引擎科技有限公司隆重推出了豆包·视频生成模型,标志着其大模型家族再添新成员。火山引擎总裁谭待在会上表示,豆包·视频生成模型具备多项创新性能,包括精准的语义理解、多动作多主体交互、强大的动态效果和一致性多镜头生成能力。
该模型能够理解和执行复杂的指令,实现多个主体间的交互,并能在视频主体的大动态和镜头间进行炫酷切换。此外,它还能够在多镜头切换中保持一致性,10秒内讲述一个完整的故事,并支持多种风格和比例,如黑白、3D动画、国画等。
豆包·视频生成模型包含两个版本:Doubao-视频生成PixelDance和Doubao-视频生成-Seaweed。
PixelDance V1.4是ByteDance Research团队开发的DiT结构的视频生成大模型,支持文生视频和图生视频,能够一次性生成长达10秒的精彩视频片段。它具备出色的语义理解能力,能快速生成优质的视频片段,适用于影视创作、广告传媒等多个场景。
Doubao-视频生成-Seaweed模型支持文生视频和图生视频两种生成方式,基于Transformer结构,利用时空压缩的潜空间进行训练,原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。
豆包·视频生成模型预计将为电商营销、动画教育、城市文旅、微剧本(音乐MV、微电影、短剧等)等多个领域带来创新和效率提升。火山引擎表示,该模型的发布将全面加速AIGC应用创新。