旷视AI开源新突破：上传照片即可生成表情包视频！

日前，旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频（如演讲、表情包、rap），便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等比较新AI视频模型不同，旷视MegActor采用开源方式，供开发者社区使用。MegActor生成的视频画质更出色，面部细节更加丰富自然。

为了展示其泛化性，MegActor甚至可以将VASA中的人物肖像和视频组合生成，得到生动的表情视频。即使与阿里EMO的官方案例相比，MegActor也能生成近似的效果。

总的来说，无论是让肖像开口说话、唱歌、模仿搞怪表情包，MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的比较新研究成果。旷视研究院是旷视公司级研究机构，旨在通过基础创新突破AI技术边界，以工程创新实现技术到产品的快速转化。多年来，旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中，许多工作通常使用高质量的闭源数据进行训练，以追求更好的效果。而旷视研究院始终坚持全面开源，确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集，配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作，MegActor采用原始图像进行驱动，这与多数厂商使用的中间表示方法（如sketch、pose、landmark）不同，能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示，在AI视频生成领域，我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号，同时生成视频的保真度也不尽如人意。通过研究发现，使用原视频进行驱动，不仅降低了控制信号的门槛，更能生成保真且动作一致的视频。

具体来说，MegActor主要由两个阶段构成:

使用ReferenceNet对参考图像进行特征提取，获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取，将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息，但也存在ID泄露和背景干扰等挑战。为此，MegActor采用了条件扩散模型，引入了合成数据生成框架，创建具有一致动作和表情但不同身份ID的视频，以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景，并使用CLIP对背景细节进行编码，确保背景的稳定性。

在数据训练方面，旷视研究院团队使用公开数据集（VFHQ和CeleV）进行训练，总时长超过700小时。为了避免ID泄露问题，团队还使用换脸和风格化方法1:1生成合成数据，实现表情和动作一致但ID不一致的数据。此外，团队使用注视检测模型处理数据，获取大约5%的高质量数据进行Finetune训练。

通过新的模型框架和训练方法，旷视研究院团队仅使用了不到200块V100显卡小时的训练时长，最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频，确保角色身份一致性;

支持各种驱动视频，如演讲、唱歌、表情包等;

支持不同画风（照片、传统绘画、漫画、AI数字人等）;

与音频生成方法相比，MegActor生成的视频不仅能确保表情和动作一致，更能达到自然程度。

目前，MegActor已经完全开源，供开发者和用户即开即用。

部分功能限时免费！美团推出妙刷AI小程序：支持视频、音频生成等

2024-10-301.2万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

旷视AI开源新突破：上传照片即可生成表情包视频！

推荐关键词

24小时热搜

大家正在看

Kimi内测AI视频生成功能：每天可免费生成100秒视频

字节视频生成模型PixelDance上线即梦AI：用户可免费体验

AI日报：字节旗下AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；超清AI图像生成模型FLUX 1.1 Pro Ultra发布

部分功能限时免费！美团推出妙刷AI小程序：支持视频、音频生成等

AI日报：智谱AI发布AutoGLM升级版；Kimi灰测AI视频生成功能；SD3.5L新增三大ControlNet功能；ChatGPT诞生两周年

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

用AI生成视频，赚到人生的第一桶金

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

AI商品图免费生成工具推荐电商主图一键免费生成

微软开源多功能视觉模型Florence-2，分割、识别一切图片！

AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids

AI有鼻子了，还能远程传输气味，图像生成香水

英伟达展示AI模型Fugatto：可修改并生成新声音

一键生成完整海报，这个AI是要革PS和Canva的命。

谷歌CEO称1/4新代码由AI生成：反遭自家员工光速打假！

发现一款神奇的AI论文生成网站：2步骤10分钟生成万字论文！

AI版《我的世界》震撼欧美，AI实时生成游戏成下一个大风口？

AI日报：Claude新增PDF文件处理功能；Runway推出高级摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

AI日报：惊艳！Sora遭恶意泄露；昆仑万维Skywork o1启动邀测；阿里开源图像生成模型Qwen2vl-Flux

谷歌25%新代码由AI生成，会Prompt工程的程序员更吃香了

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

旷视AI开源新突破：上传照片即可生成表情包视频！

推荐关键词

24小时热搜

大家正在看

Kimi内测AI视频生成功能： 每天可免费生成100秒视频

字节视频生成模型PixelDance上线即梦AI：用户可免费体验

AI日报：字节旗下AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；超清AI图像生成模型FLUX 1.1 Pro Ultra发布

部分功能限时免费！美团推出妙刷AI小程序：支持视频、音频生成等

AI日报：智谱AI发布AutoGLM升级版；Kimi灰测AI视频生成功能；SD3.5L新增三大ControlNet功能；ChatGPT诞生两周年

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

用AI生成视频，赚到人生的第一桶金

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

AI商品图免费生成工具推荐 电商主图一键免费生成

微软开源多功能视觉模型Florence-2，分割、识别一切图片！

AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids

AI有鼻子了，还能远程传输气味，图像生成香水

英伟达展示AI模型Fugatto：可修改并生成新声音

一键生成完整海报，这个AI是要革PS和Canva的命。

谷歌CEO称1/4新代码由AI生成：反遭自家员工光速打假！

发现一款神奇的AI论文生成网站：2步骤10分钟生成万字论文！

AI版《我的世界》震撼欧美，AI实时生成游戏成下一个大风口？

AI日报：Claude新增PDF文件处理功能；Runway推出高级摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

AI日报：惊艳！Sora遭恶意泄露；昆仑万维Skywork o1启动邀测；阿里开源图像生成模型Qwen2vl-Flux

谷歌25%新代码由AI生成，会Prompt工程的程序员更吃香了

Kimi内测AI视频生成功能：每天可免费生成100秒视频

AI商品图免费生成工具推荐电商主图一键免费生成