比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

划重点:
🔍 最新的对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足。
🔍 InstructAvatar 提供了对情感和面部动作进行细粒度控制的文本引导方法，为生成具有情感表达的2D 虚拟形象提供了改进的互动性和泛化能力。
🔍 实验结果表明，InstructAvatar 在细粒度情感控制、口型同步质量和自然性方面优于现有方法，能指定面部的表情和动作。

站长之家(ChinaZ.com) 5月28日消息:最近，对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足，使生成的视频缺乏生动性和可控性。

因此，北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法，通过自然语言界面来控制虚拟形象的情感和面部动作，从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括：

通过自然语言输入控制头像的情绪和面部动作。
利用一个自动注释管道构建训练数据集，使得头像可以根据文本指令和音频进行生成。
生成的头像能够准确同步口型，表情自然且生动。
相比于现有方法，在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

InstructAvatar 的框架包括两个组件:变分自动编码器（VAE）和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦，并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中，通过迭代去噪高斯噪声来获取预测的动作潜变量，并结合用户提供的肖像，使用 VAE 的解码器生成最终的视频。

通过与基线模型的定性比较，可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外，模型生成的结果具有增强的自然性，并有效地保留了身份特征。

值得一提的是，该模型仅基于文本输入推断说话的情感，这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围，超出了大多数基线模型的范围。

此外，该模型展现了精确的情感控制能力，并生成了自然的结果。InstructAvatar 具有细粒度的控制能力，并在领域之外的场景中表现出良好的泛化能力。

项目入口：https://top.aibase.com/tool/instructavatar

全球首款AI智能体手机！努比亚NaviX Ultra正式亮相：搭载豆包手机助手

2026-07-161.1万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

推荐关键词

24小时热搜

大家正在看

Meta研发超级感知AI眼镜支持持续录音自动抓拍

不用写代码！Meta上线新应用Pocket：AI一键做小游戏

华为HarmonyOS 7花粉Beta版推送：新增全新视效、支持AI变声检测

全球首款AI智能体手机！努比亚NaviX Ultra正式亮相：搭载豆包手机助手

长视频剧综赞助营销，为何搞不定AI产品？

苹果iOS 27开发者预览版Beta 4发布：国行iPhone Siri AI继续缺席

微星机箱再添新作 VIXTA 300维斯塔机箱双版本齐发

9条破亿视频，新号涨粉百万，过去半年谁在制造AI爆款？

别念错了！努比亚NaviX Ultra官方读法公布：奈威艾克斯

换种方式过暑假：用三星Galaxy Tab S10+记录别样假期生活

暑期如何安排？出游时用三星Galaxy Tab S11系列规划方便更省心

努比亚NaviX Ultra四色全身照公布：横向跑道Deco 幻梦粉最吸睛

可灵AI估值千亿，快手“母凭子贵”：国产视频模型三强争霸

从短视频矩阵三强到AI营销三强，今立智能靠什么延展生态能力

蜜度DataQ智能体WAIC首发：让洞察都有据可查让决策都可信可依

AI日报：Claude Cowork登陆网页和手机端；美国放行GPT-5.6；Meta超级智能实验室首发图像生成模型

苹果首款智能眼镜明年6月发布：无屏幕！类似Meta、华为

全球首款AI智能体手机努比亚NaviX Ultra核心规格揭晓：骁龙8E5、7100mAh大电池

MINISFORUM铭凡亮相2026WAIC：布局轻量化本地私有化算力，助力行业AI规模化落地

AI视频应用迈入双位数增长期，小影科技居收入下载榜前十

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

推荐关键词

24小时热搜

大家正在看

Meta研发超级感知AI眼镜 支持持续录音自动抓拍

不用写代码！Meta上线新应用Pocket：AI一键做小游戏

华为HarmonyOS 7花粉Beta版推送：新增全新视效、支持AI变声检测

全球首款AI智能体手机！努比亚NaviX Ultra正式亮相：搭载豆包手机助手

长视频剧综赞助营销，为何搞不定AI产品？

苹果iOS 27开发者预览版Beta 4发布：国行iPhone Siri AI继续缺席

微星机箱再添新作 VIXTA 300维斯塔机箱双版本齐发

9条破亿视频，新号涨粉百万，过去半年谁在制造AI爆款？

别念错了！努比亚NaviX Ultra官方读法公布：奈威 艾克斯

换种方式过暑假：用三星Galaxy Tab S10+记录别样假期生活

暑期如何安排？出游时用三星Galaxy Tab S11系列规划方便更省心

努比亚NaviX Ultra四色全身照公布：横向跑道Deco 幻梦粉最吸睛

可灵AI估值千亿，快手“母凭子贵”：国产视频模型三强争霸

从短视频矩阵三强到AI营销三强，今立智能靠什么延展生态能力

蜜度DataQ智能体WAIC首发：让洞察都有据可查 让决策都可信可依

AI日报：Claude Cowork登陆网页和手机端；美国放行GPT-5.6；Meta超级智能实验室首发图像生成模型

苹果首款智能眼镜明年6月发布：无屏幕！类似Meta、华为

全球首款AI智能体手机 努比亚NaviX Ultra核心规格揭晓：骁龙8E5、7100mAh大电池

MINISFORUM铭凡亮相2026WAIC：布局轻量化本地私有化算力，助力行业AI规模化落地

AI视频应用迈入双位数增长期，小影科技居收入下载榜前十

Meta研发超级感知AI眼镜支持持续录音自动抓拍

别念错了！努比亚NaviX Ultra官方读法公布：奈威艾克斯

蜜度DataQ智能体WAIC首发：让洞察都有据可查让决策都可信可依

全球首款AI智能体手机努比亚NaviX Ultra核心规格揭晓：骁龙8E5、7100mAh大电池