阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

要点:
阿里提出了EMO框架，可根据单张图像和声音生成具有表情丰富的头像视频。
方法包括两个主要阶段:帧编码和扩散过程，利用多种注意机制和时间模块实现头像生成。
EMO支持多语言歌曲和不同风格的头像生成，可应用于歌唱、对话和跨角色表演等领域。

站长之家（ChinaZ.com）2月28日消息:近期，阿里巴巴智能计算研究所提出了一种新的生成式框架EMO，只需输入图片和音频即可生成具有表现力的视频，而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配，但也可能成为造假的利器，因此一些名人可能需要警惕了。

该框架包含两个主要阶段，首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，并结合多帧噪声和面部区域掩码来生成头像。在此过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调节运动速度。

项目地址:https://top.aibase.com/tool/emo

EMO不仅支持多语言歌曲和不同风格的头像生成，还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频，并保持角色的身份特征在长时间内的稳定性。此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业，还可以在学术研究和教育培训等领域发挥重要作用。然而，需要注意的是，该框架目前仅用于学术研究和效果演示，还有待进一步优化和扩展其应用范围。

EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-182.8万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

推荐关键词

24小时热搜

大家正在看

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

AI日报：阿里对口型视频项目EMO开启内测；苹果官宣端侧小模型OpenELM；Open-Sora偷偷升级；微信发布AI工具小微助手

解读敷尔佳：面膜行业的lululemon式崛起

SuperMemory官网体验入口 AI知识管理信息整理工具免费使用地址

阿里对口型项目EMO开启内测可将照片转为唱歌视频

苹果承认 iPhone 键盘存在 Emoji BUG，承诺下次 iOS 更新修复

EMO终于来了！通义APP推出照片唱歌功能：所有用户可免费使用

EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

EMAGE官网体验入口 AI手势生成音频手势建模软件下载地址

Gemini 1.5 Pro API怎么申请注册使用？Gemini 1.5 Pro AI模型官网地址入口

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

CodeGemma官网体验入口谷歌AI代码生成辅助工具使用地址

Adobe Premiere Pro发布重大更新引入Sora、Runway、Pika等AI视频模型

今日AI：ChatGPT免注册可使用；开发者没法“白嫖”Gemini了；AI程序员首次入职科技公司；DALL·E聊天就能改图了

Meme季来临，交易优质Memecoin就上UZX

Google扩充Gemma开源家族：推出CodeGemma和RecurrentGemma模型

小狐狸AI付费创作系统-小狐狸AI官方正版-支持AI聊天、AI绘图、AI视频

AI日报：GPT-4-Turbo正式版自带读图能力；Gemini1.5Pro开放API；SD3将于4月中旬发布；抖音宫崎骏AI特效爆火

戴尔科技AI就绪数据平台：AI创新的起点

拼多多TEMU围剿美国折扣店

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

推荐关键词

24小时热搜

大家正在看

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

AI日报：阿里对口型视频项目EMO开启内测；苹果官宣端侧小模型OpenELM；Open-Sora偷偷升级；微信发布AI工具小微助手

解读敷尔佳：面膜行业的lululemon式崛起

SuperMemory官网体验入口 AI知识管理信息整理工具免费使用地址

阿里对口型项目EMO开启内测 可将照片转为唱歌视频

苹果承认 iPhone 键盘存在 Emoji BUG，承诺下次 iOS 更新修复

EMO终于来了！通义APP推出照片唱歌功能：所有用户可免费使用

EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

EMAGE官网体验入口 AI手势生成音频手势建模软件下载地址

Gemini 1.5 Pro API怎么申请注册使用？Gemini 1.5 Pro AI模型官网地址入口

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

CodeGemma官网体验入口 谷歌AI代码生成辅助工具使用地址

Adobe Premiere Pro发布重大更新 引入Sora、Runway、Pika等AI视频模型

今日AI：ChatGPT免注册可使用；开发者没法“白嫖”Gemini了；AI程序员首次入职科技公司；DALL·E聊天就能改图了

Meme季来临，交易优质Memecoin就上UZX

Google扩充Gemma开源家族：推出CodeGemma和RecurrentGemma模型

小狐狸AI付费创作系统-小狐狸AI官方正版-支持AI聊天、AI绘图、AI视频

AI日报：GPT-4-Turbo正式版自带读图能力；Gemini1.5Pro开放API；SD3将于4月中旬发布；抖音宫崎骏AI特效爆火

戴尔科技AI就绪数据平台：AI创新的起点

拼多多TEMU围剿美国折扣店

阿里对口型项目EMO开启内测可将照片转为唱歌视频

CodeGemma官网体验入口谷歌AI代码生成辅助工具使用地址

Adobe Premiere Pro发布重大更新引入Sora、Runway、Pika等AI视频模型