站长之家 - 业界 2023-11-22 14:08

南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

划重点:
1. 🎭 **ChatAnything框架介绍**:南开大学与字节跳动研究人员合作推出一种名为ChatAnything的新型框架，旨在以在线方式生成基于大型语言模型（LLM）的角色的拟人化形象。
2. 🗣️ **MoV和MoD创新概念**:研究团队提出了两个创新概念，即“混合声音”（MoV）和“扩散混合”(MoD)，用于实现声音和外观的多样生成。MoV利用文本到语音算法生成预定义音调，而MoD结合文本到图像生成技术和说话头算法简化生成交互式对象的过程。
3. 🧠 **ChatAnything框架的挑战与解决方案**:研究人员在使用当前模型生成的拟人化对象时遇到了检测困难，提出通过像素级引导注入人脸关键点以增加检测率。他们还介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。

站长之家（ChinaZ.com）11月22日消息:南开大学与字节跳动研究人员合作推出了一项引人注目的研究，发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型（LLM）的角色的拟人化形象，从而创造具有定制视觉外观、个性和语调的人物。

简答的说，ChatAnything是一个创新的产品，利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念，用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集，通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入，为用户提供创造独特虚拟角色的自由度。

研究团队充分利用了LLMs的上下文学习能力，通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音（MoV）和扩散混合(MoD)，以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调，根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法，简化了生成交互式对象的过程。

然而，研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战，即这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为了解决这个问题，他们在图像生成过程中引入了像素级的引导，注入人脸关键点，显著提高了面部关键点检测率，从而实现了基于生成的语音内容的自动面部动画。

研究人员在论文中详细讨论了大型语言模型（LLMs）的最新进展以及它们在上下文学习方面的能力，将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成，他们利用LLMs的上下文学习能力，使用文本到语音(TTS)API创建了一个声音模块池，MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制，创建了一个模块化和灵活的系统。为了验证引导扩散的有效性，研究人员创建了一个包含不同类别提示的验证数据集，并使用预训练的面部关键点检测器评估了面部关键点检测率，展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案，并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772作者:AI_Fox https://www.bilibili.com/read/cv27716378/?jump_opus=1出处:bilibili

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

推荐关键词

24小时热搜

大家正在看

AI日报：豆包内测社交功能；高德内测“袋马”入局AI编程；新浪VibeThinker-3B 开源

与“Rix”相约，与“AI”同游｜RixEngine与RixDesk确认参展2026 ChinaJoy

会议神器！vivo X Fold6行业首发AI分角色总结：开会不必再带录音笔

AI日报：阿里发布HappyHorse 1.1；字节豆包灰测网约车服务；三星12万员工全面接入ChatGPT

从虚拟世界到真实物理：逆矩阵科技完成超亿美元融资，押注AI的下一次范式转变

成立AI新部门、Tabbit狂飙，美团能否挤上AI牌桌？

AI日报：iOS 27支持自由切换ChatGPT；百度文心网站全面扩容；Google Gemini 3.5 Flash发布

数字文旅新时代，讯飞AI虚拟人如何助力企业高质量发展？

数据要素进入AI时代：趣链科技布局“AI+Data”

UNI AI（一元AI）Beta版本正式上线，开启AI3.0智能生态新阶段

豆包正式上线三档付费订阅服务：高级版500元/月低于ChatGPT

微信支付发布AI接入工具箱2.0：Token消耗少一半！

Check Point推出全新AI安全能力与统一安全套件，助力企业AI转型安全落地

最强AI大模型Fable 5、Mythos 5发布：人类智力优势还能撑多久

物理AI第一股Momenta来了：自动驾驶迎来“重估时刻”

神策数据 Sensors AI 产品发布会成功举办，AI Growth Team 战略与产品能力全景发布

近亿元！AI短剧工具赛道最大单笔融资出炉，AniShort登顶

出门问问发售TicNote Watch，定义“你的腕上AI日记”

2026年6月AI电商工具推荐指南：AI电商生成，AI电商文案生成，直播带货AI，AI电商卖点提取，跨境电商AI公司优选！

2026年6月专业的AI电商/直播带货AI工具推荐Lightnuts

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

推荐关键词

24小时热搜

大家正在看

AI日报：豆包内测社交功能；高德内测“袋马”入局AI编程；新浪VibeThinker-3B 开源

与“Rix”相约，与“AI”同游｜RixEngine与RixDesk确认参展2026 ChinaJoy

会议神器！vivo X Fold6行业首发AI分角色总结：开会不必再带录音笔

AI日报：阿里发布HappyHorse 1.1；字节豆包灰测网约车服务；三星12万员工全面接入ChatGPT

从虚拟世界到真实物理：逆矩阵科技完成超亿美元融资，押注AI的下一次范式转变

成立AI新部门、Tabbit狂飙，美团能否挤上AI牌桌？

AI日报：iOS 27支持自由切换ChatGPT；百度文心网站全面扩容；Google Gemini 3.5 Flash发布

数字文旅新时代，讯飞AI虚拟人如何助力企业高质量发展？

数据要素进入AI时代：趣链科技布局“AI+Data”

UNI AI（一元AI）Beta版本正式上线，开启AI3.0智能生态新阶段

豆包正式上线三档付费订阅服务：高级版500元/月 低于ChatGPT

微信支付发布AI接入工具箱2.0：Token消耗少一半！

Check Point推出全新AI安全能力与统一安全套件，助力企业AI转型安全落地

最强AI大模型Fable 5、Mythos 5发布：人类智力优势还能撑多久

物理AI第一股Momenta来了：自动驾驶迎来“重估时刻”

神策数据 Sensors AI 产品发布会成功举办，AI Growth Team 战略与产品能力全景发布

近亿元！AI短剧工具赛道最大单笔融资出炉，AniShort登顶

出门问问发售TicNote Watch，定义“你的腕上AI日记”

2026年6月AI电商工具推荐指南：AI电商生成，AI电商文案生成，直播带货AI，AI电商卖点提取，跨境电商AI公司优选！

2026年6月专业的AI电商/直播带货AI工具推荐Lightnuts

豆包正式上线三档付费订阅服务：高级版500元/月低于ChatGPT