返回
首页 > 传媒 > 网易最新资讯 > 正文

网易伏羲论文入选AI顶会NeurIPS:优化算法提升强化学习效率

2020-10-10 11:24用户投稿

近日,神经计算和机器学习领域极负盛名的顶级会议NeurIPS(Advances in Neural Information Processing Systems, 简称NeurIPS,前称NIPS)揭晓论文收录名单,网易伏羲实验室的论文《学习利用奖赏塑形:奖赏塑形的新方式》(《Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping》)入选,凸显了国际顶尖的科研实力。

网易

NeurIPS(神经信息处理系统大会)是人工智能、机器学习和计算神经科学等领域的顶级学术会议,也是中国计算机学会人工智能领域A类推荐会议之一。随着深度学习技术带来的机器学习领域跨越式发展,NeurIPS会议的投稿数量和参会人数也逐年递增。本届NeurIPS的投稿量达到了9454篇,创历年新高,其中1900篇被选为大会论文,录用比例仅20.09%,火爆程度可见一斑。

网易伏羲在论文中重点研究的“奖赏塑”(Reward Shaping)是一种将先验知识转化为奖励函数,从而提高强化学习算法效率的有效技术手段。目前,网易伏羲的强化学习技术已成功在《潮人篮球》、《逆水寒》等游戏中落地,而利用先验知识来设计和构造有效的附加奖励函数常常是项目能够取得进展的关键之一。

不过,寻找优良的附加奖励函数需要比较专业的领域知识以及反复迭代的人力投入。同时,由于涉及到人的操作,目前的一些方法将规则性的知识转化为算法能够理解的数值奖励时,往往也会将人的认知偏差引入其中,对强化学习算法带来负面的影响。举例来说,在设计《潮人篮球》游戏机器人的附加奖励函数时,如果把握不好对传球动作的奖励值的大小,比赛中将会出现球员之间一直进行相互传球而不进攻的尴尬场面。

为了避免上述问题,网易伏羲此次入选的论文首次提出自适应地利用给定的附加奖励函数的方法,让学习算法能判断不同状态下对应附加奖励的好坏,并选择性地加以利用。

在小车立杆和MuJoCo环境的一系列实验结果表明,网易伏羲所提出的算法,不但能够分辨出附加奖励的好坏并选择性地利用,甚至还能够将有害的奖励值转化为对学习有帮助的奖励值。

简单来说,网易伏羲提出的算法不仅能让人工智能的强化学习效率变高,还能帮助人工智能筛选出正确的知识,让人工智能学习更加准确

网易

强化学习是网易伏羲实验室重要的研究方向之一。为了使虚拟世界更有真实度和多样性,游戏中常常需要大量的NPC、Boss怪、匹配的机器人等。传统AI依靠开发人员手工编写行为逻辑,效果不并理想,成本又非常高。加入强化学习技术后,由算法通过不断学习实现对AI的控制,能够更好的解决这些问题,让游戏角色的行为更加灵活多样。

强化学习还被大量应用在游戏开发中的测试环节。传统测试流程依靠人肉测试或者写脚本测试,日常工作量大、重复劳动多、内容复杂多变,还常常会造成测试覆盖率不足的问题。智能测试服务用算法解放人力,以强化学习增加测试强度,以进化算法增加测试广度,能够实现更低成本、更高覆盖的测试,保障游戏的安全和品质。

网易伏羲实验室成立于2017年,是国内首家游戏人工智能研究机构。为众多网易游戏产品提供前沿、高质量AI技术应用的同时,网易伏羲实验室专注文娱领域的研究与应用,研究方向包括强化学习、图像动作、虚拟人、自然语言、用户画像等。在学术研究方面,网易伏羲实验室同样拥有顶尖水平,目前已经发表国际顶会论文58篇,专利100余项。

相关文章 大家在看
网易
17228篇文章
查看