站长之家
站长之家
2019-02-14 14:10
+关注

李飞飞团队造出“窥视未来”新AI:去哪干啥一起猜,准确率压倒老前辈

人工智能,AI

图片来源图虫:已授站长之家使用

晓查 乾明 发自 凹非寺 

量子位 报道 | 公众号 QbitAI

道路千万条,你走哪一条?

AI知道。

不仅知道,还能预测出你要干什么。

这种全面“窥视未来”的能力,出自李飞飞团队的最新研究。

我们来(假装)看一段街头小视频。

一个人,从车后绕过来……

⏸️

画面定格,引来保安终极三问:他是谁?要去哪?干什么?

当然是继续走向车门旁边,伸手开门。

AI回答正确。(“是谁”超纲了,由其他AI负责)

提高一点难度,多拍几个人试试:

李飞飞团队的新AI还是能答对。系好安全带,发车~

这项研究,由卡耐基梅隆大学(CMU)、Google AI和斯坦福大学共同完成。

他们运用一个端到端的多任务学习系统,从画面中识别人类行为和TA与周围环境的互动情况,然后根据这些信息,预测出这名行人未来的路径和行为

无论是预知的范围还是准确率,都比以往的研究更强。

比一比

在此之前,“窥视未来”的研究也不少,不过都只是预测人接下来的行走路径,无法预测他们干什么。

比如 2018 年李飞飞夫妇团队发表在CVPR上的Social GAN,代表了当时最先进的水平,却也只能预测“要去哪儿”。

而这项最新的研究,不仅预测了人的路径,还预测出了这些人的活动。

论文中说,这是首次同时预测人未来路径和活动的研究。

如果你仔细观察上图的蓝色预测轨迹,还会发现:新研究的轨迹预测能力也比以前更强了。

当然,这些是主观定性的感受,放到定量的分析中,它对路径预测的误差平均下来也是最小的。

上图是各种算法在五个场景人物路径预测数据上的表现。

为了充分证明模型的性能,分成了两类,一是对单一模型结果的比较(Single Model),一是比较 20 个模型输出结果最优情况(20 Outputs)。

这五个场景来自两个公开的数据集。

一是ETH数据集,包括ETH(大学外部)和HOTEL(公共汽车站),二是UCY数据集,包括UNIV(大学)、ZARA1(购物街)和ZARA2(购物街)。

图表中的数据,表示人物接下来路径中 12 个点的预测误差,“/”左侧数据代表平均位移误差,右侧数据代表最终位移误差,数据越小越好。

各个场景平均来看(AVG),这项最新研究单一模型的平均误差比其他模型要少0.2,最终误差少0.4。 20 个模型输出结果最优情况中,平均误差和最终误差也都少了0. 1 左右。

一个算法,既能预测轨迹,又能预测行为,误差还比其他方法低。那么问题来了——

怎么做到的?

预测运动轨迹这件事,和预测行为本来就是相辅相成的。

人类走路是以特定目的为导向,了解一个人的目的,有助于推测他要去哪。

预测模型的神经网络架构。

既然要同步预测运动轨迹和行为,就不能像以往那些研究一样,把人简化成一个点了。

这个神经网络,总共包含 4 部分:

人物行为模块人物交互模块轨迹生成器活动预测

其中前两个模块是图像识别的部分,分别负责识别场景中每个人的动作和相互关系。

获得的信息交给LSTM编码器,压缩成一个“视觉特征张量”Q,交给剩下两部分生成轨迹和活动的预测结果。

另外,活动预测模块还能对活动即将发生的位置进行预测,弥补轨迹生成器的误差。

这四个模块的功能和工作原理,具体来说是这样的:

1、人物行为模块

这个模块负责对场景中每个人的图像信息进行编码,除了标记人的轨迹点以外,还要对身体活动进行建模。

为了对人在场景中的变化进行建模,这里用一个预训练的带有“RoAlign”的物体检测模型,来提取每个人边界框的固定尺寸CNN特征。

除了场景以外,人物行为模块还需要获取肢体活动的信息,本文使用了一个MSCOCO数据集上训练的检测模型,来提取人体关键点信息。

以上两个部分分别输入LSTM编码器,获得场景和肢体动作的特征表示。

免责声明:本文来自站长之家合作媒体,不代表站长之家的观点和立场。
李飞飞
21篇文章
查看
猜你喜欢
最新趣闻
最新推荐