站长之家 - 业界 2021-05-01 09:45

Facebook推进计算机视觉革命:无标记数据也能找到数据集

机器学习基本上能够完成各项任务,只要你能提供充足的数据对其进行培训。但要做到这点,往往是很困难的。研究人员一直在寻找一种方法,为人工智能添加一点“常识”,这样你就不必在它明白“什么是猫”之前给它看 500 张猫的照片。

Facebook 的最新研究在减少数据瓶颈方面迈出了一大步。该公司强大的人工智能研究部门多年来一直在研究如何推进和扩展先进的计算机视觉算法,取得了稳定的进展,并与研究界的其他人士分享。Facebook 特别追求的一个有趣的发展是所谓的“半监督式学习”(semi-supervised learning)。

一般来说,当你想训练人工智能时,你会想到像前面提到的500张猫的图片--已经被选择和标记的图片(这可能意味着勾勒出猫的轮廓,在猫的周围放一个盒子,或者只是说那里有一只猫),这样机器学习系统就可以把一个算法放在一起,使猫的识别过程自动化。当然,如果你想做狗或马,你需要500张狗的照片,500张马的照片,等等--它的规模是线性的,这是一个你永远不想在技术领域看到的词。

半监督式学习是“无监督学习”(unsupervised learning)的相对应,也就是在没有任何标记数据的情况下找出数据集的重要部分。它并不是随心所欲,还是有结构的;例如,想象一下,你给系统一千个句子来研究,然后再给它看10个缺少几个词的句子。该系统可能会根据它在前一千个句子中看到的内容,做一个体面的工作来填补这些空白。

但是对于图片和视频来说,这就不那么容易了--它们并不那么直接或可预测。但 Facebook 的研究人员已经表明,虽然这可能不容易,但它是可能的,而且事实上非常有效。DINO 系统(代表没有标签的知识静止 DIstillation of knowledge with NO labels)能够学习在没有任何标签数据的情况下,在人、动物和物体的视频中很好地找到感兴趣的对象。

它通过将视频视为不是按顺序逐一分析的图像序列,而是一个复杂的、相互关联的集合,就像 "一连串的词 "和 "一个句子 "之间的区别。通过关注视频的中间和结尾以及开头,代理可以获得一种感觉,比如 "具有这种一般形状的物体从左到右"。这些信息可以反馈到其他知识中,比如当右边的物体与第一个物体重叠时,系统知道它们不是同一种东西,只是在这些帧中接触。而这些知识反过来又可以应用于其他情况。换句话说,它发展了一种基本的视觉意义感,而且只需对新物体进行极少的训练就能做到。

与传统的训练系统相比,它的表现很好--而且更有亲和力和可解释性。例如,虽然一个经过 500 张狗图片和 500 张猫图片训练的人工智能可以识别这两张图片,但它不会真正知道它们在任何方面都是相似的。但是DINO--尽管它无法具体说明--知道它们在视觉上是相似的,无论如何比它们和汽车更相似,而且元数据和背景在它的记忆中是可见的。在它的那种数字认知空间中,狗和猫比狗和山更 "接近"。

推荐关键词

24小时热搜

查看更多内容

大家正在看