因为看见，所以相信——依图科技对未来AI之浅析

最近，大量关于人工智能的研究报告，投资人、创业者、学者热议AI的趋势和对社会各行业的影响，不乏对AI技术和产业发展的误解，很容易有误导性。宏观上，议题大体分为三个方面:AI是多大的事?谁是真正的AI player?AI的场景在哪里?

从科学研究者和创业者的双视角谈谈我的主要观点:AI的边界，只有领军人物才可能准确把握和拓展;先进企业，因为远见造就势能;AI的未来，很难相比，没有历史可以借鉴，也没有保障可以预测。

“S”曲线看AI格局

我对AI发展历史和预测，用上图的”S”形曲线建模（Sigmoid函数，恰好也是用来刻画神经网络中神经元的activation function）。横轴表示时间，纵轴表示机器智能水平。曲线上的点表示某个时间点的全球比较高智能水平。2013年开始是新AI时代(深度学习)，2013年前的机器智能发展水平相较于近5年的发展基本可以忽略不计。红线代表悲观派(AI退潮、AI泡沫等)，2017年之后很快出现发展停顿;蓝线代表乐观派，2017年之后还有快速发展。值得强调的是，蓝红两条曲线对AI历史有相同认识，但市场上很多论调或研究报告看到的是另一条曲线，很大概率调研看到的AI水平离比较高水平有很大差距。分析AI格局的不同立场，可以通过解读S曲线的三个方面:

1、AI过去的发展以及AI未来发展程度和速率的预测

2、AI发展水平和商业场景的关系

3、各个player的所在位置和差距

具体来说，我们先从AI过去5年的发展情况谈起，以人脸识别作为例子，把人脸从N个人中找到的概率在95%，纵轴就是可识别的规模（N的大小）。

技术不是趋同，而是会放大差距、解锁场景

2017年人脸识别比较高水平可识别规模在20亿人，大概比2016年可识别千万提高两百倍，比2015年提高了数万倍。在2017年全球最保障的人脸识别测试中（NIST），我们比第二名Vocord团队，在千万比对测试上领先2%(Vocord在另一测试集比腾讯优图高10%)，这个就是大家常说的技术水平趋同，高一两个百分点没有意义(引申出难兑现成竞争价值)。这个误区需要从两个方面解读:

首先方面，算法在亿级、十亿级比对的领先会快速放大到5%，20%。这是一般的算法性能曲线的规律。除了可识别规模上的重大差异，还体现在难（hard）的数据上的识别率差异。从算法经验来说，黑人、女性、小孩、大年龄跨度、遮挡等是较难识别的群体和类别。在这些子类上，不同算法之间的性能差异会更大。

超大规模下的评测本身就是一个不简单的学术命题，还需要大量的数据支撑，真正能观测到20亿数据下性能的人少之又少，例如美国很难建立20亿级的测试集。这不是访谈一些人脸识别研究从业者就能获得，这是误区的首先个来源。

第二方面，算法提高，扩大可识别规模，就会解锁更多商业应用场景。百万、千万识别规模对应的是身份认证场景，远程认证、手机解锁都属于此类。“技术无差异”的论调在这个场景下倒是可以成立。但在对亿级和十亿比对有刚性需求的场景下，几乎就是行与不行的问题。“非关键性应用”的论断误导性极强。

假定每路人流为万，要在万路视频中，搜索性能相当于要求算法百亿、千亿规模上的可识别率。这比其他场景的性能要求再提高千倍。以不同算法为基础的产品端体验差异就被同比例放大。

总结来说，99%识别率的算法和99.99%的算法，区别在于可解锁的应用场景。这些新的场景解锁，是较早锋的算法团队和垂直领域的开拓者共同努力，也不是访谈一般的相关从业者就能感知变革的最前沿，这是误区的另一个来源。

技术水平的三个层次VIE:Vision（远见），Insight(洞见)，Execution(执行)

技术实力该如何评估比较呢?最常见的是测试比赛的较高排名、实际案例、招投标PK成绩、论文等。这些或许能区分是不是前10名的AI团队，但很难区分较好的团队。我对技术的三层解构:Vision，远见，或战略格局、技术趋势判断;Insight，洞见，算法本质和客观世界分布规律的理解;Execution，执行，算法实现、数据获取、工程计算平台等。具体来说:

最基础的Execution就是算法做到什么水平，特别是大体框架已知后，能快速实现，包括基础算法、场景数据、计算实验平台、产品应用等。比如，AlphaGo出来后，多快能复现;语音识别多快能追上全球较好的结果。优质的Execution，不是开源的算法平台可以弥补。特定领域的专家能帮助团队快速提高对应领域Execution的水平。这个层面，中国团队应该是世界知名的。Google如果是世界首先的话，不论是下棋、人脸识别、语音识别等，中国的水平应该不会比 Facebook、Microsoft、Apple、Amazon等差，甚至某些方面稍强些。大部人比较技术，基本就在这个层次。但更重要的、威力更大的是上面的两个层次。

再往上一层是Insight，考察对技术的深刻认知。包括算法模型的数学解释、客观世界分布规律的独到见解。Insight指导如何使用数据、计算力（就是指导如何使用算法甚至创新算法）。这层决定能不能比Google做得更好，或者能保持同一发展节奏。假定拥有深度学习算法框架、海量数据在同样水平，但是大家对算法性能调教还有巨大差距。以人脸识别为例，我们使用了2亿张人脸图片(几十亿张图片的子集)训练，有效模型参数达到10亿量级，利用对人脸这个对象的属性先验的合理假设，包括光照、年龄、种族、运动模糊、成像解析度等，模型定制、数据如何组合、计算如何加速在性能调优和模型学习效率上(就是上面提到的Execution)都有重大差异。这就是为什么拥有算法、算力、数据条件的互联网巨头也不见得能在单项AI任务上能做到全球前三。

Vision:预测发展趋势、定义未来方向，想象对生活、生产的影响。这除了需要对技术的深刻理解，还需要对技术的创新能力，以及技术商业价值的想象力、创造力。技术的远见，回答AI的场景在哪以及多快到来。

强的Execution，Insight肯定不错，但可能毫无Vision;比较强的Vision，Insight肯定知名，但Execution可能很差。VIE都很强的团队全球极其稀缺。用深度学习领域比较强的两位大师Hinton和LeCun谈一下我的感受。在2010年前，学术界不少人已经在谈大数据对机器学习的重要性，Hinton团队2012年在LeCun发明的算法基础上，用了百万的训练数据，在ImageNet上取得的突破性进展;同一时期，LeCun团队只用了不到十万的数据。但是在Hinton公布ImageNet结果的头两个月，LeCun团队没法重现Hinton用自己算法的实验结果。在Hinton公布算法实现和技巧后，LeCun团队的结果就轻松超过了Hinton团队的水平。

两位大师都拥有超知名的Vision，在深度学习方向上坚持三十年。但是他们Vision的差别以及以此带来的信念差别使得Insight的差别（是否追求更深刻见解）在当时可能是巨大的，对深度学习算法发挥的突破条件包括训练数据规模、模型正则化实现、activation function选取、GPU计算等的理解还有显著差异。这些在当时，原理还不清楚时，可能完全是凭着Hinton(包括那一期超强的博士生)的直觉。这种Insight的差距，使得LeCun团队已知所用算法框架和目标性能但未知关键实现时，也不能重现结果。但之后，LeCun团队拥有更好的Execution(大规模系统性调优)，能在短时间内算法性能超过。这种最牛高手间信念的微妙差异，到底来源于什么，值得深思。

为什么Vision很重要?就像雷达，对别人来说是盲区，Vision让你看见，看见所以相信，相信所以平静。不仅以此获得战略优势，还有定力，排除诱惑和干扰。

Vision如何辨别呢?非常难，甚至几乎不可能，只能由同样有Vision的人欣赏。就像taste难以打分一样，只能由同样有taste的人欣赏。Vision带你看到的，就是99%的专家同行都看不到、不相信的。所以，伟大往往和误解相伴。LeCun在深度学习被实际测试数据验证前，也很难被美国主流学术圈认可，甚至发表优质会议都不是简单的事，可如今，几乎所有的论文都要贴上深度学习的标签。

但是判断过滤没有Vision的团队，倒是有迹可循。一般来说，无论学术还是创业，伟大的突破，都需要多年前后一致的投入和深耕。隔年换领域或者什么模式都在做的（垂直、平台等），归类为没有Vision应该没什么问题。

有了VIE的拆解，我认为，AI新时代的壁垒只有人，特出质的人。领军人物对AI技术和商业边界的未来分布判断无法替代，决定AI发展基本要素（算法、算力、数据和场景）的所需程度和权重。拥有优质Execution和Insight的团队，最知道对算法有效的数据在哪、如何标注使用。拥有优质Insight和Vision的团队，最早知道技术的突破带来较具商业价值的场景在哪以及何时到来。

AI未来:没有历史可以借鉴，也没有保障能够预测

谈了AI发展，技术如何解构，谈谈AI的未来。基于深度学习的AI新时代，大大不同于30年历史上的AI，这是被各种应用、在实际场景、大规模数据验证过性能的技术，而不只是理论或概念。尽管过去5年的发展，对得起人们的期待，今天，还有不少人担心新AI像过去一样很快会退潮。但我们认为，AI新时代只是开始。我从新AI的三个特性简要阐述:

1、AI是全新的维度。这是最重要的，决定AI到底是多大的事。

AI技术如何创新发展，如何变革商业，没有历史可以借鉴，也没有保障能准确判断。AI不仅仅是一个技术，AI突破还能突破所有技术包括人机交互、搜索、机器人、芯片计算、医学、制药等科学领域的几乎所有学科。

2、AI的发展速度快、跳跃性强

从S曲线中，可以看到过去5年，AI的发展及其迅猛，单门类（人脸识别）算法有了万倍的增长。但我对未来更加憧憬，即S曲线中2018年之后的曲线有多陡。AI发展带来的多维度技术和各场景深度结合、叠加会带来更有冲击力的体验。从多技术维度来说，从视觉，到听觉、语义理解、运动控制会在之后几年都会快速突破;和芯片结合，端智能渗透到与用户的最后30公分的交互体验，从Internet Of Things向Internet Of Intelligence跨越，让智能无处不在。

3、AI领先一步，会带来巨大势能

在S曲线中，处在不同位置的团队，优势不只是横轴时间的差距，而是技术领先带来的累积效应（曲线积分）以及更多元(多条AI技术曲线)AI技术的叠加，这使得AI能有跨行业的摧毁性。不仅仅决定某个行业，首先名和第二名的差距或位置关系，还能使得AI领先的行业的掌舵者撬动AI意识落后的行业。

AI未来，很难相比;因为看见，所以相信。

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

因为看见，所以相信——依图科技对未来AI之浅析

推荐关键词

24小时热搜

大家正在看

加密货币每疯狂一次，人类就离AGI更远一点？

特斯拉FSD V13.2版发布：原生Al4输入实现点对点自动驾驶

马上消费金融新风貌：科技自立自强，共绘数字产业新篇丨马上消费金融

活动｜40岁的基普乔格似乎找到了新的目标

AIGC技术兴起，海同科技专业课程助力职业发展

国讯科技&金山办公战略签约会暨大连国讯“连创数智办公套件”发布会正式启幕！

破400万粉丝！被指责擦边的前体操冠军吴柳芳为何做女主播：我就是要改命

12月11日正式发布！真我Neo7首发7000mAh泰坦电池

影院化再升级，华为视频带来菁彩视听新体验

《永恒之塔》2024APL半决赛结束，冠军争夺战正式吹响号角！

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

轻量化MobileMamba视觉模型来了｜浙大/腾讯优图/华中科大联合出品

羽绒服价格逆势下跌，降价背后的行业现状到底如何？

再见，抖音一哥

微信小店到底要做什么？

ChatGPT两岁，OpenAI 10亿用户计划曝光！

清华、面壁提出创新AI Agent交互：能主动思考、预测需求

吴柳芳抖音账号已解禁一夜涨粉超100万

胖东来声明未进行直播带货：将追责山寨账号

马斯克加码起诉OpenAI：要求禁止其转变为营利性公司

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

因为看见，所以相信——依图科技对未来AI之浅析

推荐关键词

24小时热搜

大家正在看

加密货币每疯狂一次，人类就离AGI更远一点？

特斯拉FSD V13.2版发布：原生Al4输入 实现点对点自动驾驶

马上消费金融新风貌：科技自立自强，共绘数字产业新篇丨马上消费金融

活动｜40岁的基普乔格似乎找到了新的目标

AIGC技术兴起，海同科技专业课程助力职业发展

国讯科技&金山办公战略签约会暨大连国讯“连创数智办公套件”发布会正式启幕！

破400万粉丝！被指责擦边的前体操冠军吴柳芳为何做女主播：我就是要改命

12月11日正式发布！真我Neo7首发7000mAh泰坦电池

影院化再升级，华为视频带来菁彩视听新体验

《永恒之塔》2024APL半决赛结束，冠军争夺战正式吹响号角！

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

轻量化MobileMamba视觉模型来了｜浙大/腾讯优图/华中科大联合出品

羽绒服价格逆势下跌，降价背后的行业现状到底如何？

再见，抖音一哥

微信小店到底要做什么？

ChatGPT两岁，OpenAI 10亿用户计划曝光！

清华、面壁提出创新AI Agent交互：能主动思考、预测需求

吴柳芳抖音账号已解禁 一夜涨粉超100万

胖东来声明未进行直播带货：将追责山寨账号

马斯克加码起诉OpenAI：要求禁止其转变为营利性公司

特斯拉FSD V13.2版发布：原生Al4输入实现点对点自动驾驶

吴柳芳抖音账号已解禁一夜涨粉超100万