返回

云测数据:是什么让AI产品更有灵魂?

2020-03-10 15:59用户投稿

前两年行业还说AI是风口、是噱头,可到了 2020 年,我们会发现越来越多的人工智能开始落地,各行各业都迈入了AI时代。

如今,各类语言助手走入现实,智能驾驶逐步应用,人脸识别技术遍布我们身边的各个角落……

小到我们每天使用的手机,大到城市的交通管理系统,几乎每一个能被科技影响的场景,都离不开AI能力的加持。

可是在AI技术大范围、高频次的实际场景使用现状下,却还总是发生“不灵光”的情况。我们不禁要问,人工智能为什么总出“错”,如何让AI产品更有“灵魂”?

从我们自身的感受来看,不管是语音助手、还是人脸识别,总会在使用场景发生改变的时候,如普通话夹杂方言、光线变换等,AI产品的准确度就会出现误差。

谷歌发布的CNN报告就提到过一个严重问题:智能驾驶车辆的识别系统相比白种人、黄种人,智能识别系统对黑色人种的辨别率会降低10%——如果有大量的、经过精准标注过的高质量数据,这样的误差便可以很大程度的缓解。

在人工智能世界里,算法、算力和数据是三大支柱。有媒体总结,目前中国在AI领域有五家公司被称为“人工智能五强”,算法层有商汤、旷视,AI数据领域有云测数据,硬件方面有涂鸦智能、地平线,这些公司专注于深耕各自领域并拥有让行业认可的成果,目前行业领先的AI公司都拥有了出众的算法和强大的算力,提升AI准确度的重任,更多落在了数据之上。

Testin云测CTO陈冠诚曾表示:“人工智能正加速往应用人工智能方向发展,在算法、算力没有重大突破的前提下,高质量和安全性强的数据成为人工智能商业化落地的关键点。”

如何找到高质量、安全性强的数据,已经成为整个AI行业都亟待解决的问题。

没有好数据,AI就没有未来

很多人愿意把数据比作人工智能的燃料,燃料可以在算力、算法持续提升的基础上,让AI能力更强、更准确。

在人工智能发展初期,更多的是使用通用型数据产品来训练AI模型。不过这样的数据只适用于AI的早期训练;随着人工智能行业的不断发展,也对数据提出了更高的需求,众包数据服务模式开始出现。这对于提升数据的多样性、丰富性有很大的帮助,相对的帮助了人工智能更高阶的训练。

云测数据 AI产品

而随着人工智能商业化落地进程加速,AI产品对高质量数据的需求越来越强烈。

精准、高质量的场景化数据服务为人工智能应用落地带来更多的可能性。很多头部的AI玩家甚至愿意拿出项目资金的10%,用于数据的采集和标注。因为行业内的玩家都清楚,没有好数据AI就没有未来。

有行业人士估算, 2020 年数据标注行业的市场规模将达到 150 亿。巨大的需求催动了整个AI市场的变化。如何更好地产出高质量、高精准度的数据,已经成为产业发展的关键。

艾瑞咨询的相关报告显示, 2018 年中国人工智能基础数据服务年复合增长率为23.5%,数据标注赛道主要玩家的增速远高于行业平均水平。与各种增长率相匹配的是,大量数据服务采集、标注公司应运而生。

可我们也说了,并不是所有数据服务公司都可以提供高质量的数据服务。更高阶的数据服务公司,会通过生产高质量、高精准的数据,助推AI产品智能化发展。

其中一直推动数据行业的高质量、场景化、精细化,提升数据隐私安全性的云测数据,则一直堪当数据服务行业的扛大旗者。

因为他们深知:人工智能想要商业化落地,一定需要用高质量的数据来进行训练,这是AI行业发展的必然趋势。

以高质量为根本的数据服务

众所周知,随着更多AI落地场景的逐步具象,企业对AI应用的准确性、安全性都会提出更高的要求。

比如,现在的手机刷脸解锁、刷脸支付、远程身份验证等应用场景,通过活体检测等方法,使用人脸关键点定位、人脸追踪等技术,,验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段,从而帮助用户甄别欺诈行为,保障用户的利益。这背后,训练算法模型所要求的的AI数据维度更精准、更高质、更多维,对保证用户安全发挥着至关重要的作用。

放眼整个人工智能领域,随着行业走入落地期,有更多企业希望通过质量更高的数据,将AI产品的准确度提升到更大,同时把失误率压到最低。

以AI技术中的一个重要分支——自然语言处理(NLP)为例,向更高级认知智能进发的每一步,都要求质量更高、针对特定需求提供的NLP标注数据。据云测数据总经理贾宇航介绍,图像采标有很强的规则性,按照规范化的指导文档工作即可,相比图像、视频等数据类型,NLP数据采标方式更为复杂。

专精于定制化、场景化、高质量数据服务的云测数据有一整套的标准化流程和方法论,用来产出更高质量的NLP数据。

首先,从项目前期帮助客户梳理更贴合实际情况的需求,达成一致后进行小规模试标,试标验收合格后,再进行大批量的规模性标注;

在数据标注作业提交后,云测数据还有三层质检环节,对于准确率达不到要求的数据会打回重新标注。在完成三层质检后,还有抽检环节,确保数据的高质量输出。

其次,云测数据对数据服务团队的专业化能力有着严格要求。

在云测数据,以智能客服单个场景的意图标注,就分为10- 20 个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。尤其在医疗、法律、教育、智能驾驶等高度专业化的领域中,标注人员并不是随便找一个普通人员就可以做,标注人员需要非常专业,才能进行正确的数据标注与解读。

再次,在技术层面,云测数据对软硬件设施的持续投入,直接拉高了行业的进入门槛。

云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,提升业务效率。

基于自建的数据标注基地、场景实验室、全职的标注团队和硬实力的技术投入,云测数据的业务场景已经覆盖智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域,全品类服务能力、独立第三方的身份和对数据隐私安全的严格把控,让众多AI企业和各个行业的龙头企业选择与云测数据合作,保持着长期良好的关系。

数据服务是AI发展必需的土壤

在云测数据总经理贾宇航眼中,当下对数据的使用有逐渐变“大”的趋势。他认为:

“高质量、场景化的数据服务正在扮演越来越重要的角色,它带来的影响不仅是效率提升、技术升级。随着AI行业的高速发展,它所影响的,很可能是我们的未来生活的方方面面。”

随着5G等技术的加速落地,未来不只是人工智能垂直领域,各行各业都将积极拥抱AI技术,进行产业智能化升级。这种趋势为云测数据这类高质量数据服务商,提供大有所为广阔的天地。

AI照进现实已经是指日可待的事情,虽然我们会经常吐槽AI出错,但我们很清楚,AI无时无刻不再改变着我们的生活。

我们购物时的人脸支付,去高铁站、机场的必须经过的安检,各大城市的智慧交通、智慧物流,玩手机、刷抖音时的各种个性化推荐……这些都离不开AI技术的加持。

Testin云测总裁徐琨曾在演讲中表示:“AI是划时代的技术,我相信在不久的未来,AI将成为像互联网一样的通用型技术,云测数据将成为人工智能技术的重要力量,成为AI创新的土壤和支撑。”

如果说AI是摩天大楼,高质量的数据就是AI发展的根基。这种土壤所带来的支撑作用,会让未来AI行业的发展更稳固。

未来,地基有多厚,大楼就会有多高,而数据质量的好坏,直接决定了AI发展的上限。这是AI高速发展的时代,更是云测数据这类高质量数据服务厂商的发展机遇。

相关文章 大家在看
云测数据
4篇文章
查看