还在纠结深度学习算法？计算机视觉CV的关键在于数据采集和标注！-低调大师

还在纠结深度学习算法？计算机视觉CV的关键在于数据采集和标注！

2020-05-19 669

科技云报道原创。

2012年，AlexNet网络横空出世，带来了前所未有的深度学习革命，这也让多年来进展缓慢的计算机视觉CV研究，一下被按下了“快进键”。

人们突然发现，这种模拟人脑抽象和迭代过程的深度学习算法，让计算机开始“看见”。从物体的边缘、轮廓到物体的部分，再向更高级层层抽象，深度学习让计算机终于能够在一张日常照片中，检测并识别出图上有一只猫，而不是一条狗。

这样的一小步，人类已经等待了二十多年。2016-2018年，深度学习成为计算机视觉CV研究的算法“标配”，人脸识别、图像识别、视频识别、物体跟踪、行人检测等CV技术得以进一步突破，并快速应用到安防、金融、汽车出行、泛娱乐等各个行业中。

如今，人们拿起手机刷脸支付、一键美颜、拍照识图，背后都有计算机视觉CV技术的身影。而在更广阔的行业市场，智慧城市、自动驾驶、智能家居、智慧医疗等多种场景都在渴望计算机视觉CV技术更进一步。

过去五年，计算机视觉CV领域一度成为国内创投圈的“宠儿”。仅2018年，该领域融资额就高达230亿。然而，这样的盛景并没有持续多久。

去年2月，计算机视觉奠基人Alan L. Yuille曾撰文表达他对当下计算机视觉CV技术发展的担忧。他认为，计算机视觉的发展面临瓶颈，深度学习在其中起到的作用有限，需要找到新的突破口。

从某种意义上来说，计算机视觉CV研究的确已经进入了瓶颈期。

计算机视觉CV困境：受限于AI数据的规模和质量

在近几年的发展中，图像分类、对象检测、目标跟踪、语义分割、实例分割等计算机视觉CV技术的核心任务，其精确度已经达到了产业落地的水平，但随之而来的，却是计算机视觉CV公司技术的同质化。

京东集团智能平台部投资主管徐博曾表示，在全球范围内，计算机视觉CV企业的技术都差不多，无论从中国还是美国发布的研究成果看，算法都是类似的。

业界关于计算机视觉CV技术已触及天花板的讨论越来越多，而源头则统一指向了深度学习算法。由于深度学习高度依赖大量的标注数据，如果计算机视觉CV的精确度想要再提高，如：对非常小和模糊的目标做检测，在复杂光照变化下保证分割结果稳定等，都需要分类更加细致、标注更加细化的数据去“教导”深度学习算法。

不仅如此，在工业界，数据规模更容易成为算法研发的关键因素。如果有更多的数据，就可以使用容量更大、更复杂的模型，得到效果更好的算法。当数据大到一定程度，数据和算法之间可以进行反复迭代，形成壁垒，为公司提供竞争力。

尴尬的是，在计算机视觉CV领域，可用数据的规模和质量，远远达不到进一步提升效果的需求。为了解决AI“数据荒”，业界尝试过多种办法，如：在少量数据基础上增加特征生成新数据；再或者，另辟蹊径去攻克半监督或无监督学习。

但是，种种“曲线救国”的办法，都解不了计算机视觉CV领域对高质量数据的“近渴”。落地到工业界，企业迫于市场竞争的压力，对计算机视觉CV的感知能力要求还在提升，业界对大规模、高质量AI数据的渴望空前强烈。

以人脸识别技术为例，云测数据总经理贾宇航表示，2015-2016年，人工智能对人脸数据训练的还相对粗放。但到了现在这个阶段，由于人工智能应用场景的多样性，对不同年龄、性别、肤色，不同的光线、角度的场景化要求越来越复杂，而且拍摄设备也随着手机、相机的不断进化，从单镜头到双镜头甚至增加了3D摄像设备，算法训练对数据的要求变得更加精细、丰富更加具有策略性。

场景化AI数据：量身定制的数据采集和标注

事实上，如今各大企业在AI产品上的竞争，本质上已经变成了AI数据之争。

在智能安防领域，产品可以分为监控、探测、防护等等，而视频监控则占据了其中大头部分。现有摄像头囊括了大量的行人、机动车、自行车等道路场景数据，而预警作为智能安防的重要作用之一，则需要识别诸如：老人摔倒、抢劫、打架、着火等稀有的小场景数据。显然，这种长尾场景的数据，需要在特定条件下的才能获取。

在人机交互领域，除了常规的语音、动作识别等，很多前沿研究希望通过情绪识别的方式，感知用户的心理状态，进而优化人机交互的体验。相对应的，人类在各种特定条件下的喜怒哀乐哭笑等精细的情绪数据，仍缺乏规模和质量。

在自动驾驶领域，由于涉及到驾驶安全，对场景化的数据要求更为精细。以图像识别为例，在佐治亚理工学院的一项研究中，通过对8个图像识别系统的测试，发现自动驾驶汽车的传感器和摄像头，更善于检测肤色较浅的人，而肤色较深被检测出的准确率平均会低5%。

但从技术角度来看，计算机视觉CV是通过RGB或RGBD识别人/物体的信息，其中黑色是最难被识别的。现实中，由于黑色及深色的数据稀少，导致算法模型不够精确，最终在实际落地应用时出现差错。

为了获得规模化、高质量的AI数据，工业界开始寻求一种更具专业化的数据获取方式，即通过定制的数据采集和标注，来获取特定的场景化数据。据云测数据总经理贾宇航介绍，现阶段AI数据有着三个大趋势：

第一，场景的多元化。基于产品落地场景，尽可能模拟各种各样的特定条件，如：光线强度、拍摄角度、噪声要求、室内室外等，以覆盖丰富多样的场景，甚至是长尾场景的数据需求；

第二，样本的多样性。以人的数据为例，人是一个非常多元化的物种，有不同的年龄、人种、性别、国籍等等，除此之外还涉及广泛的数据类型，包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性，用AI产品服务好各种人群，就需要丰富多样化的样本。

第三，数据的多维化。随着技术和行业的发展，以智能驾驶领域数据需求为例，业界已逐渐从单摄像头过渡到多摄像头的方案。但是2D图像对于物体的测距仍有着很大的局限性，因此也出现了与激光雷达、超声波雷达等3D传感器的融合。通过多维度的采集硬件设备，帮助更多维度数据融合加速场景的落地。

目前，处于AI产品落地前夕或者处于重大迭代周期的企业，已经开始大力投入场景化数据用于算法的训练。以汽车行业为例，数据场景化定制主要集中在AI落地的两个方向：自动驾驶和车内智能驾驶仓。

在自动驾驶方向上，业界对行驶安全尤为关注，因此加大了对道路上长尾场景的覆盖，如：行人出现在马路中间、孩子突然在车前摔倒等，这决定了自动驾驶车辆能否及时识别出这些状况，并完成相应的控制决策。而在疫情期间，大街上出现了大量戴口罩的行人，这类场景也需要相对应的数据进行算法模型训练。

而在车内智能驾驶仓方向上，企业比拼的是车内智能和互动的体验，如：通过手势识别、语音识别、情绪识别等AI技术，来关注车内驾驶员是否疲劳驾驶、车内是否会出现争吵等危险事件，以便做到及时识别和干预。

事实上，道路情况千变万化。云测数据通过自建的“场景实验室”的方式还原现实场景，帮助算法模型尽可能多地覆盖不同场景下的多维数据，从而提高自动驾驶车辆的安全性。而这样高质量的场景化数据，才得以帮助企业真正的商业化落地。

云测数据：场景化AI数据采标的引领者

如今，越来越多的行业在与人工智能技术结合。企业为了保持优势，打造持续的AI竞争力，开始与AI数据服务商紧密合作，以获得更高质量的场景AI数据来进行产品落地前的优化。

根据艾瑞《中国人工智能基础数据服务行业白皮书》显示，2018 年，数据资源定制服务已在基础数据服务市场占据86.2%的份额。各个行业的头部企业更是一马当先，都在为场景化AI数据“下血本”。

目前，众多AI巨头、车企巨头、大型金融机构、互联网企业以及传统企业等等，都与云测数据建立了良好的合作伙伴关系。

一旦数据采集和标注变成专业化、高质量的服务，交付的数据就需要在数据的规模、质量、时效性上充分满足服务企业的需求，来助力AI产品达到商业化落地的标准，而这正是云测数据的优势所在。

据悉，云测数据作为国内数据采集和标注领域头部的服务商，在创立之初恰逢自动驾驶、智能音箱等AI应用趋势兴起，各大企业需要大量的计算机视觉CV数据以打磨自己的算法和AI能力，由此计算机视觉CV也成为云测数据至今深耕最久、经验最丰富的领域之一。

虽然与文本、语音等数据类型相比，计算机视觉CV数据的维度很多，可以说是数据品类最复杂的一个领域，但长期与行业众多企业的紧密合作，让云测数据持续保持着全品类CV数据采集和标注的优势。

为了提供更为专业的服务，云测数据自建数据基地和场景实验室的方式，打造出AI领域的数据“梦工厂”。

结合标准化的作业流程，并配以专业的标注工具和平台，云测数据在华东、华南、华北自建的数据标注基地和场景实验室，是高效率和高质量数据交付的强力保障。

其实对于数据标注，不同的人有不同的理解，例如：什么样的光线叫做强光线，在判断上有很强的主观性。为了保证企业客户和标注人员的理解达成一致，云测数据的项目经理保持着实时的沟通和反馈，并配合行业培训师对标注员们进行前期培训，以确保在标注时具有领域专业知识。在确立了数据标注标准后，标注员全程在线上标注系统里完成作业，并最终经过层层质检以保证数据标注的准确性。

以自动驾驶为例，为了让机器“看见”复杂道路环境中的车道线、路标、障碍物、行人、十字路口，以及一些长尾场景如：闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等，数据标注时需要采用图像分割、连续帧标注、2D图像框选、3D点云标注等多种标注方式。其中，云测数据自研的3D点云标注工具，能够保证整个标注过程流畅快捷，其效率比开源工具高5倍左右。

在人脸及人体关键点标注及追踪方面，云测数据能够通过领先的标注工具实现精细化的标注，如：对人脸进行26点、54点、96点、206点的人脸关键点标注；贴合度在3像素以内的特定任务关键点追踪；对人体骨骼关键点位置进行打点，特定位置可脑补并分配对应动作属性等。

对于企业客户最关注的数据安全和隐私，云测数据也有自己的原则和底线。首先，数据绝不复用，对于客户定制的数据需求，交付后全部清删。第二，在云测数据的标注基地设定了数据隔离、质量保障等一系列数据安全流程，确保数据不泄露，同时还提供私有化部署、标注人员驻场等服务。

不难发现，云测数据从数据采集、标注、审核、输出、安全等环节提供了一整套的解决方案，在保障AI场景化数据高质量生产的同时，也使得交付的数据等高效、高质、安心。

CV研究下的AI数据趋势：精细化、效率化、多模化

随着企业在AI功能性、拟人化、安全性方面的竞争进一步加剧，对应CV数据的要求也将越来越高。在云测数据总经理贾宇航看来，未来计算机视觉训练数据的发展需求会呈现三大趋势：

一是，数据采集和标注的精细度会更高。从算法的学术研究到产业落地，对于标注内容的精细程度正在不断上升。以人脸识别为例，从前期的90%到95%是一个档次，而当数据标注精度达到99%时，算法模型的完善，将会有质的提高；同时，针对物体属性分类，也从单层级向多层级进行演进；以及对应的训练数据的采集与标注，需要有更多相关操作能力和经验的专业人员来操作。

二是，在效率层面，未来随着更多产品落地，AI产品迭代时间将更加清晰明确，对应的数据标注时间、数据标注量都有明确的时间节点。因此，数据采集和标注的效率，将很大程度考验着数据服务商的专业度。

三是，多模态的数据采集和标注，会成为一种必然趋势。不同的样本、场景、设备构建的多维度数据的融合，将大幅度提升AI算法的能力。对于数据服务商而言，是否具备加速处理数据的能力，以及场景搭建、还原的能力，都决定了市场竞争的门槛。

在这样的趋势下，所有的AI数据服务商都面临不断升级的业务难度。如云测数据这类处于引领地位的数据服务商，往往会结合各行业最头部企业客户的需求，来布局自己的服务领域，对服务能力进行自我迭代升级，以确保该需求成为行业普遍需求时已经成为该领域的数据专家。对于后进者而言，缺少专业知识、技术和行业经验的日复一日的积累，这种竞争差距只会越拉越大。

创立了ImageNet数据集的斯坦福教授李飞飞曾在TED演讲中畅想：“当机器可以‘看到’时，医生和护士会获得一双额外的、不知疲倦的眼睛，帮他们诊断病情、照顾病人；汽车可以在道路上行驶得更智能、更安全。我们会发现新的物种、更好的材料，还可以在机器的帮助下探索从未见过的前沿地带。”

人类对于技术深度的追求和美好未来的畅想从不落幕。很多人或许认为计算机视觉CV技术已经遭遇了瓶颈，但同时，也有越来越多的企业意识到，想要打破计算机视觉CV技术的同质化，再一次实现机器感知能力的突破，获取高质量、精细化的场景化AI数据至关重要，而这也是各行业企业打造AI竞争力的关键所在。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

微信关注我们

原文链接：https://yq.aliyun.com/articles/761660

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

来看看基于Kubernetes的Spark部署完全指南

本文是在Kubernets上搭建Spark集群的操作指南，同时提供了Spark测试任务及相关的测试数据，通过阅读本文，你可以实践从制作Spark镜像、搭建Spark容器集群，到在集群上运行测试任务的完整流程。Yarn曾经是Hadoop默认的资源编排管理平台。但最近情况有所变化，特别是对于Hadoop中的Spark，由于其与S3等其他存储平台集成得很好，而与Hadoop生态中其他组件反而没有太紧密的关联，因此Kubernetes正迅速替代Yarn，成为基于对象存储的Spark系统的默认编排管理平台。在这篇文章中，我们将深入研究如何在Kubernetes集群上构建和部署Spark容器。由于Spark的运行依赖于数据，我们将配置Spark集群通过S3 API进行存储操作。来看看基于Kubernetes的Spark部署完全指南来看看基于Kubernetes的Spark部署完全指南构建Spark容器在Kubernetes上部署应用的第一步，是创建容器。虽然有些项目会提供官方的容器镜像，但截止到写此文时，Apache Spark并没有提供官方镜像。因此我们将自己创建Spark容器，让我们从Doc...

2020-05-18

638

数据中台、相信这四个字大家一定不陌生。因为在2019年、数据中台可谓是最火的概念之一，很多大公司都在布局自己的数据中台。那么数据中台到底是什么？它和我们熟知的数据平台有啥区别？它为什么会这么火、能给企业带来什么价值呢？数据中台整体架构和全景图又是什么呢？笔者有幸参与了公司数据中台从0到N的建设，计划从概念到落地，把中台那些事跟您说透，与您一起分享学习。笔者公众号：【胖滚猪学编程】第一问：数据中台是什么先不说那些官方的抽象的概念了，我想用我自己的大白话去说数据中台的概念。那就是如果把前台比作赚钱的。后台比作支持的。那么中台呢就是支持加速赚钱的。这个比喻我觉得还是很形象的，中台呢它实质就是前台和后台的一个桥梁，并且它能在这当中起到很好的加速效果。这里的加速，可以是效率上的提高，可以是协作上的共赢。举个例子，比如前台业务人员日常要分析广告投放、在哪个平台投放效益最好呢？抖音还是头条呢？这直接涉及到公司的money了。前台人员要分析这个肯定要有数据吧、就会向后台人员要数据：我需要哪些表你要帮我同步过来数仓里，同步好了你要授权给我，然后你再去配置定时报表任务、配置好了你要再做一个...

2020-05-18

704

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。