演讲实录丨华刚计算机视觉的黄金时代：机遇与挑战-低调大师

演讲实录丨华刚计算机视觉的黄金时代：机遇与挑战

2017-05-21 658

计算机视觉的黄金时代：机遇与挑战

华刚

微软亚洲研究院视觉计算组组长、资深计算机视觉专家

华刚：大家下午好！今天报告题目是计算视觉的黄金时代，机遇与挑战。如果我们看到这个题目，关键字有几个，第一个是计算机视觉，第二个黄金时代，第三个第四个机遇挑战。

基于这四个关键字给大家讲讲我的理解和看法。什么是计算机视觉？学术的观点定义领域的话，计算机视觉我们从图象和视频中间提取数值和符号计算机系统。我们说一个愿景能让计算机像人类一样看到并理解图象，我们认为是一个黄金时代回顾一下计算机视觉真正发展的历史。基本上来讲计算机视觉历史第一个萌芽阶段，1955年到1979年的时间，这个领域还是相对比较新的领域。在55年我们对于计算机视觉提出一个展望，在MIT一个暑期人工智能会议上。我们在三四个月内能不能把计算机视觉工作解决了，直到今天还没有完全解决。中间经历了很多发展，在70年代麻省理工真正成立研究小组，开设第一门计算机视觉课程。

从今天来讲，我们看到会是非常简单一个图片，是一些像块状的物体，这是MIT第一篇博士论文。称之为萌芽阶段，大家处于一种探索状态，这个领域怎么走？早期期望说三个月把这个问题解决，甚至40年之后我们仍然没有把这个问题解决。计算机视觉真正发展一个非常坚持的基础，应该是从21世纪到80年代的时间，这中间发生很多时间，在80年代初光学支付（音译）识别系统，应用于商业应用邮局。美国邮局大家利用信件交流方式很多，包括公司各种商业应用，涉及到邮件分检的问题。

这中间发生了几个里程碑事件，包括三维视觉的理论体系基本完备了。到90年代初人脸和语音识别，统计学识别方法已经引入到计算机视觉上了。计算机视觉真正爆发时间，我认为从21世纪10年代中，涉及到几个方面的因素。第一个我们进入互联网时代，对于图象数据积累，以及我们对硬件技术的发展，我们对摄像机前端这种硬件设备技术也是在日益增进，包括微软代表3D设想传感器带来的新的实际应用。

如果要从这三个阶段中找一个比较代表性的节点，我认为在爆发阶段是深度学习模型，它为什么会对计算机视觉带来本质上的影响和变化。我们更广泛看计算机视觉应用的话，在这些年产生非常广泛的应用，包括三维图象的建模，包括监控，以及人机交互产生非常大的影响。为什么处在计算机视觉黄金时代？我认为是一个更多的工作，CVPR是我们计算机视觉的联会。当我自己还是一个博士生的时候，去参加CVPR，只有两家公司招聘，一家公司（桑娜福音译），一个是西门子。到2016年的时候，有一个网站上千条的工作信息，我们真正这个技术开始进入产业界。

这个CVPR有更多人参与到这个年会，CVPR今年年会已经到3500人参加这个会议，5年前就是1000人左右。最重要我们有更多资金注入进来，现在博士毕业生很轻易拿到一个100万的年薪工作，今年CVPR将近100家公司占驻这个CVPR，我们看到越来越多的资金流向这个领域。我自己作为CVPR 主办成员之一，我们在会场设计上我们希望会达到5000人的规模。

这里一个朋友，讲的一句话，在他36年的从事计算机视觉研究一个经历中间，从来没有看到我们这个领域像现在这么好过，他说我们在计算机视觉第一个黄金时代，以前没有过。他自己现在也在亚马逊作为一个保密状态工作，在帮亚马逊做一些事情。黄金时代我们实际上有一些什么样的机遇？为什么这个阶段产生爆发性的状态。

前面两位老师提到一些，我们拥有了更多数据从各个方面来的。第二个方面，刚才山老师提到我们计算机视觉很多方法，可能在2、30年前被学习过，当时计算能力还不够。第三个就是深度学习模型，在微软研究院同事做的传感网络，已经做到1001层，在7、8年前不可想象。下面我就展示一下微软研究院在这个阶段我们一些小小的成果。

我们微软认知服务，我们已经在上面发布了非常多的算法API，包括计算机视觉方面、语音方面、自然语言处理方面包括知识库方面，还有搜索库方面。人脸识别方面API，我们在两年以前人脸识别API已经有非常有成功的。Windows hello。我们最近另外一个工作，怎么在图象和风格之间做转换，左边这个是所谓风格的图，右边是所谓内容图，我们这个应用算法一个目的，我怎么能够把右边这张图渲染成左边图的风格，实际上我们有一些最新基于深度学习一个方法，我们真正试图去理解怎么描述这种图象的风格。

这里给看到更多的结果，当固定内容图的时候，我们可以把它渲染成不同的风格，用同一个网络。我们说计算机视觉黄金时代机遇在什么地方？我参加他80岁生日一个论坛，非常好的朋友也算他的学生，马里兰一个大学教授，他就讲一个观点，因为我们讲计算机视觉带来的影响？第一个观点，深度学习模型就像一个和面机一样，你把很多东西放进去它出来非常好吃的东西。它是一个非常好的东西，我们要利用好它。它是一个让众生变的平等的东西。我雇了两个高中生，编程能力很强，在计算机视觉方面很低，不管你有一年的经验，还是多年经验，让它飞固然是好的模型。因为涉及到很多观点，媒体朋友不要随便转载这些观点，让大家有一个体会。

涉及到黄金时代机遇什么？实际上把这个技术门槛降低不少，现在很多人不需要经过10年的训练能去做一些计算机视觉应用，或者是技术。所以我认为这实际上是产业界一个机遇。产业界很少有人去愿意走40步的。实际上从产学研角度来讲，这个学界应该还是更多去开创一些新的研究领域，能够做一些更好的事情。

黄金时代另外一个机遇就是创业、创业，我们很多老师已经创业了，像山老师，像朱珑一直学术方面走的比较多的意图，当我看到山老师公司的时候，是一个中英文混合体，山老师到底是看他还是看他，我不太明白。一个是人脸识别，一个是自动驾驶，人脸识别目前离实际应用最近一个，而且各个方面产生实际应用也是非常好的过程。我们遇到挑战什么？其实这么多年计算机视觉一直试图大家问自己一个问题，什么是计算机视觉杀手级应用？它是人脸识别吗？还是安防监控，还是辅助医疗图象诊断，我想大家没有回答，更多是摸索和探索。至于自动驾驶，我们还是保守推动这个行业，不要寒冬。我们还要小心谨慎一样，不要让杀手级应用真正变成杀手应用。

另一方面，这个问题不仅在中国存在，其实在美国很多大学里面教授，做计算机视觉方面很多进了公司，或者自己出来创业。大家问一个问题，这些教授创业和进了产业界，谁来培养下一代的学生，这个问题值得思考。

最后自己关于计算机视觉思考，这三个方面。第一个方面，为什么深度学习对计算机视觉好用？实际上大家如果在计算机视觉领域，计算机视觉本质是解不适定的问题。第二个深度学习本质上提供了用前馈的模型解反问题的框架。这是一个非常在高层面上一个理解的解释，本质上解这种不好的反问题的时候，我们有了反问题的框架。我自己对整体上的方法非常欣赏，但是自己还有一些领域的知识放在里面。

第二个，计算机视觉发展到今天，40年前从人工智能科学研究共同体分离出来有一个原因，40年前人工智能，包括语音识别，包括计算机视觉技术没有成熟。2010年计算机视觉、自然语言处理，语音识别这些技术发展到一定程度，天下大势，分久必合，合久必分，大家思考一个问题，最终人工智能方面技术我们怎么能够集合到一起，为综合人工智能系统服务。

最后讲，计算机视觉产学研一个互动。这个问题很简单，本质上认为所谓互动三个要素一个流通，研究人员、资金和技术，这个方面做的比较好，大家可以关注一下微软亚洲研究院博士生和学生培养的工作，我们计算科学的研究十几年历史，跟各个高校联合博士培养一个项目，这个学校的学生可以在我们研究院做五年的学习，拿到博士学位。包括给学校提供资金上的支持，在座有很多出来创业或者是产业界，还是想我们在人工智能产业上我们从中得到一些东西，还想到回馈给这个领域。谢谢大家！

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

微信关注我们

原文链接：https://yq.aliyun.com/articles/87834

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度学习论文阅读路线图

1.深度学习历史和基础 1.0 书籍 1.1调查 1.2 深度信念网络(DBN) (深度学习开篇的里程碑) 1.3 ImageNet进展（深度学习从此爆发） 1.4语音识别进展阅读完上面这些论文后，通过对深度学习模型（包括CNN，RNN，LSTM）的基础框架，以及深度学习如何应用于图像和语音识别问题的理解，你将会对深度学习的历史有一个基本的认识。下面的论文将带你深入理解深度学习模型，深度学习在不同领域的应用和前沿。我们建议你根据自己的兴趣和研究方向选择下面的论文进行阅读。 2深度学习方法 2.1模型 2.2优化 2.3无监督学习/深度生成模型 2.4RNN/ Sequence-to-Sequence模型 2.5神经图灵机 2.6深度强化学习 2.7深度迁移学习/终生学习/强化学习 2.8One Shot深度学习 3应用 3.1NLP(自然语言处理) 3.2目标检

2017-05-21

689

过去十年中，人工智能取得了长足的进步，在图像和语音识别上已经在某种程度上超越了人类。而通过反馈奖励，单个的AI智能体也能在雅达利这样的视频游戏和围棋中战胜人类。但人类真正的智能还包括了社会和集体智能，这也是实现通用智能必不可少的。就像虽然单个蚂蚁的智能有限，但通过协作它们能狩猎，能筑巢，能发动战争。毫无疑问，人工智能的下一个挑战就是让大规模的AI智能体学习人类水平的协作与竞争。协作的一个例子就是星际这样的即时战略游戏。雷锋网消息，最近阿里巴巴与伦敦大学的研究人员们，就在一篇论文中展示了如何用星际争霸作为测试场景，让智能体协同工作，在多对一和多对多中打败敌人。掩护攻击这项研究主要关注星际中的微管理任务，每个玩家控制自己的单位，在不同的地形条件下歼灭对手。星际这样的游戏对计算机来说可能是最困难的，因为它们的复杂程度比围棋要高得多。这种大型多智能体系统学习面临的主要挑战是，参数空间会随着参与人数的增加而呈指数级增长。研究人员让多智能体把星际中的战斗当作零和随机游戏来学习。为了形成可扩展且有效的通讯协议，研究者引入了一个多智能体双向协调网络BiCNet，智能体可以通过它来交流。另外，...

2017-05-22

444

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。