演讲实录丨华刚 计算机视觉的黄金时代:机遇与挑战
计算机视觉的黄金时代:机遇与挑战
华刚
微软亚洲研究院视觉计算组组长、资深计算机视觉专家
华刚:大家下午好!今天报告题目是计算视觉的黄金时代,机遇与挑战。如果我们看到这个题目,关键字有几个,第一个是计算机视觉,第二个黄金时代,第三个第四个机遇挑战。
基于这四个关键字给大家讲讲我的理解和看法。什么是计算机视觉?学术的观点定义领域的话,计算机视觉我们从图象和视频中间提取数值和符号计算机系统。我们说一个愿景能让计算机像人类一样看到并理解图象,我们认为是一个黄金时代回顾一下计算机视觉真正发展的历史。基本上来讲计算机视觉历史第一个萌芽阶段,1955年到1979年的时间,这个领域还是相对比较新的领域。在55年我们对于计算机视觉提出一个展望,在MIT一个暑期人工智能会议上。我们在三四个月内能不能把计算机视觉工作解决了,直到今天还没有完全解决。中间经历了很多发展,在70年代麻省理工真正成立研究小组,开设第一门计算机视觉课程。
从今天来讲,我们看到会是非常简单一个图片,是一些像块状的物体,这是MIT第一篇博士论文。称之为萌芽阶段,大家处于一种探索状态,这个领域怎么走?早期期望说三个月把这个问题解决,甚至40年之后我们仍然没有把这个问题解决。计算机视觉真正发展一个非常坚持的基础,应该是从21世纪到80年代的时间,这中间发生很多时间,在80年代初光学支付(音译)识别系统,应用于商业应用邮局。美国邮局大家利用信件交流方式很多,包括公司各种商业应用,涉及到邮件分检的问题。
这中间发生了几个里程碑事件,包括三维视觉的理论体系基本完备了。到90年代初人脸和语音识别,统计学识别方法已经引入到计算机视觉上了。计算机视觉真正爆发时间,我认为从21世纪10年代中,涉及到几个方面的因素。第一个我们进入互联网时代,对于图象数据积累,以及我们对硬件技术的发展,我们对摄像机前端这种硬件设备技术也是在日益增进,包括微软代表3D设想传感器带来的新的实际应用。
如果要从这三个阶段中找一个比较代表性的节点,我认为在爆发阶段是深度学习模型,它为什么会对计算机视觉带来本质上的影响和变化。我们更广泛看计算机视觉应用的话,在这些年产生非常广泛的应用,包括三维图象的建模,包括监控,以及人机交互产生非常大的影响。为什么处在计算机视觉黄金时代?我认为是一个更多的工作,CVPR是我们计算机视觉的联会。当我自己还是一个博士生的时候,去参加CVPR,只有两家公司招聘,一家公司(桑娜福音译),一个是西门子。到2016年的时候,有一个网站上千条的工作信息,我们真正这个技术开始进入产业界。
这个CVPR有更多人参与到这个年会,CVPR今年年会已经到3500人参加这个会议,5年前就是1000人左右。最重要我们有更多资金注入进来,现在博士毕业生很轻易拿到一个100万的年薪工作,今年CVPR将近100家公司占驻这个CVPR,我们看到越来越多的资金流向这个领域。我自己作为CVPR 主办成员之一,我们在会场设计上我们希望会达到5000人的规模。
这里一个朋友,讲的一句话,在他36年的从事计算机视觉研究一个经历中间,从来没有看到我们这个领域像现在这么好过,他说我们在计算机视觉第一个黄金时代,以前没有过。他自己现在也在亚马逊作为一个保密状态工作,在帮亚马逊做一些事情。黄金时代我们实际上有一些什么样的机遇?为什么这个阶段产生爆发性的状态。
前面两位老师提到一些,我们拥有了更多数据从各个方面来的。第二个方面,刚才山老师提到我们计算机视觉很多方法,可能在2、30年前被学习过,当时计算能力还不够。第三个就是深度学习模型,在微软研究院同事做的传感网络,已经做到1001层,在7、8年前不可想象。下面我就展示一下微软研究院在这个阶段我们一些小小的成果。
我们微软认知服务,我们已经在上面发布了非常多的算法API,包括计算机视觉方面、语音方面、自然语言处理方面包括知识库方面,还有搜索库方面。人脸识别方面API,我们在两年以前人脸识别API已经有非常有成功的。Windows hello。我们最近另外一个工作,怎么在图象和风格之间做转换,左边这个是所谓风格的图,右边是所谓内容图,我们这个应用算法一个目的,我怎么能够把右边这张图渲染成左边图的风格,实际上我们有一些最新基于深度学习一个方法,我们真正试图去理解怎么描述这种图象的风格。
这里给看到更多的结果,当固定内容图的时候,我们可以把它渲染成不同的风格,用同一个网络。我们说计算机视觉黄金时代机遇在什么地方?我参加他80岁生日一个论坛,非常好的朋友也算他的学生,马里兰一个大学教授,他就讲一个观点,因为我们讲计算机视觉带来的影响?第一个观点,深度学习模型就像一个和面机一样,你把很多东西放进去它出来非常好吃的东西。它是一个非常好的东西,我们要利用好它。它是一个让众生变的平等的东西。我雇了两个高中生,编程能力很强,在计算机视觉方面很低,不管你有一年的经验,还是多年经验,让它飞固然是好的模型。因为涉及到很多观点,媒体朋友不要随便转载这些观点,让大家有一个体会。
涉及到黄金时代机遇什么?实际上把这个技术门槛降低不少,现在很多人不需要经过10年的训练能去做一些计算机视觉应用,或者是技术。所以我认为这实际上是产业界一个机遇。产业界很少有人去愿意走40步的。实际上从产学研角度来讲,这个学界应该还是更多去开创一些新的研究领域,能够做一些更好的事情。
黄金时代另外一个机遇就是创业、创业,我们很多老师已经创业了,像山老师,像朱珑一直学术方面走的比较多的意图,当我看到山老师公司的时候,是一个中英文混合体,山老师到底是看他还是看他,我不太明白。一个是人脸识别,一个是自动驾驶,人脸识别目前离实际应用最近一个,而且各个方面产生实际应用也是非常好的过程。我们遇到挑战什么?其实这么多年计算机视觉一直试图大家问自己一个问题,什么是计算机视觉杀手级应用?它是人脸识别吗?还是安防监控,还是辅助医疗图象诊断,我想大家没有回答,更多是摸索和探索。至于自动驾驶,我们还是保守推动这个行业,不要寒冬。我们还要小心谨慎一样,不要让杀手级应用真正变成杀手应用。
另一方面,这个问题不仅在中国存在,其实在美国很多大学里面教授,做计算机视觉方面很多进了公司,或者自己出来创业。大家问一个问题,这些教授创业和进了产业界,谁来培养下一代的学生,这个问题值得思考。
最后自己关于计算机视觉思考,这三个方面。第一个方面,为什么深度学习对计算机视觉好用?实际上大家如果在计算机视觉领域,计算机视觉本质是解不适定的问题。第二个深度学习本质上提供了用前馈的模型解反问题的框架。这是一个非常在高层面上一个理解的解释,本质上解这种不好的反问题的时候,我们有了反问题的框架。我自己对整体上的方法非常欣赏,但是自己还有一些领域的知识放在里面。
第二个,计算机视觉发展到今天,40年前从人工智能科学研究共同体分离出来有一个原因,40年前人工智能,包括语音识别,包括计算机视觉技术没有成熟。2010年计算机视觉、自然语言处理,语音识别这些技术发展到一定程度,天下大势,分久必合,合久必分,大家思考一个问题,最终人工智能方面技术我们怎么能够集合到一起,为综合人工智能系统服务。
最后讲,计算机视觉产学研一个互动。这个问题很简单,本质上认为所谓互动三个要素一个流通,研究人员、资金和技术,这个方面做的比较好,大家可以关注一下微软亚洲研究院博士生和学生培养的工作,我们计算科学的研究十几年历史,跟各个高校联合博士培养一个项目,这个学校的学生可以在我们研究院做五年的学习,拿到博士学位。包括给学校提供资金上的支持,在座有很多出来创业或者是产业界,还是想我们在人工智能产业上我们从中得到一些东西,还想到回馈给这个领域。谢谢大家!
本文来源于"中国人工智能学会",原文发表时间" "
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
深度学习论文阅读路线图
1.深度学习历史和基础 1.0 书籍 1.1调查 1.2 深度信念网络(DBN) (深度学习开篇的里程碑) 1.3 ImageNet进展(深度学习从此爆发) 1.4语音识别进展 阅读完上面这些论文后,通过对深度学习模型(包括CNN,RNN,LSTM)的基础框架,以及深度学习如何应用于图像和语音识别问题的理解,你将会对深度学习的历史有一个基本的认识。下面的论文将带你深入理解深度学习模型,深度学习在不同领域的应用和前沿。我们建议你根据自己的兴趣和研究方向选择下面的论文进行阅读。 2深度学习方法 2.1模型 2.2优化 2.3无监督学习/深度生成模型 2.4RNN/ Sequence-to-Sequence模型 2.5神经图灵机 2.6深度强化学习 2.7深度迁移学习/终生学习/强化学习 2.8One Shot深度学习 3应用 3.1NLP(自然语言处理) 3.2目标检
- 下一篇
重磅 | 阿里推出多智能体双向协调网络BicNet,玩《星际争霸》堪比人类
过去十年中,人工智能取得了长足的进步,在图像和语音识别上已经在某种程度上超越了人类。而通过反馈奖励,单个的AI智能体也能在雅达利这样的视频游戏和围棋中战胜人类。 但人类真正的智能还包括了社会和集体智能,这也是实现通用智能必不可少的。就像虽然单个蚂蚁的智能有限,但通过协作它们能狩猎,能筑巢,能发动战争。毫无疑问,人工智能的下一个挑战就是让大规模的AI智能体学习人类水平的协作与竞争。 协作的一个例子就是星际这样的即时战略游戏。雷锋网消息,最近阿里巴巴与伦敦大学的研究人员们,就在一篇论文中展示了如何用星际争霸作为测试场景,让智能体协同工作,在多对一和多对多中打败敌人。 掩护攻击 这项研究主要关注星际中的微管理任务,每个玩家控制自己的单位,在不同的地形条件下歼灭对手。星际这样的游戏对计算机来说可能是最困难的,因为它们的复杂程度比围棋要高得多。这种大型多智能体系统学习面临的主要挑战是,参数空间会随着参与人数的增加而呈指数级增长。 研究人员让多智能体把星际中的战斗当作零和随机游戏来学习。为了形成可扩展且有效的通讯协议,研究者引入了一个多智能体双向协调网络BiCNet,智能体可以通过它来交流。另外,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Mario游戏-低调大师作品
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G