演讲实录丨朱珑开启人工智能之眼-低调大师

演讲实录丨朱珑开启人工智能之眼

2017-05-22 390

开启人工智能之眼

朱珑

依图科技CEO、计算机视觉专家

朱珑：非常感谢张老师和白老师邀请，让我们这些青年人有机会在这里聚一聚。今天讲一下AI一些自己的理解，可能跟大部分人身份稍微有一些区别，我大概从事这方面学术上研究将近十多年时间，前面几年开始做创业，可以从两个行业纬度谈一谈之间相关性。

不知道我们在国内怎么谈创业？在美国有一个创业或者硅谷有一个创业基本定义，中国创业在美国是有两个词，极不确定性情况下追求高速增长。这两个词推出什么不是创业？比如说我们在国贸这里开一家咖啡厅，这不是创业，这是一门生意，但是很难做到高速增长。什么是创业？我要开1000家咖啡厅，这个叫创业。还有对不确定性理解，如果我们在大公司开一个部门做一个方向性探索，或者说拓宽一个市场，这个比较不像创业，因为没有极强的不确定性，无论品牌、人员等等这些东西。一个极不确定性，一个超高速增长，这两个本质什么？就是风险。

风险这个词恰恰把最牛的创业，和最牛的学术研究关联起来。创业是追求非常短时间的高速增长，所以它是短时间内的创业，大概7到9年的时间，这是有一个结论或者结果。学术圈可能追求2到30年的结论，更追求回报。这种周期或者不太一样，很恰巧通过风险来把学术研究跟创业关系做了一下关联。

人工智能非常火，我大概是12年从美国回来创业，当时应该什么情况？当时创业人不是特别赶着人工智能，无论在国内外AI还没有成熟的时候，你说你做AI人家说你吹牛，深度学习没有被产业界形成共识的时候，是一个比较低谷的时候。12年我们在中国的时候，我的天使投资人是徐老师，他自己做投资也算是一个新的开始创业历程，所以12年的中国是一个非常有意思的时间点，在那个之间技术人员不是那么的值钱，更多是资源密集型，比如资金密集型或者材料密集型投资为主。到12年开始我们创业者，智慧密集型或者技术密集型创业开始形成潮流也好，普遍的现象。

直到15、16年不同领域，包括语音识别，视觉识别一些成熟，人工智能开始有了一个普及性认识，不仅在投资圈、产业、平民老百姓，智能给我们生活之间离的多近。特别是16年，我们今天这样有机会在这个地方交流，人工智能本身给我们带来了。

我和人工智能什么关系，第一段历史，一个是跟物理相关，跟脑科学相关，跟神经网络相关。我是统计学的博士，我的导师以前学物理出身，霍金理论武力的博士。最后一段历史，现在世界上所有用的人工智能的所谓算法，就是深度学习，深度学习有一个卷积（音译）神经网就是这个教授发明的。正好是学术界跟AI相关不同领域的人，可以看到AI从业者五花八门，有做物理的，有做计算机，大家兴趣点专业背景不一样，都回归到对智能理解和研究上。

因为在座很多不是从业人员，这里有4组图，一共4对，大家花30秒时间看看哪几组是同一个人。你作为人自己到底深怎么识别人脸？有可能都不是，有可能都是。你们思考越投入越能感受到自己多么不了解你作为人类怎么认识人的。左上角有认为是同一个人吗？五分之一。右上角有吗？二十分之一。这个答案只有左下角是同一个人，这个论证一下说这个人类，因为你自己是人类，可以感受你自己怎么识别，你到底看眼睛还是嘴巴？我们从100万库里面让机器选，让相识度非常高的人，也就是机器是人类很难辨识的。

下面一个话题，今天的机器到底多智能？刚才看到人的感受，我们有一个观点。我有一个客户是公安的，他做了一件事情，把他女朋友的照片，比如今天这个场合随便一个活动上拍的照片，到我们数据库或者到我们系统当中搜索，这个库大概1000万人，出来的前10名人，哪一个是他女朋友？他是选不出来的。当然这里有一个小的问题，数据库里面有身份证的照片，也有隔5到8年的时间，也有可能今天女朋友是化妆的，证件照没有化妆。之前有人说机器已经超过人类了，人会说不公平，因为记不住那么多人，人容易比较识别比较熟悉的人。今天这个实验告诉你，你有可能非常熟悉的人，认识5年10年的人，机器可能比你更能认识这个人长什么样。这是技术上一个更强的结论，因为你认识这个人他有多种形态，他的姿态，他的年龄变化，或者他的表情化妆等等。

人对这件事情也是认识的不是那么的完美，今天机器即使在你非常熟悉的情况下，今天在会场上认识100个人，让我说记住谁是谁，这是记忆的问题，当然没有机器做的好。下面讲人脸识别，我们做的业务比较多，产业落地过程当中可能跟学术界也好，这个区别比较大的。公安流程叫什么流程，一个业务一整套的破案方式。左上角我们再一个视频监控里面，一个城市或者一个区域，这个会场我们比如说布了30个摄象头，其中一个摄象头拍到作案场景，或者是说犯罪嫌疑人的某一张照片，这是最左边的步骤，这个照片留下这个人，我们可以去数据库，比如说今天会场所有人员的数据库当中搜是哪一个人，这是第一步。找到在库中谁谁这个结论。

第二步，去所有会场上拿这个库中的照片，找这里面的轨迹，能够知道他在什么位置出现过，或者什么时间出现过。第三步，进行布控，我们知道他的规律。现实当中我们会在地铁或者高铁，或者比较重要的出入口去定点。某一个区域，某一个时间段布控，把这张照作为怀疑对象抓住。最后一步，当你识别报警的时候，推送给业务的民警，民警不愿意在那边看着，等有嫌疑的人有给现场的勘察。

我们讲一下中国的今天人脸识别做到什么程度？总结一句话，大家在美国的片子上看到的反恐片，基本上在中国都能做了，而且这个定位在美国是基本上做不到。这个领域以我对美国的了解，或者全球了解，中国这个方向上业务落地方向上，应该是全球最好的。我们看一下这个是治安的摄象头，大马路上，左边是拍到人脸模糊情况，摄象头有象素会低，基本上没有什么问题。摄象头不需要每一次拍到正脸，这种在我们的一些摄象头部署比较好的区域，基本上能够做到7、8成能够抓到，非常高的比例。

下面看一下场景，这是比如说是网吧，左上角是侧脸，不完全正脸。这个是QQ的，这个是修手机时候的，这是在车里的，原来拍车的摄象头，看到车里面的人脸。这个是ATM机的，这个是抓捕左边是视频接力是他坐在那辆车，通过出租车镜头找到他这个事情，这个视觉比较大。这个是尸体的，尸体当然是要有一定的时间不能变形太大，水肿不能太厉害。一段时间基本上没有什么问题。这个是在地铁、高铁进行实施布控，用这种视频非接触式，不用看这个摄象头基本都可以。这个是在讲跨度非常大，有超过十几年的，这些都是15年前的，15年前照片不像今天彩色照片那么好，是有这种年龄上的差异。

这些感觉什么？我不知道大家听了什么感觉？我是做人脸识别从业人员，但是给你一种感觉你在设计、实验，哪怕测试自己算法的时候，你知道做到99.99，不管性能什么？我当时并没有预测到在我们生活场景当中能够这么普遍的被推广，被应用。比如说刚才尸体照片，设计时候并不想做尸体，不管三七二十一都往里面试，人工智能有时候比专家，比世界最牛专家很可能没有办法知道他真正的潜力和边界在哪里。

这个是另外一种案例，刚才对一个人的案例，嫌疑人只有一个。另外这个是我们在某个城市跟大数据处理相关一件事情，这个城市你可以想象大概1到2千万人，中国大概有小几十万的通缉犯。把这几十万的通缉犯照片跟本地1到2千万的照片做交叉对比，大概几万亿的对出，里面输出人脸长的一模一样，但是他们身份证逃犯，身份证换过了。当然脸没有换，时间会随着变老，当然不是整容。找出几对，后来找到8个在当地是真正的通缉犯，当天可以利马抓捕3、4对。

这个对民警非常大的冲击，这个片子里面从事件驱动神经，今天有案件找人，大数据意义对这个城市理解情况下找人，这个模式完全变了，时效性以前都是几个月时间才可以找到线索，今天计算机算了几个小时或者一两天，当天几个小时之后就可以抓到人，完全效率和模式上跟过去有巨大的差异，这个对民警有非常大的冲击力。这个稍微比较容易想到，怎么服务，我们客户经常碰到老人走丢，这时候特别心急。但是民警现在配了警务通，上面拍了一个老人就可以知道。在1000万人当中，拍一张照片就可以把这个人找出来，现在技术可以到几亿人没有问题。

我们公司拿了过公安部边检测试第一名，公安部刑侦测试第一名，招商银行测试第一名。招商银行有1000万个网点，你现在身份证有相关的认识，这里面一看这不是本人，营业员就有其他手段跟你网下交互。这个量级非常高，他们测试有亿级，从一亿人里面把你找出来，大家看到网上新闻，学术界到百万量级，产业界测试到亿级，这里差距非常大。

我们做到人脸识别非常强的应用的时候，我们人类认识的边界在哪里？机器能跳到90米的时候，可以帮助我们看到90米那个空中什么样，可以帮助我们知道我们人类到底在几十米，我们差距什么。不仅是性能帮助服务于我们这个社会，还帮助我们了解我们自己，了解我们大脑什么样。这里做一个实验，中国13亿人当中，差不多有12个人13个人长的一模一样，每一亿个人有一个人跟你长的一样。从学术来讲人脸这种特征有两个眼睛，一个鼻子一个嘴巴构成的器官，或者一种信息，到底人与人区分度极限多少？结论是有一亿人会有一个跟你长的一模一样，你坐在旁边人没有办法区分谁是谁？就是超越人类认识的边界。

有的人非常不服气，我长的这么漂亮，不可能十几个人跟我长一模一样。但是有人比较激动，我长的比较有特点，我很愿意找那十几个人出来。没有任何差异，无论眼睛、鼻子、嘴巴关系，以及细节形状都差不多。后面来讲前面都是一个摄象头看到的世界，包括人脸识别等等，我们想机器为什么从人工智能今天很可怕，或者可能超越我们的想象，机器没有任何生理上的限制。一个机器可以装一万个摄象头，如果到一万个摄象头机器能做什么？

这个是我们在杭州市政府做一个项目，杭州的城市管理。杭州跟北京有一点类似，差不多一个量级，一个拥堵指数非常高的城市，我们想解决这个诚实的拥堵问题，通过我们对城市里面的马路，上面跑的车，跑面的控制，比如说红绿灯进行建模，进行模拟，进行预测，进行优化，希望能够给政府管理部门给一些优化后的结果。比如说我们案例当中给了一条路，我们作为非常看似很简单的事情，就是对这些行为进行优化之后，比如说红绿灯，今天绿灯停60还是50秒，跟红灯比什么？调解这些参数，可以通过这条路的时间减少10%。

传统意义上说，一般这里面有路口，有流量统计，但是非常粗糙。今天有一万个摄象头的时候，每辆车从哪到哪？在什么时间非常变化什么样。有的时候东西向不一样，这些非常多细节能给你优化空间。过去传统这种建模手段很难到这种精细，或者这么大规模数据处理分析上，有这么一件事情上能够对城市管理，或者非常宏观的在通过大规模的微观数据进行定量管理。凭着定型或者人的经验知觉跨越到定量科学管理。

大家谈人工智能，我跟一个非常牛的朋友聊天，我说我们跟今天大家有讲观点类似，人工智能离美国差距还是有的，特别是人才厚度上，和产业厚度上。我受到很大启发，他说不是的，中国应该是非常具备这样一个时期能够挑战或者来做世界级研究也好，或者是工作。我刚才讲的城市管理案例不完全属于人工智能这个方向，但是课题上我们中国有类似这样，因为人口，因为城市非常特殊的命题，在难度上和规模上是世界级，即使是世界上最好的实验室和学术公司并没有非常好的手段来做，甚至没有条件和基础。中国有非常不少的这样一些我们生活特殊的问题，有可能在加州没有，在法国没有，我们中国有。

我们观点说在中国有这样的命题，就能决定我们这帮年轻人，无论是技术从业者还是产业从业者能够挑战到这种高度。我就分享到这里，谢谢大家！

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

微信关注我们

原文链接：https://yq.aliyun.com/articles/87845

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

演讲实录丨黄伟 AI已来，未来已来

AI已来，未来已来黄伟云知声董事长、语音识别技术应用专家黄伟：大家下午好！非常感谢邀请。我觉得前面山世光对公司有一个非常好的定位，介于学术和产业之间。我可能是唯一一个做云技术，第二我们可能长期在工业界。今天人工智能热潮十多年比较冷的一个方向，这样我更多从工业界角度来看，我们可能对AI的看法和认知。今天题目是云知声的成长之路。其实AI在过去60年里面，我们经历过高潮和低谷，在过去两次相对比较失败低谷里面，确实是当时一个技术条件，产业条件可能没有达到那个需求。要么是运算能力不足，要么是没有大数据，当然不可能有新的理论算法所支撑。今天第三次高潮，这三个要素相对比较具备。今天我们学习方法有相对比较成功的算法，深度学习。另外这个PC互联网和移动互联网，人和人之间，设备和设备之间，设备和人之间产生大量的海量数据。同时，今天有更的强运算单元，不光有CPU，还有GPU，使得我们可以用一些具备运算资源。我们一方面不能忽视用户习惯的养成。在中国10多年互联网发展过程当中，用户养成非常好的用户习惯，这个技术成熟用户之间形成一个非常好的集合点，某些领域里面今天这个AI技术使得更加成熟，做成产...

2017-05-23

620

深度学习的核心问题就是一个非常难的优化问题。所以在神经网络引入后的几十年间，深度神经网络的优化问题的困难性是阻碍它们成为主流的一个重要因素。并导致了它们在20世纪90年代到21世纪初期间的衰落。不过现在已经基本解决了这个问题。在本篇博文中，我会探讨优化神经网络的“困难性”，以及理论上是怎么解释这个问题的。简而言之：神经网络变得越深，优化问题就会变得越难。最简单的神经网络是单节点感知器，其优化问题是凸问题。凸优化问题的好处是所有的局部最小值也是全局最小值。存在各种各样的优化算法来解决凸优化问题，并且每隔几年就会发现更好的用于凸优化的多项式时间的算法。使用凸优化算法可以轻松地优化单个神经元的权重（参见下图）。下面让我们看看扩展一个单神经元后会发生什么。图1 左图：一个凸函数。右图：一个非凸函数。凸函数比非凸函数更容易找到函数曲面的底部

2017-05-23

939

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

JDK

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。