搜狗CTO杨洪涛：该以什么样的姿势参与人工智能-低调大师

搜狗CTO杨洪涛：该以什么样的姿势参与人工智能

2018-05-21 601

6月28日，2016网易未来科技峰会在北京国贸大酒店举行，搜狗CTO杨洪涛进行了主题演讲——《人工智能里的产品观》。杨洪涛认为：“人工智能本身并不创造价值，使用AI技术的好产品才创造价值。以场景思考产品，回归用户欲望，通过技术手段解决才有可能产生出好产品。”

“计算力+数据+服务”是三大核心要素

杨洪涛讲道，机器学习与深度学习在应用角度的两大要素如今已经较为成熟。一方面是计算力，伴随着CPU、GPU，以及各种分布式计算和专用计算平台的发展，这在一定程度上保障了计算力的提升；另一方面，移动互联网的发展带来了大量的数据，而对于互联网产品提供商来说，其接触到的数以亿计的用户，以及用户生产的庞大数据更是助力人工智能的丰厚资源。

然而当谈到产品化，要让“计算力+数据”的闭环做得更好，“服务”就成了一个不可忽视，且至关重要的元素。杨洪涛表示：“正是在服务的使用之中，用户才产生了数据，而数据又在消耗着计算力，对计算力的发展提出更高要求，从而为用户带来更好地体验。用户体验的提升则逆向推动用户使用服务，从而产生更多的数据。因此，计算力+数据+服务是一个产品迭代的完整循环。”

他还提到，现在许多公司把目光局限于技术这一单一领域，他们将自身定位为“一家人工智能公司”或“一家机器人公司”，却忽视了对于如何参与这一行业的深入思考。对于技术本身的关注不可或缺，却不是唯一。

好产品要能生产数据来完成自我进化

除了关注AI技术，更重要的是关注用户场景。只有在用户场景背景下，深度思考用户需求的产品，才能通过“计算力+数据+服务”的闭环，促使用户使用，生产更多数据，从而推动技术产品进步——谷歌的Google Now以及苹果Siri的升级与演进都是如此。

杨洪涛以搜狗输入法在语音识别方面的探索经验为例。众所周知，输入法只有文本输入一种方式是远远不够的，语音输入成为搜狗输入法发展历程上亟待解决的一大问题，而在2012年的时候，搜狗还没有这项技术。那么搜狗是怎样解决这一问题的？先是调用Google国外的中文语音识别接口，为产品提供语音转写功能，随后又在用户使用过程中不断积攒数据，并随着语料规模的不断扩充，逐步降低语音识别的错误率，从2012年40%的错误率到如今的4%，其中产品发展至关重要的一点就在于是否能产生迭代数据的循环。

基于这一案例，杨洪涛总结：“人工智能本身并不创造价值，使用AI技术的好产品才创造价值。MIT人工智能实验室前主管、计算机科学家Patrick Winston说过，人工智能就像葡萄干面包里的葡萄干。其实想要吃饱主要还是靠面包，技术并不等于产品，同时还要去思考产品对用户的服务是什么。”

那么什么样的产品才叫做好产品呢？杨洪涛给出了好产品的三大评判标准：叫好、卖座、赚钱。叫好的产品能获取媒体、投资人的关注，从而得到更多产品开发资源；卖座的产品能获取用户，展开未来的发展想象力；赚钱的产品则能直接为企业发展赢得利润。

对用户欲望的思考要先于技术手段

有了对于好产品的判断标准之后又该如何做出一个好产品？杨洪涛指出，需要回到对用户场景的思考，即需要去考虑是在什么时间什么地点，用户产生了什么欲望？在用户欲望产生之后，才是该以怎样的技术手段来满足用户的欲望。欲望是排在手段之前的，如果颠倒顺序，先看自己手里有什么技术就会犯错误。

他再次以搜狗输入法做语音识别功能为例，解释了该服务背后用户真正的欲望是解放双手。目前，搜狗语音识别的准确率已达到97%，在行业内位列前茅，每日的语音调用次数也达到了1.2亿次。但是即便语音识别的准确率达到了97%左右也仍旧会产生错误，这时用户要进行修改就还需要用手，而这对双手的解放就是不够彻底的。搜狗输入法近期做的新功能“语音修改”，让用户用自然语言的形式进行文字纠错，就是出于这一对使用场景的思考。

这一场景的数据还可以延伸到更多服务：比如当用户开车时，是不方便输入文字的。而通过语音的方式可以让用户在地图产品中用语音进行修改，比如说出“是欢度佳节的佳”就可以把导航目标从“世纪嘉园”修正成“世纪佳园”。

这一功能是符合前面提到的数据生成和解决用户欲望的观点的。“要修改错误，首先需要知道用户的错误发生在什么地方，其次要了解用户是怎样认知和描述这一错误的。这两类数据对输入法和语音识别未来的改进都有相当的促进作用。”杨洪涛总结道。

AI服务的本质是“自然交互”和“知识索引”

对此杨洪涛以开车用户的需求为例进行了详细的解释。传统意义上，导航仅仅解决了“如何从a地前往b地”的问题，而当回归对于用户欲望的思考时就会发现在使用导航时，用户并不只是为了前往B地，其真正的意图在于“去B地做什么”。比如一个人要去机场，这个人是要去哪个航站楼？到底是去出发层还是到达层？航班的情况如何？什么时间到最合适？这些问题都是用户潜在需要考虑的。因此需要对导航背后意图数据做足够的分析，把首都机场分为T1、T2、T3航站楼，导入所有的航班信息，当用户给出航班号便可以得知航班的情况，对应出发和到达，并给出出发时间建议，把这些和语义技术结合在一起做出更好的服务。

他指出AI服务的本质包含两方面，第一是自然交互的技术，包括图像及语音，第二是知识的索引。他坦言，搜狗目前也在这两方面做出了巨大的努力：一方面在自然交互上，搜狗通过用户产生的大量数据不断完善语音识别、语义理解技术；另一方面，搜狗搜索也在做大量的知识索引，包括与微信、知乎的内容引入，明医搜索以及微软必应的合作等。今年4月，搜狗还向清华大学捐赠1.8亿人民币，成立了天工智能计算研究院，相关研究成果也将应用于搜狗下一代产品中。

在他看来，搜索引擎公司是人工智能基因最足的模式，天生就是大数据产品，容易获得用户交互的行为，所以数据本身对于推动整个人工智能研究会有巨大的帮助。只有把人工智能技术与领域的知识结合得足够好，才能够真正的在场景下解决好用户的需求欲望。

本文出处：畅享网

本文来自云栖社区合作伙伴畅享网，了解相关信息可以关注vsharing.com网站。

微信关注我们

原文链接：https://yq.aliyun.com/articles/601172

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从 Vision 到 Language 再到 Action，万字漫谈三年跨域信息融合研究

本文作者为阿德莱德大学助理教授吴琦，他在为雷锋网 AI 科技评论投递的独家稿件中回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路，如今正将研究领域延伸到与 Action 相关的工作。雷锋网 AI 科技评论对文章做了不改动原意的编辑。大家好，我叫吴琦，目前在阿德莱德大学担任讲师（助理教授）。2014 年博士毕业之后，有幸加入澳大利亚阿德莱德大学（University of Adelaide）开始为期 3 年的博士后工作。由于博士期间主要研究内容是跨领域图像识别，所以博士后期间，原本希望能够继续开展与跨领域相关方面的研究。但是，在与博士后期间的导师 Anton van den Hengel、沈春华教授讨论之后，决定跳出基于图像内部的跨领域研究，而展开图像与其他外部领域的跨领域研究。恰逢 2015 年 C

2018-05-20

955

0x00、前言从2015年开始,机器学习预测方法在很多行业都得到了应用,特别是2017年一年,信息安全领域特别是杀毒软件领域,已经出来完全取缔特征码的方式判断恶意软件,进入2018年,Top静态代码杀毒公司已经完全淘汰基于yara方法的多特征静态代码判断恶意软件的方式,完全使用机器学习分类器做为唯一判断依据。目前,比较成熟的商用静态恶意软件检测分类器引擎主要包括:Endgame、Cylance、SentinelOne、Sophos ML、CrowdStrike Falcon,那么它们都使用那些数据研究、使用那些机器学习算法做研究?接下来我们讨论一下。 0x01、安全领域分类器受关注程度安全领域的分类可以通过监督的学习模型训练文件属性之间的复杂关系来区分恶意和良性样本, 但是,在公开研究中没有得到过多的关注。下面是Neural Information Processing Systems (NIPS) 从1987年到2017年12月份所有paper的研究方向统计 ·手写数字分类(MNIST [445 papers]) ·图像标记(CIFAR [195 papers]或ImageNet...

2018-05-21

623

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。