演讲干货丨大数据的“上半场”与“下半场”
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
导语:科技放大了我们的能力,但是也同时增加了我们的烦恼。我们要用数据做更精准东西的时候,会发现数据的质量非常重要。
从PC互联网到移动互联网,再到智能互联网,技术背后更多体现的是解决问题的思维方式的变革。
当大数据被广泛应用并逐渐走到下半场的时候,对于公司或产品,我们面临怎样的机会和问题,我们又当如何科学的对待?
红杉资本中国基金专家合伙人、原阿里数据委员会会长车品觉,在上月举办的第十一届艾瑞上海峰会上发表题为《大数据,颠覆存在与思维》的演讲,他说人类的经验和数据的驱动应该更好的相处。
- 不用担心当数据驱动这个世界
- 会把人类的经验消灭掉,
- 人类的经验和数据的驱动
- 两者之间是相互的。
大数据,颠覆存在与思维
我们总说,我们经历了从PC互联网时代到了移动互联网时代,还会经历智能互联网时代,但很多人不理解什么是“智能”。
那么现在到底发生了什么事情呢?以前我们很难说服公司的每个部门去主动搜集数据,甚至当我们开始做大数据的时候,我们公司里面还讨论“我应该收集什么”。
而现在,我们希望能够更准确地分析信息,更准确地做判断,通过深度学习,我们希望快速从错误的信息里找出对的东西。这些都是现在正在发生的。
当数据量特别大的时候,万物的连接,主动的数据收集,这是上半场;而下半场是怎么准确进行判断,把数据变成行动。
说的更通俗一点,从前人类想我到底能不能活得更久一点;而现在,除了这一点之外,人类在想我能不能把平均IQ提升到160,这就是上半场与下半场的区别。
需要治理的数据
最近不断有大集团打电话给我说:车总,跟我们讲讲数据治理吧,我们想知道你从头到尾是怎样思考的。这些老板提到了一个概念:数据治理。
公司数据遇到的大部分困难是公司内部的打架,因此大量数据没有办法整合在一起,可能四五年内都没有办法。100PB、200PB、300PB的数据,再不治理就真的吃不消了。因此数据治理是非常关键的点。
除了数量,数据的质量也非常重要。比如阿里金融和其他数据部门总是为了一件事争论不休,就是因为阿里金融需要的数据质量是非常高的,但是其他部门给出的数据经常没有考虑这些,这都是数据治理的问题。
其实当数据量增加的时候,你就会发现它的精准度在提升,当然数据量的增加是指来源的增加。但有些问题必须要很精准,90%准确度和95%准确度本身就是非常大的分水岭。
还有一些事情也是下半场开始出现的。比如我们身体反应出的一些数据,我们今天的表情到底是开心还是不开心?即“情感的数据”。由此可想象数据的复杂性,到了下半场你会发现你根本没有办法去找到这一类的数据。
我们除了说数据量一定要大,其实还有一点也很重要:核心数据。这意味着,当你拿到这些核心数据的时候,数据量可能并不需要那么大了。
大数据不止于“大”
你遇到的问题到底能不能用大数据来解决?
根据我们过去的经验,我们今天准备用数据解决的问题如果没有足够的发生次数,如果只是偶然或者低概率,大数据就没有办法处理。但如果它的发生次数足够多,我很快就能知道我推荐的东西到底是对还是错的。
如果想通过数据看到很准确的信息,这需要依据数据的量以及我们对这个业务的理解有多深。
有时候会有投资人拿着一家比较小的公司的数据给我说,这个公司有很大量的数据,大概MAU在1亿多,但我说这不是大数据,为什么?
***,这些数据里面有多少是可以和我匹配的?不妨想一下,如果你有100万的用户数据,那么有百分之多少的数据能覆盖?如果1亿多的量,一般超不过50%。这是***个问题;第二,如果我给你100万的数据你知道他是男的还是女的吗?准确度在90%以上吗?
如果不能回答这两个问题,那就不是大数据了。量和量之间的连接是非常重要的,在这个前提下你才可以做融合。比如一个人今天到你店里去买东西,那么你知不知道他之前去过什么店、看过什么东西?匹配、相关、全面,第四点最重要,新鲜。到底你的数据能做到有多新鲜,这是非常重要的。
挑战与机会
我们要解决的问题通常是两种:***,我们非常清楚问题是什么;第二,我们不是很清楚问题是什么。换句话说,一个问题是数据很集中;另一个问题是数据很零散。
我们现在可以做的大数据方案都是数据很集中,而且问题很清楚,否则没有办法解决。如果数据很零散,你可能要用大量的算法,但如果数据很清楚,问题很清晰,算法不重要。
但是大数据的机会反而是来自今天的离散的数据。
- ***个机会:我认为将来有很多数据的创新是来自这里:数据创新、算法创新、服务创新,把三层分开;
- 第二个机会:很多数据太零散了,所以需要有一个第三方进来整合这些数据;
- 第三个机会:今天***的问题是政府数据的开放,不是不存在,但是质量相对较差,没有标准化,比较零散。
我认为这是BAT以外***的数据量,而且可能是非常重要的一块。怎么样可以把这些数据的产能释放出来,这是一个挑战和机会。
数据的标准化
当年发现阿里数据很大的时候,我们发现大量的数据是重复的,特别是ODS层的数据,越底层的数据处理应该是越统一的。
如果不做标准化,随着公司对数据的重视,就会“百花齐放”:结果就是乱,可能需要重做。
你们做的是Data Stitching,把它连起来,让它能使用,让中间人用Machine来使用。一种是可视化分析,另外一种是用服务的产品,还有智能的东西出现。这样的东西面对的是什么呢?最终的用户是政府、公司和个人。
在世界互联网大会上联想提到以前是终端,现在中间那块做得比较厚,Data、算法、服务。尽管数据驱动非常厉害,但是依然会有经验的驱动,人还是要告诉机器“你要去哪里”。
不用担心数据驱动这个世界将会把我们人类的经验消灭掉,人类的经验和数据的驱动两者之间是互相的。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
高速光模块在数据中心里应用时遇到的现实问题
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 俗话说“要想富,先修路”,数据中心要想搭上云计算等新技术的发展快车,就要建设一张高速流量转发的网络。近几年,数据中心早已不满足于10G的网络互连,用40G连接数据中心内网,数据中心外部通过100G连接是普遍的发展趋势。数据中心对40G/100G的高速光模块需求旺盛,但是在实际应用中遇到的阻力却不少,这使得数据中心扩容的脚步被迫慢了下来。当然,这其中有多方面的综合因素:技术成熟度、成本、维护难度等等都影响了高速光模块在数据中心里的普及度。本文接下来就说一说高速光模块在数据中心里应用时,时常遇到的一些现实问题,存在哪些困境。 首先,40G/100G高速光模块并没有开天辟地地开发出一种新的光电转换技术,而是通过提升制造工艺,将原有10G的光模块技术进行扩展而得来的,本质上就是将10G的两根收发光纤,通过增加收发光纤数目的方式来提升带宽。以40G MPO口的光模块为例,其内部有12根光纤,4收4发,还有4根保留未使用,实际上这类光模块有提升到60G的潜力,现有的制造工艺可以将这样的12根光纤集成到一个光模块上,而这个40G...
- 下一篇
数据科学家自曝工资单(1988-2016)
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 我想给大家讲讲从我读博士到今天,我的薪水历史和职位头衔以及职责的所有细节。 我的职业发展道路可能并不典型,但我感觉他们对很多人依然很有价值。在我30岁的时候,我还几乎身无分文。20年以后,我现在住在美国,情况已经发生了巨大的变化。 1988 1988年,我在一个和我大学实验室有合作的科技公司做兼职工作,同时也是学校的一名助教。当我在比利时开始读博士的时候,他们每年给我 €18,000,学费全免。 1993 1993年我博士毕业,我仍然在读博的大学工作,我的薪水大概是€25,000。 1994-1995 我在剑桥大学的统计实验室做博士后。我的工作头衔是研究员,我的年薪是£20,000,比我的上一份工作的工资还要低。 1996 1996年的时候我搬到美国的北卡州,去完成我在美国国家统计科学研究院的博士后。我的年薪是$45,000,比我在剑桥的工资高百分之三十。在那个时候,英镑和美元的差别不像今天这么大。 1997 1997年,我转行到了现在这个行业,在新泽西的CNET做一个统计学家,CNET是一个有几百个员工的互联网公...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库