【大数据分析】纷繁复杂的数据越多越好
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
传统的样本分析师们都很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。
在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。
在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。
尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。
大数据时代要求我们重新审视精确性的优势。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。
执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。
如今,我们已生活在信息时代,我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
在华盛顿州布莱恩市的英国石油公司切利博因特炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。酷热的恶劣环境和电气设备的存在有时会对感应器读书有所影响,形成错误的数据。
但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这些都是无法发现也无法防止的。
有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。
大数据不仅不再让我们期待精确性,也让我们无法实现精确性。
然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。
值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。
如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
因为拥有更大数据量所能带来的商业利益远远超过一点精确性,所以通常我们不会再花大力气去提升数据的精确性。
这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
以突破诠释数据的力量,2018年T11数据智能峰会即将举办
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 据悉,在大数据领域颇具声誉的T11 2018暨TalkingData数据智能峰会将于2018年9月11日在北京举办。本次大会将着力探讨数据赋能社会转型升级的突破性思路,分享数据驱动各行业成效提升的突破性案例,旨在打破传统商业模式、打造开放连接生态,用突破诠释数据的力量。 大数据、云计算、AI、区块链……一次次技术突破,为世界带来***价值与机遇。所谓不破不立,T11 2018将“突破”作为大会主题,希望带领大数据行业一起突破、跨越,用数据洞察***智慧突破,用突破跨越发展困境,探索数据智能驱动的全新世界。 在国家大数据战略和移动互联网浪潮的驱动下,数字化转型趋势已深入各行各业,影响也渗透社会的方方面面。是否要进行数字化转型已不是问题,如何用数据智能带来效率与效益的实际提升,打通从数据到成效的闭环,才是数据驱动转型的关键所在。TalkingData认为,数据与智能的关系就像血液与大脑,而大脑才是创造智慧的主体。当下,数据只是起点,更关键的是从数据中形成智能,用智能来提升企业决策的质量与效率。 T11 2017上,Ta...
- 下一篇
图数据库:释放互联数据的力量
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 【51CTO.com原创稿件】从Hadoop生态圈崛起开始,大数据已经热了十多年,大数据的存储、分析、处理等技术都已经比较成熟。发掘大数据之间的关联,以及关联后隐藏的商业价值,是大数据的真正意义所在,也是技术上的一大难点。 数据库做为组织、存储和管理数据的仓库,是大数据的基础和关键一环。数据库咨询公司 DB Engines 调研结果显⽰,图数据库正成为所有数据库管理系统中增长最快的⼀类。 图数据库更注重关系 图数据库,对于很多人来说还比较陌生。其实,图数据库是用图来存储数据,是最接近高性能的一种用于存储数据的数据结构方式之一。构成一张图的基本元素是节点(点)和关系(边)。节点和关系都可以设置自己的属性。节点经常被用于表示一些实体,但依赖关系也一样可以表示实体。节点之间的关系是图数据库很重要的一部分。通过关系可以找到很多关联的数据,比如节点集合、关系集合以及他们的属性集合。 举个例子,对于社会网络中人与人之间的关系来说,用关系型数据库存储这种数据的效果并不好,其查询复杂、缓慢、超出预期,而图数据库的独特设计恰恰弥补了...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS关闭SELinux安全模块
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启