大量数据≠大数据
Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。
在大数据时代,人们很容易把一大堆数据定义为“大数据”,比如,大型制造企业和仓库可能存有多年积累下来的存货数据,或许高达几兆兆字节,但这并不能算大数据。同样,1500个PoS机的现金数据、一大份工作表中的数据也不是大数据。
企业需要行之有效的方法去储存、分析、使用数据,如果管理的不是大数据问题,那就没有必要建立数据池、雇佣数据科学家,也没有必要买一堆Hadoop产品去管理。说到底,辨别所管理的是大数据还是大量数据至关重要。以下推出五种辨别方法:
- 数据是否来源于多种不同渠道?
如果数据来源单一,即使数据量很大,也不太可能是大数据。
职业数据人会考虑大数据的三V(或4V):数量,多样性,速度,(精确性)。本文讨论的就是第二种:多样性。一般来说,大数据往往不是来自于单一源头或系统,而是来自于许多不同的地方,不同的形式,以及不同的变量。例如,PoS数据尽管数量庞大但不是大数据,可是如果把从供应商处取得的数据与其整合以构建供应链,则它们就成了大数据。因此,问题在于是什么形成了大数据,而不是仅仅考虑数量因素。
- 数据是否需要被实时分析使用?
并不是所有的大数据都一定来源于多种不同渠道,当数据需要被实时分析使用,比如预防欺诈、股票交易,尽管数据缺乏多样性,但仍可被定义为大数据。在信用服务业,用于预防欺诈的数据来源并不复杂,但需要实时分析技术(通常用Spark,有时会同时使用Hadoop和Spark),这样若真的存在欺诈,也会被马上检测出并予以阻止。同样的,股票交易员所依赖的高频交易数据也并不是特别复杂的数据,但需要连续处理以做出买入或卖出股票的决定,Hadoop和Spark是被经常使用的分析工具。 - 你是否需要询问复杂问题?
当你开始针对数据询问更加复杂的问题的时候,比如确定因果关系,则该数据就成了大数据。当然,在这种情况下,最好还是使用多方面来源的数据。比如,当你想知道女性红色高跟鞋的四月份的市场情况的时候,你所要的数据就不仅仅是你自己的采购记录了,你还要整合社交媒体和其他外部市场数据以得到最佳答案。 - 数据集是否代表了许多不同的变量?
如果数据代表了一系列不同的难以界定模式和关联性的变量,那么即使数据是由单一系统或小型系统搜集而来,也可认定为是大数据。例如,气象数据仅从一些基础的系统取得(气温,气压,风速等),但数据关系却极为复杂,即使是最富经验的气象学家也不一定总能做出准确的气象预测,因此,他们会使用高度专业化的数据分析方法以作出更准确的预测(尽管还是有人会说他们并不比有关节炎的老人更准确)。 - 数据是未架构的,半架构的,架构的还是以上的综合?
诸如SQL等关系明确的数据库长时间以来成功的处理了组织良好的数据,但如今的多媒体世界为我们呈现了一系列未架构的和半架构的数据,这些数据在SQL中无法得到良好的处理。这些数据包括图像,视频,文本文件,电子邮件交流,社交媒体,音频文件以及其他。NoSQL数据库正在变得更受欢迎,Hadoop和其他大数据工具在处理这些多样化的数据类型的时候显得更为强大,特别是你所做的处理工作不仅仅是保存和找回图像等。
你的数据是大数据吗?如果是,那么就去找寻合适的工具处理你的数据,通过Syncsort你可以找到大数据处理办法;如果你需要处理主机上的大数据,现在Hadoop也能帮你解决这个问题了。
====================================分割线================================
本文转自d1net(转载)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
性能测试新手误区(五):如何提出一个好的性能问题
性能测试新手误区(一):找不到测试点,不知为何而测 性能测试新手误区(二):为什么我模拟的百万测试数据是无效的? 性能测试新手误区(三):用户数与压力 性能测试新手误区(四):一切来自录制 经常会见到新人提出这样的性能问题: “100用户时,A操作响应时间达到了XX秒,请修改。” 面对这样的问题,开发人员一定会觉得很无助,他们甚至不知道问题是什么。 即使从测试人员的角度来看,这也算不上是一个合格的问题。 那么一个好的性能问题应该是什么样呢? 好问题要描述清晰 100个用户,是指绝对并发操作么?还是什么样的场景? 是只测这一个A操作?还是有多个操作在同时进行? 如果有多个操作,是只有这一个操作变慢?还是普遍变慢? 测试环境是什么样的?测试数据量是多少? 也许开发人员理解了详细的测试场景后,会告诉你,这个场景在业务中是不可能的,或者测试数据量是不合理的。 好问题要有尽量准确的定位 只是描述清晰还不够,要明白什么是表面现象,什么才是问题。 问题是需要定位才能发现的。 “100个用户操作时,A事务的响应时间过长”,这只是一个现象,问题是什么呢? 响应慢是慢在哪?是中间件还是数据库?这是最基本的...
- 下一篇
2016年公用事业光伏组件价格下滑至1.5美元/瓦
近来根据英国IHS Markit分析数据显示,太阳能光伏组件价格下跌,在2017年将使公用事业规模组件成本同比下降38%。 IHS Markit太阳能需求高级分析师Josefin Berg IHS Markit太阳能需求高级分析师Josefin Berg表示,在2016年,主要市场的公用事业规模光伏组件平均成本将下降至1.50美元/W以下。 印度和中国光伏组件和人工成本最低 IHS指出,印度和中国光伏组件定价仍存在一些显着差异,这主要是由于当地条件(包括进口关税、电网需求和劳动力成本)所造成的。 在HIS发布的《2016年公用事业规模光伏项目成本分析报告》中显示,印度和中国光伏组件和人工成本最低。 IHS预测2017年公用事业规模光伏系统成本将下降14%至38% 2016年下半年价格暴跌,HIS根据市场情况预测,组件、逆变器和跟踪器价格的持续下降有可能在2017年将公用事业规模的光伏系统成本同比拉低14%至38%。 安装架构和跟踪器的成本进一步降低将主要依赖于钢铁价格的演变,而2017年额外组件成本下滑的程度将主要受到中国市场即将到来的政策发展的影响。 随着主要市场光伏组件价格趋同,不...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- 设置Eclipse缩进为4个空格,增强代码规范