大量数据≠大数据-低调大师

大量数据≠大数据

2017-07-09 635

Intetix Foundation（英明泰思基金会）由从事数据科学、非营利组织和公共政策研究的中国学者发起成立，致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家，以及分布在全球的志愿者，我们创造性地践行着我们的使命：为美好生活洞见数据价值。

在大数据时代，人们很容易把一大堆数据定义为“大数据”，比如，大型制造企业和仓库可能存有多年积累下来的存货数据，或许高达几兆兆字节，但这并不能算大数据。同样，1500个PoS机的现金数据、一大份工作表中的数据也不是大数据。

企业需要行之有效的方法去储存、分析、使用数据，如果管理的不是大数据问题，那就没有必要建立数据池、雇佣数据科学家，也没有必要买一堆Hadoop产品去管理。说到底，辨别所管理的是大数据还是大量数据至关重要。以下推出五种辨别方法：

数据是否来源于多种不同渠道？
如果数据来源单一，即使数据量很大，也不太可能是大数据。

职业数据人会考虑大数据的三V（或4V）：数量，多样性，速度，（精确性）。本文讨论的就是第二种：多样性。一般来说，大数据往往不是来自于单一源头或系统，而是来自于许多不同的地方，不同的形式，以及不同的变量。例如，PoS数据尽管数量庞大但不是大数据，可是如果把从供应商处取得的数据与其整合以构建供应链，则它们就成了大数据。因此，问题在于是什么形成了大数据，而不是仅仅考虑数量因素。

数据是否需要被实时分析使用？
并不是所有的大数据都一定来源于多种不同渠道，当数据需要被实时分析使用，比如预防欺诈、股票交易，尽管数据缺乏多样性，但仍可被定义为大数据。在信用服务业，用于预防欺诈的数据来源并不复杂，但需要实时分析技术（通常用Spark,有时会同时使用Hadoop和Spark），这样若真的存在欺诈，也会被马上检测出并予以阻止。同样的，股票交易员所依赖的高频交易数据也并不是特别复杂的数据，但需要连续处理以做出买入或卖出股票的决定，Hadoop和Spark是被经常使用的分析工具。
你是否需要询问复杂问题？
当你开始针对数据询问更加复杂的问题的时候，比如确定因果关系，则该数据就成了大数据。当然，在这种情况下，最好还是使用多方面来源的数据。比如，当你想知道女性红色高跟鞋的四月份的市场情况的时候，你所要的数据就不仅仅是你自己的采购记录了，你还要整合社交媒体和其他外部市场数据以得到最佳答案。
数据集是否代表了许多不同的变量？
如果数据代表了一系列不同的难以界定模式和关联性的变量，那么即使数据是由单一系统或小型系统搜集而来，也可认定为是大数据。例如，气象数据仅从一些基础的系统取得（气温，气压，风速等），但数据关系却极为复杂，即使是最富经验的气象学家也不一定总能做出准确的气象预测，因此，他们会使用高度专业化的数据分析方法以作出更准确的预测（尽管还是有人会说他们并不比有关节炎的老人更准确）。
数据是未架构的，半架构的，架构的还是以上的综合？
诸如SQL等关系明确的数据库长时间以来成功的处理了组织良好的数据，但如今的多媒体世界为我们呈现了一系列未架构的和半架构的数据，这些数据在SQL中无法得到良好的处理。这些数据包括图像，视频，文本文件，电子邮件交流，社交媒体，音频文件以及其他。NoSQL数据库正在变得更受欢迎，Hadoop和其他大数据工具在处理这些多样化的数据类型的时候显得更为强大，特别是你所做的处理工作不仅仅是保存和找回图像等。

你的数据是大数据吗？如果是，那么就去找寻合适的工具处理你的数据，通过Syncsort你可以找到大数据处理办法；如果你需要处理主机上的大数据，现在Hadoop也能帮你解决这个问题了。

====================================分割线================================

本文转自d1net（转载）

微信关注我们

原文链接：https://yq.aliyun.com/articles/128143

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

性能测试新手误区（五）：如何提出一个好的性能问题

性能测试新手误区（一）：找不到测试点，不知为何而测性能测试新手误区（二）：为什么我模拟的百万测试数据是无效的？性能测试新手误区（三）：用户数与压力性能测试新手误区（四）：一切来自录制经常会见到新人提出这样的性能问题： “100用户时，A操作响应时间达到了XX秒，请修改。” 面对这样的问题，开发人员一定会觉得很无助，他们甚至不知道问题是什么。即使从测试人员的角度来看，这也算不上是一个合格的问题。那么一个好的性能问题应该是什么样呢？好问题要描述清晰 100个用户，是指绝对并发操作么？还是什么样的场景？是只测这一个A操作？还是有多个操作在同时进行？如果有多个操作，是只有这一个操作变慢？还是普遍变慢？测试环境是什么样的？测试数据量是多少？也许开发人员理解了详细的测试场景后，会告诉你，这个场景在业务中是不可能的，或者测试数据量是不合理的。好问题要有尽量准确的定位只是描述清晰还不够，要明白什么是表面现象，什么才是问题。问题是需要定位才能发现的。 “100个用户操作时，A事务的响应时间过长”，这只是一个现象，问题是什么呢？响应慢是慢在哪？是中间件还是数据库？这是最基本的...

2017-07-09

747

近来根据英国IHS Markit分析数据显示，太阳能光伏组件价格下跌，在2017年将使公用事业规模组件成本同比下降38％。 IHS Markit太阳能需求高级分析师Josefin Berg IHS Markit太阳能需求高级分析师Josefin Berg表示，在2016年，主要市场的公用事业规模光伏组件平均成本将下降至1.50美元/W以下。印度和中国光伏组件和人工成本最低 IHS指出，印度和中国光伏组件定价仍存在一些显着差异，这主要是由于当地条件（包括进口关税、电网需求和劳动力成本）所造成的。在HIS发布的《2016年公用事业规模光伏项目成本分析报告》中显示，印度和中国光伏组件和人工成本最低。 IHS预测2017年公用事业规模光伏系统成本将下降14％至38％ 2016年下半年价格暴跌，HIS根据市场情况预测，组件、逆变器和跟踪器价格的持续下降有可能在2017年将公用事业规模的光伏系统成本同比拉低14％至38％。安装架构和跟踪器的成本进一步降低将主要依赖于钢铁价格的演变，而2017年额外组件成本下滑的程度将主要受到中国市场即将到来的政策发展的影响。随着主要市场光伏组件价格趋同，不...

2017-07-09

593

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。