六个步骤：助你最大化大数据的商业价值-低调大师

六个步骤：助你最大化大数据的商业价值

2017-07-31 607

上个月公布的一项调查结果显示，由Apache基金会所开发的分布式系统基础架构Hadoop可能即将面临着来自资金链方面的压力与挑战。具体而言，调查中的绝大多数受访者都表示目前没有对Hadoop的投资计划，主要原因是认为Hadoop“……可能在其商业价值转化与功能实现上面临相当大的挑战”。

作为研究大数据的主要工具，Hadoop暴露出的资金链风险可能昭示着整个大数据领域的资金问题。寻找到能够实现精准分析能力的资源在业界一直是一项巨大的挑战，与此同时它也是新一代商业友好型大数据工具研发的目标，而获取商业价值，则是一个更基本的问题。

对于许多人们津津乐道的大数据企业或组织来说，通过大数据获取商业价值似乎总是如此容易：有了大数据，我们就能更深入地了解客户的行为，并运用这些知识来增加客户的满意度，从而提高企业的盈利能力。但说的容易做起来难，真正去让一个新兴企业来实现大数据价值时，一切往往变得捉襟见肘，但不管怎么说，回顾总结一些当下实用的大数据商业实践方法总归没错。实际上，最大化大数据的商业价值可以归结为将下述的六件事做好：

1.以商业思维为出发点：对于数据科学家们来说，运用Hadoop或其他先进的大数据分析工具畅游于数据知识的海洋中是在愉快不过的事了，不过如果不把分析的结果转化为可以应用于解决现实世界商业问题的东西，那么对于时间和资源则是巨大的浪费。与业务专家合作，了解改进过程中的机遇与挑战，将会是一个大数据项目成功与否的关键。专注于一个具体的商业问题将有助于识别有用的数据集，并针对化选择适合的技术与工具。与此同时，这样的过程能够促使你步步为营，对项目进行进一步推进。

2.把目光投向将理论付诸实践的途径上：要实现真正的商业价值，我们必须对理论分析的结果进行实际的运用。这听起来毫无疑问，但事实上有太多的大数据项目都会因为走不过这一关而从此尘封，将理论分析的结果纳入商业活动并使它们因此收益往往并非易事。有时，在实验室里看起来很美好的数据有可能是不可用的；而当你在商业活动中真正需要某项数据时，它也有可能变得过于昂贵。与此同时，一系列的行业法规也对数据的可用性产生巨大的影响。

3.使用最前沿的分析方法：商业智能与商业分析方法的创新正在改变企业从用户数据中获取价值的方式。新兴的数据分析平台也因此不再是像传统的描述性报告或历史记录仪表盘那样的周期性呈现，转而成为了一个能够不断分析传入的数据，提供指导意见，并且实时可操作的庞大系统。大数据的工具与基础设施使得当今的数据分析能够更加快捷简便地对机器学习方法进行应用，从而对包括各种各样结构化与非结构化数据类型的巨大数据集进行探索。

4.拥抱多样化的分析工具：R, Python, Hive, Groovy, Scala, MATLAB, SQL, SAS；哪个才是你的最爱？这个技术创新呈爆炸性发展的世界带给我们的副作用之一，便是常常需要学习一套新的分析工具。等着你最拿手的分析工具自己升级往往不是一个好的选项，领先的分析团队将不可避免地需要使用多个工具来支持他们的业务需求，所以最好的方法是去拥抱这样的多样性，构建一个灵活多样的技能储备，用于实现由不同工具构建的各种分析模型。在一个机械化生产的环境中，将多种类型的分析模型整合到一起往往十分困难。然而，已经有诸如FICO®决策管理平台这样的现代决策管理系统，通过可扩展包以及网络服务标准等渠道实现了对上述方案的简化。

5.利用云端和各类生产力平台：当今时代，进行大数据分析已经不再需要对昂贵的基础设施和特别的专业技能进行庞大的投资。通过在云端运行你的分析项目，你可以让一个专门的第三方处理底层系统和服务，而你专注于手头的业务问题。同时，你也可以把你所需要的能力和服务外包出去，这也许只会是实现项目的总成本中的一小部分。

6.为业务专家们留足操作的余地：这是最后也是最重要的一点。最大的商业价值往往来自于商务专家们一系列可以迅速转化为差异化战略的新见解，而它们有时也能显著提高客户与股东对你的满意程度。具有交互性和高度可视化的仪表板或报告可以更好地提供信息，从而帮助业务专家提出更科学有效的商业策略；标准的决策管理组件则可以使专家们更方便迅速地纳入新的分析模型，并以此洞察他们的业务规则和相关政策；而模拟和数据可视化则可以更好地探索新的商业模式和策略可能带来的潜在影响，使它们更容易被理解，从而加快它们的审批进程，使项目最终走向成功。

本文作者：佚名

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/199731

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

别再比较Hadoop和Spark了，那不是设计人员的初衷

对Hadoop与Spark孰优孰劣这个问题，最准确的观点就是，设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度，因为它们处理的许多任务都一样，但是在一些方面又并不相互重叠。比如说，Spark没有文件管理功能，因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。将Hadoop MapReduce与Spark作一番比较来得更明智，因为它们作为数据处理引擎更具有可比性。过去几年，随着数据科学趋于成熟，也日益需要用一种不同的方法来处理大数据。Hadoop在一些业务应用领域的表现比后起之秀Spark更胜一筹，不过Spark在大数据领域有其一席之地，这归功于它具有速度快、易于使用的优点。本文剖析了两大平台的一系列常见属性，包括性能、容错、成本、易用性、数据处理、兼容性和安全性。 Hadoop和Spark方面要记住的最重要一点就是，它们并不是非此即彼的关系，因为它们不是相互排斥，也不是说一方是另一方的简易替代者。两者彼此兼容，这使得这对组合成为一种功能极其强大的解决方案，适合诸多大数据应用场合。 Hadoop的定义 H...

2017-07-31

608

一.org.apache.spark.shuffle.FetchFailedException 1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，非常的耗时。 2.报错提示 (1) missing output location org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0 (2) shuffle fetch faild org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttospark047215/192.168.47.215:50268 当前的配置为每个executor使用1cpu,5GRAM,启动了20个executor 3.解决方案一般遇到这种问题提高executor内存即可,同时增加每个executor的cpu,这样不会减少task并行度。 spark.executor.memory 15G spark.e...

2017-07-31

757

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。