《大数据分析：点“数”成金》----第三章：大数据与商业案例

2013-09-23 935

第3章大数据与商业案例

从

时髦概念到实际应用,大数据只用了很短的时间就完成了这个华丽的转身。曾经，不计其数的组织机构砸下重金研发大数据的周边技术。但现在，他们已将重心转移到发掘大数据真正的价值上来。

即便如此，就像当初那些颠覆性技术给不少IT（信息技术）管理人员带来的困惑，如今依然有许多人对大数据深存疑虑。大数据具有颠覆性，正如它颠覆了商业活动中BI的应用方式一样，对于许多高管而言，这是一个具有风险的命题。

CTO（首席技术官）、CIO（首席信息官）和IT管理人员在努力证明颠覆性技术的确能够促进商业活动的发展，大数据技术的出现却让他们陷入了尴尬的境地。加之企业自行处理大数据所产生的高昂成本，以及对非业务现场大数据分析过程安全性的担心，使这一情况变得更加复杂。

可能“大数据”这个词本身也导致了人们对它的误解。没有技术背景的人们也许只是从字面意思出发，认为“大数据”与“大问题”、“大成本”如影随形。大数据依赖企业的人员、技术和目标，它是为了实现特定目标并需要人工参与的一项技术。因此，综合考虑这些因素，在构建一项商业提案的时候，需要把大数据解读成“大数据分析”，才能赢得那些审慎的决策者的理解与支持。关键是要打破人们对大数据的认识局限，让人们明白大数据不只是规模大到超出传统的工具所能管理的数据集而已，它更是从大型数据库中挖掘出价值的多种技术的融合。

当然，“大”无疑是大数据的关键词，因为大量的数据无时无刻不在产生，它们大得超出了你的想象，也超出了当前的策略和技术所能管理的范围。

一场数据革命强势来袭，而“大数据”已然成为这场数据风暴的中心，它将改变商业运行模式的方方面面，比如大大提高效率，开拓发掘财富的新道路，促进商业创新蓬勃发展。大数据不再是一个引入技术领域的时髦概念，它已经迅速发展成一套实用的理念，其本质就在于：大数据分析。

3.1　价值实现

许多行业都能够通过分析那些数量激增的数据而大获裨益，例如医疗卫生、公共部门、零售业或者制造业。收集和分析交易信息使企业更加深入地了解顾客的偏好，从而及时、高效地解决新出现的问题，因而，数据被视为企业从事生产和服务的基础。

就某个具体公司而言，大数据分析的运用正是增强竞争力和促进公司发展的基石，它极有可能掀起一股提升生产率增长和消费者盈余的浪潮。

3.2　编纂大数据案例

为了便于人们理解和定量测度, 构建行之有效的大数据商业案例需要弄清楚几个关键问题，包括：知识发现，可用于商业实战的信息，短期和长期收益，难点的解决及其他与商业活动紧密相关的、可以优化商业流程的行业知识和经验。

在大多数案例中，大数据对于企业来说都是一个颠覆性因素，将对企业的数据规模、数据存储以及数据中心设计等问题产生极大的影响。这种颠覆性通常与硬件、软件、人员和技术支持的成本有关，而上述成本又无一不影响着企业利润，这就意味着投资回报率（ROI）和总体拥有成本（TCO）是大数据商业计划中要考虑的关键要素。提高投资回报率的同时降低总拥有成本便是制胜法宝，做到这一点最简单的办法就是把大数据的商业计划和企业所需的其他IT项目结合起来。

好吧，这听上去确实是一项不小的挑战，因为从事大数据有两个先决条件：存储和加工。实际上，为了实现其他的商业目标（比如合规性、数据存档、云技术试点以及其他持续发展规划），企业一直对存储技术进行持续投资并不断改进商业流程。可以说，开展大数据项目所需的基本条件现在都已备齐。

当前，越来越多的企业IT解决方案都不约而同地基于分布式处理，即将存储和应用程序分布到多个位置的多种系统之中。分布式作为大数据的“最佳搭档”，为大数据分析进一步奠定了基础。

构建一个商业案例需要查阅案例情景，收集重要信息。所幸，IBM、Oracle和HP这些耳熟能详的大企业各自都拥有大数据解决方案，他们的手中积攒了丰富的大数据案例和素材，其中不乏原始商业案例、案例情境和其他的相关材料。

然而，构建大数据的商业案例需要灵活掌握，绝不能生搬硬套或是照搬照抄。为了确保大数据项目的成功，我们应该明白构成一个大数据商业案例中的若干关键要素。

一份完善的大数据分析的商业案例，应该包含以下内容。

完整的项目背景介绍。包括项目的商业目的，大家是如何使用大数据的，有那些商业流程与大数据有关，以及项目要达成的总体目标。
效益分析。大数据产生的实际效益通常难以量化和展示。大数据分析其实就是对数据进行诠释以及结论的可视化展现，即这是一种主观性分析，因为分析结果很大程度上依赖于对其进行解读诠释的人。即便如此，这种主观性的分析却并不妨碍对大数据的商业案例中的获益进行客观的表述，例如销售趋势的识别，潜在库存损耗的发现，运输延误的量化和用户满意度的测量等。能否把项目收益与企业实际需求相结合是效益分析成败的关键。以设定企业目标为例，如果企业将每年的增长目标定为5%，那么收益分析就要向人们展现大数据分析是如何帮助企业实现这一目标的。
可选方案。企业既可自建基于大型机系统的数据中心的内部解决方案，也可以租用托管商提供的云服务，抑或两者兼而有之。总之，通向大数据，条条大路皆可行。对这些方案进行逐一考察，权衡利弊从而辨别出哪个更有助于大数据分析，这一点非常重要。同样，企业利益也应该加以强调，它们是连接财务决策和技术决策的纽带。
范围与成本。大数据的应用范围更多的是管理问题，而非物理部署问题。这是因为，应用范围涉及各种资源，特别是人力资源。对大数据施用范围的考察就要明确项目何时开展且由谁来管理，其中诸如工作时间、技术顾问、项目培训等问题都应得到明确说明，因为这将会有助于更全面地计算经营成本，更准确地计算投资回报率。
风险分析。评估风险是件很复杂的事情。由于大数据分析可为商业活动提供BI支持而使企业受益，与技术所不同的是，风险评估使用了资源却并不能产生直接效益。其他的风险可能就要牵涉安全问题（数据存储在哪里，谁能够访问数据）、CPU的占用问题（数据分析是否会影响到其他商业软件的运行）、兼容与整合问题（系统的安装与运行是否会与现有的技术产生冲突）以及商业活动的破坏性问题（安装系统导致的停工时间）。在一个大型项目中，为了构建可靠的商业案例，风险分析应该考虑到以上所有问题。

诚然，投资回报率是商业案例中永恒的主题。构建商业案例时，企业可能获得的回报（或者说利润）与项目成本的比例，可能会随着研究的深入、信息的增多而发生变化。理想情况下，随着研究的深入，商业案例的创造者可能会从大数据分析解决方案的应用中发现其他的附加价值，此时投资回报率将随之提高。尽管如此，投资回报率仍被视为决定一个项目能否得以实施的最为重要的一项指标。投资回报率这一决定因素已经成为企业及其他非营利性组织考虑是否开展一项商业案例的首要问题之一。

3.3　大数据：渐入人心

十几年以前，Teradata、IBM、HP、Oracle以及其他很多公司就已经开发出PB级规模的数据仓库产品，然而这些产品会导致数据处理过程中数据仓库喧宾夺主的情况。现如今人们所收集和存储数据的类型越来越多样化，遍及结构化、半结构化和非结构化等类型，而每一类数据都有着不同的存储和管理需求。考虑到分析过程中的信息量之大，想要进行大数据分析，数据就必须能够被多台服务器并行处理。这是一种必须，也是一种必然。

除了尽力维护好数据库中的交易数据并将其进行仔细的筛选并存入数据仓库外，企业还获得其他大量的数据，有的来自服务器生成的数量庞大的格式化日志数据，有的来自社交网络内外的顾客评价数据，还有的来自其他数据源中的零散且非结构化的数据。

摩尔定律告诉人们，大概每隔18个月，芯片所含晶体管的数目就会增加一倍，导致新一代服务器的处理能力也是18个月翻一番。同理，这也意味着服务器运行所产生的数据集规模也相应程度地扩张。从而，借助摩尔定律，我们可以推断出这些数据集正以指数级增长。

大数据技术象征着数据处理方式的一次重大转变。过去，精心筛选的数据通过网络被送入数据仓库以进行深入的分析。然而随着数据量的激增，网络传输成为了数据处理的瓶颈。在这种情况下，分布式平台（例如Hadoop）应运而生。不必传输大量数据，数据在哪里存储，分析就可以在哪里进行，分布式系统完美地解决了网络传输瓶颈。

传统的数据系统^{^[1]}不能有效地处理大数据，一是因为这些系统的设计无法应对现在的情况，现如今数据类型日益复杂，结构化数据所占比例越来越低；二是由于它无法既迅速又比较经济地对系统进行拓展。

大数据分析和传统BI完全不同。传统的BI要求用户的数据集“干干净净”地存储在数据仓库中，并且只能调用事先已经定义好且数量有限的语句进行查询。大数据则采用完全不同的方式，它需要将组织中产生的所有数据都收集起来并进行关联。随后，管理员和分析师只需要考虑如何使用这些数据即可。从这点来讲，大数据解决方案确实较传统数据库或数据仓库具有更强的扩展能力。

想搞清楚大数据是如何逐渐被人们接受的，这还得从Hadoop的诞生和大数据运动的源头说起。寻根Hadoop，最早可以追溯到Google于2004年发布的一份白皮书。书中提到为了进行数据分析，在一个名为Bigtable的索引系统的基础上，Google构建出一套平台，该平台允许协同多台服务器对数据进行分析，不过Bigtable一直仅限于Google内部使用。然而，一位名叫Doug Cutting的开发者（他也是Lucene和Solr这两个项目的创始人），开发出了Bigtable开源版本并用他儿子的毛绒玩具象的名字来为其命名为Hadoop。

Yahoo是Hadoop的先驱者之一，2006年前后Yahoo参与到Hadoop项目中来并进行大量的改进。分布式系统中存储着为数众多的有用数据，但如何才能进一步从这些数据中取得价值，这是Yahoo当时面临的首要挑战。因此，Yahoo制订出了实施计划：统一数据格式并将其当作统一的整体进行分析。事实表明，Hadoop正是实现这个过程的理想平台。如今，Yahoo已将Hadoop部署在4万多台服务器上，成为Hadoop最大的用户之一。

Yahoo使用这项技术帮助不同的企业来处理复杂的分析。Yahoo的Hadoop集群通过海量的日志文件记录下用户浏览过哪些内容，点击过哪些链接；同时，正如Yahoo要保存所有站内目录和文章的访问列表一样，用户对网站广告的访问也被详实地记录下来。因为，在Yahoo看来，对海量文本进行模式挖掘正是Hadoop所长。

3.4　后起之秀Cassandra

大数据领域中，另一个耳熟能详的名字就是Cassandra数据库。Cassandra功能强大，它允许在一行中存储200万列。此外，它无须事先确定数据的存储格式，便可以轻松地向现有的用户账号中添加更多的数据。

Cassandra的诞生可以追溯到一个在线服务运营商——Facebook。Facebook需要一个巨大的分散式数据库来更好地满足其站内邮箱搜索服务。考虑到Bigtable架构的核心是一种面向行和列的分布式数据库结构，和Yahoo一样，Facebook当初也看上了这一点。

然而，Bigtable却存在一处硬伤：它采用的是面向主节点的设计。由于Bigtable依赖某个单一节点来调度管理所有节点上的读写活动，这就意味着一旦主结点失效，整个系统都将陷入瘫痪。

Amazon的工程师设计出来一种称为Dynamo的新的分布式架构，并在2007年的白皮书中进行了详细的说明，Cassandra就是在Dynamo之上建立起来的。至今Amazon一直使用Dynamo来跟踪数百万的用户的在线购物记录。

正是由于采用了Dynamo架构，Cassandra在与Bigtable的竞争中占据了上风。这是因为Dynamo并不依赖于某一个主控节点，而且将数据进行冗余备份至多个节点中，每一节点都可以从整个系统中接收数据、响应请求。这些做法增强了系统弹性，消除了单点故障的发生。

3.5　选择与抉择

许多大数据工具是由在线服务提供商最先开发出来的，随后成为开源软件而为更多企业所用。如今，这些工具已不再是少数大型在线服务提供商手中的“专利”，越来越多的企业都向大数据抛出了橄榄枝。金融机构、电信公司、政府机关、公共事业单位、零售企业，还有能源企业，全都在尝试应用大数据系统。

正所谓“乱花渐欲迷人眼”，最大的难题莫过于选择越多就越难抉择。在一项商业计划的设计过程中，面对诸多可选方案，既要做到趋利避害，又要满足项目需求，谈何容易。一份理想的大数据商业方案应该用实例证明，它既可以支持企业长期战略的宏观性分析，又可以处理具体的用户交易或行为的微观性分析，而这两种分析不仅能产生短期效益，更能形成长期效益。

Hadoop虽然适用于绝大多数企业，但它并不是企业唯一的选择（至少在开源的实现方面是这样）。如果企业已经决定利用内部机器生成的或是外部社交网络的海量数据，基础架构的建设其实并非拦路虎，最大的困难可能来自对大数据技术解决方案的抉择：开源的还是商业的？像Cloudera、Hortonworks和MapR这样的企业正在致力于大数据技术的商业化，让人们可以更容易地部署和管理大数据技术。

同时，日渐壮大的云服务供应商让企业可以按需使用大数据服务，这令本已十分困难的抉择变得更加复杂。为了使商业方案最终取得成功，决策者不得不通过花费金钱进行研究和严格审核来选择最适合的平台和实现方法。所幸，大多数的前期铺垫工作都可以在方案制订阶段完成，与此同时可以对照方案的整体目标来赋以权重并衡量各种大数据实现方法的利弊。哪项技术能够让最后的技术方案成本最低、获益最快而风险最小？让我们拭目以待。

[1] 原文是数据系统，这里实际指的就是数据库管理系统。—译者注

微信关注我们

原文链接：https://yq.aliyun.com/articles/501052

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《大数据分析：点“数”成金》----第一章：什么是大数据

第1章什么是大数据 “ 大数据”到底是什么？这个概念乍看上去相当模糊，它似乎指的是数量庞大信息量巨大的数据。尽管这样的描述确实符合“大数据”的字面含义，但它并没有解释清楚大数据到底是什么。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。从网上我们可以得到一个被大多数人所认同的观点：当数据集已经发展到相当大的规模，常规的信息技术已无法有效地处理、适应数据集合的增长和演化时，大数据就应运而生了。换言之，数据集规模已大到难以用传统信息技术进行有效的管理，更不用说从中挖掘价值了。具体来说，难题主要在于数据的采集、存储、检索、共享、分析和数据可视化。关于大数据到底是什么，绝非三言两语就能解释清楚。这个概念经过演变不仅包含了对数据集规模的描述，还包括数据利用的过程。大数据甚至变成了其他商务概念的代名词，如商业智能（Business Intelligence, BI）、数据分析（Analytics）和数据挖掘（Data Mining）。大数据虽新，可“大数据”却早已存在。虽然海量的数据规模在最近两年内才形成，但大数据的概念却早已在科学界、医学界等组织中萌芽。...

2013-09-21

1070

版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/12114845 应该在什么时候使用Hadoop 作者：chszs，转载需注明。博客主页：http://blog.csdn.net/chszs 有人问我，“你在大数据和Hadoop方面有多少经验？”我告诉他们，我一直在使用Hadoop，但是我处理的数据集很少有大于几个TB的。他们又问我，“你能使用Hadoop做简单的分组和统计吗？”我说当然可以，我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据的闪盘，看起来这些数据并非样本数据，由于一些我不能理解的原因，当我的解决方案涉及到pandas.read_csv文件，而不是Hadoop，他们很不愉快。 Hadoop实际上是有很多局限的。Hadoop允许你运行一个通用的计算，下面我用伪码进行说明： Scala风格的伪码： collection.flatMap( (k,v) => F(k,v) ).groupBy( _._1 ).map( _.reduce( (...

2013-09-27

1072

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。