超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce
本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润
译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。
你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。
分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(SAS)”,后来该项目独立出来成立了SAS公司。术语analysis与analytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(BI)在商业环境的数据分析中也经常提到,可能最早见于Peter Luhn的一篇论文(Luhn 1958)。许多BI应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。
术语大数据似乎首先被John R. Mashey使用,后来硅谷图形公司(SGI)在一份在USENIX(UNIX用户协会)会议邀请报告的标题叫做“大数据与下一代基础架构压力”,它的副本可从http://static.usenix.
org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中(Bryson等 1999年)。来自META集团(如今的Gartner)的一份报告首次确认3V(大量、多样、快速,译者注:原谅是Volume variety velocity)为大数据的特征。谷歌关于MapReduce的论文(MR; Dean Ghemawat 2004)触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知,但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现,一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop,包括MR实现与Hadoop分布式文件系统(HDFS),如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则,例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施。
文章转自 并发编程网-ifeve.com

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Spark机器学习.1.9 小结
1.9 小结 本章介绍了Apache Spark所有的基础知识,这也是所有想把Apache Spark应用于机器学习实际项目的从业者必须理解掌握的。我们重点探讨了Apache Spark计算,并涉及一些最重要的机器学习组件,以便把Apache Spark和机器学习关联起来,让开展机器学习项目的读者做好充分准备。 第一,我们作了Spark总体概述,还讨论了Spark优点以及面向机器学习的Spark计算模型。 第二,我们回顾了机器学习算法,Spark的MLlib库和其他机器学习库。 第三,讨论了Spark RDD的核心创新和DataFrame,以及用于R语言的Spark DataFrame API。 第四,我们回顾了一些机器学习框架,通过案例具体讨论了机器学习的RM4E框架,进一步讨论了Spark机器学习计算框架。 第五,我们讨论了机器学习的工作
- 下一篇
《Flume日志收集与MapReduce模式》一3.1 内存通道
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看 3.1 内存通道 见名知意,内存通道指的是事件存储在内存中的通道。由于通常情况下,内存的速度要比磁盘快几个数量级,因此事件的接收速度也会更快,这降低了对硬件的需求量。使用这种通道的弊端在于代理失败(如硬件问题、断电、JVM崩溃、Flume重启等)会导致数据丢失。根据使用场景的不同,这可能是非常不错的解决方案。系统度量通常属于这一类,因为少量的数据丢失并不会造成什么影响。然而,如果事件表示的是网站的购买情况,那么内存通道就是一种非常差劲的选择了。要想使用内存通道,请将通道的type参
相关文章
文章评论
共有0条评论来说两句吧...