超越Hadoop的大数据分析之第一章介绍：为什么超越Hadoop Map-Reduce-低调大师

超越Hadoop的大数据分析之第一章介绍：为什么超越Hadoop Map-Reduce

2017-05-01 651

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润
译者注：本文是本书第一章的开头，第一章其它部分由其他人翻译。

你可能是一个视频服务提供商，而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构，需要为互联网页进行色情或非色情的分类以便过滤色情页面，同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失（客户流失意味着，老用户离开而选择竞争对手，或者新用户加入竞争对手）。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主，而你非常想对你的客户做购买预测，这样你就可以为你商品做更多有针对性的促销活动，并期望销售额由此带来的增长。或者你是一家医疗保险公司，当务之急是计算某位客户明年住院的概率，以便适当的修改的保费。或者你是一家金融产品公司的CTO，而公司希望拥有实时交易/预测算法，帮助确认损益表底线。或者你为一家电子制造公司工作，而你想在试运行期间预测故障、查明故障根源，以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统（SAS）”，后来该项目独立出来成立了SAS公司。术语analysis与analytics（译者注：本人不知道如何翻译这两个词）之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能（BI）在商业环境的数据分析中也经常提到，可能最早见于Peter Luhn的一篇论文（Luhn 1958）。许多BI应用运行于数据仓库之上，直到最近也是如此。相比之下，从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

术语大数据似乎首先被John R. Mashey使用，后来硅谷图形公司（SGI）在一份在USENIX（UNIX用户协会）会议邀请报告的标题叫做“大数据与下一代基础架构压力”，它的副本可从http://static.usenix.

org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中（Bryson等 1999年）。来自META集团（如今的Gartner）的一份报告首次确认3V（大量、多样、快速，译者注：原谅是Volume variety velocity）为大数据的特征。谷歌关于MapReduce的论文（MR; Dean Ghemawat 2004）触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知，但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现，一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop，包括MR实现与Hadoop分布式文件系统（HDFS），如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则，例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施。

文章转自并发编程网-ifeve.com

微信关注我们

原文链接：https://yq.aliyun.com/articles/88432

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Apache Spark机器学习.1.9　小结

1.9　小结本章介绍了Apache Spark所有的基础知识，这也是所有想把Apache Spark应用于机器学习实际项目的从业者必须理解掌握的。我们重点探讨了Apache Spark计算，并涉及一些最重要的机器学习组件，以便把Apache Spark和机器学习关联起来，让开展机器学习项目的读者做好充分准备。第一，我们作了Spark总体概述，还讨论了Spark优点以及面向机器学习的Spark计算模型。第二，我们回顾了机器学习算法，Spark的MLlib库和其他机器学习库。第三，讨论了Spark RDD的核心创新和DataFrame，以及用于R语言的Spark DataFrame API。第四，我们回顾了一些机器学习框架，通过案例具体讨论了机器学习的RM4E框架，进一步讨论了Spark机器学习计算框架。第五，我们讨论了机器学习的工作

2017-05-01

667

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章，第3.1节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看 3.1　内存通道见名知意，内存通道指的是事件存储在内存中的通道。由于通常情况下，内存的速度要比磁盘快几个数量级，因此事件的接收速度也会更快，这降低了对硬件的需求量。使用这种通道的弊端在于代理失败（如硬件问题、断电、JVM崩溃、Flume重启等）会导致数据丢失。根据使用场景的不同，这可能是非常不错的解决方案。系统度量通常属于这一类，因为少量的数据丢失并不会造成什么影响。然而，如果事件表示的是网站的购买情况，那么内存通道就是一种非常差劲的选择了。要想使用内存通道，请将通道的type参

2017-05-01

756

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。