《MapReduce 2.0源码分析与编程实战》一第1章大象也会跳舞-低调大师

《MapReduce 2.0源码分析与编程实战》一第1章大象也会跳舞

2017-05-01 707

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章，作者：王晓华责编：陈冀康，更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章大象也会跳舞

MapReduce 2.0源码分析与编程实战
大象能跳舞吗？当我们被庞大而臃肿的数据压垮，常常会不停地问自己是否真的有必要收集那么多的数据吗？对于这个问题，我回答是 “一切都取决于你自己”。对于庞大的数据来说，在不同人的眼中，既可以是一座无用的垃圾山，也可以是一座未经开凿的金山，这一切都取决于使用者的能力与眼界。

微信关注我们

原文链接：https://yq.aliyun.com/articles/97300

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark 内核研究

Spark 内核研究 1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1/10的节点数，把100TB数据的排序时间从72分钟提高到了23分钟。 Spark在架构上包括内核部分和4个官方子模块--Spark SQL、Spark Streaming、机器学习库MLlib和图计算库GraphX。图1所示为Spark在伯克利的数据分析软件栈BDAS（Berkeley Data Analytics Stack）中的位置。可见Spark专注于数据的计算，而数据的存储在生产环境中往往还是由Hadoop分布式文件系统HDFS承担。图1 Spark在BDAS中的位置 Spark被设计成支持多场景的通用大数据计算平台，它可以解决大数据计算中的批处理，交互查询及流式计...

2017-05-01

583

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章，第1.1节，作者：王晓华责编：陈冀康，更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.1 大数据时代什么是“大数据”？一篇名为“互联网上一天”的文章告诉我们：一天之中，互联网上产生的全部内容可以刻满1.68亿张DVD，发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量），发出的社区帖子达200万个（相当于《时代》杂志770年的文字量），卖出的手机数量为37.8万台，比全球每天出生的婴儿数量高出37.1万名。随着信息爆炸性的增长，“大数据”成为当前时代最为流行的一个新词汇，其不仅作为IT行业的一个通用词汇在日常工作中使用，并且广泛渗透到商业、金融、教育等一系列与数据相关的领域中。并且，随着大数据的普及以及对其进行分析和挖掘处理技术的提高，大数据越来越被人们重视。围绕大数据获得的商业价值逐渐成为行业人士争相追捧的利润焦点。正如人们常说的一句话，“冰山只露出它的一角”。大数据也是如此，“人们看到的只是其露出水面的那一部分，而更多的则是隐藏在水面下”。简单地掌握海量的数据资料是不够的...

2017-05-01

602

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。