Storm、Spark和MapReduce 开源分布式计算系统框架比较-低调大师

Storm、Spark和MapReduce 开源分布式计算系统框架比较

2017-07-31 613

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm；这三个框架各有优势，现在都属于 Apache 基金会下的顶级项目，下文将对三个框架的特点与适用场景进行分析，以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早，知名度最大的分布式计算框架，最早由 Google Lab 开发，使用者遍布全球（Hadoop PoweredBy）；主要适用于大批量的集群任务，由于是批量执行，故时效性偏低，原生支持 Java 语言开发 MapReduce ，其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点，而且在时效性上有了很大提高，中间结果可以保存在内存中，从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持，多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计，因此在实时分析/性能监测等需要高时效性的领域广泛采用，而且它理论上支持所有语言，只需要少量代码即可完成适配器。

下面的表格是对三者部分特性的比较，描述时间为 2015-5-3，三个项目均处于快速迭代中，文中描述特性会随时产生变化，如果与官方文档产生出入以官方文档为准。

本文作者：佚名

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/197818

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用Apache Spark和MySQL打造强大的数据分析

借助真实案例和代码样本，本文作者展示了如何将Sparke和MySQL结合起来，创造数据分析上的强大工具。 Apache Spark是一个类似Apache Hadoop的集群计算框架，在Wikipedia上有大量描述：Apache Spark是一个开源集群计算框架，出自加州大学伯克利分校的AMPLab，后被捐赠给了Apache软件基金会。相对于Hadoop基于磁盘的两段式MapReduce规范，Spark基于内存的多段式基元在特定应用上表现要优出100倍。Spark允许用户程序将数据加载到集群内存中反复查询，非常适合机器学习算法。 Apache Spark 与流行的看法相反，Spark不需要将所有数据存入内存，但会使用缓存来加速操作（就像MySQL那样）。Spark也能独立运行而无需Hadoop，并可以运行在单独一台服务器上（甚至笔记本或台式机上），并充分利用所有CPU内核。开启它并使用分布式模式真的很简单。先打开master，在同一个节点上运行slave：然后在任何额外的节点上运行Spark worker（确定向/etc/hosts 添加了hostname或者使用DNS）：为什么...

2017-08-01

479

对于大数据管理和分析应用程序云服务，用户的关注度正不断增长，而为了应对这一趋势，供应商已经开始努力简化Hadoop的云部署流程，并试图降低云端Hadoop的购买价格。大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说，已经变得十分重要。这些公司正在尝试使用新方法，来简化用户部署Hadoop云系统的步骤，并降低用户的部署成本。例如，Cloudera将计量功能加入其Cloudera Director工具中，以管理构建在Hadoop中的分布式集群。这允许Cloudera用户采用一种基于使用的定价模型，而不必以节点为单位进行支付，这让他们能够运行一些因特定目的搭建起来的临时系统，使用完后可以释放资源，从而避免成本的上升。在单个Cloudera Director实例的大数据云环境中，用户现在可以在其中的多个区域内部署集群。此外，新版本的Cloudera Enterprise(一个基于Hadoop的大数据平台)实现了在Amazon Simple Storage Service(S3)数据存储上直接运行Apache Impala SQL-on-Hadoop 查询引擎。这使得不需要...

2017-08-01

461

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。