成本与性能兼得简化Hadoop云部署的高招-低调大师

成本与性能兼得简化Hadoop云部署的高招

2017-07-31 547

对于大数据管理和分析应用程序云服务，用户的关注度正不断增长，而为了应对这一趋势，供应商已经开始努力简化Hadoop的云部署流程，并试图降低云端Hadoop的购买价格。

大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说，已经变得十分重要。这些公司正在尝试使用新方法，来简化用户部署Hadoop云系统的步骤，并降低用户的部署成本。

例如，Cloudera将计量功能加入其Cloudera Director工具中，以管理构建在Hadoop中的分布式集群。这允许Cloudera用户采用一种基于使用的定价模型，而不必以节点为单位进行支付，这让他们能够运行一些因特定目的搭建起来的临时系统，使用完后可以释放资源，从而避免成本的上升。

在单个Cloudera Director实例的大数据云环境中，用户现在可以在其中的多个区域内部署集群。此外，新版本的Cloudera Enterprise(一个基于Hadoop的大数据平台)实现了在Amazon Simple Storage Service(S3)数据存储上直接运行Apache Impala SQL-on-Hadoop 查询引擎。这使得不需要移动数据到Hadoop分布式文件系统就可以实现查询操作，这也为用户在AWS云上部署临时系统提供了便利。

按需定价以及对Impala-on-S3的支持，在Narasimhan Sampath看来是非常有用的，他是Choice Hotels International Inc.公司的系统架构师，这家公司在AWS云上运行着Cloudera-based集群，这些集群与Spark数据处理引擎和Kafka信息查询系统等技术协同工作，以支持各种自助分析应用程序。

把你的集群迁移到云上

在Strata + Hadoop World 2016会谈中，Sampath表示，Choice遵循了BYOC的方式，将自己的集群，以按需的方式部署到云环境。例如，营销部门的集群可以部署到云中，完成一项工作，然后释放资源。同样地，开发团队的集群每天运行12小时，然后在夜间关闭，以节省公司在AWS云上的投入。

Cloudera的计量定价方式非常适合这种情景，Sampath在会谈结束后说道。“我并不需要购买500个(Cloudera)许可证，除非我无时无刻都在使用这些资源。这和亚马逊的模型是一样的。”

他补充道，Choice过去六个月与Cloudera进行了十分紧密的合作，试图连接S3和Impala，Impala最初由Cloudera作为开源软件发布。Choice使用S3作为数据存储。Sampath说，Impala对新查询的支持为BYOC策略提供了额外的灵活性。

Cloudera负责云产品营销的主管David Tishgart表示，他们已经越来越乐意在客户中推广云。但直到现在，他们对临时系统也没有太好的解决方案，也不能随便增加或减少工作负载。他承认，由于这个原因，大多数Cloudera用户选择了在云中长期运行集群，而不是采取临时的方式。

追上Hadoop 云的脚步

随着越来越多的用户展示出对云的兴趣，Clouder需要与Amazon Elastic MapReduce(EMR)，AWS提供的Hadoop云平台进行竞争。此外，Cloudera还发现，自己在与微软Azure HDInsight大数据云服务的竞争中也处于劣势，该平台基于Hortonworks Inc .的Hadoop的分布式环境。

根据Gartner分析师Merv Adrian所述，从用户数量的角度看，EMR已经让AWS成为了最大的Hadoop供应商。AWS最初落后于其他Apache Hadoop竞争对手，但两年前这种情况得以改变，现在AWS Hadoop用户数比其他厂商总和还要多。

Hortonworks还专注于扩展Hadoop云功能，他们表示，HDInsight现在运行着2.5版的Hortonworks数据平台(HDP)。此外，Hortonworks现在还支持Microsoft’s Azure Active Directory service 和Apache Ranger的集成。(Apache Ranger是一个用来管理Hadoop数据安全性和用户访问权限的框架)

尽管与微软云环境关系密切，但Hortonworks也提供HDP的技术预览版，以便AWS用户使用Spark和Apache Hive搭建临时集群。“我们了解所有云环境上的工作负载情况，”该公司主管全球营销的高级副总裁Matt Morgan说道。

Paxata公司也开始使用云环境。这家自助服务数据准备软件的供应商提供了一个新工具，叫做Paxata Connect，它可以汇总运行在不同Hadoop集群上的数据，其中也包括独立云平台中的数据。Paxata首席产品官Nenshad Bardoliwalla说道，很多Hadoop的工作负载都已迁移到云，能够创建“临时”集群，运行特定的工作，然后释放资源，这种模式的诱惑十分巨大。

本文作者：佚名

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/182190

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Storm、Spark和MapReduce 开源分布式计算系统框架比较

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm；这三个框架各有优势，现在都属于 Apache 基金会下的顶级项目，下文将对三个框架的特点与适用场景进行分析，以便开发者能快速选择适合自己的框架进行开发。 Hadoop MapReduce 是三者中出现最早，知名度最大的分布式计算框架，最早由 Google Lab 开发，使用者遍布全球（Hadoop PoweredBy）；主要适用于大批量的集群任务，由于是批量执行，故时效性偏低，原生支持 Java 语言开发 MapReduce ，其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点，而且在时效性上有了很大提高，中间结果可以保存在内存中，从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持，多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计，因此在实时分析/性能监测等需要高时...

2017-07-31

691

Hadoop设计的目的主要包括下面几个方面，也就是所谓的适用场景： 1：超大文件可以是几百M，几百T这个级别的文件。 2：流式数据访问 Hadoop适用于一次写入，多次读取的场景，也就是数据复制进去之后，长时间在这些数据上进行分析。 3：商业硬件也就是说大街上到处都能买到的那种硬件，这样的硬件故障率较高，所以要有很好的容错机制。接下来说说不适用的场景： 1：低延迟数据访问 Hadoop设计的目的是大吞吐量，所以并没有针对低延迟数据访问做一些优化，如果要求低延迟，可以看看Hbase。 2：大量的小文件由于NameNode把文件的MetaData存储在内存中，所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的，再多的话就有问题了。 3：多用户写入，任意修改 Hadoop现在还不支持多人写入，任意修改的功能。也就是说每次写入都会添加在文件末尾。本文作者：佚名来源：51CTO

2017-07-31

600

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。