什么是 Hadoop 生态系统-低调大师

什么是 Hadoop 生态系统

2017-06-06 775

在一些 Teiid 的一些文章和示例上都会有关于 JBoss Data Virtualization (Teiid) 通过 Hive 使用 Hadoop 作为数据源的信息。当使用 Hadoop 环境创建 Data Virtualization 示例时，比如 Hortonworks Data Platform, Cloudera Quickstart 等等，里面会包含大量的开源项目。本篇文章主要是对 Hadoop 生态系统有个初步的认识，以下的一些开源项目详情可以查看 hadoop ecosystem table。

Map Reduce -MapReduce 是使用集群的并行，分布式算法处理大数据集的可编程模型。Apache MapReduce 是从 Google MapReduce 派生而来的：在大型集群中简化数据处理。当前的 Apache MapReduce 版本基于 Apache YARN 框架构建。YARN ＝ “Yet-Another-Resource-Negotiator”。YARN 可以运行非 MapReduce 模型的应用。YARN 是 Apache Hadoop 想要超越 MapReduce 数据处理能力的一种尝试。

HDFS - The Hadoop Distributed File System (HDFS) 提供跨多个机器存储大型文件的一种解决方案。Hadoop 和 HDFS 都是从 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前，NameNode 是 HDFS 集群的一个单点故障 (SPOF) 。利用 Zookeeper，HDFS 高可用性特性解决了这个问题，提供选项来运行两个重复的 NameNodes，在同一个集群中，同一个 Active/Passive 配置。

HBase - 灵感来源于 Google BigTable。HBase 是 Google Bigtable 的开源实现，类似 Google Bigtable 利用 GFS 作为其文件存储系统，HBase 利用 Hadoop HDFS 作为其文件存储系统；Google 运行 MapReduce 来处理 Bigtable 中的海量数据，HBase 同样利用 Hadoop MapReduce 来处理 HBase 中的海量数据；Google Bigtable 利用 Chubby 作为协同服务，HBase 利用 Zookeeper 作为对应。

Hive - Facebook 开发的数据仓库基础设施。数据汇总，查询和分析。Hive 提供类似 SQL 的语言 (不兼容 SQL92)：HiveQL。

Pig - Pig 提供一个引擎在 Hadoop 并行执行数据流。Pig 包含一个语言：Pig Latin，用来表达这些数据流。Pig Latin 包括大量的传统数据操作 (join, sort, filter, etc.)，也可以让用户开发他们自己的函数，用来查看，处理和编写数据。Pig 在 hadoop 上运行，在 Hadoop 分布式文件系统，HDFS 和 Hadoop 处理系统，MapReduce 中都有使用。Pig 使用 MapReduce 来执行所有的数据处理，编译 Pig Latin 脚本，用户可以编写到一个系列，一个或者多个的 MapReduce 作业，然后执行。Pig Latin 看起来跟大多数编程语言都不一样，没有 if 状态和 for 循环。

Zookeeper - ZooKeeper 是 Hadoop 的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper 是 Google 的 Chubby 一个开源的实现.是高有效和可靠的协同工作系统。Zookeeper 能够用来 leader 选举,配置信息维护等.在一个分布式的环境中，我们需要一个 Master 实例或存储一些配置信息，确保文件写入的一致性等。

Mahout - 基于 MapReduce 的机器学习库和数学库。

同时，你可以访问 Big Data Insights Page，学习更多关于 Hadoop 生态系统的 Red Hat 产品。

文章转载自开源中国社区 [http://www.oschina.net]

微信关注我们

原文链接：https://yq.aliyun.com/articles/114961

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开发者必备：基于 Linux 生态的十大AI开源框架盘

本文将从开发者的角度出发，特别是针对开发者中为数众多的Linux系统和Mac系统用户，奉上一篇针对泛Linux生态的顶级人工智能开源工具盘点（当然，有些工具也并非只兼容Linux）。 Deeplearning4j：为Java用户量身定制 Deeplearning4j（Deep Learning For Java）是Java和Scala环境下的一个开源分布式的深度学习项目，由总部位于美国旧金山的商业智能和企业软件公司Skymind牵头开发，并得到了腾讯的投资。正如它的命名，Deeplearning4j的运行需要Java虚拟机JVM的支持。 Deeplearning4j团队在官网表示，他们希望通过一些深度学习算法的开发，将商业带入智能化数据的时代。也正是为了实现这一理想，惠及更多的用户，因此选择了移植性更好的Java环境来实现这些算法。目前，Deeplearning4j的这些算法已经在谷歌、Facebook和微软等平台得到了广泛应用。值得一提的是，为了便于开发者自由定制，Deeplearning4j已经开放了尽可能多的算法调节接口，并对接口参数做出了详尽解释。同时，Deeplearnin...

2017-06-06

804

该文转自微信公众号“北京白帽汇科技有限公司”，作者为“安全实验室”，原文标题为《威胁情报预警：Elasticsearch勒索事件》，雷锋网已获授权。 2017年1月12日，白帽汇监测到针对全球使用广泛的全文索引引擎Elasticsearch的勒索事件，经过多日的跟进分析，直至2017年1月17日，共有3波勒索者，根据白帽汇FOFA系统对删除之前数据与被删除数据进行对比分析，此次攻击被删除的数据至少500亿条，被删除数据至少450TB。在勒索事件发生后，有1%的Elasticsearch启用了验证插件，另外有2%则关闭了Elasticsearch。【注：以上比特币价格按照事发当日比特币价格换算】事件回顾 2017年1月12日上午10时白帽汇发现第一波勒索者，分析统计，发现共有10264台服务器已经遭受攻击，并且还一直持续增长。攻击者会删除Elasticsearch所有索引信息，并创建一个名为warning的索引，勒索者写入需要支付0.2比特币才给受害者发送数据(目前按照比特币市场价格，约等于150美元),并留下邮箱地址p1l4t0s@sigaint.org。该邮箱域与Mong...

2017-06-06

563

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。