CDH ecosystem components
1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;
2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;
3,Apache Whirr 提供了一组 Java 类库用来运行云服务,基于 jclouds 开发
jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)
4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,
什么是Oozie?
Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:
- 工作流定义
- 当前运行的工作流实例,包括实例的状态和变量
http://www.infoq.com/cn/articles/introductionOozie
5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户
6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”
7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果
9,提供一个基于WEB的Job Tracker,集群监控和文件浏览
10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。
包括:
- 提供一个共享的模式和数据类型的机制。
- 抽象出表,使用户不必关心他们的数据怎么存储。
- 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。
11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
12,sqoop导入关系型数据库中数据;
附件相关性知识库
gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760
http://www.open-open.com/lib/view/open1339233432662.html
http://www.iteye.com/topic/1122901
http://labs.chinamobile.com/mblog/52251_166394

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
yum cdh4
cdh4 install for Centos6那个最美的年代,最好的时光,一路梦想,一路流泪,流的不会是懦弱的泪,而是对奋斗的寄于;1,repo配置>>>/etc/yum.repo/wget http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/cloudera-cdh4.repo或是wget archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.x86_64.rpmyum --nogpgcheck localinstall cloudera-cdh-4.x86_64.rpm2,添加Repository key for Centos6rpm --import http://archive.cloud.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera3,yum 安装cdh相关daemons在相关master,slaves上命令,此时未考虑HA;默认MRv1,MRv2(Y...
- 下一篇
spark 之 Scala 环境搭建,开发工具使用
1,首先介绍官网网站 http://scala-lang.org/ 下载windows 的exe直接进行安装就行。 安装后有个本地文档可以使用: 2,工具使用 继续使用eclipse。如果是IDEA直接使用插件就行了。 http://scala-ide.org/download/current.html 安装url: http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site 3,创建工程 scala 学习非常简单 http://zh.scala-tour.com/#/welcome 4,Hello world 在eclipse创建一个工程 package demo_001 object HelloWorld { def hello(name: String): String = { return "hello world, " + name } def main(args: Array[String]) { println(hello("scala")); } }
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装