Hadoop,HBase,Storm,Spark到底是什么?
Hadoop,HBase,Storm,Spark到底是什么?
Hadoop=HDFS+Hive+Pig+...
HDFS: 存储系统
MapReduce:计算系统
Hive:提供给SQL开发人员(通过HiveQL)的MapReduce,基于Hadoop的数据仓库框架
Pig:基于Hadoop的语言开发的
HBase:NoSQL数据库
Flume:一个收集处理Hadoop数据的框架
Oozie:一个让用户以多种语言(如MapReduce,Pig和Hive)定义一系列作业的工作流处理系统
Ambari:一个基于web的部署/管理/监控Hadoop集群的工具集
Avro:允许编码Hadoop文件的schema的一种数据序列化系统
Mahout:一个数据挖掘库,它包含了最流行的一些数据挖据算法,并且以MapReduce模型来实现他们
Sqoop:一个从非Hadoop数据存储(如关系数据库和数据仓库)进来的移动数据到Hadoop中的连接工具
HCatalog:一个中心化的元数据管理以及Apache Hadoop共享服务,它允许在Hadoop集群中的所有数据的统一视图,并允许不同的工具,包括Pig和Hive,处理任何数据元素,而无需知道身体在集群中的数据存储。
BigTop:为了创造一个更正式的程序或框架Hadoop的子项目及相关组件的目标提高Hadoop的平台,作为一个整体的包装和互操作性测试。
Apache Storm:一个分布式实时计算系统,Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行,它使用Apache ZooKeeper的和自己的主/从工作进程,协调拓扑,主机和工作者状态,保证信息的语义。无论如何, Storm必定还是可以从HDFS文件消费或者从文件写入到HDFS。
Apache Spark:一种快速,通用引擎用于大规模数据处理,Spark是一个数据并行通用批量处理引擎。工作流中在一个类似的和怀旧风格的MapReduce中定义,但是,比传统Hadoop MapReduce的更能干。Apache Spark有其流API项目,该项目通过短间隔批次允许连续处理。Apache Spark本身并不需要Hadoop操作。但是,它的数据并行模式,需要稳定的数据优化使用共享文件系统。该稳定源的范围可以从S3,NFS或更典型地,HDFS。执行Spark应用程序并不需要Hadoop YARN。Spark有自己独立的主/服务器进程。然而,这是共同的运行使用YARN容器Spark的应用程序。此外,Spark还可以在Mesos集群上运行。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hadoop大象之旅009-通过Shell操作hdfs
Hadoop大象之旅009-通过Shell操作hdfs 老帅 调用Hadoop分布式文件系统(HDFS)Shell命令应使用bin/hadoop fs <args>的形式。 1.查看hdfs都有哪些Shell命令 参照前面章节中所述方法,使用SecureCRTPortable.exe登录CentOS; 使用命令“hadoopfs”查看hdfs的命令列表,如下图所示: hdfs的所有命令的格式,都为:hadoop fs –xx,具体使用方法,可参考官方文档: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 全部命令清单如下 cat 使用方法:hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。 示例: · hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 · hadoop fs -cat file:///file3 /user/hadoop/file4 返回值:成功返回0,失败返回-1。 ...
- 下一篇
Hadoop大象之旅010-使用eclipse查看hadoop源码
Hadoop大象之旅010-使用eclipse查看hadoop源码 老帅 我这使用的是hadoop-1.1.2.tar.gz,这个文件可以在下面地址下载到: 官方地址:http://archive.apache.org/dist/hadoop/core/hadoop-1.1.2/ 1.将hadoop-1.1.2.tar.gz解压缩 文件夹结构如下所示: 2.在MyEclipse中新建一个JavaProject 工程名称为hadoop 3.复制源码到我们的工程中 复制hadoop-1.1.2源码文件夹中的core、hdfs、mapred三个文件夹到我们的hadoop工程中: 复制完成后如下图所示: 4.调试代码 改变目录结构如下图: 增加外部依赖包 还需要一个ant.jar包 替换jdk 至此源码不再有错误,调试完成。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Redis,开启缓存,提高访问速度