Hadoop，HBase，Storm，Spark到底是什么？

2014-12-08 694

Hadoop，HBase，Storm，Spark到底是什么？

Hadoop=HDFS+Hive+Pig+...

HDFS: 存储系统
MapReduce：计算系统
Hive：提供给SQL开发人员（通过HiveQL）的MapReduce，基于Hadoop的数据仓库框架
Pig：基于Hadoop的语言开发的
HBase:NoSQL数据库
Flume：一个收集处理Hadoop数据的框架
Oozie：一个让用户以多种语言（如MapReduce，Pig和Hive）定义一系列作业的工作流处理系统
Ambari：一个基于web的部署/管理/监控Hadoop集群的工具集
Avro：允许编码Hadoop文件的schema的一种数据序列化系统
Mahout：一个数据挖掘库，它包含了最流行的一些数据挖据算法，并且以MapReduce模型来实现他们
Sqoop：一个从非Hadoop数据存储（如关系数据库和数据仓库）进来的移动数据到Hadoop中的连接工具
HCatalog：一个中心化的元数据管理以及Apache Hadoop共享服务，它允许在Hadoop集群中的所有数据的统一视图，并允许不同的工具，包括Pig和Hive，处理任何数据元素，而无需知道身体在集群中的数据存储。

BigTop：为了创造一个更正式的程序或框架Hadoop的子项目及相关组件的目标提高Hadoop的平台，作为一个整体的包装和互操作性测试。

Apache Storm：一个分布式实时计算系统，Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行，它使用Apache ZooKeeper的和自己的主/从工作进程，协调拓扑，主机和工作者状态，保证信息的语义。无论如何， Storm必定还是可以从HDFS文件消费或者从文件写入到HDFS。

Apache Spark：一种快速，通用引擎用于大规模数据处理，Spark是一个数据并行通用批量处理引擎。工作流中在一个类似的和怀旧风格的MapReduce中定义，但是，比传统Hadoop MapReduce的更能干。Apache Spark有其流API项目，该项目通过短间隔批次允许连续处理。Apache Spark本身并不需要Hadoop操作。但是，它的数据并行模式，需要稳定的数据优化使用共享文件系统。该稳定源的范围可以从S3，NFS或更典型地，HDFS。执行Spark应用程序并不需要Hadoop YARN。Spark有自己独立的主/服务器进程。然而，这是共同的运行使用YARN容器Spark的应用程序。此外，Spark还可以在Mesos集群上运行。

微信关注我们

原文链接：https://yq.aliyun.com/articles/249702

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop大象之旅009-通过Shell操作hdfs

Hadoop大象之旅009-通过Shell操作hdfs 老帅调用Hadoop分布式文件系统(HDFS)Shell命令应使用bin/hadoop fs <args>的形式。 1.查看hdfs都有哪些Shell命令参照前面章节中所述方法，使用SecureCRTPortable.exe登录CentOS; 使用命令“hadoopfs”查看hdfs的命令列表，如下图所示： hdfs的所有命令的格式，都为：hadoop fs –xx，具体使用方法，可参考官方文档： http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 全部命令清单如下 cat 使用方法：hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。示例： · hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 · hadoop fs -cat file:///file3 /user/hadoop/file4 返回值：成功返回0，失败返回-1。 ...

2014-12-09

791

Hadoop大象之旅010-使用eclipse查看hadoop源码老帅我这使用的是hadoop-1.1.2.tar.gz，这个文件可以在下面地址下载到：官方地址：http://archive.apache.org/dist/hadoop/core/hadoop-1.1.2/ 1.将hadoop-1.1.2.tar.gz解压缩文件夹结构如下所示： 2.在MyEclipse中新建一个JavaProject 工程名称为hadoop 3.复制源码到我们的工程中复制hadoop-1.1.2源码文件夹中的core、hdfs、mapred三个文件夹到我们的hadoop工程中: 复制完成后如下图所示： 4.调试代码改变目录结构如下图：增加外部依赖包还需要一个ant.jar包替换jdk 至此源码不再有错误，调试完成。

2014-12-10

896

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。