大数据(一) - hadoop生态系统及版本演化-低调大师

大数据(一) - hadoop生态系统及版本演化

2019-03-22 699

大数据系列文章汇总链接 - 更新到15篇

HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务
HDFS源自于Google的GFS论文 (发表于2003年10月 )，是GFS克隆版
YARN：资源管理系统（Yet Another Resource Negotiator）：负责集群资源的统一管理和调度，Hadoop 2.0新增系统，使得多种计算框架可以运行在一个集群中
MapReduce：分布式计算框架：具有易于编程、高容错性和高扩展性等优点
MapReduce源自于Google的MapReduce论文（发表于2004年12月），是Google MapReduce克隆版

Hive：由facebook开源，基于MR的数据仓库，数据计算使用MR，数据存储使用HDFS，Hive 定义了一种类 SQL 查询语言——HQL：类似SQL，但不完全相同
日志分析：统计网站一个时间段内的pv、uv
Pig：由yahoo！开源，构建在Hadoop之上的数据仓库

Mahout：数据挖掘库，基于Hadoop的机器学习和数据挖掘的分布式计算框架，实现了三大类算法：推荐(Recommendation) 、聚类(Clustering) 、分类(Classification)
HBase：分布式数据库，源自Google的Bigtable论文，发表于2006年11月，是Google Bigtable克隆版
Zookeeper：分布式协作服务，源自Google的Chubby论文，发表于2006年11月，是Chubby克隆版
解决分布式环境下数据管理问题：统一命名、状态同步、集群管理、配置同步
Sqoop：数据同步工具，大数据学习交流扣 qun 74零零加4yi3八1连接Hadoop与传统数据库之间的桥梁，支持多种数据库，包括MySQL、DB2等，插拔式，用户可根据需要支持新的数据库；本质上是一个MapReduce程序
Flume：日志收集工具，Cloudera开源的日志收集系统
Oozie：作业流调度系统
目前计算框架和作业类型繁多： MapReduce Java、Streaming、HQL、Pig等
如何对这些框架和作业进行统一管理和调度：
不同作业之间存在依赖关系（DAG）；
周期性作业
定时执行的作业
作业执行状态监控与报警（发邮件、短信等）

Hadoop发行版本
apache hadoop版本
CDH：Cloudera DistributedHadoop
http://archive.cloudera.com/cdh5/cdh/
HDP：Hortonworks Data Platform
http://zh.hortonworks.com/hdp/downloads/
建议选择公司发行版（不必面临版本某一个框架的选择问题），比如CDH或HDP ，推荐使用CDH（国内主流版本）
更易维护和升级
经过集成测试，不会面临版本兼容问题

微信关注我们

原文链接：https://yq.aliyun.com/articles/695002

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据学习思路

学习大数据已经有一段时间了，抽空回顾一下自己学习的一些内容。下图主要为自己学习大数据的一个过程。阶段一：Java基础掌握JAVA基本语法、面向对象、集合、IO流、多线程、网络编程阶段二：MySQL CRUD 阶段三：Linux 常用的操作命令阶段四：Hadoop生态系统 HDFS、YARN、MapReduce、Hive、HBase、Zookeeper、Flume、Kafka、Sqoop、Spark 阶段五：Spark生态系统 Spark Core、Spark SQL、Spark Streaming、MLlib、Graphx 阶段六：项目实战用户推荐系统阶段七：Python 学习python的基础语法。后面的数据爬去、算法的实现、机器学习、深度学习中会用到，学习numpy和panada。阶段八：HTML 学习HTML的基础语法，了解网页的构成。

2019-03-22

722

作者简介：《RocketMQ技术内幕》作者、中间件兴趣圈微信公众号维护者 ElasticSearch Mapping(映射)目录：elasticsearch使用指南之Elasticsearch Mapping类型映射概述与元字段类型 Elasticsearch使用指南之Elasticsearch Mapping parameters(主要参数一览) Elasticsearch与关系型数据库的另外一个不同就是索引下的的类型中的字段可以动态创建，无需在使用之前先创建好，支持在索引的过程中动态添加。这种机制也得意于Elasticsearch的动态映射机制，能根据字段的值动态猜测字段的类型，从而建立索引映射。本节将重点介绍Elasticsearch动态映射机制。 PUT data/_doc/1 { "count": 5 } 执行上述请求时，索引"data"不必预先创建，该API会首先会自动创建索引data、类型映射_doc，其映射类型下包含字段count，其类型为long。自动为类型映射根据文档的值推测其类型的过程，就是本文要重点描述的机制：动态类型映射机制。动态映射机制包含如下两种映射规则：...

2019-03-23

899

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。