hadoop框架结构学习详述
hadoop框架结构学习详述
近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。
目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是很多,比如DKhadoop,可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构!
图示:DKhadoop技术技术架构图
hadoop框架结构核心:
hadoop的框架结构最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
大数据一体化开发框架:
大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。
DKhadoop框架结构构成模块:
我们以DKhadoop发行版为例:
1、框架由:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。
2、大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:
(1)数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)数据采集:DK.hadoop
(3)数据处理模块:DK.Hadoop、spark、storm、hive
(4)机器学习和AI:DK.Hadoop、spark
(5)NLP模块:上传服务器端JAR包,直接支持
(6)搜索引擎模块:不独立发布
Dkhadoop是大快深度整合,重新编译后的HADOOP发行版,可单独发布。独立部署FreeRCH(大快大数据一体化开发框架)时,必需的组件。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。
关于hadoop框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
MaxCompute UDF配置汇总
MaxCompute UDF为数据开发人员提供了较SQL更加灵活的数据处理方式,使得在数据处理过程中,不再只是局限在SQL提供的能力,可以根据自己的需求对功能进行定制,也可以引入其他优秀的程序包简化开发的难度和工作量。有的时候一个UDF因为经过多轮迭代和长时间积累,可能功能会变的非常丰富同时又非常的复杂,常常需要利用配置进行控制,本文对几种通用的配置方案进行了汇总,供各位参考。 一、函数参数方式 执行示例: select udf1(param1, param2) from dual; select udf1(param1,map("k","v")) from dual; 实现代码 public class udf1 extends UDF { public String evaluate(String a) { return "default value:" + a; } public String evaluate(String a, String b) { return "new value:" + a + "," + b; } public String evaluate(Str...
- 下一篇
DKhadoop大数据平台基础框架的简单介绍
DKhadoop大数据平台基础框架的简单介绍大数据作为当下最为热门的事件之一,其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据,那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源,已经是越来越得到国家和企业的高度重视,我们从大数据被上升到国家战略层面就可窥见一二!现在关于大数据的知识分享可以说已经是铺天盖地了,作为新手入门想查询的信息基本都可以通过网络查询到一些。我对的大数据的了解其实也不是特别丰富,毕竟学习的时间也不是特别长。仅以我熟悉的DKhadoop为例给大家分享一些小知识,往对初学者有点小帮助就可以了。大数据平台基础框架是很多初学者必然要掌握的内容,大数据太过抽象,有时候写分享的时候难免感觉写的很多困难。还是通过具体的案例来写会比较好理解。关于大数据平台基础框架我还是用自己熟悉的DKhadoop为例。在此之前还是对DKhadoop做一个简单的说明:DKhadoop大快大数据平台,由大快搜索开发的为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级大数据通用计算平台(写的这么专业,肯定是我从大快宣传册上搬运过来的啦)。对于有大量数据需...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程