hadoop框架结构学习详述-低调大师

hadoop框架结构学习详述

2018-09-25 611

hadoop框架结构学习详述
近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。
目前国内的hadoop商业发行版也是比较多，这些hadoop商业版大部分都是由国外发行的，纯国产的发行版不是很多，比如DKhadoop，可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构！

图示：DKhadoop技术技术架构图
hadoop框架结构核心：
hadoop的框架结构最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。
大数据一体化开发框架：
大数据的应用开发过于偏向底层，设计技术面非常广泛，学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，降低了大俗局的学习门槛，降低开发难度。
DKhadoop框架结构构成模块：
我们以DKhadoop发行版为例：
1、框架由：数据源与SQL引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块，六部分组成。
2、大快的大数据通用计算平台（DKH），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：
（1）数据源与SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka
（2）数据采集：DK.hadoop
（3）数据处理模块：DK.Hadoop、spark、storm、hive
（4）机器学习和AI：DK.Hadoop、spark
（5）NLP模块：上传服务器端JAR包，直接支持
（6）搜索引擎模块：不独立发布
Dkhadoop是大快深度整合，重新编译后的HADOOP发行版，可单独发布。独立部署FreeRCH（大快大数据一体化开发框架）时，必需的组件。DK.HADOOP整合集成了NOSQL数据库，简化了文件系统与非关系数据库之间的编程；DK.HADOOP改进了集群同步系统，使得HADOOP的数据处理更加高效。
关于hadoop框架结构暂且简单介绍这些，感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。

微信关注我们

原文链接：https://yq.aliyun.com/articles/645537

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MaxCompute UDF配置汇总

MaxCompute UDF为数据开发人员提供了较SQL更加灵活的数据处理方式，使得在数据处理过程中，不再只是局限在SQL提供的能力，可以根据自己的需求对功能进行定制，也可以引入其他优秀的程序包简化开发的难度和工作量。有的时候一个UDF因为经过多轮迭代和长时间积累，可能功能会变的非常丰富同时又非常的复杂，常常需要利用配置进行控制，本文对几种通用的配置方案进行了汇总，供各位参考。一、函数参数方式执行示例： select udf1(param1, param2) from dual; select udf1(param1,map("k","v")) from dual; 实现代码 public class udf1 extends UDF { public String evaluate(String a) { return "default value:" + a; } public String evaluate(String a, String b) { return "new value:" + a + "," + b; } public String evaluate(Str...

2018-09-25

718

DKhadoop大数据平台基础框架的简单介绍大数据作为当下最为热门的事件之一，其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据，那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源，已经是越来越得到国家和企业的高度重视，我们从大数据被上升到国家战略层面就可窥见一二！现在关于大数据的知识分享可以说已经是铺天盖地了，作为新手入门想查询的信息基本都可以通过网络查询到一些。我对的大数据的了解其实也不是特别丰富，毕竟学习的时间也不是特别长。仅以我熟悉的DKhadoop为例给大家分享一些小知识，往对初学者有点小帮助就可以了。大数据平台基础框架是很多初学者必然要掌握的内容，大数据太过抽象，有时候写分享的时候难免感觉写的很多困难。还是通过具体的案例来写会比较好理解。关于大数据平台基础框架我还是用自己熟悉的DKhadoop为例。在此之前还是对DKhadoop做一个简单的说明：DKhadoop大快大数据平台，由大快搜索开发的为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级大数据通用计算平台（写的这么专业，肯定是我从大快宣传册上搬运过来的啦）。对于有大量数据需...

2018-09-25

628

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。