学习Hadoop大数据基础框架-低调大师

学习Hadoop大数据基础框架

2018-11-13 514

什么是大数据？进入本世纪以来，尤其是2010年之后，随着互联网特别是移动互联网的发展，数据的增长呈爆炸趋势，已经很难估计全世界的电子设备中存储的数据到底有多少，描述数据系统的数据量的计量单位从MB（1MB大约等于一百万字节）、GB（1024MB）、TB（1024GB），一直向上攀升，目前，PB（等于1024TB）级的数据系统已经很常见，随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大，国内拥有的总数据量早已超出 ZB（1ZB=1024EB，1EB=1024PB）级别。
传统的数据处理方法是：随着数据量的加大，不断更新硬件指标，采用更加强大的CPU、更大容量的磁盘这样的措施，但现实是：数据量增大的速度远远超出了单机计算和存储能力提升的速度。
而“大数据”的处理方法是：采用多机器、多节点的处理大量数据方法，而采用这种新的处理方法，就需要有新的大数据系统来保证，系统需要处理多节点间的通讯协调、数据分隔等一系列问题。
总之，采用多机器、多节点的方式，解决各节点的通讯协调、数据协调、计算协调问题，处理海量数据的方式，就是“大数据”的思维。其特点是，随着数据量的不断加大，可以增加机器数量，水平扩展，一个大数据系统，可以多达几万台机器甚至更多。

Hadoop最初主要包含分布式文件系统HDFS和计算框架MapReduce两部分，是从Nutch中独立出来的项目。在2.0版本中，又把资源管理和任务调度功能从MapReduce中剥离形成YARN，使其他框架也可以像MapReduce那样运行在Hadoop之上。与之前的分布式计算框架相比，Hadoop隐藏了很多繁琐的细节，如容错、负载均衡等，更便于使用。
Hadoop也具有很强的横向扩展能力，可以很容易地把新计算机接入到集群中参与计算。在开源社区的支持下，Hadoop不断发展完善，并集成了众多优秀的产品如非关系数据库HBase、数据仓库Hive、数据处理工具Sqoop、机器学习算法库Mahout、一致性服务软件ZooKeeper、管理工具Ambari等，形成了相对完整的生态圈和分布式计算事实上的标准。
大快的大数据通用计算平台（DKH），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：
数据源与SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka
数据采集：DK.hadoop
数据处理模块：DK.Hadoop、spark、storm、hive
机器学习和AI：DK.Hadoop、spark
NLP模块：上传服务器端JAR包，直接支持
搜索引擎模块：不独立发布
大快大数据平台（DKH）,是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级，大数据通用计算平台。传统公司通过使用DKH，可以轻松的跨越大数据的技术鸿沟，实现搜索引擎级的大数据平台性能。
 DKH，有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍（最大）的性能提升。
 DKH，更是通过大快独有的中间件技术，将复杂的大数据集群配置简化至三种节点（主节点、管理节点、计算节点），极大的简化了集群的管理运维，增强了集群的高可用性、高可维护性、高稳定性。
 DKH，虽然进行了高度的整合，但是仍然保持了开源系统的全部优点，并与开源系统100%兼容，基于开源平台开发的大数据应用，无需经过任何改动，即可在DKH上高效运行，并且性能会有最高5倍的提升。
 DKH，更是集成了大快的大数据一体化开发框架（FreeRCH）, FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类，通过总计一百余种方法，实现了10倍以上的开发效率的提升。
 DKH的SQL版本，还提供了分布式MySQL的集成，传统的信息系统，可无缝的实现面向大数据和分布式的跨越。
DKH标准平台技术构架图

微信关注我们

原文链接：https://yq.aliyun.com/articles/669035

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Flink靠什么征服饿了么工程师？

平台现状# 下面是目前饿了么平台现状架构图：来源于多个数据源的数据写到kafka里，计算引擎主要是Storm,Spark和Flink，计算引擎出来的结果数据再落地到各种存储上。目前Storm任务大概有100多个，Spark任务有50个左右，Flink暂时还比较少。目前我们集群规模每天数据量有60TB，计算次数有1000000000，节点有400个。这里要提一下，Spark和Flink都是on yarn的，其中Flink onyarn主要是用作任务间jobmanager隔离， Storm是standalone模式。应用场景# 1.一致性语义# 在讲述我们应用场景之前，先强调实时计算一个重要概念，一致性语义： at-most-once：即fire and forget，我们通常写一个java的应用，不去考虑源头的offset管理，也不去考虑下游的幂等性的话，就是简单的at-most-once，数据来了，不管中间状态怎样，写数据的状态怎样，也没有ack机制。 at-least-once：重发机制，重发数据保证每条数据至少处理一次。 exactly-once：使用粗Checkpo...

2018-11-14

555

下一代大数据计算引擎# 自从数据处理需求超过了传统数据库能有效处理的数据量之后，Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始，经过近 10 年的发展，基于 Hadoop 开源生态或者其它相应系统的海量数据处理已经成为业界的基本需求。但是，很多机构在开发自己的数据处理系统时都会发现需要面临一系列的问题。从数据中获取价值需要的投入远远超过预期。常见的问题包括：非常陡峭的学习曲线。刚接触这个领域的人经常会被需要学习的技术的数量砸晕。不像经过几十年发展的数据库一个系统可以解决大部分数据处理需求，Hadoop 等大数据生态里的一个系统往往在一些数据处理场景上比较擅长，另一些场景凑合能用，还有一些场景完全无法满足需求。结果就是需要好几个系统来处理不同的场景。上图是一个典型的 lambda 架构，只是包含了批处理和流处理两种场景，就已经牵涉到至少四五种技术了，还不算每种技术的可替代选择。再加上实时查询、交互式分析、机器学习等场景，每个场景都有几种技术可以选择，每个技术涵盖的领域还有不同方式的重叠。结...

2018-11-14

621

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。