大数据入门干货-低调大师

大数据入门干货

2019-05-26 668

　　首先，提及大数据一词的概念。大数据本质还在于数据，但是它有着新的特征亮点。包括：数据来源广，数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。

　　扩展讲大数据的4个基本特征，我们将进行下面额思考：

1.数据来源广？

　　广泛的数据来源从何而来，通过何种方式进行采集与汇总？相对应的我们出现Sqoop，

Cammel，Datax等工具。

2.数据采集之后，该如何存储?

　　采集之后，为了方便存储，我们对应的出现了GFS，HDFS，TFS等分布式文件存储系统。

　　并且，介于数据的增长速度非常之快，这也就要求我们，数据存储必须可以进行水平扩展。

3.数据存储之后，该如何通过运算快速转化成一致的格式，又该如何快速运算出自己想要的结果?

　　对此，MapReduce的分布式运算框架提出了解决方案。但是由于MapReduce需要java的编程代码较多，由此，又出现了Hive，Pig等将SQL转化成MapReduce的解析引擎;再有，因普通的MapReduce只能一批一批地批量处理数据，时间消耗过多，最终目的又要求我们输入的一条数据就能得到结果，于是又出现了Storm/JStorm这样的低时延的流式计算框架;但是如果同时需要批处理和流处理，按照如上就得搭两个集群，Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群，不易于管理，所以出现了Spark这样的一站式的计算框架，既可以进行批处理，又可以进行流处理(实质上是微批处理)。而后Lambda架构，Kappa架构的出现，又提供了一种业务处理的通用架构。

4.此外，为了提高工作效率，加快运速度，出现了一些辅助工具：

Ozzie，azkaban：定时任务调度的工具。

Hue，Zepplin：图形化任务执行管理，结果查看工具。

Scala语言：编写Spark程序的最佳语言，当然也可以选择用Python。

Python语言：编写一些脚本时会用到。

Allluxio，Kylin等：通过对存储的数据进行预处理，加快运算速度的工具。

微信关注我们

原文链接：https://yq.aliyun.com/articles/703776

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

怎样设置“预付费资源到期提醒”消息接收人？

经常有客户反馈自己的MaxCompute预付费资源组欠费了，Project不能访问了，但自己却没有接收到通知，因为资源组的owner是财务同学或者是运维同学，他们并不关注MaxCompute服务，因此忽略了。其实您可以将MaxCompute大数据管理员加入到“产品欠费、停服、即将释放”的消息接收联系人中，之后需要及时关注您的短信、邮件或者站内信，就可以接收到MaxCompute的到期提醒、欠费等通知消息。 1、进入数据控制台，点击右上角小铃铛图标，在下拉菜单中选择“消息接收管理”，点击进入 2、在“基本接收管理”项目中，选择“产品欠费、停服、即将释放相关信息通知”，点击“修改”账号联系人 3、点击“新增消息接收人”，填写姓名、邮箱、手机号码等联系方式即可。访问MaxCompute官网 https://www.aliyun.com/pro

2019-05-26

728

大数据，人工智能技术引领科技潮流，推开大数据时代的大门！国家点赞！政策扶持，前景斐然！紧接着，学习大数据的人才便如过江之鲫，络绎不绝！整体形势，欣欣向荣！在这里，好程序员为大家送上技术干货，助大家一臂之力，学习大数据技术，一定要注重培训质量，只有如此，方可事半功倍！接下来，就为大家讲解，大数据必修的三大课程！　一、Hadoop生态体系 Hadoop 是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。 Hadoop “栈”由多个组件组成。包括： 1.Hadoop分布式文件系统(HDFS)：所有Hadoop集群的默认存储层 2.名称节点：在Hadoop集群中，提供数据存储位置以及节点失效信息的节点。 3. 二级节点：名称节点的备份，它会定期复制和存储名称节点的数据，以防名称节点失效。 4.作业跟踪器：Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。 ...

2019-05-26

687

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。