大数据学习路线，0基础小白怎么学习大数据？-低调大师

大数据学习路线，0基础小白怎么学习大数据？

2019-04-10 666

一、大数据技术基础

1、linux操作基础

· linux系统简介与安装

· linux常用命令–文件操作

· linux常用命令–用户管理与权限

· linux常用命令–系统管理

· linux常用命令–免密登陆配置与网络管理

· linux上常用软件安装

· linux本地yum源配置及yum软件安装

· linux防火墙配置

· linux高级文本处理命令cut、sed、awk

· linux定时任务crontab
大数据学习扣qun74零零加【41三八yi】
2、shell编程

· shell编程–基本语法

· shell编程–流程控制

· shell编程–函数

· shell编程–综合案例–自动化部署脚本

3、内存数据库redis

· redis和nosql简介

· redis客户端连接

· redis的string类型数据结构操作及应用-对象缓存

· redis的list类型数据结构操作及应用案例-任务调度队列

· redis的hash及set数据结构操作及应用案例-购物车

· redis的sortedset数据结构操作及应用案例-排行榜

4、布式协调服务zookeeper

· zookeeper简介及应用场景

· zookeeper集群安装部署

· zookeeper的数据节点与命令行操作

· zookeeper的java客户端基本操作及事件监听

· zookeeper核心机制及数据节点

· zookeeper应用案例–分布式共享资源锁

· zookeeper应用案例–服务器上下线动态感知

· zookeeper的数据一致性原理及leader选举机制

5、java高级特性增强

· Java多线程基本知识

· Java同步关键词详解

· java并发包线程池及在开源软件中的应用

· Java并发包消息队里及在开源软件中的应用

· Java JMS技术

· Java动态代理反射

6、轻量级RPC框架开发

· RPC原理学习

· Nio原理学习

· Netty常用API学习

· 轻量级RPC框架需求分析及原理分析

· 轻量级RPC框架开发

二、离线计算系统

1、hadoop快速入门

· hadoop背景介绍

· 分布式系统概述

· 离线数据分析流程介绍

· 集群搭建

· 集群使用初步

2、HDFS增强

· HDFS的概念和特性

· HDFS的shell(命令行客户端)操作

· HDFS的工作机制

· NAMENODE的工作机制

· java的api操作

· 案例1：开发shell采集脚本

3、MAPREDUCE详解

· 自定义hadoop的RPC框架

· Mapreduce编程规范及示例编写

· Mapreduce程序运行模式及debug方法

· mapreduce程序运行模式的内在机理

· mapreduce运算框架的主体工作流程

· 自定义对象的序列化方法

· MapReduce编程案例

4、MAPREDUCE增强

· Mapreduce排序

· 自定义partitioner

· Mapreduce的combiner

· mapreduce工作机制详解

5、MAPREDUCE实战

· maptask并行度机制-文件切片

· maptask并行度设置

· 倒排索引

· 共同好友

6、federation介绍和hive使用

· Hadoop的HA机制

· HA集群的安装部署

· 集群运维测试之Datanode动态上下线

· 集群运维测试之Namenode状态切换管理

· 集群运维测试之数据块的balance

· HA下HDFS-API变化

· hive简介

· hive架构

· hive安装部署

· hvie初使用

7、hive增强和flume介绍

· HQL-DDL基本语法

· HQL-DML基本语法

· HIVE的join

· HIVE 参数配置

· HIVE 自定义函数和Transform

· HIVE 执行HQL的实例分析

· HIVE最佳实践注意点

· HIVE优化策略

· HIVE实战案例

· Flume介绍

· Flume的安装部署

· 案例：采集目录到HDFS

· 案例：采集文件到HDFS

三、流式计算

1、Storm从入门到精通

· Storm是什么

· Storm架构分析

· Storm编程模型、Tuple源码、并发度分析

· Storm WordCount案例及常用Api分析

· Storm集群部署实战

· Storm+Kafka+Redis业务指标计算

· Storm源码下载编译

· Strom集群启动及源码分析

· Storm任务提交及源码分析

· Storm数据发送流程分析

· Storm通信机制分析

· Storm消息容错机制及源码分析

· Storm多stream项目分析

· 编写自己的流式任务执行框架

2、Storm上下游及架构集成

· 消息队列是什么

· Kakfa核心组件

· Kafka集群部署实战及常用命令

· Kafka配置文件梳理

· Kakfa JavaApi学习

· Kafka文件存储机制分析

· Redis基础及单机环境部署

· Redis数据结构及典型案例

· Flume快速入门

· Flume+Kafka+Storm+Redis整合

四、内存计算体系Spark

1、scala编程

· scala编程介绍

· scala相关软件安装

· scala基础语法

· scala方法和函数

· scala函数式编程特点

· scala数组和集合

· scala编程练习（单机版WordCount）

· scala面向对象

· scala模式匹配

· actor编程介绍

· option和偏函数

· 实战：actor的并发WordCount

· 柯里化

· 隐式转换

2、AKKA与RPC

· Akka并发编程框架

· 实战：RPC编程实战

3、Spark快速入门

· spark介绍

· spark环境搭建

· RDD简介

· RDD的转换和动作

· 实战：RDD综合练习

· RDD高级算子

· 自定义Partitioner

· 实战：网站访问次数

· 广播变量

· 实战：根据IP计算归属地

· 自定义排序

· 利用JDBC RDD实现数据导入导出

· WorldCount执行流程详解

4、RDD详解

· RDD依赖关系

· RDD缓存机制

· RDD的Checkpoint检查点机制

· Spark任务执行过程分析

· RDD的Stage划分

5、Spark-Sql应用

· Spark-SQL

· Spark结合Hive

· DataFrame

· 实战：Spark-SQL和DataFrame案例

6、SparkStreaming应用实战

· Spark-Streaming简介

· Spark-Streaming编程

· 实战：StageFulWordCount

· Flume结合Spark Streaming

· Kafka结合Spark Streaming

· 窗口函数

· ELK技术栈介绍

· ElasticSearch安装和使用

· Storm架构分析

· Storm编程模型、Tuple源码、并发度分析

· Storm WordCount案例及常用Api分析

7、Spark核心源码解析

· Spark源码编译

· Spark远程debug

· Spark任务提交行流程源码分析

· Spark通信流程源码分析

· SparkContext创建过程源码分析

· DriverActor和ClientActor通信过程源码分析

· Worker启动Executor过程源码分析

· Executor向DriverActor注册过程源码分析

· Executor向Driver注册过程源码分析

· DAGScheduler和TaskScheduler源码分析

· Shuffle过程源码分析

· Task执行过程源码分析

五、机器学习算法

1、python及numpy库

· 机器学习简介

· 机器学习与python

· python语言–快速入门

· python语言–数据类型详解

· python语言–流程控制语句

· python语言–函数使用

· python语言–模块和包

· phthon语言–面向对象

· python机器学习算法库–numpy

· 机器学习必备数学知识–概率论

2、常用算法实现

· knn分类算法–算法原理

· knn分类算法–代码实现

· knn分类算法–手写字识别案例

· lineage回归分类算法–算法原理

· lineage回归分类算法–算法实现及demo

· 朴素贝叶斯分类算法–算法原理

· 朴素贝叶斯分类算法–算法实现

· 朴素贝叶斯分类算法–垃圾邮件识别应用案例

· kmeans聚类算法–算法原理

· kmeans聚类算法–算法实现

· kmeans聚类算法–地理位置聚类应用

· 决策树分类算法–算法原理

· 决策树分类算法–算法实现

微信关注我们

原文链接：https://yq.aliyun.com/articles/697777

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于MaxCompute的数仓数据质量管理

声明本文中介绍的非功能性规范均为建议性规范，产品功能无强制，仅供指导。参考文献《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产，既然是资产，肯定需要管理。随着业务的增加，数据的应用越来越多，企业在创建的数仓过程中对数据的管理也提出了更高的要求，而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议，为实际数据治理提供依据及指导。数据质量保障原则评估数据质量的好坏不同行业甚至不同企业有不同标准，在此我们主要从四个方面进行评估，即完整性、准确性、一致性和及时性。完整性。完整性是指数据的记录和信息是否完整，是否存在缺失情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失，两者都会造成统计结果不准确，可以说，

2019-04-10

808

Zipkin是什么 Zipkin分布式跟踪系统；它可以帮助收集时间数据，解决在microservice架构下的延迟问题；它管理这些数据的收集和查找；Zipkin的设计是基于谷歌的Google Dapper论文。每个应用程序向Zipkin报告定时数据，Zipkin UI呈现了一个依赖图表来展示多少跟踪请求经过了每个应用程序；如果想解决延迟问题，可以过滤或者排序所有的跟踪请求，并且可以查看每个跟踪请求占总跟踪时间的百分比。为什么使用Zipkin 随着业务越来越复杂，系统也随之进行各种拆分，特别是随着微服务架构和容器技术的兴起，看似简单的一个应用，后台可能有几十个甚至几百个服务在支撑；一个前端的请求可能需要多次的服务调用最后才能完成；当请求变慢或者不可用时，我们无法得知是哪个后台服务引起的，这时就需要解决如何快速定位服务故障点，Zipkin分布式跟踪系统就能很好的解决这样的问题。 Zipkin原理针对服务化应用全链路追踪的问题，Google发表了Dapper论文，介绍了他们如何进行服务追踪分析。其基本思路是在服务调用的请求和响应中加入ID，标明上下游请求的关系。利用这些信息，可以可视化...

2019-04-11

718

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。