大数据学习路线,0基础小白怎么学习大数据?
一、大数据技术基础
1、linux操作基础
· linux系统简介与安装
· linux常用命令–文件操作
· linux常用命令–用户管理与权限
· linux常用命令–系统管理
· linux常用命令–免密登陆配置与网络管理
· linux上常用软件安装
· linux本地yum源配置及yum软件安装
· linux防火墙配置
· linux高级文本处理命令cut、sed、awk
· linux定时任务crontab
大数据学习扣qun74零零加【41三八yi】
2、shell编程
· shell编程–基本语法
· shell编程–流程控制
· shell编程–函数
· shell编程–综合案例–自动化部署脚本
3、内存数据库redis
· redis和nosql简介
· redis客户端连接
· redis的string类型数据结构操作及应用-对象缓存
· redis的list类型数据结构操作及应用案例-任务调度队列
· redis的hash及set数据结构操作及应用案例-购物车
· redis的sortedset数据结构操作及应用案例-排行榜
4、布式协调服务zookeeper
· zookeeper简介及应用场景
· zookeeper集群安装部署
· zookeeper的数据节点与命令行操作
· zookeeper的java客户端基本操作及事件监听
· zookeeper核心机制及数据节点
· zookeeper应用案例–分布式共享资源锁
· zookeeper应用案例–服务器上下线动态感知
· zookeeper的数据一致性原理及leader选举机制
5、java高级特性增强
· Java多线程基本知识
· Java同步关键词详解
· java并发包线程池及在开源软件中的应用
· Java并发包消息队里及在开源软件中的应用
· Java JMS技术
· Java动态代理反射
6、轻量级RPC框架开发
· RPC原理学习
· Nio原理学习
· Netty常用API学习
· 轻量级RPC框架需求分析及原理分析
· 轻量级RPC框架开发
二、离线计算系统
1、hadoop快速入门
· hadoop背景介绍
· 分布式系统概述
· 离线数据分析流程介绍
· 集群搭建
· 集群使用初步
2、HDFS增强
· HDFS的概念和特性
· HDFS的shell(命令行客户端)操作
· HDFS的工作机制
· NAMENODE的工作机制
· java的api操作
· 案例1:开发shell采集脚本
3、MAPREDUCE详解
· 自定义hadoop的RPC框架
· Mapreduce编程规范及示例编写
· Mapreduce程序运行模式及debug方法
· mapreduce程序运行模式的内在机理
· mapreduce运算框架的主体工作流程
· 自定义对象的序列化方法
· MapReduce编程案例
4、MAPREDUCE增强
· Mapreduce排序
· 自定义partitioner
· Mapreduce的combiner
· mapreduce工作机制详解
5、MAPREDUCE实战
· maptask并行度机制-文件切片
· maptask并行度设置
· 倒排索引
· 共同好友
6、federation介绍和hive使用
· Hadoop的HA机制
· HA集群的安装部署
· 集群运维测试之Datanode动态上下线
· 集群运维测试之Namenode状态切换管理
· 集群运维测试之数据块的balance
· HA下HDFS-API变化
· hive简介
· hive架构
· hive安装部署
· hvie初使用
7、hive增强和flume介绍
· HQL-DDL基本语法
· HQL-DML基本语法
· HIVE的join
· HIVE 参数配置
· HIVE 自定义函数和Transform
· HIVE 执行HQL的实例分析
· HIVE最佳实践注意点
· HIVE优化策略
· HIVE实战案例
· Flume介绍
· Flume的安装部署
· 案例:采集目录到HDFS
· 案例:采集文件到HDFS
三、流式计算
1、Storm从入门到精通
· Storm是什么
· Storm架构分析
· Storm架构分析
· Storm编程模型、Tuple源码、并发度分析
· Storm WordCount案例及常用Api分析
· Storm集群部署实战
· Storm+Kafka+Redis业务指标计算
· Storm源码下载编译
· Strom集群启动及源码分析
· Storm任务提交及源码分析
· Storm数据发送流程分析
· Storm通信机制分析
· Storm消息容错机制及源码分析
· Storm多stream项目分析
· 编写自己的流式任务执行框架
2、Storm上下游及架构集成
· 消息队列是什么
· Kakfa核心组件
· Kafka集群部署实战及常用命令
· Kafka配置文件梳理
· Kakfa JavaApi学习
· Kafka文件存储机制分析
· Redis基础及单机环境部署
· Redis数据结构及典型案例
· Flume快速入门
· Flume+Kafka+Storm+Redis整合
四、内存计算体系Spark
1、scala编程
· scala编程介绍
· scala相关软件安装
· scala基础语法
· scala方法和函数
· scala函数式编程特点
· scala数组和集合
· scala编程练习(单机版WordCount)
· scala面向对象
· scala模式匹配
· actor编程介绍
· option和偏函数
· 实战:actor的并发WordCount
· 柯里化
· 隐式转换
2、AKKA与RPC
· Akka并发编程框架
· 实战:RPC编程实战
3、Spark快速入门
· spark介绍
· spark环境搭建
· RDD简介
· RDD的转换和动作
· 实战:RDD综合练习
· RDD高级算子
· 自定义Partitioner
· 实战:网站访问次数
· 广播变量
· 实战:根据IP计算归属地
· 自定义排序
· 利用JDBC RDD实现数据导入导出
· WorldCount执行流程详解
4、RDD详解
· RDD依赖关系
· RDD缓存机制
· RDD的Checkpoint检查点机制
· Spark任务执行过程分析
· RDD的Stage划分
5、Spark-Sql应用
· Spark-SQL
· Spark结合Hive
· DataFrame
· 实战:Spark-SQL和DataFrame案例
6、SparkStreaming应用实战
· Spark-Streaming简介
· Spark-Streaming编程
· 实战:StageFulWordCount
· Flume结合Spark Streaming
· Kafka结合Spark Streaming
· 窗口函数
· ELK技术栈介绍
· ElasticSearch安装和使用
· Storm架构分析
· Storm编程模型、Tuple源码、并发度分析
· Storm WordCount案例及常用Api分析
7、Spark核心源码解析
· Spark源码编译
· Spark远程debug
· Spark任务提交行流程源码分析
· Spark通信流程源码分析
· SparkContext创建过程源码分析
· DriverActor和ClientActor通信过程源码分析
· Worker启动Executor过程源码分析
· Executor向DriverActor注册过程源码分析
· Executor向Driver注册过程源码分析
· DAGScheduler和TaskScheduler源码分析
· Shuffle过程源码分析
· Task执行过程源码分析
五、机器学习算法
1、python及numpy库
· 机器学习简介
· 机器学习与python
· python语言–快速入门
· python语言–数据类型详解
· python语言–流程控制语句
· python语言–函数使用
· python语言–模块和包
· phthon语言–面向对象
· python机器学习算法库–numpy
· 机器学习必备数学知识–概率论
2、常用算法实现
· knn分类算法–算法原理
· knn分类算法–代码实现
· knn分类算法–手写字识别案例
· lineage回归分类算法–算法原理
· lineage回归分类算法–算法实现及demo
· 朴素贝叶斯分类算法–算法原理
· 朴素贝叶斯分类算法–算法实现
· 朴素贝叶斯分类算法–垃圾邮件识别应用案例
· kmeans聚类算法–算法原理
· kmeans聚类算法–算法实现
· kmeans聚类算法–地理位置聚类应用
· 决策树分类算法–算法原理
· 决策树分类算法–算法实现
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
基于MaxCompute的数仓数据质量管理
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。 参考文献 《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。 背景及目的 数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。 数据质量保障原则 评估数据质量的好坏不同行业甚至不同企业有不同标准,在此我们主要从四个方面进行评估,即完整性、准确性、一致性和及时性。 完整性。完整性是指数据的记录和信息是否完整,是否存在缺失情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,可以说,
- 下一篇
java B2B2C 多租户电子商城系统-Spring Cloud Zipkin
Zipkin是什么 Zipkin分布式跟踪系统;它可以帮助收集时间数据,解决在microservice架构下的延迟问题;它管理这些数据的收集和查找;Zipkin的设计是基于谷歌的Google Dapper论文。 每个应用程序向Zipkin报告定时数据,Zipkin UI呈现了一个依赖图表来展示多少跟踪请求经过了每个应用程序;如果想解决延迟问题,可以过滤或者排序所有的跟踪请求,并且可以查看每个跟踪请求占总跟踪时间的百分比。 为什么使用Zipkin 随着业务越来越复杂,系统也随之进行各种拆分,特别是随着微服务架构和容器技术的兴起,看似简单的一个应用,后台可能有几十个甚至几百个服务在支撑;一个前端的请求可能需要多次的服务调用最后才能完成;当请求变慢或者不可用时,我们无法得知是哪个后台服务引起的,这时就需要解决如何快速定位服务故障点,Zipkin分布式跟踪系统就能很好的解决这样的问题。 Zipkin原理 针对服务化应用全链路追踪的问题,Google发表了Dapper论文,介绍了他们如何进行服务追踪分析。其基本思路是在服务调用的请求和响应中加入ID,标明上下游请求的关系。利用这些信息,可以可视化...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Red5直播服务器,属于Java语言的直播服务器