大数据学习一般学什么-低调大师

大数据学习一般学什么

2019-03-07 753

大数据已经成为发展的趋势

那么大数据学习到底应该掌握哪些知识呢，笔者根据自己的经验总结如下：

学习要根据自身情况来定，如果你是零基础，那就必须先从基础java开始学起（大数据支持很多开发语言，但企业用的最多的还是JAVA），接下来学习数据结构、linux系统操作、关系型数据库，夯实基础之后，再进入大数据的学习，具体可以按照如下体系：

其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。

第一阶段

CORE JAVA （加**的需重点熟练掌握，其他掌握）

Java基础**

数据类型，运算符、循环，算法，顺序结构程序设计，程序结构，数组及多维数组

面向对象**

构造方法、控制符、封装

继承**

多态**

抽象类、接口**

常用类

集合Collection、list**

HashSet、TreeSet、Collection

集合类Map**

异常，File

文件/流**

数据流和对象流**

线程（理解即可）

网络通信（理解即可）

第二阶段

数据结构

关系型数据库

Linux系统操作

Linux操作系统概述，安装Linux操作系统，图形界面操作基础，Linux字符界面基础，字符界面操作进阶，用户、组群和权限管理，文件系统管理，软件包管理与系统备份，Linux网络配置（主要掌握Linux操作系统的理论基础和服务器配置实践知识，同时通过大量实验，着重培养动手能力。了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上，加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解，并在实践中加以应用。掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时，如果大家有时间把javaweb及框架学习一番，会让你的大数据学习更自由一些）

重点掌握：

常见算法

数据库表设计，SQL语句，Linux常见命令

第三阶段

Hadoop阶段

离线分析阶段

实时计算阶段

重点掌握：

Hadoop基础，HDFS，MapReduce，分布式集群，Hive，Hbase，Sqoop

，Pig，Storm实时数据处理平台，Spark平台

以上就是笔者总结学习阶段，

互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习扣qun： 740加上【041】最后加上381就可以找到组织学习欢迎进阶中和进想深入大数据的小伙伴加入。

微信关注我们

原文链接：https://yq.aliyun.com/articles/692897

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【云周刊】第209期：Perseus(擎天)：统一深度学习分布式通信框架 [弹性人工智能]

本期头条 Perseus(擎天)：统一深度学习分布式通信框架弹性人工智能近些年来，深度学习在图像识别，自然语言处理等领域快速发展。各种网络模型，需要越来越多的计算力来进行训练。以典型的中等规模的图像分类网络Resnet50为例，基准的训练精度为Top-1 76%， Top-5 为 93%，为达到此精度，一般需要将整个Imagenet数据集的128万张图片，训练90次(90 epoch). 这样的计算量，以单张P100的计算力需要6天才能训练完毕，而最近的NLP 领域取得突破的Bert 模型以及GPT-2的预训练，如果在单机上进行则需要数月甚至按年计。因此在实际的生产环境，引入分布式训练，大大降低模型训练所需的时间，提高模型迭代的速度成为紧迫的需求。基于这样的需求，各大深度学习框架，基本都实现了分布式训练的支持。点击查看 Rocket

2019-03-07

734

关系数据库管理系统(RDBMS) MySQL：世界最流行的开源数据库; PostgreSQL：世界最先进的开源数据库; Oracle 数据库：对象-关系型数据库管理系统。框架 Apache Hadoop：分布式处理架构，结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon：高吞吐量实时流处理框架。分布式编程 AddThis Hydra ：最初在AddThis上开发的分布式数据处理和存储系统; AMPLab SIMR：用在Hadoop MapReduce v1上运行Spark; Apache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言; Apache Crunch：一个简单的Java API，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务; Apache DataFu：由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合; Apache Flink：具有高性能的执行时间和自动程序优化; Apache Gora：内存中的数据模型和持久性框架; Apache...

2019-03-07

644

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。