Hadoop学习路径

2018-05-03 718

一、平台基础

1.1、大数据: 了解什么是大数据，大数据入门，以及大数据介绍。
以及大数据中存在的问题，包括存储，计算的问题，有哪些解决策略。

1.2、Hadoop平台生态圈: 熟悉了解开源Hadoop平台生态圈，以及第三方大数据平台，查找一些Hadoop入门介绍博客或者官网，了解：
What’s Hadoop
Why Hadoop exists
How to Use Hadoop

1.3、Hadoop家族成员: Hadoop是一个庞大的家族，包含存储，计算等一系列产品组件，需要了解其中的一系列组件，包括HDFS，MapReduce，Yarn，Hive，HBase，ZooKeeper，Flume，Kafka，Sqoop，HUE，Phoenix，Impala，Pig，Oozie，Spark等，知道其干什么，维基百科定义。

1.4、HDFS: 分布式存储HDFS，了解HDFS架构，HDFS的存储机制，各节点协作关系需理解清楚。

1.5、Yarn: 分布式资源管理Yarn，熟悉Yarn架构，以及如何进行资源管理的机制。

1.6、MapReduce: 分布式计算MapReduce，对MapReduce底层架构，处理方案进行了解，计算架构方案，了解MapReduce计算的优势，以及劣势。

1.7、HBase: 大数据高效存储HBase，了解HBase底层架构，HBase的应用场景，存储方案。

1.8、Hive: 大数据仓库Hive，了解Hive的存储机制，Hive的事务型变迁，Hive的应用场景，以及Hive底层计算。

1.9、Spark: 内存计算平台Spark，熟悉Spark内存计算架构，计算流程，Spark的运行模式，以及应用场景。

二、平台进阶

2.1、HDFS: 通过命令行操作HDFS，文件查看，上传，下载，修改文件，赋权限等。
通过java demo连接操作HDFS，实现文件读取，上传，下载功能。
通过DI工具，配置HDFS操作流程，实现关系型数据库文件到HDFS存储，HDFS文件保存到本地目录中。

2.2、MapReduce: Eclipse绑定Hadoop环境，添加MapReduce Location，用eclipse运行MapReduce的经典实例WordCount，看其中原理，尝试修改为中文词汇统计，并排除不相关词汇。

2.3、Hive: 通过命令行操作Hive，进行beeline连接，SQL语句操作Hive数据仓库。
通过java demo连接操作Hive，实现建表，插入数据，查询，删除数据记录，更新数据，删除表等操作。
通过DI工具，配置关系型数据库抽取到Hive事务表流程，不通过直接驱动连接Hive，通过HDFS以及Hive外表进行过度实现。

2.4、HBase: 在命令行中访问操作使用HBase，建立列族，每列添加数据，修改更新数据查看变化。
通过java demo，用phoenix驱动，连接HBASE，实现对HBASE的建表，增删改查数据操作。
DI工具需要修改源码，或者添加phoenix组件，才能使用，因为phoenix插入语句不是Insert into，而是Upsert into，无法与DI工具匹配。

2.5、Spark: 在命令行中，运行pyspark，以及spark shell，进行spark命令行操作，提交spark示例任务，进行试运行。
切换Spark运行模式，进行命令行尝试体验。
通过java demo连接Spark，进行任务的分发计算运行。

三、平台高级

针对上述组件，进行熟练使用，熟能生巧，举一反三，能够根据场景编写MapReduce代码，Spark代码等，针对Hive，HBase深入理解支持的SQL类型，存储过程，触发器等如何进行操作，能够根据需求设计最优的解决方案。

四、平台深度

深读组件源码，理解平台部署中各个配置的意义及影响，以及如何通过源码以及配置对组件进行优化，修改源码提高Hadoop平台的容错性，扩展性，稳定性等。

微信关注我们

原文链接：https://yq.aliyun.com/articles/625496

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Tensorflow快餐教程(9) - 卷积

卷积卷积就是滑动中提取特征的过程在数学中，卷积convolution是一种函数的定义。它是通过两个函数f和g生成第三个函数的一种数学算子，表征函数f与g经过翻转和平移的重叠部分的面积。其定义为：$h(x)=f(x)*g(x) =\int_{-\infty}^{\infty}f(t)g(x-t)dt$也可以用星号表示：$h(x)=(f*g)(x)$卷积的第一个参数（上例中的f），通常叫做输入。第二个参数（函数g）叫做核函数kernel function。输出有时候叫特征映射feature map.也可以定义离散形式的卷积：$h(x)=(f*g)(x) = \sum_{t=-\infty}^{\infty}f(t)g(x-t)$ g(x-t)是变化的，而f(t)是固定不动的。我们可以将卷积理解成是g(x-t)滑动过程中对f(t)进行采

2018-05-03

775

前言知识那么多,大佬们学慢点,我营养跟不上啦! 前人栽树后人乘凉,本文主要是把一些资料依葫芦画瓢学习了下,做了个汇总. 0x00 小二上酒 https://github.com/se55i0n/DBScanner a)Redis未授权访问 b)Jenkins未授权访问 c)MongoDB未授权访问 d)ZooKeeper未授权访问 e)Elasticsearch未授权访问 f)Memcache未授权访问 g)Hadoop未授权访问 h)CouchDB未授权访问 i)Docker未授权访问 0x01 Redis未授权访问 Redis提供了2种不同的持久化方式，RDB方式和AOF方式. RDB 持久化可以在指定的时间间隔内生成数据集的时间点快照. AOF 持久化记录服务器执行的所有写操作命令. 经过查看官网文档发现AOF方式备份数据库的文件名默认

2018-05-03

866

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。