『 Spark 』5. 这些年，你不能错过的 spark 学习资源-低调大师

『 Spark 』5. 这些年，你不能错过的 spark 学习资源

2016-05-09 826

写在前面

本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有必要的细节就不会记录了，而且文中有时候会出现英文原版文档，只要不影响理解，都不翻译了。若想深入了解，最好阅读参考文章和官方文档。

其次，本系列是基于目前最新的 spark 1.6.0 系列开始的，spark 目前的更新速度很快，记录一下版本好还是必要的。
最后，如果各位觉得内容有误，欢迎留言备注，所有留言 24 小时内必定回复，非常感谢。
Tips: 如果插图看起来不明显，可以：1. 放大网页；2. 新标签中打开图片，查看原图哦。

1. 书籍

2. 网站

official site
user mailing list
spark channel on youtube
spark summit
meetup
spark third party packages
databricks blog
databricks docs.html)
databricks training/Introduction%20(README).html)
cloudera blog about spark
https://0x0fff.com
http://techsuppdiva.github.io/
csdn spark 知识库
过往记忆

3. 文章，博客

4. 视频

5. next

上面的资源我都会不断更新的，里面 80% 以上的都是我亲自看过并且觉得有价值的，可不是胡乱收集一通的，推荐欣赏哦。

6. 打开微信，扫一扫，点一点，棒棒的，^_^

本系列文章链接

微信关注我们

原文链接：https://yq.aliyun.com/articles/40653

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark-SparkSql

SparkSql 允许spark执行sql语句，hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD，由行对象组成，有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似，可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。如HiveContext可以用HiveQL分析器查询访问HiveUDFs的能力、从Hive中读取数据。SparkSQL的数据源相关操作可以通过SchemaRDD接口来操作，可以是被当作一般的RDD，也可以注册成临时表，在上面进行sql查询。有两种创建SchemaRDD的方式，一是已经知道了模式，基于反射推断。二是不知道模式，采取实现接口方法，构造一个模式。 //指定模式 val schema = StructType("name age".split(',').map(fieldName=>StructField(fieldName,StringType,true))) vak rowRdd = sc.te...

2016-05-08

677

Hadoop 中的join分为三种 Reduce端join，适合于两个大表 Map端join，适合一个大表和一个小表，小表放到 Distribute Cache里面 semi join 当join只用到其中一个表中的一小部分时 Reduce端join 读入两个大表，对value按文件进行标记在Reduce端收集属于不同文件的value到不同的list，对同一key的不同list中的value做笛卡尔积 Logger 用来记录错误 Counter 用来记数想要的一些数据 configuration context用来传递数据 public class ReduceJoin { private static final String DELIMITER = "\\s+"; private static final Logger LOG = Logger.getLogger(ReduceJoin.class); public static class JoinMapper extends Mapper<Object, Text, Text, Text> { @Override ...

2016-05-09

693

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。