E-MapReduce中Spark 2.x读写MaxCompute数据-低调大师

E-MapReduce中Spark 2.x读写MaxCompute数据

2017-02-25 736

最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute.

0. DataSource

a)DataSource提供了一种插件式的外部数据接入SparkSQL的方式，数据源只要实现相应的DataSource API即可以整合进SparkSQL，它的特点如下：

通过DataSet/DataFrame/sparkSQLText等标准方式来访问数据源
SparkSQL引擎优化
scala语言接入后，Spark支持的其它语言也可以进行访问，如pyspark等

Spark 2.x内置支持的数据源:

json
csv
parquet
orc
text
jdbc

Spark 2.x 访问数据源示例:

微信关注我们

原文链接：https://yq.aliyun.com/articles/71013

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark Mllib里如何将trainDara训练数据的分类特征字段转换为数值字段（图文详解）

字段3 是分类特征字段，但是呢，在分类算法里不能直接用。所以，必须要转换为数值字段才能够被分类算法使用。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/7450754.html，如需转载请自行联系原作者

2017-02-25

620

这里我，使用的是spark-2.2.0-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz 的单节点来测试下。其中，hadoop-2.6.0的单节点配置文件，我就不赘述了。这里，我重点写下spark on yarn。我这里采取的是这模式。 spark-defaults.conf 默认，保持不修改。 spark-env.sh export JAVA_HOME=/home/spark/app/jdk1.8.0_60 export SCALA_HOME=/home/spark/app/scala-2.10.4 export HADOOP_HOME=/home/spark/app/hadoop-2.6.0 export HADOOP_CONF_DIR=/home/spark/app/hadoop-2.6.0/etc/hadoop export SPARK_MASTER_IP=192.168.80.218 export SPARK_WORKER_MERMORY=1G slaves sparksinglenode 问题详情我已经是启动了...

2017-02-25

1349

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。