spark2.3.0 源码编译,一次成功。
1》基础环境准备:
jdk1.8.0_101 maven 3.3.9 scala2.11.8
安装好上述软件,配置好环境变量,并检查是否生效。
note:
2》maven 3.3.9 : 需要修改maven的安装目录下的conf/settings.xml文件中添加如下配置,以达到jar下载加速的效果
<!-- 阿里云中央仓库 --> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror> </mirrors>
3》设置maven编译内存
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
4.》
使用maven命令编译源码。
mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver -DskipTests clean package
5》使用spark自带打包脚本打包。:
首先修改脚本:在spark源码包根目录下执行如下命令,
vi dev/make-distribution.sh
注释掉以下内容:位于文件中的120~136行。
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1) #SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\ # | grep -v "INFO"\ # | tail -n 1) #SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\ # | grep -v "INFO"\ # | tail -n 1) #SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\ # | grep -v "INFO"\ # | fgrep --count "<id>hive</id>";\ # # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\ # # because we use "set -o pipefail" # echo -n)
添加以下内容:
VERSION=2.3.0 SCALA_VERSION=2.11 SPARK_HADOOP_VERSION=2.7.3 SPARK_HIVE=1
6》修改后保存退出。在源码包根目录指定以下命令:
./dev/make-distribution.sh –name dev –tgz -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phadoop-provided -Phive -Phive-thriftserver
Note :
如果要编译对应的cdh版本,需要在源码的根目录下的pom文件中添加如下的仓库。
添加 cdh的仓库。
<repository> <id>clouders</id> <name>clouders Repository</name> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
英特尔为AI添薪加火
北京2017年2月16日电 /美通社/ -- AI有多火?光是从不断刷屏的人机大战的新闻里,大家就能感受到那挡也挡不住的热度。而在最近,英特尔又往火里加了一把柴。 开源BigDL,这是近日英特尔推出的面向Apache Spark开源集群计算框架的分布式深度学习库。BigDL具有基于Spark架构的高效大型分布式深度学习库,可助力大数据用户和数据科学家更方便地利用深度学习。BigDL能够把人工智能专业知识输出给正在数百个领域中研究数千种应用的数据科学家。 BigDL还能作为统一数据分析平台(Hadoop/Spark),用于数据的存储、处理和挖掘、特征工程以及机器和深度学习任务等。它允许开发人员能够像编写运行在Spark或Hadoop集群上的标准Spark程序一样编写深度学习应用,以使深度学习任务直接访问和分析他们所使用的数据。目前,BigDL已经在Databricks Spark平台上运行。 实现业界一流的人工智能,是英特尔坚定不移的发展战略,BigDL正是这一战略的最新成果。面对人工智能的广阔前景,英特尔正以独一无二的端到端优势赋能并加速人工智能的创新。 推动人工智能的发展,促进人工智...
- 下一篇
阿里云消息队列 Kafka 公测发布
产品介绍: 消息队列 Kafka 是一个分布式的、高吞吐量、高可扩展性消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域,是大数据生态中不可或缺的产品之一。 阿里云提供 Apache Kafka 全站式托管服务,彻底解决开源产品长期以来的痛点,用户只需专注于业务开发,无需部署运维,低成本、更弹性、更可靠。 适用客户: 1. 云上C类、B类用户(1. 有大数据在线/离线分析处理的需求的用户;2. Apache Kafka 的习惯用户) 2. 用户角色(有一定开发/运维能力的开发/运维人员) 发布功能: 一、消息队列 Kafka 生态: 1. 消息队列 Kafka 广泛应用于大数据领域,如网站行为分析、日志聚合、Apps监控、流式数据处理、在线和离线分析等; 2. 消息队列 Kafka 让数据集成变得
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器