搭建Gateway向E-MapReduce集群提交作业
Gateway
一些客户需要自主搭建Gateway向E-MapReduce集群提交作业,目前E-MapReduce在产品页面上不支持购买Gateway,后续可以在产品上直接购买Gateway,并把Hadoop环境准备好供用户使用。
购买ECS
在ECS控制台购买ECS,公共镜像系统选择CentOS 7.2
网络
首先要保证Gateway机器在EMR对应集群的安全组中,Gateway节点可以顺利的访问EMR集群。设置机器的安全组请参考ECS的安全组设置说明。
环境
- EMR-3.1.1版本
将下面脚本拷贝到Gataway机器并执行.
示例: sh deploy.sh 10.27.227.223 /root/master_password_file
备注:
master_ip是master的内网ip
master_password_file里面保存登陆mas

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
用Java代码调用MaxCompute
MaxCompute的客户端的工具odpscmd是好东西,什么都能干。但是它不方便在自己的代码做很好的集成,毕竟它是个Shell脚本。那有什么办法把MaxCompute的作业、设置和自己的代码做无缝集成呢,MaxComput SDK就能干这个。本文就实际的工作中最常见的几个场景,做一些示例。详细的使用可以在Maven上下到SDK的文档说明。其实这里面的很多写法都是文档里有的,或者在帮助文档里有写过类似的例子。这里就做算是做个整理吧。 对象操作 其实官方的SDK文档里,对这方面的介绍是最多的了,可以参考这里。这里我再针对实际场景里的比较多的创建表和分区做个例子,相信看完这些后对这方面就没有疑惑了 String access_id = "your access id"; String access_key =
- 下一篇
Spark的那些外部框架
Spark Package 要使用Spark库,你首先必须了解的东西是Spark package。它有点像Spark的包管理器。当你给Spark集群提交job时,你可以到存放Spark package的网站下载任何package。所有package都存放在这个站点。http://spark-packages.org/当你想用一个Spark package时,可以在spark-submit命令或者spark- shell命令中增加包选项: $ $Spark_HOME/bin/Spark-shell \ -packages com.databricks:Spark-avro_2.10:2.0.1 如果使用了--packages选项,Spark package就会自动把它的JAR包添加到你指定的路径下。你不仅能在Spark集群上使用社区的库,还能到公开发布自己的库。如果要把一个Spark package发布到这个托管服务下,必须遵守下列规则: 源代码必须放在Github上。 代码库的名字必须与包名相同。 代码库的主分支必须有README.md文件,在根目录下必须有LICENSE文件。 换句话...
相关文章
文章评论
共有0条评论来说两句吧...