基于Knox登录Yarn UI查看SparkStreaming作业兼容性问题说明-低调大师

基于Knox登录Yarn UI查看SparkStreaming作业兼容性问题说明

2019-07-31 1299

问题背景

1.登录EMR集群节点，运行SparkStreaming示例，如下所示（不同版本EMR集群spark-examples_xxx.jar的路径略有差异）：

[root@emr-header-1 ~]# spark-submit --class org.apache.spark.examples.streaming.NetworkWordCount --master yarn --deploy-mode cluster /opt/apps/ecm/service/spark/2.3.2-1.0.2/package/spark-2.3.2-1.0.2-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.3.2.jar 192.168.0.211 9999

参数说明：
192.168.0.211: 监听流数据源地址
9999: 监听流数据源端口

2.提交作业后，通过EMR集群提供的Yarn UI来查看运行在yarn上面作业。

3.点击“ApplicationMaster”，跳转spark界面查看作业详情，切换到“Streaming”可以看到以下界面：

4.点击“Completed Batches”里面的某个完成时间点的Batch，跳转页面会报404错误：

如何解决？

这个问题目前是Knox兼容的一个缺陷，当前的建议是通过端口转发（俗称“打洞”）来访问Yarn UI查看作业，具体步骤如下（本文以Mac客户端为例测试）：

1.本机终端输入：ssh-keygen，生成一个公钥：

test:~ root$ cd ~/.ssh/
test:.ssh root$ ls
id_rsa        id_rsa.pub    known_hosts
test:.ssh root$ cat ~/.ssh/id_rsa.pub
ssh-rsa AAAAB3NzaC1yc2EAA....此处省略很多个字符..-6c96cfde9ab7.local

2.登录到EMR Master 节点,将本机的 id_rsa.pub 内容写入到远程 Master 节点的 ~/.ssh/authorized_keys中:

vim ~/.ssh/authorized_keys

3.本机测试免密登录到EMR Master 节点:

local:.ssh root$ ssh root@xx.xx.xx.xx
Last login: Thu Aug  1 20:24:25 2019
Welcome to Alibaba Cloud Elastic Compute Service !
[root@emr-header-1 ~]#

4.在本机执行以下命令进行端口转发:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --proxy-server="socks5://localhost:8157" --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" --user-data-dir=/tmp

5.启动 Chrome（在本机新开 terminal 执行）。

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --proxy-server="socks5://localhost:8157" --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" --user-data-dir=/tmp

6.EMR控制台进入集群的安全组，放行8088、20888两个端口（可以通过ip.taobao.com获取客户端公网出口IP）:

7.在Chrome中通过xx.xx.xx.xx:8088访问

8.点击“ApplicationMaster”，跳转spark界面查看作业详情无法访问，地址中是EMR Master节点的hostname，需要在本地配置下hosts映射:

local:~ root$ sudo vim /etc/hosts
xx.xx.xx.xx    emr-header-1.cluster-126784

9.配置后即可访问。切换到“Streaming”，点击“Completed Batches”列表中的Batch，验证正常访问：

微信关注我们

原文链接：https://yq.aliyun.com/articles/712205

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

elasticsearch 分词

analysis 分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引（inverted index）用于检索。分析（analysis）过程是由分词器（analyzer）来完成的，分词器包括内置（built-in）分词器和自定义（cutsom）分词器。分析（analysis）可以在以下两种情况下发生： index time search time analyzer (分词器) 一个分词器由以下三部分组成，内置分词器主要是为了适应特定语言和文本类型，打包了不同组合的组件，组成了若干种预置分词器。以下组件还能单独暴露，自由组合成自定义分词器。 character filters 以字符流的形式接收原始文本，增加、删除或修改字符，例如：剥离html标签，转换 (٠‎١٢٣٤٥٦٧٨‎٩‎) 为阿拉伯数字 (0123456789) 等。一个分词器可以包含0到多个character filters tokenizers 以字符流的形式接收文本，将它拆分成单个的 token (英文单词、中文单字或词语)，输出 token stream ...

2019-07-31

799

1.导入carbondata依赖的jar包将apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.7.2.jar导入$SPARKHOME/jars;或将apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.7.2.jar导入在$SPARKHOME创建的carbondlib目录 2.导入kafka依赖的jar包接入kafka数据需要依赖kafka的jars，将以下jars导入$SPARKHOME/jars kafka-clients-0.10.0.1.jarspark-sql-kafka-0-10_2.11-2.3.2.jar 3.spark-shell启动服务 ./bin/spark-shell --master spark://hostname:7077 --jars apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.7.2.jar a).导入依赖 import org.apache.spark.sql.SparkSession import org.apa...

2019-08-01

965

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。