Hadoop - Zeppelin 使用心得

2016-04-24 835

1.概述

　　在编写 Flink，Spark，Hive 等相关作业时，要是能快速的将我们所编写的作业能可视化在我们面前，是件让人兴奋的时，如果能带上趋势功能就更好了。今天，给大家介绍这么一款工具。它就能满足上述要求，在使用了一段时间之后，这里给大家分享以下使用心得。

2.How to do

　　首先，我们来了解一下这款工具的背景及用途。Zeppelin 目前已托管于 Apache 基金会，但并未列为顶级项目，可以在其公布的官网访问。它提供了一个非常友好的 WebUI 界面，操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink，Spark，Hive 等。支持原生的 Scala，Shell，Markdown 等。

2.1 Install

　　对于 Zeppelin 而言，并不依赖 Hadoop 集群环境，我们可以部署到单独的节点上进行使用。首先我们使用以下地址获取安装包：

http://zeppelin.incubator.apache.org/download.html

　　这里，有2种选择，其一，可以下载原文件，自行编译安装。其二，直接下载二进制文件进行安装。这里，为了方便，笔者直接使用二进制文件进行安装使用。这里有些参数需要进行配置，为了保证系统正常启动，确保的 zeppelin.server.port 属性的端口不被占用，默认是8080，其他属性大家可按需配置即可。［配置链接］

2.2 Start/Stop

　　在完成上述步骤后，启动对应的进程。定位到 Zeppelin 安装目录的bin文件夹下，使用以下命令启动进程：



./zeppelin-daemon.sh start

　　若需要停止，可以使用以下命令停止进程：



./zeppelin-daemon.sh stop

　　另外，通过阅读 zeppelin-daemon.sh 脚本的内容，可以发现，我们还可以使用相关重启，查看状态等命令。内容如下：

case "${1}" in
  start)
    start
    ;;
  stop)
    stop
    ;;
  reload)
    stop
    start
    ;;
  restart)
    stop
    start
    ;;
  status)
    find_zeppelin_process
    ;;
  *)
    echo ${USAGE}

3.How to use

　　在启动相关进程后，可以使用以下地址在浏览器中访问：



http://<Your_<IP/Host>:Port>

　　启动之后的界面如下所示：

　　该界面罗列出插件绑定项。如图中的 spark，md，sh 等。那我如何使用这些来完成一些工作。在使用一些数据引擎时，如 Flink，Spark，Hive 等，是需要配置对应的连接信息的。在 Interpreter 栏处进行配置。这里给大家列举一些配置示例：

3.1 Flink

　　可以找到 Flink 的配置项，如下图所示：

　　然后指定对应的 IP 和地址即可。

3.2 Hive

　　这里 Hive 配置需要指向其 Thrift 服务地址，如下图所示：

　　另外，其他的插件，如 Spark，Kylin，phoenix等配置类似，配置完成后，记得点击 “restart” 按钮。

3.3 Use md and sh

　　下面，我们可以创建一个 Notebook 来使用，我们拿最简单的 Shell 和 Markdown 来演示，如下图所示：

3.4 SQL

　　当然，我们的目的并不是仅仅使用 Shell 和 Markdown，我们需要能够使用 SQL 来获取我们想要的结果。

3.4.1 Spark SQL

　　下面，我们使用 Spark SQL 去获取想要的结果。如下图所示：

　　这里，可以将结果以不同的形式来可视化，量化，趋势，一目了然。

3.4.2 Hive SQL

　　另外，可以使用动态格式来查询分区数据，以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式进行表示。如下图所示：

3.5 Video Guide

　　另外，官方也给出了一个快速指导的入门视频，观看地址：[入口]

4.总结

　　在使用的过程当中，有些地方需要注意，必须在编写 Hive SQL 时，%hql 需要替换为 %hive.sql 的格式；另外，在运行 Scala 代码时，如果出现以下异常，如下图所示：

　　解决方案，在 zeppelin-env.sh 文件中添加以下内容：



export ZEPPELIN_MEM=-Xmx4g

　该 BUG 在 0.5.6 版本得到修复，参考码：［ZEPPELIN-305］

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

微信关注我们

原文链接：https://yq.aliyun.com/articles/34058

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop - Kylin On OLAP1

1.概述 Apache Kylin是一个开源的分布式分析引擎，提供SQL接口并且用于OLAP业务于Hadoop的大数据集上，该项目由eBay贡献于Apache。 2.What is Kylin 在使用一种模型，我们得知道她是干什么的，那么首先来看看Kylin的特性，其内容如下所示：可扩展超快的OLAP引擎：Kylin是为减少在Hadoop上百亿级别数据查询延迟而设计的。 Hadoop ANSI SQL接口：Kylin为Hadoop提供标准的SQL，其支持大部分查询功能。出色的交互式查询能力：通过Kylin，使用者可以于Hadoop数据进行亚秒级交互，在同样的数据集上提供比Hive更好的性能。多维度Cube：用户能够在Kylin里为百亿以上的数据集定义数据模型并构建Cube。和BI工具无缝整合：Kylin提供与BI工具，如商业化的Tableau。另外，根据官方提供的信息也在后续逐步提供对其他工具的支持。其他特性：对Job的管理和监控压缩和编码的支持增量更新Cube 利用HBase Coprocessor去查询基于HyperLogLog的Distinct Count近似算...

2016-04-24

622

1.概述在调度 Hadoop 的相关作业时，有以下几种方式：基于 Linux 系统级别的 Crontab。 Java 应用级别的Quartz。第三方的调度系统。自行开发 Hadoop 应用调度系统。对于前两种，使用 Crontab 和Quartz 是基本可以满足业务需求，但有其弊端。在 Job 数量庞大的情况下，Crontab 脚本的编写，变得异常复杂。其调度的过程也不能透明化，让管理变得困难。Quartz 虽然不用编写脚本，实现对应的调度 API 即可，然其调度过程不透明，不涵盖 Job 运行详情。需自行开发其功能。因而，第三方的调度系统便应运而生了。在《Hadoop - 任务调度系统比较》一文中，介绍第三方调度系统之间的差异。这里笔者就不多赘述了。本篇博文，笔者给大家介绍 Azkaban 的相关使用心得，以及在使用中遇到的种种问题和解决思路。 2.内容 Azkaban 托管在 Github 上，属于开源产品。它由以下几部分组成： Web Server ExecutorServer MySQL Plugins（HDFS，JobType，HadoopSecurityMana...

2016-04-24

712

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。