Hadoop - 实时查询Drill

2016-04-24 647

1.概述

　　在现实业务当中，存在这样的业务场景，需要实时去查询HDFS上的相关存储数据，普通的查询（如：Hive查询），时延较高。那么，是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala，Apache的Drill，Hortonworks的Stinger。本篇博客主要为大家介绍Drill，其他两种方式大家可以自行下去补充。

2.Drill Architecture

2.1 Cilent

　　使用Drill，可以通过以下方式进入到Drill当中，内容如下所示：

Drill shell：使用客户端命令去操作
Drill Web Console：Web UI界面去操作相关内容
ODBC/JDBC：使用驱动接口操作
C++ API：C++的API接口

2.2 Drill Query Execution

　　执行流程如下图所示：

2.3 Core Modules

　　核心模块图，如下所示：

　　至于详细的文字描述，这里就不多做赘述了。大家看图若是有疑惑的地方，可以去官方网站，查看详细的文档描述。［官方文档］

3.Drill使用

　　介绍完Drill的架构流程，下面我们可以去使用Drill去做相关查询操作。安装Drill的过程比较简单，这里就不多做详细的赘述了。首先，去Apache的官网下载Drill的安装包，这里笔者所使用的本版是drill-1.2.0。可独立部署在物理机上，不必与Hadoop集群部署在一起。这里需要注意的是，物理机的内存至少留有4G空闲给Drill去使用。不然，在执行查询操作的时候会内容溢出，查询Drill的官方文档，官方给出的解释是，操作的内容都在内容中完成，不会写磁盘，除非你强制指明去写磁盘，但是，一般考虑到响应速度因素，都会在内容中完成。笔者曾试图降低其内存配置小于4G，然并卵。所以，在使用Drill做查询时，需要保证物理机空闲内存大于等于4G。

［JDK下载地址］
［Drill下载地址］

　　目前，Drill迭代版本比较快速。大家在下载Drill版本的时候，可以多多留意下版本内容变化。

　　在解压Drill的压缩包后，在其conf文件夹下有一个drill-override.conf文件，这里我们在里面添加Web UI的访问地址，添加的内容我们可以在drill-override-example.conf模版文件中查找对应的内容。添加内容如下所示：

drill.exec: {
  cluster-id: "drillbits1",
  zk.connect: "dn1:2181,dn2:2181,dn2:2181",
  http: {
    enabled: true,
    ssl_enabled: false,
    port: 8047
  }
}

　　这里需要注意的是，Drill需要用ZK，这里笔者就直接使用Hadoop集群的ZooKeeper集群连接信息地址。在添加完内容后，可以使用以下命令启动。



./drillbit.sh start

　　启动之后，Web UI界面如下所示：

　　目前条件有限，只有单台物理机，所以只部署了单台Drill。若是，大家条件允许，可以查看官网文档去部署Cluster。Drill插件默认是没有HDFS的，需要我们主动去创建，默认只有以下插件，如下图所示：

　　这里，笔者已经配置过HDFS的插件，故上图出现HDFS插件信息，其配置信息如下所示：

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://hadoop.company.com:9000/",
  "workspaces": {
    "root": {
      "location": "/opt/drill",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "parquet": {
      "type": "parquet"
    }
  }
}

　　PS：这里要保证HDFS的地址信息正确。另外，Drill支持的存储介质较多，大家参考官方文档去添加对应的存储介质。

　　在添加HDFS插件之后，我们可以通过Web UI界面的查询界面进行文件查询，也可以使用Drill Shell命令在终端去查询。查询方式如下所示：

Web UI查询命令：

Web UI结果如下：

　　另外，其查询记录详情可以在Profiles模块下查看。如下图所示：

Drill Shell查询：

./sqlline -u jdbc:drill:zk=dn1,dn2,dn3:2181

Drill Shell 查询结果：

4.总结

　　这里，笔者做过一个性能测试比较，数量级分别为10W，100W，1000W的不重复数据，其响应时间依次递增。结果如下图所示：

　　通过测试结果可以看出，若是数量级在100W时，响应时间平均在秒级别，可以尝试用Drill去中OLTP业务。若是在1000W以上级别，显然这个延时做OLTP是难以接受的，这个可以去做OLAP业务。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

微信关注我们

原文链接：https://yq.aliyun.com/articles/34045

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop - 任务调度系统比较

1.概述在Hadoop应用，随着业务指标的迭代，而使其日趋复杂化的时候，管理Hadoop的相关应用会变成一件头疼的事情，如：作业的依赖调度，任务的运行情况的监控，异常问题的排查等，这些问题会是的我们日常的工作变得复杂。那么，在没有条件和精力去开发一套调度系统的情况下，我们去选择一款第三方开源的调度系统，来尽量减轻和降低我们日常工作的复杂度，也是极好的。今天，笔者给大家比较几种常见的调度系统，供大家去选择。 2.内容 2.1 Oozie Oozie目前是托管在Apache基金会的，开源。在之前的博客《Oozie调度》一文当中，介绍相关Oozie的调度，如何去调度Hadoop的相关，大家可以从博客的文中所描述的内容看出，配置的过程略显繁琐和复杂，配置相关的调度任务比较麻烦，然其可视化界面也不是那么的直观，另外，对UI界面要求较高的同学，此调度系统估计会让你失望。若是对改调度系统感兴趣的同学可以到《Oozie调度》一文中做相关细节的了解。这里就不多做赘述了。 2.2 Zeus 它是一个Hadoop的作业平台，从Hadoop任务的调试运行到生产任务的周期调度，它支持任务的整个生命周期...

2016-04-24

670

1.概述在《Hadoop - 实时查询Drill》一文当中，笔者给大家介绍如何去处理实时查询这样的业务场景，也是简略的提了一下如何去实时查询HDFS，然起相关细节并未说明。今天给大家细说一下相关细节，其中包含：HDFS，Hive以及HBase等内容。 2.数据源和文件格式在使用Drill去做实时查询，由于其只是一个中间件，其适配的存储介质是有限制的，目前官方支持以下存储介质： FS HDFS HBase Hive RDBMS MongoDB MapR-DB S3 这里笔者主要给大家介绍HDFS，Hive，HBase这三种介质。另外，Drill支持以下输入格式的数据源： Avro CSV TSV PSV Parquet MapR-DB* Hadoop Sequence Files 2.1 文本类型文件（CSV，TSV，PSV）下面笔者给大家介绍文本类型的相关细节，文本类型的使用，有其固定的使用方法，通用配置如下： "formats": { "csv": { "type": "text", "extensions": [ "txt" ], "delimiter": "\t" }, "...

2016-04-24

704

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。