HBase 的 Spark SQL Astro-低调大师

HBase 的 Spark SQL Astro

2017-06-05 681

Astro 详细介绍

华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro，端到端整合了 Spark，Spark SQL和HBase的能力，有助于推动帮助Spark进入NoSQL的广泛客户群，并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。

Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模，并提供了 API 用于查询数据。这些数据通过它的“row keys”来组织、区分和发布。在每个分区上，数据被指定的“列”数据集合“列族”物理分区。这些数据模型是宽且零散的，在这些表中列是动态的，零散的。

尽管 HBase 是非常有用的大数据存储，但是它的访问机制非常原始，只能通过客户端的 API，Map/Reduce 接口和交互的 shell。SQL 访问 HBase 数据可通过 Map/Reduce 或者接口机制，如 Apache Hive 和 Impala，或者一些“本地的” SQL 技术，如 Apache Phoenix。前者实现和使用起来通常比较便宜，它们的延迟和效率通常不如后者，并且只适用于离线分析。后者，与之相反，通常执行得更好，并且限定多个作为联机引擎。它们通常在特定的执行引擎的顶层。

当前的 Astro 1.0 依赖于 Spark 1.4.0,HBase 0.98

构建方法（要求 Maven）：

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #运行测试

文章转载自开源中国社区[https://www.oschina.net]

微信关注我们

原文链接：https://yq.aliyun.com/articles/113633

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

支撑起整个互联网时代的 7 款开源软件

开源软件现在成为整个互联网时代的支撑技术，你可能已经无法离开由开源软件构建起来的网络世界了。下面我们就来看看一些最重要的开源技术。为互联网而生的操作系统linux Linux是一款免费的操作系统，诞生于1991年，用户可以通过网络或其他途径免费获得，并可以任意修改其源代码。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。这个系统是由全世界各地的成千上万的程序员设计和实现的。其目的是建立不受任何商品化软件的版权制约的、全世界都能自由使用的 Unix兼容产品。 Linux可以说是已经无处不在，像Android手机就是以Linux为基础开发的，世界上大多的超级计算机也都采用的Linux系统，大多数的数据中心使用Linux作为其支撑操作系统。谷歌、百度、淘宝等都通过Linuxt提供了我们每天用的互联网服务。Linux在航空控制系统中也扮演着重要角色。加密互联网的安全协议OpenSSL OpenSSL是套开放源代码的软件库包，实现了SSL与TLS协议。OpenSSL可以说...

2017-06-05

586

阿里云数加MaxCompute （原名：ODPS；https://www.aliyun.com/product/odps） 1.1 MPI集群 1.1.1 背景我们的集群规模不断地在加大，与此同时我们却有着不同的运行体验，明显感觉到了各种任务的运行效率都在变低 1.1.2 问题问题1：说明 Aon：all-or-nothing FIFO/Fair：调度系统支持的两种调度策略问题2：问题3：以上三个问题其实主要原因还是aon类任务跑不起来，但同时却占着大量的资源给不了别的任务用； 1.1.3 项目目标最终的想法其实也很简单，就是拆出独立AON（但大家习惯了歪叫成MPI）集群，建设规模要达到6000台+，让且仅让所有的生产和实验aon任务（主要是PS和Xlib-mpi）跑在这个上面，尽量减少Aon任务攒资源引起的资源浪费。

2017-06-05

731

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。