使用spark分析云HBase的数据-低调大师

使用spark分析云HBase的数据

2018-03-29 561

云HBase具有很好的在线入库和查询能力，不过在分析上面有比较大的欠缺，这篇文章主要介绍如何使用Spark对云HBase中数据做复杂分析。

1 云HBase查询分析的现状

HBase原生API：HBase原生API适合基于row key做点查，这个是HBase最擅长的查询场景
Phoenix：Phoenix作为HBase的SQL层，使用二级索引的技术，擅长多条件组合查询；Phoenix没有自己的计算资源，类似groupby这样的复杂查询需要借助HBase的协处理器来完成，这样一方面性能不好，同时会影响HBase集群的稳定性；
Spark：具有丰富的算子支持复杂分析，使用Spark集群的计算资源，通过并发分析的方式可以提高性能，同时不影响HBase集群的稳定性。

2 Spark分析HBase的方式对比

Spark分析HBase数据有“R

微信关注我们

原文链接：https://yq.aliyun.com/articles/573569

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

【本文转载自：www.bigdata-star.com】本文整合梳理了主流大数据生态圈中的组件：Hdfs+Yarn+HBase+Spark+Storm的单点故障问题的解决方案：构建HA（High Available）高可用架构。阅读本文之前，最好需要了解清楚各组件的架构原理。单点故障的出现原因首先一张图来了解下这些组件的架构：我们可以发现：它们的共同特点就是都是主从结构。HDFS中的NameNode,Yarn中ResourceManager,Hbase中HMaster,Spark中Master,Storm中Nimbus起着“老大”的角色，那么“老大”挂了怎么办呢？这可就麻烦了，只要老大挂了，等于整个集群的服务都用不了了，NameNode挂了整个集群的HDFS就用不了了，HBase的HMaster挂了整个集群的Hbase都用不了了，等等。这就是所谓的单点故障问题。单点指只有一个主节点。单点故障的解决方案既然只有一个主节点就会发生单点故障，那么我们很容易可以想到，我来两个不就行了！对的，HA的思想就是多弄几个主节点，一个死了另一个上。但这样也不够啊！必须有个东西能够使得发生故障的...

2018-03-28

628

Elasticsearch 集群架构 Elasticsearch 是一个非常著名的开源搜索和分析系统，目前被广泛应用于互联网多种领域中，尤其是以下三个领域特别突出。一是搜索领域，相对于 solr，真正的后起之秀，成为很多搜索系统的不二之选。二是 Json 文档数据库，相对于 MongoDB，读写性能更佳，而且支持更丰富的地理位置查询以及数字、文本的混合查询等。三是时序数据分析处理，目前是日志处理、监控数据的存储、分析和可视化方面做得非常好，可以说是该领域的引领者了。 Elasticsearch 的详细介绍可以到官网查看。我们先来看一下 Elasticsearch 中几个关键概念：节点（Node）：物理概念，一个运行的 Elasticearch 实例，一般是一台机器上的一个进程。索引（Index），逻辑概念，包括配置信息 mapping 和倒排正排数据文件，一个索引的数据文件可能会分布于一台机器，也有可能分布于多台机器。索引的另外一层意思是倒排索引文件。分片（Shard）：为了支持更大量的数据，索引一般会按某个维度分成多个部分，每个部分就是一个分片，分片被节点 (Node) 管理。...

2018-03-29

720

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。