一文带你体验MRS HetuEngine如何实现跨源跨域分析
摘要: HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。
本文分享自华为云社区《MRS HetuEngine体验跨源跨域分析【玩转华为云】》,作者:龙哥手记。
HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。
一场景完整描述
1.1 首先说明下
1)用户通过登录Windows跳板机,使用SQL开发工具DBeaver连接MRS集群A的HetuEngine进行分析体验
2)跨源分析体验,通过HetuEngine0连接集群内部数据源hive
3)跨源分析体验,通过HetuEngine0连接集群内部数据源hbase
4)跨仓分析体验,通过HetuEngine0连接关系型数据库DWS
5)跨湖分析体验,通过HetuEngine0连接到MRS集群B的HetuEngine1再连接到集群B的数据源hive
二 登录环境并完成准备工作
2.1. 登录跳板机
登录:http://121.13.226.78:18080/ssh/#/
① 用户名:hdc01,
② 密码:请联系现场引导员获取
2.2 登录认证软件MIT Kerberos进行认证
点击右下角的MIT Kerberos,选择Get Tickets输入用户名密码获取Kerberos认证票据
① Principal:admintest@HADOOP.COM,
② Password: Admin12!
2.3 打开SQL编辑器软件DBeaver
2.4 查看已配置好的MRS集群A的HetuEngine连接
点击三角符号打开已配置好的HetuEngine连接
说明:
① dws: 外部dws数据库
② hbase: MRS集群A中的hbase数据源
③ hetu1: 远端MRS集群B的HetuEngine
④ hive: MRS集群A中的hive数据源
三 体验HetuEngine hive查询性能提升
3.1 通过普通JDBC查询MRS集群A中的hive表
选择配置好的hive数据源92-hive - New Connection,右键选择SQL Editor
输入以下SQL语句并查看结果与时间
SELECT * FROM sales h1 WHERE h1.price >30;
复制
3.2. 通过HetuEngine查询MRS集群A中的hive表
选择配置好的hive数据源92-HetuEngine - New Connection,右键选择SQL Editor
输入以下的SQL语句并查看结果和时间
SELECT * FROM hive.default.sales h1 WHERE h1.price >30;
复制
3.3. 结论
通过比较两次查询时间,可以看到HetuEngine会加速查询性能,比普通的hive查询更加快速;
四 体验HetuEngine跨源、跨仓分析能力
4.1 通过HetuEngine对MRS集群A中的HBase进行跨源数据查询
在打开的SQL Editor中输入如下SQL语句查询MRS集群A的HBase数据
SELECT * FROM hbase.default.sales;
复制
4.2 通过HetuEngine对DWS集群C进行跨仓数据查询
在打开的SQL Editor中输入如下SQL语句查询DWS集群C中的维表数据
SELECT * FROM dws.public.person;
复制
4.3. 体验MRS集群A的hive同DWS集群C跨仓分析查询
在打开的SQL Editor中输入如下SQL语句可做MRS集群A的hive与DWS集群C的跨仓数据分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hive.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >30;
复制
4.4 体验MRS集群A的hbase同DWS集群C跨仓分析查询
在打开的SQL Editor中输入如下SQL语句可做MRS集群A的hbase与DWS集群C的跨仓数据分析
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hbase.default.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id WHERE h1.price >50;
复制
4.5 下结论
出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作;
五 体验HetuEngine跨湖分析能力
5.1 将MRS集群A的HetuEngine连接到MRS集群B的HetuEngine进行跨湖查询
在打开的SQL Editor中输入如下SQL语句可做MRS集群B中HetuEngine的hive跨湖查询
SELECT * FROM hetu1.hetu1_hive.sales;
复制
5.2 体验MRS集群B的HetuEngine同DWS集群C跨湖分析查询
打开SQL Editor输入如下SQL语句可做MRS集群B中HetuEngine的hive同DWS集群C的跨湖查询
SELECT h1.id,h1.price, h1.ops_region,h1.ops_user_id,d1.sex,d1.age FROM hetu1.hetu1_hive.sales h1 INNER JOIN dws.public.person d1 ON h1.ops_user_id=d1.ops_user_id;
复制
5.3 结论
HetuEngine提供统一标准SQL对分布于多个地域(或数据中心)的多种数据源实现高效访问,屏蔽数据在结构、存储及地域上的差异,实现数据与应用的解耦。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
再来一次,新技术搞定老业务「GitHub 热点速览 v.22.44」
上上周 Next.js 新版本火了一把,这不本周热点趋势就有了一个 Next.js 13 新特性构建的网站,虽然它只是个实验性项目。同样可以搞定一些业务的还有 lama-cleaner,不过它并不是个新事物,它开源近半年已经能轻松应对图像的抹除、替换物体等挑战。 本周新开源的 Netflix 的微服务编排工具 conductor 也是个业务好手,能用来管理微服务,以及 Grafana 开源的聚合持续分析数据的 phlare 定位性能瓶颈,快速提升业务能力。 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 Hacker News 热帖(简称 HN 热帖),选项标准:新发布 | 实用 | 有趣,根据项目 release 时间分类,发布时间不超过 14 day 的项目会标注 New,无该标志则说明项目 release 超过半月。由于本文篇幅有限,还有部分项目未能在本文展示,望周知 🌝 本文目录 1. 本周特推 1.1 快速抹掉目标:lama-cleaner 1.2 微服务编排:conductor 2. GitHub Trending 周榜 2.1 快速构...
- 下一篇
京东云开发者|软件架构可视化及C4模型:架构设计不仅仅是UML
软件系统架构设计的目标不在于设计本身,而在于架构设计意图的传达。图形化有助于在团队间进行高效的信息同步,但不同的图形化方式需要语义一致性和效率间实现平衡。C4模型通过不同的抽象层级来表达系统的静态结构,并提供了最小集的抽象建模元素,为设计人员提供了一种低认知负载、易于学习和使用的高效建模方式。 1 为什么要进行架构可视化? 软件系统架构设计的目标不在于设计本身,而在于架构设计意图的传达。如果不能清晰、一致的在干系人间进行设计意图的同步,即使再好的设计也只是空中楼阁。软件架构设计本质上也是一种抽象和建模的过程(对模型和抽象的本质参考文章《 领域驱动设计开篇 》),软件架构设计模型的表达有多种方式:图形化、语言和文字。绝大部分场景下,图形化在架构设计的表现力层面效果更佳。因此,对于软件系统架构进行可视化表达是有价值,且是必要的。 软件架构可视化的方式有多种,不同的团队有不同的实践方式,最为常见的由如下几种: • 线框图:通过线框图和连线表达架构元素及之间的关系 • UML:统一建模语言,表达系统的静态结构和动态行为 • 草图:非正式的图形 不同的可视化方式各有优劣,以下部分将对不同的表...
相关文章
文章评论
共有0条评论来说两句吧...