带你快速上手HetuEngine

2023-08-17 657

本文分享自华为云社区《【手把手带你玩转HetuEngine】（一）HetuEngine快速上手》，作者：HetuEngine九级代言。

HetuEngine是什么

HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合，实现海量数据秒级交互式查询；支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。

HetuEngine适合做什么

适用于Hadoop集群（FusionInsight MRS）的Hive、Hudi数据源的交互式快速查询场景;
适用于跨源（多种数据源，如Hive，Hudi，HBase，GaussDB(DWS)，Elasticsearch，ClickHouse等）查询；
适用于跨域（多个地域或数据中心）的快速联合查询；
不擅长大批量、复杂逻辑的跑批处理、创建事务、数据入库操作等。

HetuEngine特点

HetuEngine基本架构

HetuEngine面向企业级能力方面，构建了极致稳定、高性能的企业级交互式分析引擎。

云服务层：提供了企业级的运维管理监控能力，认证与业务接入统一访问入口，友好的可视化界面操作，一键式参数调优和配置，协助用户轻松简单的管理集群平台；
引擎层：纯计算引擎部署，与数据解耦；自容错，节点故障级别重启，内存溢出保护等；计算实例基于任务负载自动弹性伸缩，可水平横向扩展；
数据层：支持多种常见的数据源间的联合查询，同时计算和数据解耦，天然的存算分离架构。

HetuEngine服务角色

HeuEngine引擎架构

HetuEngine引擎执行流程简单介绍：

Coordinator

负责管理Worker节点，以及接受客户端查询请求，并进行SQL的语法解析（Parser）、执行计划生成与优化（Plannner）和查询任务的调度（Scheduler）

Worker

负责具体的查询计算和数据读写

Discovery Server

负责发现集群的各个节点，用于节点间心跳监控

快速上手指南

工欲善其事必先利其器，在使用HetuEngine之前，首先需要了解基本的架构，并与业务场景相结合，然后进行集群相关的规划和配置，最后进行业务对接和验证上线。本系列将从以下几方面内容手把手带你玩转HetuEngine。

了解HetuEngine的基本架构：了解HetuEngine是什么
了解HetuEngine常见的应用场景，与业务场景相结合：判断HetuEngine是否适应于业务场景
集群部署和资源规划：前期的资源规划必不可少
数据源添加和管理：对接业务需要的数据源
权限管控和配置：保障不同业务用户之间的权限管控
业务对接：业务对接和验证
性能调优：不同的调优手段
运行过程中常见问题排查：常见问题的处理方式

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10097532

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

CutLER：一种用于无监督目标检测和实例分割的方法

本文分享自华为云社区《CutLER：一种用于无监督目标检测和实例分割的方法》，作者：Hint。目标检测是计算机视觉中的一种重要任务，使AI系统感知、推理、理解目标。训练定位模型需要特别的标注，比如目标的框、掩膜、定位点等。本文的工作研究了无监督的目标检测和实例分割，不使用人工标注。首先提出了MaskCut方法，可以自动的生成初始的粗糙掩膜，然后提出一种简单损失函数来帮助检测出MaskCut遗漏的目标。最后发现预测出的掩膜比初始的掩膜还要精细，因此可以迭代的训练检测器，进一步优化。该方法的总体框架如上图所示，该模型首先使用了DINO[2]的自监督特征来生成二值掩膜，结合了Normalizes Cuts技术，改善了该技术中只能生成单个前景目标掩膜的缺陷，具体见公式2、3。这样就获得了一张图片中多个前景目标的粗糙掩膜。然而在标准的检测训练损失函数中，会惩罚预测区域和ground truth区域不重叠的位置。这限制了检测器去发现新的目标，所以作者提出了一个新的损失函数，当预测和粗糙掩膜的IoU超过一定阈值时，该预测才参与loss的计算。最后作者采用了多轮次的迭代训练，进一步提升了模型的性...

2023-08-17

410

01 前言 🎉Firefly项目支持微调ChatGLM2模型啦，我们实现了一种比ChatGLM2官方更加充分高效的多轮对话训练方法，并且沿袭了官方的数据组织格式。在此之前，很多同学询问Firefly项目是否支持微调ChatGLM或ChatGLM2模型，而我们迟迟未进行适配的原因主要如下：此前，Firefly虽然已支持微调Llma2、Llama、Baichuan、InternLM、Ziya、Bloom等开源大模型，但都是在Pretrain模型上进行指令微调，指令数据的组织格式相对自由，可按需自行设计。 ChatGLM不属于严格意义上的Causal Language Model(因果语言模型)，因为它存在prefix attention mask的设计。对于prefix而言，它的attention是双向的，而预测部分的attention是单向的，存在一定的适配成本。但ChatGLM2做出了改变，它的注意力是单向的。 ChatGLM2是一个经过指令微调的chat模型，微调时遵从官方的数据组织格式，才能达到最优效果。 Firefly项目有自己独特的多轮对话训练方式。对于预训练模型，可以...

2023-08-09

809

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。