【干货】华为云图数据库GES技术演进

2023-08-24 471

本文分享自华为云社区《【干货】华为云图数据库GES技术演进》，作者： Chenyi。

1 背景

大规模图数据无处不在，图查询、分析和表示学习已成为大数据和AI的核心部分之一。特别是知识图谱和图神经网络的发展，Graph已成为未来AI的基础。

各式各样的图数据

面向未来，图数据库在数据规模、多维关系、时空动态性、异构计算体现上面临着新挑战：

1、图数据规模不断增长，万亿边超大规模图普遍存在，对产品性能和可扩展性提出新的需求。

2、时空图、异质和多关系图在政务、安平、金融、知识图谱等领域越来越普遍，对产品的图数据模型和存储带来新的需求。

3、图神经网络等图表示学习的兴起，需要新的计算框架支持，为传统深度学习框架和图计算框架的融合带来新的机会。

4、GPU、FPGA和图加速器异构计算系统为图引擎带来新的需求和机会。

Graph是大数据分析平台的重要组成部分，在传统批流分析之外提供更多的高级分析能力；主要分为图数据库和图计算引擎两大能力：

图数据库，具备图存储和计算能力，支持事务、数据更新、查询语言，偏TP类场景，用于实时要求高、逻辑相对简单的场景。例如：寻找两商户间最短路径；查找疑似洗钱卡的转账路径。
图计算引擎，侧重复杂查询和全局计算，使用图分析算法，偏AP类场景，用于实时要求不高、数据量大的场景。例：生成持卡人关系网络，根据套现模型批量输出套现卡。

概况说来，Graph的核心能力是：“深度关系挖掘”、“关系高效查询”、“高效社团分析”、“路径直观显示”。

一个用Graph来分析【疫情传播】的例子

1.1 趋势1：面对海量多样化数据，数据分析变得更复杂，图相关技术迅速普及

Gartner曾在多次分析师报告中提及图技术的重要性：

Gartner把Graph以及相关的技术列为2021数据以及分析技术相关10大趋势之中。
Gartner预测到2025年, 图相关技术使用率会从10%(2021)增长到80%。
“到2023年，图计算将促进全球30%企业的快速决策场景化。需要图还是不需要？这已不再是个问题，一定是需要。”

1.2 趋势2: 各家查询语言不一，有碍图数据库普及，GQL有望成为统一语言

历史上，图数据库并没有标准的查询语言，只有Cypher和Gremlin这种事实标准（即使用的比较广泛产品的查询语言），且新产品也不断衍生各自的查询语言，语法的不统一令使用门槛增高，对本领域的普及造成了不利影响。

GQL由WG3主导（WG3 从1987年起负责SQL标准的制定）。GQL 将建立在 openCypher Morpheus 的基础上(它将 Cypher 引入到 Apache Spark)，并结合来自 LDBC 的 G-CORE 的灵感，为用户提供了一种组合图查询语言，支持所有那些功能，这将使 GQL 在概念上等同于 SQL。

2 技术洞察

2.1 图数据库主流系统技术分析

上表列举了主流图数据库系统的分析情况，我们的观点是：

图数据库相比于关系型数据库发展落后(多租户和云原生能力匮乏，查询优化能力普遍不足)
主流图数据库高并发混合负载差
- 不支持高并发下混合负载查询性能隔离
- 不支持多查询查询QoS(Quality of Service)
- 对于混合型负载(大小graph query混合)几乎没有针对性优化
主流图数据库对于融合数据分析(query类型混合)几乎不提供任何优化
- 绝大多数系统不具备融合分析能力
- 少数系统具体初级的融合分析能力, 但是不具备对于融合查询进行整体优化
主流图数据库对云原生的支持差
- 仅AWS Neptune针对云原生环境进行了优化

2.2 图分析、图学习主流系统技术分析

上表列举了主流图分析、图学习系统的分析情况，我们的观点是：

主流图分析系统面向大规模图场景，以分布式内存架构为主，多定位离线图计算，不支持实时数据更新，对复杂OLAP类的交互式查询支持较弱。
主流图学习系统构建于现有的深度学习系统，以PyTorch为主，分布式训练的性能一般。
主流图分析系统和图学习系统是割裂的，一般通过文件来交互，在统一图采样、图与NN融合调度上可以进一步优化。
GPU、FPGA等异构体系探索还比较初级。

总结来说，图数据库和图引擎面向广泛的使用场景，提供的能力一定也是从基础往高阶发展的，技术洞察中标识为红色的部分，也是我们认为提供高阶能力所必备的差异化竞争力。

3 华为云图数据库技术演进

华为云图数据库（GES）自2018年上线以来，经历过3个时期，从18年到21年为1.0时代，从22年到现在为2.0时代，未来将会往3.0时代演进。

下图展示GES各个版本的技术架构以及相对应的特点，在后面的部分会详细展开分析。

3.1 GES 1.0：查询分析一体化、高性能

GES 1.0是基于分布式内存架构的，主打查询分析一体化和高性能的查询和分析。通过只存一份数据，可以较好的兼顾了图查询任务和图分析任务，比如数据增删改能够立马被查询到，快速参与后续的计算任务，省去了不同系统的数据同步。当然，该架构由于采用分布式内存的方式来存储全量数据，相较于持久化方案来说成本会较高，极端情况下的故障恢复较长。但总体来说，应对百亿规模的图数据处理和分析还是能够轻松应对的。

3.2 GES 2.0：大规模、持久化、DSL、动态图

GES 2.0是当前产品重点发展的技术路径，核心是面向千亿到万亿的图数据规模，通过持久化存储来降低成本，同时兼顾查询效率、计算性能和使用上的便捷性。这里，我们将图数据库和图计算引擎解耦开了，各个组件直接独立演进，同时统一存储里的数据同步是由系统内置的，用户无需感知，保证了从1.0往2.0迁移时使用体验的一致性。

另外，我们将DSL和动态图作为关键特性来进行演进。其中DSL提供了自定义算法的能力，动态图则提供了时序分析的能力。

DSL：提供灵活、可控的GraphDSL帮助用户低成本设计并运行算法/查询。特别是复杂查询和定制的计算任务，如，定制化pagerank，repeat query等。过程中无需安装编译，无需更新版本，且兼顾了原有的使用习惯，将Cypher与Gremlin的写法与计算模式结合起来。

【定制化PageRank样例】

动态图：世界是千变万化的，这些变化的背后蕴含着重要信息（如疫情传播的时序影响、转账关系的先后顺序等），传统图分析主要采用静态的、单一视角的分析方法，仅考虑静态结构，忽略变化，难以辅助更精准的推理决策。动态图分析：考虑时间维度变化，全方位建模和分析动、静态信息影响，辅助精准决策。

【动态图示意：建模、动态图算法、可视化】

3.3 GES 3.0：拥抱大模型，构建Graph+AI引擎

面向未来，GES 3.0会往Graph+AI引擎方向构建。一方面结合大模型，提升AI方面的能力；另一方面，整合多源数据，更好的融入大数据生态。同步的，易用性、生态兼容（GQL）也是贯穿其中的。

GES 3.0的核心理念:

Composable: 系统各个部件可组合, 可替换, 实现长期可升级性
Unified: 针对多种数据类型(Table, Graph)提供查询能力
AI-Centric: 深度结合大模型, 以AI为中心, 赋能GES

融合大模型，自动化捕捉实体关系来创建知识图谱
图查询中支持LLM, GNN和DL的联合推理
利用Graph的强大的Multi-Hop的推理能力和对实时性数据/事件的存储能力，帮助纠正LLM的幻觉和实时性问题

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10102130

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GaussDB技术解读系列：高级压缩之OLTP表压缩

本文分享自华为云社区《DTCC 2023专家解读 | GaussDB技术解读系列：高级压缩之OLTP表压缩》，作者：GaussDB 数据库。 8月16日，第14届中国数据库技术大会（DTCC2023）在北京国际会议中心顺利举行。在GaussDB“五高两易”核心技术，给世界一个更优选择的专场，华为云数据库GaussDB首席架构师冯柯对华为云GaussDB数据库的高级压缩技术进行了详细的解读。以下为演讲实录：各位嘉宾，大家下午好！很高兴由我开始给大家带来今年GaussDB一系列新特性的技术解读。我解读的是第一个特性，高级压缩。 GaussDB高级压缩全景高级压缩是面向业务全场景的数据库压缩解决方案，适用的场景主要分两类。第一类是存储类，主要为业务提供容量控制，减少业务扩容的概率和成本；第二类是传输类，主要是面向跨Region、跨AZ的业务场景如何去匹配业务的网络带宽的现实条件，为业务提供更稳定的SLA保证。这里面又有很多细分的场景，TP、AP都有。这里面有非常多的挑战，一是压缩算法怎么设计，二是怎么做冷热判定。我们在整个存储类的压缩里用的都是选择性压缩，基于系统自动发现数据的冷热...

2023-08-23

835

推荐算法与系统在全球范围内已得到广泛应用，为用户提供了更个性化和智能化的产品推荐体验。在推荐系统领域，AI建模中特征数据的复用、一致性等问题严重影响了建模效率。阿里云机器学习平台 PAI 推出特征平台（PAI-FeatureStore）。在所有需要特征的AI建模场景，用户可通过 Feature Store 轻松地共享和重用特征数据，减少资源和时间成本、提升工作效率。什么是特征平台特征平台（Feature Store）是一种中心化的数据管理和共享平台，用于组织、存储和管理机器学习和数据科学中使用的特征数据。在多个细分场景解决AI模型的训练和推理输入特征数据问题。阿里云机器学习平台 PAI-FeatureStore 与阿里云多个云产品的深度结合，封装从特征到模型的全链路。并且，基于推荐算法流程的开发，实现与已有的成熟推荐流程无缝衔接，进一步提升算法工程师和开发人员的效率。通过 PAI-FeatureStore，有效地提升工作效率、减少资源成本和开发时间。作为一个集中的、可扩展的、高效的特征数据存储和访问解决方案，解决了在AI建模中特征数据的复用、一致性、可发现性和可管理性等问题...

2023-08-24

474

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。