图数据库 Nebula Graph 的数据模型和系统架构设计-低调大师

图数据库 Nebula Graph 的数据模型和系统架构设计

2019-07-23 606

Nebula Graph：一个开源的分布式图数据库。作为唯一能够存储万亿个带属性的节点和边的在线图数据库，Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求，还能够实现服务高可用且保障数据安全性。

本篇主要介绍 Nebula Graph 的数据模型和系统架构设计。

有向属性图 DirectedPropertyGraph

Nebula Graph 采用易理解的有向属性图来建模，也就是说，在逻辑上，图由两种图元素构成：顶点和边。

顶点 Vertex

在 Nebula Graph 中顶点由标签 tag 和对应 tag 的属性组构成， tag 代表顶点的类型，属性组代表 tag 拥有的一种或多种属性。一个顶点必须至少有一种类型，即标签，也可以有多种类型。每种标签有一组相对应的属性，我们称之为 schema 。

如上图所示，有两种 tag 顶点：player 和 team。player 的 schema 有三种属性 ID （vid），Name （sting）和 Age （int）；team 的 schema 有两种属性 ID （vid）和 Name （string）。

和 Mysql 一样，Nebula Graph 是一种强 schema 的数据库，属性的名称和数据类型都是在数据写入前确定的。

边 Edge

在 Nebula Graph 中边由类型和边属性构成，而 Nebula Graph 中边均是有向边，有向边表明一个顶点（起点 src ）指向另一个顶点（终点 dst ）的关联关系。此外，在 Nebula Graph 中我们将边类型称为 edgetype ，每一条边只有一种edgetype ，每种 edgetype 相应定义了这种边上属性的 schema 。

回到上面的图例，图中有两种类型的边，一种为 player 指向 player 的 like 关系，属性为 likeness (double)；另一种为 player 指向 team 的 serve 关系，两个属性分别为 start_year (int) 和 end_year (int)。

需要说明的是，起点1 和终点2 之间，可以同时存在多条相同或者不同类型的边。

图分割 GraphPartition

由于超大规模关系网络的节点数量高达百亿到千亿，而边的数量更会高达万亿，即使仅存储点和边两者也远大于一般服务器的容量。因此需要有方法将图元素切割，并存储在不同逻辑分片 partition 上。Nebula Graph 采用边分割的方式，默认的分片策略为哈希散列，partition 数量为静态设置并不可更改。

数据模型 DataModel

在 Nebula Graph 中，每个顶点被建模为一个 key-value ，根据其 vertexID（或简称 vid）哈希散列后，存储到对应的 partition 上。

一条逻辑意义上的边，在 Nebula Graph 中将会被建模为两个独立的 key-value ，分别称为 out-key 和 in-key 。out-key 与这条边所对应的起点存储在同一个 partition 上，in-key 与这条边所对应的终点存储在同一个 partition 上。

关于数据模型的详细设计会在后续的系列文章中介绍。

系统架构Architecture

Nebula Graph 包括四个主要的功能模块，分别是存储层、元数据服务、计算层和客户端。

存储层 Storage

在 Nebula Graph 中存储层对应进程是 nebula-storaged ，其核心为基于 Raft（用来管理日志复制的一致性算法）协议的分布式 Key-valueStorage 。目前支持的主要存储引擎为「Rocksdb」和「HBase」。Raft 协议通过 leader/follower 的方式，来保持数据之间的一致性。Nebula Storage 主要增加了以下功能和优化：

Parallel Raft：允许多台机器上的相同 partiton-id 组成一个 Raft group 。通过多组 Raft group 实现并发操作。
Write Path & batch：Raft 协议的多机器间同步依赖于日志 id 顺序性，这样的吞吐量 throughput 较低。通过批量和乱序提交的方式可以实现更高的吞吐量。
Learner：基于异步复制的 learner。当集群中增加新的机器时，可以将其先标记为 learner，并异步从 leader/follower 拉取数据。当该 learner 追上 leader 后，再标记为 follower，参与 Raft 协议。
Load-balance：对于部分访问压力较大的机器，将其所服务的 partition 迁移到较冷的机器上，以实现更好的负载均衡。

元数据服务层 Metaservice

Metaservice 对应的进程是 nebula-metad ，其主要的功能有：

用户管理：Nebula Graph 的用户体系包括 Goduser ， Admin ， User ， Guest 四种。每种用户的操作权限不一。
集群配置管理：支持上线、下线新的服务器。
图空间管理：增持增加、删除图空间，修改图空间配置（Raft副本数）
Schema 管理：Nebula Graph 为强 schema 设计。
- 通过 Metaservice 记录 Tag 和 Edge 的属性的各字段的类型。支持的类型有：整型 int, 双精度类型 double, 时间数据类型 timestamp, 列表类型 list等；
- 多版本管理，支持增加、修改和删除 schema，并记录其版本号
- TTL 管理，通过标识到期回收 time-to-live 字段，支持数据的自动删除和空间回收

MetaService 层为有状态的服务，其状态持久化方法与 Storage 层一样通过 KVStore 方式存储。

计算层 Query Engine & Query Language(nGQL)

计算层对应的进程是 nebula-graphd ，它由完全对等无状态无关联的计算节点组成，计算节点之间相互无通信。Query Engine 层的主要功能，是解析客户端发送 nGQL 文本，通过词法解析 Lexer 和语法解析 Parser 生成执行计划，并通过优化后将执行计划交由执行引擎，执行引擎通过 MetaService 获取图点和边的 schema，并通过存储引擎层获取点和边的数据。Query Engine 层的主要优化有：

异步和并发执行：由于 IO 和网络均为长时延操作，需采用异步及并发操作。此外，为避免单个长 query 影响后续 query，Query Engine 为每个 query 设置单独的资源池以保证服务质量 QoS。
计算下沉：为避免存储层将过多数据回传到计算层占用宝贵的带宽，条件过滤 where 等算子会随查询条件一同下发到存储层节点。
执行计划优化：虽然在关系数据库 SQL 中执行计划优化已经经历了长时间的发展，但业界对图查询语言的优化研究较少。Nebula Graph 对图查询的执行计划优化进行了一定的探索，包括执行计划缓存和上下文无关语句并发执行。

客户端 API & Console

Nebula Graph 提供 C++、Java、Golang 三种语言的客户端，与服务器之间的通信方式为 RPC，采用的通信协议为 Facebook-Thrift。用户也可通过 Linux 上 console 实现对 Nebula Graph 操作。Web 访问方式目前在开发过程中。

Nebula Graph：一个开源的分布式图数据库。

GitHub：https://github.com/vesoft-inc/nebula

知乎：https://www.zhihu.com/org/nebulagraph/posts

微博：https://weibo.com/nebulagraph

微信关注我们

原文链接：https://yq.aliyun.com/articles/710607

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

SEO网站优化的八个步骤

网站优化对网站来说是非常重要的，直接决定和影响着网站所起到的作用，以及在各个地方当中的排名。在进行seo优化的过程中，我们必须要坚持一定的原则，真正的把这些事情做得更好，才可以确保最终的结果，这对于我们来说是非常重要的事。今天我就跟大家谈谈SEO的八大步骤。　SEO优化主要分为8小步： 1、关键词分析（也叫关键词定位）：这是进行SEO优化最重要的一环，关键词分析包括：关键词关注量分析、竞争对手分析、关键词与网站相关性分析、关键词布置、关键词排名预测。 2、网站架构分析：网站结构符合搜索引擎的爬虫喜好则有利于SEO优化。网站架构分析包括：剔除网站架构不良设计、实现树状目录结构、网站导航与链接优化。 3、网站目录和页面优化：SEO不止是让网站首页在搜索引擎有好的排名，更重要的是让网站的每个页面都带来流量。 4、内容发布和内链布局：百度喜欢有规律的网站内容更新，网站内链布局则把整个网站有机地串联起来，让搜索引擎明白每个网页的重要性和关键词，实施的参考是第一点的关键词布置。高质量友情链接交换也是这个时候展开。 5、向搜索引擎入口提交链接地址：向各大搜索引擎登陆入口提交尚未收录站点。在搜索引擎看...

2019-07-23

779

7月24日，阿里云峰会开发者大会在上海世博中心举办。作为2019年首场最受瞩目的云计算开发者大会，阿里云携一众云计算技术大牛与开发者面对面，探讨各自领域的技术干货与前沿趋势。同时，也发布了多项重大重磅新品与技术战略，其中国内首个全域覆盖的边缘计算基础设施产品备受瞩目。边缘计算-5G时代的新型基础设施据IDC估计，2020年将有超过500亿的终端与设备联网，而有50%的物联网网络将面临网络带宽的限制，40%的数据需要在网络边缘分析、处理与储存。边缘计算市场规模将超万亿，成为与云计算平分秋色的新兴市场。不可否认，5G贡献了低延时和高可靠的网络，对边缘计算是一大利好。但是随之而来的大带宽业务激增和大规模数据爆发，也会给企业带来不小的挑战，传统的云、端二协同计算不足以支撑企业业务发展。所以，为了满足海量数据的超低延时的业务场景需求，5G通

2019-07-23

753

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。