如何实现一个数据库的 UDF？图数据库 NebulaGraph UDF 功能背后的设计与思考-低调大师

如何实现一个数据库的 UDF？图数据库 NebulaGraph UDF 功能背后的设计与思考

2023-09-13 388

大家好，我是来自 BOSS直聘的赵俊南，主要负责安全方面的图存储相关工作。作为一个从 v1.x 用到 v3.x 版本的忠实用户，在见证 NebulaGraph 发展的同时，也和它一起成长。

BOSS直聘和 NebulaGraph

关于 NebulaGraph 在 BOSS直聘的应用场景，大家可以看看之前文洲老师的文章（图数据库 NebulaGraph 在 BOSS直聘的应用），从那时候文洲老师构建的行为图发展到了安全场景的业务主图、算法推理图、职位相似度图谱等业务，现在更是支持了数仓同学的数据血缘及搜索同学的实时搜索召回场景，单图的规模达到了数千亿。

在图计算方面，BOSS 直聘基于 LPA 和 Louvain 的单度团、多维团，以及基础的离线特征，在安全生产环境中广泛应用图技术。相信未来图在 BOSS直聘还会有更为宽广的舞台。

UDF 的萌生

随着 NebulaGraph 在 BOSS直聘业务上的广泛应用，相对应的对内部技术人员的要求也越来越高。如果技术人员仅仅停留在使用层面，就无法满足从功能到性能很多需求。所以，学习源码成为了必然。

而后迁移 Neo4j->NebulaGraph 过程中，发现业务对 Neo4j 的 UDF 包有所依赖，我本萌生了实现 NebulaGraph UDF 功能的念头。

UDF 设计和实现原理

上图是一条完整 nGQL 语句的执行过程，而 UDF 实现原理同 nGQL 的执行流程相关，大致如下：

graphd 接收到语句 -> Bison 词法解析（切词） -> Flex 语法解析创建 Sentence -> Validator 校验并生成AstContext（抽象语法树） -> toPlan 生成执行计划 Planner -> Optimizer 优化器优化 -> Executor 执行器执行。

在词法语法解析阶段，Function 会被单独解析出来。FunctionManager 作为原生的内置函数管理者，负责函数的定义、加载、调用等操作，从而管理函数的整个生命周期。调用语句通过 FunctionManager 查找到的函数最终会被执行器调用执行。

NebulaGraph 的 UDF 实现基于函数的调用执行流程，增加了 FunctionUdfManager：

static std::unordered_map<std::string, Value::Type> udfFunReturnType_;
static std::unordered_map<std::string, std::vector<std::vector<nebula::Value::Type>>>
    udfFunInputType_;
std::unordered_map<std::string, FunctionManager::FunctionAttributes> udfFunctions_;

class FunctionUdfManager {
 public:
  typedef GraphFunction *(create_f)();
  typedef void(destroy_f)(GraphFunction *);

  static StatusOr<Value::Type> getUdfReturnType(const std::string functionName,
                                                const std::vector<Value::Type> &argsType);

  static StatusOr<const FunctionManager::FunctionAttributes> loadUdfFunction(
      std::string functionName, size_t arity);

  static FunctionUdfManager &instance();

  FunctionUdfManager();

 private:
  static create_f *getGraphFunctionClass(void *func_handle);
  static destroy_f *deleteGraphFunctionClass(void *func_handle);

  void addSoUdfFunction(char *funName, const char *soPath, size_t i, size_t i1, bool b);
  void initAndLoadSoFunction();
};

它主要做以下几件事：

和 FunctionManager 一起初始化，initAndLoadSoFunction 开启定时扫描，扫描 --udf_path 路径下文件；
loadUdfFunction加载 .so 文件，实例化函数方法，以函数名为 key 保存在 Map 中；
在启用 UDF 功能的情况下，FunctionManager 未查找函数时，查找并调用 FunctionUdfManager Map 中的函数。

实现比较简单，可以说是取巧了，有需要的话 UDAF 也可用类似方式实现。

UDF 使用方法

下面来讲讲 NebulaGraph UDF 的具体使用，如果你是用 NebulaGraph v3.5.0+ 版本的话，就可以按照以下方式使用 UDF 功能了。如果你是 v3.4.x 及以下版本，UDF 功能是暂不支持的，你也可以 cherry-pick 这个 pr 自行编译使用 UDF 功能。

第一步，在 graphd 配置文件中开启 UDF 功能并指定包目录

# enable udf, c++ only
--enable_udf=true
# set the directory where the .so of udf are stored
--udf_path=/home/foobar/dev/nebula/udf/

第二步，编写自定义函数代码，继承 GraphFunction。GraphFunction 的结构如下：

class GraphFunction;

extern "C" GraphFunction *create();
extern "C" void destroy(GraphFunction *function);

class GraphFunction {
 public:
  virtual ~GraphFunction() = default;

  virtual char *name() = 0;

  virtual std::vector<std::vector<nebula::Value::Type>> inputType() = 0;

  virtual nebula::Value::Type returnType() = 0;

  virtual size_t minArity() = 0;

  virtual size_t maxArity() = 0;

  virtual bool isPure() = 0;

  virtual nebula::Value body(
      const std::vector<std::reference_wrapper<const nebula::Value>> &args) = 0;
};

create、destroy 是函数的创建销毁方法；
name 调用时的函数名；
inputType、returnType 输入输出类型；
minArity、maxArity 参数数量；
isPure 函数是否有状态；
body 函数的实现。

第三步，编写好的函数打包成(.so)文件，放到配置文件 --udf_path 配置的对应目录下，graphd 服务会定时（5 分钟）扫描该路径下的包，加载到函数库中。之后，就可以在自己的语句中调用对应的函数了。

⚠️ 注意：由于 graphd 只扫描本地路径下的函数包，想让多个 graphd 都生效，必须都在本地路径下有相应的包。

这里要 cue 下思为老师，感谢他补充的完整使用文档和编译环境：https://github.com/vesoft-inc/nebula/pull/4804 。

UDF 尚未解决的问题

虽然目前 UDF 是能用，但是它还存在部分优化问题。比如：

so 包位置只支持扫描本地；
函数只在 graphd 层，无法下推到存储；
使用麻烦，需要用户编码。

当然这些问题和一开始的设计息息相关：开发 UDF 之初，其实是想兼容 C++ 的 so 包和 Java 的 jar 包，但测试了 C++ Jni 调用 Java 的性能，发现基本上无法用于大规模的生产。

下图便是当时的性能测试：

因为实现实在是性能堪忧，于是就放弃了一开始的设计。

当然还有一些未来规划上的事情，主要是希望 NebulaGraph 开发团队一起合作完成：

个别的大查询语句和深度查询，容易把 storaged 的内存打满影响集群整体性能。是否可以考虑通过查询时间超时或内存监控自动 kill 对应的查询，释放掉内存。其实对于类似的语句，基本上已经很难拿到结果了，更多的可能是想降低语句带来的影响
集群的容错性，多副本情况下某个节点的非正常下线会影响整体集群，由于环境的复杂性具体定位分析也比较困难，盼望尽可能增强集群健壮性。

开发 UDF 的意外收获

前面说过，UDF 其实是阅读 NebulaGraph 源码的产物。这里我想谈谈我对源码阅读感受：整体的 NebulaGraph 源码给我最直观的感受就是层次、结构清晰，代码优雅。在配合官方博客提供的内核讲解系列文章，对我这种跨语言学习的选手难度都大大降低了。

希望 UDF 能帮你解决一些问题，以及我的分享能给你带来一丝启发。

谢谢你读完本文 (///▽///)

如果你想尝鲜图数据库 NebulaGraph，记得去 GitHub 下载、使用、(^з^)-☆ star 它 -> GitHub；和其他的 NebulaGraph 用户一起交流图数据库技术和应用技能，留下「你的名片」一起玩耍呀~

2023 年 NebulaGraph 技术社区年度征文活动正在进行中，来这里领取华为 Meta 60 Pro、Switch 游戏机、小米扫地机器人等等礼品哟~ 活动链接：https://discuss.nebula-graph.com.cn/t/topic/13970

微信关注我们

原文链接：https://my.oschina.net/u/4169309/blog/10110069

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

字节跳动基础架构编排调度团队论文入选云计算领域顶会 SoCC 2023

2023 年 10 月 30 日至 11 月 1 日， SoCC 2023 将在美国加州 Santa Cruz 举行。字节跳动基础架构-编排调度团队的研究成果被 S o CC 2023 接收，并受邀进行现场报告。 SoCC 会议全称 Annual ACM Symposium on Cloud Computing，是云计算领域顶级会议之一，同时也是 ACM 所有会议当中唯一一个同时被 SIGMOD 和 SIGOPS 赞助的顶会。代表了当前云计算领域在学术界、工业界和开源社区的前沿水平。SoCC 会议伴随着云计算的兴起而成立，至今已经举办到第 14 届。该会议每年吸引全球顶级研究机构和知名大公司投稿，对系统创新性、完整性、和有效性等方面都要求很高。今年，会议论文的接收率只有30%。 Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance Gödel 是字节跳动基础架构-编排调度团队自主研发、面向大规模云原生基础设施管理的在离线统一调度系统。字节跳动旗下业务线在过去几年的飞速发展中对计算资源...

2023-09-13

413

本文分享自华为云社区《GaussDB（DWS）锁问题全解》，作者： yd_211043076。一、gaussdb有哪些锁 1、常规锁：常规锁主要用于业务访问数据库对象的加锁，保护并发操作的对象，保持数据一致性；常见的常规锁有表锁（relation）和行锁（tuple）。表锁：当对表进行DDL、DML操作时，会对操作的对象表加锁，在事务结束释放。行锁：使用select for share语句时持有该模式锁，后台会对tuple加5级锁；使用select for update, delete, update等操作时，后台会对tuple加7级锁（ExclusiveLock）。 2、轻量级锁：轻量级锁主要用于数据库内部共享资源访问的保护，比如内存结构、共享内存分配控制等。二、锁冲突矩阵 1、常规锁按照粒度可分为8个等级，各操作对应的锁等级及锁冲突情况参照下表：锁编号锁模式对应操作冲突的锁编号 1 ACCESS SHARE SELECT 8 2 ROW SHARE SELECT FOR UPDATE、SELECT FOR SHARE 7,8 3 ROW EXCLUSIVE INSE...

2023-09-13

533

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。