Greenplum 是如何实现更新分片键的?-低调大师

Greenplum 是如何实现更新分片键的?

2022-08-22 574 89

在 Greenplum 数据库中，允许用户更新元组的分片键，使得数据从当前节点转移到另一个节点，而这项能力是绝大多数分布式数据库所不支持的，例如 MongoDB 一旦设置了分片键，便无法进行修改和删除。实际上，Greenplum 非常巧妙的利用了 Motion Node 可以在节点之间进行数据传输的特性，以及 PostgreSQL 的火山模型，实现了更新分片键的特性。

1.

Split Update

在 PostgreSQL 中并没有任何的一个执行器节点能够完成分布式数据的更新，因此，Greenplum 引入了一个新的执行器节点 SplitUpdate。SplitUpdate 的原理其实非常简单，其过程和 PostgreSQL 中更新数据类似，只不过两者的出发点不同而已。

PostgreSQL 并没有使用 undo log 来实现 MVCC，而是在存储层将一份数据存储多份，并由 Vacuum 机制定期清除不再需要的 Dead Tuple。因此，当我们执行 update 语句时，并不会原地更新数据，而是先插入一条更新后的数据，再删除旧数据。

而 Greenplum 所实现的 Split Update 并不会执行 ExecUpdate() 函数，而是主动地将更新操作分裂成 INSERT 和 DELETE:

postgres=# create table t (a int, b int);postgres=# insert into t values (1), (2), (3);
postgres=# select gp_segment_id, * from t;                              -- ① gp_segment_id | a | b ---------------+---+---             1 | 1 |               0 | 2 |               0 | 3 |  (3 rows)
postgres=# explain (verbose, costs off) update t set a = a + 1;                             QUERY PLAN                             -------------------------------------------------------------------- Update on public.t                                                     -- ⑤   ->  Explicit Redistribute Motion 3:3  (slice1; segments: 3)          -- ④         Output: ((a + 1)), b, ctid, gp_segment_id, (DMLAction)         ->  Split               Output: ((a + 1)), b, ctid, gp_segment_id, DMLAction     -- ③               ->  Seq Scan on public.t                     Output: (a + 1), b, ctid, gp_segment_id            -- ② Optimizer: Postgres query optimizer(8 rows)
postgres=# update t set a = a + 1;UPDATE 3postgres=# select gp_segment_id, * from t;                              -- ⑥ gp_segment_id | a | b ---------------+---+---             0 | 3 |               0 | 4 |               0 | 2 |  (3 rows)

如上例所示，从 ① 中我们可以看到数据目前是分布在 segment-0 和 segment-1 上的，当我们更新分布键 a 以后，数据全部分布在了 segment-0 上，如 ⑥ 所示。在 ② 中我们可以看到，除了返回表 t 所有的定义列以及 ctid 以外，还额外返回了当前 tuple 的所处的 segment 的 segment_id，这是因为 Greenplum 是分布式数据库，必须由 (gp_segment_id, ctid) 两者才能唯一确定一个 tuple。而在 Split 节点中，输出列又多了一个 DMLAction，这一列将会保存 Split 节点向上输出的两个 tuple 中，哪一个执行插入，哪一个执行删除。Motion 节点则将数据发送至正确的 segment 上进行执行，并根据 DMLAction 的值决定执行插入还是删除。

2.

Split Update的具体实现

通常来说，当我们想要给 PostgreSQL 添加一个新语法或者新功能时，通常会按照添加新语法->添加新路径->添加新查询计划->添加新的执行器节点等步骤来完成，但是 UPDATE 本身就是 PostgreSQL 原生的功能，因此不需要在 gram.y 中添加新的语法。但是，从 Split Update 的执行计划我们可以看到，除了原有的 SeqScan 节点和 Update 节点以外，还会有 Split 节点和 Motion 节点。其中 Split 节点用于将一个 tuple 分裂成两个，Motion 节点则将 Split 节点返回的 tuple 根据分片键发送至正确的 segment 上执行插入或者删除。

在 PostgreSQL 中，一个执行节点对应着一个 Plan Node，而一个 Plan Node 则是由最优的 Path 所构成的。因此，我们需要实现 Split Path 和 Split Plan，Motion Path 和 Motoin 已经被实现了，我们可以直接拿过来复用。

Split Path 其实非常简单，我们只需要在其返回的列中添加一个名叫 DMLAction 的标志位即可，它既表示在执行 Modify Table 时执行的是 Split Update，同时也可以保存对于当前 tuple 是执行插入还是删除。接下来我们就来看下在 PostgreSQL 中新增一个 Path 有多么的简单。

首先，我们要决定 Split Update Path 中到底需要什么，或者说有哪些信息是需要该节点保存的。首先，Split Update Path 只会有一个 SubPath，不存在左右子树的情况，如 WindowAggPath。其次，我们最好是在 Split Update Path 中保存我们到底更新的是哪一张表，这样一来方便 Motion Path 打开这张表并获取 Distributed Policy，从而决定到底需不需要添加 Motion 节点。如果被更新表是随机分布或者是复制表的话，那么就不需要 Motion 节点了。因此，我们就得到了如下 Path 结构:

typedef struct SplitUpdatePath {    Path        path;    Path        *subpath;            /* 子 Path，通常都是 ProjectionPath */    Index       resultRelation;     /* 被更新表在 RTE 链表中的下标（从 1 开始） */} SplitUpdatePath;

紧接着，我们需要一个函数，来创建我们的 SplitUpdatePath 结构，这个函数的作用也非常简单，只需要把 SplitUpdatePath 添加到下层路径之上，并将标志位添加至 PathTarget 中即可:

typedef struct DMLActionExpr {  Expr        xpr;} DMLActionExpr;

static SplitUpdatePath *make_splitupdate_path(PlannerInfo *root, Path *subpath, Index rti) {    RangeTblEntry   *rte;    PathTarget      *splitUpdatePathTarget;    SplitUpdatePath *splitupdatepath;    DMLActionExpr   *actionExpr;
    /* Suppose we already hold locks before caller */    rte = planner_rt_fetch(rti, root);
    /* 创建 DMLAction 列 */    actionExpr = makeNode(DMLActionExpr);    splitUpdatePathTarget = copy_pathtarget(subpath->pathtarget);    /* 将 DMLAction 插入到 target list 的尾部，在执行阶段取出 */    add_column_to_pathtarget(splitUpdatePathTarget, (Expr *) actionExpr, 0);
    /* populate information generated above into splitupdate node */    splitupdatepath = makeNode(SplitUpdatePath);
    /* Split Path 的节点类型为 T_SplitUpdate */    splitupdatepath->path.pathtype = T_SplitUpdate;    /* 它们具有相同的 RelOptInfo */    splitupdatepath->path.parent = subpath->parent;    /* 替换 pathtarget，即返回列必须多出 DMLAction 列 */    splitupdatepath->path.pathtarget = splitUpdatePathTarget;
    /* 预估的 tuple 数量，由于 split update = delete + insert，所以会有 2 条数据 */    splitupdatepath->path.rows = 2 * subpath->rows;
    /* 其余参数照抄即可 */    splitupdatepath->path.param_info = NULL;    splitupdatepath->path.parallel_aware = false;    splitupdatepath->path.parallel_safe = subpath->parallel_safe;    splitupdatepath->path.parallel_workers = subpath->parallel_workers;    splitupdatepath->path.startup_cost = subpath->startup_cost;    splitupdatepath->path.total_cost = subpath->total_cost;    splitupdatepath->path.pathkeys = subpath->pathkeys;    splitupdatepath->path.locus = subpath->locus;
    /* 包裹 ProjectionPath，使其成为子节点 */    splitupdatepath->subpath = subpath;    splitupdatepath->resultRelation = rti;
    /* 这里也只是在原有的 path 下面加了一个一个属性而已  */    return splitupdatepath;}

当有了 SplitUpdatePath 以后，剩下的就是将 Path 转换成 Plan，由于我们并没有其它可供竞争的 Path，因此直接构建即可:

/* SplitUpdate Plan Node */typedef struct SplitUpdate {    Plan        plan;
    AttrNumber  actionColIdx;    /* DMLAction 在 targetlist 中的位置，便于快速访问 */    AttrNumber  tupleoidColIdx;    /* ctid 在 targetlist 中的位置，便于快速访问  */
    List        *insertColIdx;    /* 执行 Insert 时需要使用到的 target list */    List        *deleteColIdx;    /* 执行 Delete 时需要使用到的 target list */
    /* 下面的字段就是 Distributed Policy，在更新以哈希分布的表时会使用，主要用来计算     * Insert 的 tuple 到哪个 segment，Delete 的话直接用本 segment 的 gp_segment_id     * 即可。*/    int         numHashAttrs;    AttrNumber  *hashAttnos;    Oid         *hashFuncs;      /* corresponding hash functions */    int         numHashSegments;  /* # of segs to use in hash computation */} SplitUpdate;

接下来就是在 create_splitupdate_plan() 函数中填充 SplitUpdate 计划节点中的字段，主要就是一些索引 List 和 Distributed Policy，这些内容流程比较简单，但是又没有现成的通用函数来完成，因此会有些繁琐:

static Plan * create_splitupdate_plan(PlannerInfo *root, SplitUpdatePath *path) {    Path        *subpath = path->subpath;    Plan        *subplan;    SplitUpdate *splitupdate;    Relation    resultRel;    TupleDesc   resultDesc;    GpPolicy    *cdbpolicy;    int         attrIdx;    ListCell    *lc;    int         lastresno;    Oid         *hashFuncs;    int         i;
    /* 获取更新表的 Distributed Policy */    resultRel = relation_open(planner_rt_fetch(path->resultRelation, root)->relid, NoLock);    resultDesc = RelationGetDescr(resultRel);    cdbpolicy = resultRel->rd_cdbpolicy;
    /* 递归构建 subpath 的 Plan */    subplan = create_plan_recurse(root, subpath, CP_EXACT_TLIST);
    /* Transfer resname/resjunk labeling, too, to keep executor happy */    apply_tlist_labeling(subplan->targetlist, root->processed_tlist);
    splitupdate = makeNode(SplitUpdate);
    splitupdate->plan.targetlist = NIL; /* filled in below */    splitupdate->plan.qual = NIL;    splitupdate->plan.lefttree = subplan;    splitupdate->plan.righttree = NULL;
    copy_generic_path_info(&splitupdate->plan, (Path *) path);
    lc = list_head(subplan->targetlist);    /* 遍历目标更新表的所有属性 */    for (attrIdx = 1; attrIdx <= resultDesc->natts; ++attrIdx) {        TargetEntry         *tle;        Form_pg_attribute   attr;
        tle = (TargetEntry *) lfirst(lc);        lc = lnext(lc);
        attr = &resultDesc->attrs[attrIdx - 1];
        /* 构建 Insert 和 Delete 列表，其中 deleteColIdx 仅仅只是为了满足格式要求，无实际作用 */        splitupdate->insertColIdx = lappend_int(splitupdate->insertColIdx, attrIdx);        splitupdate->deleteColIdx = lappend_int(splitupdate->deleteColIdx, -1);
        splitupdate->plan.targetlist = lappend(splitupdate->plan.targetlist, tle);    }    lastresno = list_length(splitupdate->plan.targetlist);
    /* ....... */
    splitupdate->plan.targetlist = lappend(splitupdate->plan.targetlist,                                            makeTargetEntry((Expr *) makeNode(DMLActionExpr),                                            ++lastresno, "DMLAction", true));
    /* 构建 Distributed Policy 相关，例如哈希函数、分片键等等 */    hashFuncs = palloc(cdbpolicy->nattrs * sizeof(Oid));    for (i = 0; i < cdbpolicy->nattrs; i++) {        AttrNumber  attnum = cdbpolicy->attrs[i];        Oid      typeoid = resultDesc->attrs[attnum - 1].atttypid;        Oid      opfamily;
        opfamily = get_opclass_family(cdbpolicy->opclasses[i]);
        hashFuncs[i] = cdb_hashproc_in_opfamily(opfamily, typeoid);    }    splitupdate->numHashAttrs = cdbpolicy->nattrs;    splitupdate->hashAttnos = palloc(cdbpolicy->nattrs * sizeof(AttrNumber));    memcpy(splitupdate->hashAttnos, cdbpolicy->attrs, cdbpolicy->nattrs * sizeof(AttrNumber));    splitupdate->hashFuncs = hashFuncs;    splitupdate->numHashSegments = cdbpolicy->numsegments;
    relation_close(resultRel, NoLock);    root->numMotions++;
    return (Plan *) splitupdate;}

当我们有了 Path 和 Plan 之后，剩下的就是执行器了。对于 Split 执行节点而言，要做的事情就是将下层执行器节点返回的 tuple 一分为二并保存起来，一个表示删除，一个表示插入，然后继续向上返回给上层节点。

static TupleTableSlot * ExecSplitUpdate(PlanState *pstate) {    SplitUpdateState    *node = castNode(SplitUpdateState, pstate);    PlanState           *outerNode = outerPlanState(node);    SplitUpdate         *plannode = (SplitUpdate *) node->ps.plan;
    TupleTableSlot *slot = NULL;    TupleTableSlot *result = NULL;
    /*     * processInsert 的初始值为 true，也就是说同一个 tuple 在第一次执行 ExecSplitUpdate 时，会进入到下面的分支，从外层     * 路径中获取 tuple，然后调用 SplitTupleTableSlot 对 deleteTuple 和 insertTuple 进行赋值，上层节点将执行 delete。     * 第二次进入该函数时将会直接返回 node->insertTuple，那么也就实现了"从下面拿上来一个 tuple，使用多次"的需求。     * */    if (!node->processInsert) {        result = node->insertTuple;        node->processInsert = true;    }    else {        /* Creates both TupleTableSlots. Returns DELETE TupleTableSlots.*/        slot = ExecProcNode(outerNode);
        if (TupIsNull(slot))            return NULL;
        /* `Split' update into delete and insert */        slot_getallattrs(slot);        Datum     *values = slot->tts_values;        bool     *nulls = slot->tts_isnull;
        ExecStoreAllNullTuple(node->deleteTuple);        ExecStoreAllNullTuple(node->insertTuple);
        /* 在 SplitTupleTableSlot 中即将 slot 一分二位，保存在 deleteTuple 和 insertTuple 中 */        SplitTupleTableSlot(slot, plannode->plan.targetlist, plannode, node, values, nulls);
        result = node->deleteTuple;        node->processInsert = false;    }    return result;}

最后，万事俱备，所有的前菜都已经准备好了，把我们准备的所有东西下锅炒炒就可以出锅了。从执行计划中可以看到，虽然我们最终要执行的是 Insert 和 Delete，但是顶层节点仍然是 Update，因此我们就需要在 ExecModifyTable 函数中做一些手脚:

static TupleTableSlot *ExecModifyTable(PlanState *pstate) {    switch (operation) {        case CMD_INSERT:            /* ...... */        case CMD_UPDATE:            if (!AttributeNumberIsValid(action_attno)) {                    /* normal non-split UPDATE */                    slot = ExecUpdate(node, tupleid, oldtuple, slot, planSlot,                                        segid,                                        &node->mt_epqstate, estate, node->canSetTag);                }                else if (DML_INSERT == action) {                    slot = ExecSplitUpdate_Insert(node, slot, planSlot, estate, node->canSetTag);                }                else /* DML_DELETE */ {                    slot = ExecDelete(node, tupleid, segid, oldtuple, planSlot,                                        &node->mt_epqstate, estate,                                        false,                                        false /* canSetTag */,                                        true /* changingPart */ ,                                        true /* splitUpdate */ ,                                        NULL, NULL);                }                break;    }}

其中 action 就是我们在 targetlist 末尾添加的 DMLAction 表达式的值，在这里判断其值并选择执行 ExecSplitUpdate_Insert 还是 ExecDelete。

至此，Greenplum Split Update 的整个过程就分析完毕，期间其实省略了非常多的细节，这部分内容就留给读者细心探索了，比如连接优化器和执行器的函数和结构体是什么，Motion 节点是如何分发 Insert 和 Delete Tuple 的，等等。

作者简介

李正龙

VMware Greenplum内核研发工程师

Greenplum Committer，Pythonista/Gopher，有多年系统设计相关经验，现专注于数据与分布式系统相关研究。

个人主页: https://github.com/SmartKeyerror

点击文末“ 阅读原文 ”，获取Greenplum中文资源。

来一波 “在看”、“分享”和 “赞” 吧！

本文分享自微信公众号 - Greenplum中文社区（GreenplumCommunity）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/GreenplumCommunity/blog/5569079

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2022-08-24 09:58:00

解决 NGINX LDAP 参考实施中的安全问题

原文作者：Liam Crilly of F5 和 Timo Stark of F5 原文链接：解决 NGINX LDAP 参考实施中的安全问题转载来源：NGINX官方网站 2022 年 4 月 9 日，NGINX LDAP 参考实施中曝出了多个安全漏洞。经确认，只有参考实施受到了影响。NGINX 开源版和 NGINX Plus 本身未受影响，如果您不使用参考实施，则无需采取纠正措施。 NGINX LDAP 参考实施使用轻型目录访问协议 (LDAP) 来验证由 NGINX 代理的应用的用户。它作为 Python 守护进程（daemon）发布，相关 NGINX 配置位于https://github.com/nginxinc/nginx-ldap-auth，我们的博文对其目的和配置进行了详细描述。如果出现以下任何一种情况，LDAP 参考实施的部署都会受到漏洞的影响。下文详细讨论了这些情况及其规避方法：命令行参数用于配置 Python 守护进程有未使用的可选配置参数 LDAP 身份验证取决于特定的组的成员身份注：LDAP 参考实施作为参考实施发布，并且描述了集成的工作机制以及验证集成...

323

2022-08-24 08:00:00

端云协同创新优化音视频场景用户体验

// 编者按：相信大家手机里或者生活中都有大量字节产品线的应用，包括短视频、直播、社交等一系列的音视频应用场景，包括大量的音视频应用产品。今天LiveVideoStackCon 2022 音视频技术大会上海站邀请到了火山引擎智能互动特效解决方案总监范青老师，为我们分享在字节内部业务线和外部企业服务线里面，视频云产品和视觉特效算法融合的最佳实践以及在业务的落地环节中，字节在这些方面发现的一些创新点以及技术积累。文/范青整理/LiveVideoStack 大家下午好，我是范青，我来自火山引擎的智能美化特效团队，今天由我来代表我们组来给大家进行分享。今天我分享的主题是《端云协同创新优化音视频场景用户体验》。表面看上去音视频场景、用户体验这件事，与我们这个做特效的团队不是那么沾边。那么为什么会由我来进行这个分享呢？接下来给大家分享一个我亲身经历。 1、分享亲身经历，引入话题我们字节有To B企业服务的品牌，有时会把我们自己觉得用得还不错的各种组件提供给我们的企业客户。企业客户比较多的比如与音视频相关的，像短视频、直播行业之类的、拍照工具等，经常有客户和我说：“是不是自己使用了你们的美...

313

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。