MRS大企业ERP流程实时数据湖加工最佳实践-低调大师

MRS大企业ERP流程实时数据湖加工最佳实践

2023-08-09 421

本文分享自华为云社区《MRS大企业ERP流程实时数据湖加工最佳实践》，作者：晋红轻。

本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进

案例实践需求解析：

业务描述

AE表：会计分录表，主要记录财务相关信息，可用于成本核算等业务计算。为业务最主要的表，称驱动表。
四通道表：实际为四个门店业务系统，主要记录销售记录信息。为成本核算、科目报表分析等业务提供信息佐证。可称为维表。

业务痛点

科目分析报表业务供数慢的痛点，数据时延高。
实际业务数据有内容更新，保证数据严格一致。
科目分析报表查询仅支持公司、科目、时段等少量查询条件。

实时数据湖方案优势

实时数据湖方案做增量加工，将传统供数压力卸载到每天、每小时、每分钟，100万数据查询只需要2min。
使用Hudi作为数据湖天然支持数据更新。
提供所有数据归档，可随时回溯。
支持科目、批名、凭证名、合同号等31个查询条件，大幅度减少用户导出数据后筛选过滤时间。支持用户基于页面直接分析。

实时数据湖方案实施挑战

流计算基于内存，峰值数据量过大会影响作业稳定性。
多流时延大，数据等待耗费大量内存资源，需考虑业务需求与使用资源的平衡。

流加工模型一：

模型一特点

•Hudi表流读能够减少整体内存开销，提高作业稳定性。

•以其中一条流为基准（左表），去比较另一条流（右表）

•会出现关联缺失的情况，以驱动表（AE表）的视角（新增&更新）

•1）四通道流早到，并且ttl到期后数据丢失

•2）四通道流晚到，AE流ttl到期后数据丢失

模型一局限：

•目标宽表数据会出现不准的情况

•源端新增因为关联不出有效结果造成目标宽表缺数 -> missing

•源端更改因为关联不出有效结果造成目标宽表延时 -> delay

流加工模型二：

补偿目的：

补偿目的：基于业务逻辑，对比源端流表和目的端宽表数据内容，发现目标宽表缺失数据主要字段，关联源表完整内容找出缺失数据，并写回源端表补偿层。

missing&delay补偿模拟：

模型二特点：比较方案一增加补偿机制，能够对比源表（AE表，四通道表）以及目标宽表，找出缺失数据missing, delay。

模型二局限：实际情况双流之间时延可能较大、对齐较难，虽然能够使用补偿机制找回缺失数据，但是这样流加工任务主要角色会被弱化，同时会对补偿任务造成更大压力，数据时延会变大。

流加工模型三（最终）：

双写目的：业务系统持续向Hudi表，HBase表双写数据。Hudi表流读，提供主要热关联数据，HBase存储所有历史数据，技术上就是维度表，为热关联失败之后进行快速点查补数(lookup join)得到有效关联。提高双流关联的命中率。减少流加工整体数据时延。

维表选型：

模型总结：

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10094194

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于Pair-wise和CrossEncoder训练单塔模型

本文分享自华为云社区《语义检索系统排序模块：基于ERNIE-Gram的Pair-wise和基于RocketQA的CrossEncoder训练单塔模型》，作者：汀丶。文本匹配任务数据每一个样本通常由两个文本组成（query，title）。类别形式为 0 或 1，0 表示 query 与 title 不匹配； 1 表示匹配。基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高,适合直接进行语义匹配 2 分类的应用场景。基于单塔 Pair-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高,对文本相似度大小的序关系建模能力更强，适合将相似度特征作为上层排序模块输入特征的应用场景。基于双塔 Point-Wise 范式的语义匹配模型这2 种方案计算效率更高，适合对延时要求高、根据语义相似度进行粗排的应用场景。 Pointwise：输入两个文本和一个标签，可看作为一个分类问题，即判断输入的两个文本是否匹配。 Pairwise：输入为三个文本，分别为Query以及对应的正样本和负样本，该训练方式考...

2023-08-09

418

本文分享自华为云社区《用户空间协议栈设计和netmap综合指南，将网络效率提升到新高度》，作者：Lion Long 。协议概念 1.1、七层网络模型和五层网络模型应用层：最接近用户的一层，为用户程序提供网络服务。主要协议有HTTP、FTP、TFTP、SMTP、DNS、POP3、DHCP等。表示层：数据的表示、安全、压缩。管理数据的解密和加密。会话层：负责在网络中的两个节点之间的建立、维持和终止通信。传输层：模型中最重要的一层，负责传输协议的流控和差错校验。数据包离开网卡后进入的就是传输层；主要协议有：TCP、UDP等。网络层：将网络地址翻译成对应的物理地址。主要协议有：ICMP、IP等。数据链路层：建立逻辑连接、进行硬件地址寻址、差错校验等功能，解决两台相连主机之间的通信问题。主要协议有SLIP、以太网协议/MAC帧协议、ARP和RARP等。物理层：模型的最低层，建立、维护、断开物理连接，传输比特流。常见的物理媒介有光纤、电缆、中继器等。主要协议有RS232等。 1.2、以太网以太网不是一种网络，而是一种局域网技术，它既有数据链路层内容，也有一些物理层内容。局域网技术...

2023-08-10

374

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。