竞速榜实时离线对数方案演进介绍 | 京东云技术团队-低调大师

竞速榜实时离线对数方案演进介绍 | 京东云技术团队

2023-07-31 660

一、背景

竞速榜是大促期间各采销群提供的基于京东实时销售数据的排行榜，同样应对大促流量洪峰场景，通过榜单撬动品牌在京东增加资源投入。竞速榜基于用户配置规则进行实时数据计算，榜单排名在大促期间实时变化，相关排名数据在微博、朋友圈广泛传播，相关计算以及排名的准确性至关重要。

竞速榜的每个榜单配置规则都会有差异，为保障榜单数据计算准确，需要在大促开始前对榜单实时排名数据进行核对，主要验证方案为在第二天取前一天的实时排名数据，另外根据榜单规则配置信息，计算相关的离线数据，进行实时离线数据对比，验证数据的一致性。

单个榜单规则有20+个不同配置项，每个配置都相互独立，需要针对每个规则分别进行数据验证

二、对数方案演进过程

2.1、纯人工 - 成本高且无法完整覆盖

最初阶段为纯人工对数，分别获取对应竞速榜的实时和离线数据，进行人工比对

1）实时数据：每天23:59 定时读取榜单数据接口，记录对应榜单数据

2）离线数据：根据榜单规则手动编写离线SQL脚本，通过数据查询执行SQL获取榜单排名数据

整个操作过程消耗时间较长，SQL编写需要1小时，单SQL执行0.5小时，为覆盖所有规则，一次需要完成100多个规则的配置和SQL编写以及数据验证，在规则不变情况下，预计需要消耗20人日才能完成一次完整测试，且脚本编写需要对业务规则深入了解，对测试人员SQL水平要求也较高。

2.2、半自动化 - 持续消耗人力

竞速榜主要在大促期间使用，除功能测试覆盖规则外，在大促前还要对业务方配置的规则进行数据验证，确保用户配置规则的计算准确性，以23年618为例，共有5000+榜单规则，如果仍然使用纯人工验证数据的方案，需要900+天，完全不可行。因此实现了半自动化对数方案，和人工对数方案相比，解决了离线SQL的自动化生成，实时数据的自动获取等问题。

具体方案如下：

1、实时数据获取：基于榜单快照功能，自动记录榜单每日快照数据并写入数据库，

2、离线SQL生成和数据计算：

2.1、规则配置入库：通过系统自带的榜单规则导出功能，将榜单规则导出到excel，进而导入到hive表中；同时将榜单规则依赖的其他配置数据也导入到hive

2.2、规则化生成SQL：根据榜单规则配置信息，使用case when的方法，针对不同情况分别生成对应SQL片段，最后人工组合为上述SQL

2.3、合并SQL执行计算任务：将多个组合生成的SQL合并为1个，并配置离线调度任务，通过任务执行分别计算不同榜单的离线数据

2.4、数据推送到对数MySQL：将生成的离线榜单数据推送到实时数据存储的MySQL

3、实时离线数据对比：将实时和离线数据全部推送入数据库后，直接查询数据库，进行数据对比，并对超过阈值的数据进行高亮提示。

通过以上方法，完成了半自动化的实时离线对数，解决了人工对数中最消耗人力的SQL手动编写问题。但是，该方案仍然存在以下问题：

1. SQL需要人工介入：SQL的生成还存在多次人工操作，中间需要人工对生成的SQL进行调整

2. 规则变化引发SQL调整：在大促前，用户会持续调整规则，这样就导致之前配置好的SQL 和用户规则不一致，进而导致对应榜单对数失败，需要重新生成对应SQL，配置调度任务并重新执行对数操作。

在22年618和双11期间，主要是研发同学使用进行相关SQL调整和数据验证，需要3个开发人员持续3周，整体消耗人力45人日。

2.3、全自动化 - 解放人力

为了进一步解放人力消耗，将对数操作从半自动化升级到全自动化，需要实现以下内容

1. 无需人工介入，自动生成SQL，自动执行SQL

2. 执行用的SQL根据规则变化每日自动调整，保证SQL可以自动持续更新

完整的自动化对数方案如下图所示：

优化点细节：

1. 每天自动更新并存储SQL：榜单规则从手动页面导出变为每天自动抽取规则数据到HIVE中，进而每天自动更新目标SQL并将SQL存储到HIVE表中

2. 自动获取目标SQL并执行：将执行的目标SQL从HIVE中获取到后再执行SQL（使用了hive命令的一些特殊方法，预先获取到SQL再执行）

#HiveTask增加run_shell_cmd_out函数只返回标准流的内容在标准客户端执行如下python脚本
from HiveTask import HiveTask
ht = HiveTask()
ht.run_shell_cmd_out(shellcmd='hive -e "select *  from table;"')

该方案在23年618期间投入使用，恰逢研发团队交接，新团队毫无对数经验，且有其他业务同步进行，无法投入全量人力。通过全自动化对数，解放了研发人力投入，极大提高了大促备战效率。需要人力主要是测试同学对整个链路的调度任务进行维护性处理。

作者：京东零售王恒蕾、戚琪

来源：京东云开发者社区

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10091789

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【实践篇】最全的【DDD领域建模】小白学习手册（文末附资料） | 京东云技术团队

导读 DDD领域建模被各个大小厂商提起并应用，而每个人都有自己的理解，本文就是针对小白，系统地讲解DDD到底是什么，解决了什么问题，及一些建议和实践。本文主要是思想的一种碰撞和分享，希望能对朋友们有所启发或帮助。 1、前言：在当时的环境下，单体应用仍然是市场的主体，但是大型复杂软件系统已经出现，给团队的设计和开发工作带来了比较大的挑战。 DDD提供了一种新的设计思路，通过对于业务子域和限界上下文的划分，建立跨越业务和技术的统一语言，为业务建模的同时，拉通业务和技术实现。 DDD理论的提出，对整个软件架构设计领域，尤其是对微服务架构的设计产生了巨大的影响。那我们如何运用DDD来解决所面临的大型业务系统问题呢？在这里我们以中台业务为例，进行实践和应用。友情提示：看目录，从整体中深入内部去看 2、目前我们的现状： 2.1软件设计所面临的挑战 •软件开发的不不确定性贯穿了了整个软件工程的⽣生命周期。 •软件⼯程中不不可能有任何“银弹”解决软件的复杂度问题。 •软件⼯程核⼼实质是社会⼯程，优秀团队的竞争力来源于互相的信任及良好的沟通。 2.2软件工程的复杂度： •无法回避这种复杂性，...

2023-07-31

950

1 json对象的介绍在mysql未支持json数据类型时，我们通常使用varchar、blob或text的数据类型存储json字符串，对mysql来说，用户插入的数据只是序列化后的一个普通的字符串，不会对JSON文档本身的语法合法性做检查，文档的合法性需要用户自己保证。在使用时需要先将整个json对象从数据库读取出来，在内存中完成解析及相应的计算处理，这种方式增加了数据库的网络开销并降低处理效率。从 MySQL 5.7.8 开始，MySQL 支持RFC 7159定义的全部json 数据类型，具体的包含四种基本类型（strings, numbers, booleans,and null）和两种结构化类型（objects and arrays）。可以有效地访问 JSON文档中的数据。与将 JSON 格式的字符串存储在字符串列中相比，该数据类型具有以下优势：自动验证存储在 JSON列中的 JSON 文档。无效的文档会产生错误。优化的存储格式。存储在列中的 JSON 文档被转换为允许快速读取文档元素的内部格式。当读取 JSON 值时，不需要从文本表示中解析该值，使服务器能够直接通过键...

2023-07-31

876

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。