亿级搜索系统的基石,如何保障实时数据质量?
【金融特辑】光大银行科技部DBA女神带你从0到1揭秘MGR 阿里妹导读:突然而至的疫情,让线下娱乐几乎停摆。全国人民对于线上娱乐需求激增,在家追剧、在家上课、在家互动,还要时刻关注疫情动态。每时每刻,都有海量用户在优酷搜索自己想看的内容。千万级别的视频量,几十亿级别的信息量,如何能做到将信息及时有效的透出给用户?怎样保障数据准确无误的呈现呢? 阿里文娱有专门的搜索引擎算法团队做相关的探索。可你知道吗?在算法业务背后,面对数亿的视频数据,还有一支技艺高超的测试团队,在保障庞大数据系统的数据质量。 阿里文娱测试开发专家熙闫将通过本文讲述阿里文娱是如何构建实时数据质量保障体系,进而提升搜索引擎数据全面、快速、准确效果的,希望对大家有启发。 一、背景 优酷视频搜索是文娱分发场的最核心入口之一,数据源多、业务逻辑复杂,尤其是实时系统的质量保障是一个巨大挑战。如何保障数据质量,如何衡量数据变化对业务的影响?本文会做详细解答。 二、现状分析 搜索数据流程如下图所示,从内容生产到生成索引经历了复杂的数据处理流程,中间表多达千余张,实时数据消费即消失,难以追踪和复现。 从上图可以看出,整个系统以实时流模...
