导读:数据分析就是要从杂乱无章的数据中将某个或者某些核心指标做提炼、归纳、总结,找到某个规律,但往往得到的结论不足以支撑下一步的动作,劳心劳力最后无果,又要再继续深挖。本文并不是一篇专业的数据分析方法论,而是从研发角度对自己做的一些数据分析进行思考和总结。
什么是数据分析
![]()
数据分析其实有个高大上的名字--“Business Intelligence”,简称:“BI”,是指将观察、测量、实验以及生产活动过程中产生的数据通过统计学等方法做归纳、总结、理解,以得到某项结论,用来发现业务中的问题、验证某个方向的正确性、业务现状可视化等等。
数据分析的工作是痛苦的,要从杂乱无章的数据中将某个或者某些核心指标做提炼、归纳、总结,找到某个规律,而且经常得到的结论不足以支撑下一步的动作,劳心劳力最后无果,又要再继续深挖。专业的数据分析师除了SQL脚本,往往需要很好的数学、统计学、概率论、算法等专业知识的支持。做为一名研发工程师,日常的数据分析往往不需要这么多专业领域的知识,但比起做编码工作也是痛苦很多。
为什么研发要做数据分析
有人说数据分析是BI工程师的事情,但现实情况是BI们往往在做业务方最关心的数据、最关心的问题等方向的分析。你做了某个小日常,要看这个小功能上线后的表现应该是自己的事情;此外数据分析是门复杂的学科,需要无止尽的探索,每个人思考的方向都会不一样,在开发的角度有开发的思考方式,所谓“行走江湖、技多不压身”,多做一些,很可能打开新世界的大门。
在我看来,研发做数据分析往往基于以下几个目的:
怎么做研发角度的数据分析
这部分结合我们拍卖业务“拍下率”的目标来理一下我的分析过程。
▐ 理解问题(目标)
![image]()
什么是拍下率?在拍卖的业务中,用户到最终成交大概会经历几个步骤,“浏览拍品”->“订阅”商品\对商品“交保证金”->对商品“出价”->获胜->履约。一旦有用户对某个商品出了价,该商品就一定会拍下,拍下率就是有出价的商品数量/全部商品数量。
![image]()
公式有了之后,就要开始分析两个因子,全部商品数量来自于业务方的供给,BD来了多少商品上拍我们做为技术几乎很难影响(实际情况是我们可以做一些对货品要求上的指导决策),没道理BD同学辛辛苦苦谈下来的资产到平台无法上拍不是。
那么我们能做的就是尽量让有出价的商品数量变大,从转化漏斗的角度,我们的核心操作就是要提升浏览拍品的绝对值,增加后续各个路径的转化率,但由于拍品大部分都是大资产,笔单价几十万级别,理想中的转化漏斗实际操作起来非常复杂。所以我们团队做了很多的数据分析。
▐ 现状梳理
![image]()
(此处为模拟数据)
公式都已经定义了,数据分析的一步就是把这个公式实现成报表,看看当前这个指标的现状是怎样的。
这一步是常规操作,我们很快的做了近两年的拍下率大盘,但是新的问题又来了,由于拍卖业务的特殊性,大盘建立后,我们发现这个指标的波动特别大,完全没办法指导我们后续的动作。于是不得不再做分析。
▐ 由简入繁
![image]()
前面的公式知道了拍下率其实可以拆解为两个因子:有出价商品数量和全部商品数量,那么就将这两个指标展开看一下,比如:
前面这些情况其实我们从货的角度、人的角度、时间、地理位置等等各个因素去入手,尽可能的发现问题,但是我们会发现按这个思路把问题拆解下去,维度是无限的,要适时总结,得出可以指导下一步动作的结论就好。
▐ 归纳、总结
如何做好归纳总结这一步其实比前面的数据分析更重要,我理解最关键的点是“相关性”,一旦当前的数据已经和你最初的问呈现较为明显的正向相关,基本就可以了。
![image]()
分析拍下率的问题中,我们得到了三个因素相关性很高,我们称为影响拍下率的三座大山:
批量拍品:拍卖的业务中存在大量的机构一下子发几百套房子,但最终拍下很少,这类case会造成拍下率极不稳定。一旦这种拍品出现会发现我们站内的流量基本都是不足的,因此我们采用短信、push、外呼等主动触达手动再加上算法挖掘为这类拍品补足流量。
腰部拍品:我们的拍品结构很复杂,有价格很低的房子(比如1元起拍的、11.11元起拍的等),这种房子我们定义为头部商品;相反那些和市场价基本持平甚至超出市场价的很多的,基本大概率卖不出去,我们定义为尾部商品;中间的那一些就是腰部商品,分析中发现这部分腰部商品结构变化造成了拍下率波动。(真实的腰部拍品定义其实不光是价格因素,这里只是简单举例)。
![image]()
地理位置:比如同样的房子,杭州的用户心智较成熟,对应的杭州的房子就比较好拍下,拍下率就远比其他地方高。相比某个地区的三四线城市,拍下率就很低,我们在分析问题时,也会不同地区的拍下率分开处理。
▐ 验证迭代
上面经过归纳总结,我们得到了一些关键动作:
总结
总体来讲,数据分析就是一个总-分-总的过程:
数据分析的道路永无止境,1个问题可以拆出N个指标,N个指标相互聚合又会有N*N个指标,分析过程中又会出现M新个指标……,所以适时做归纳、总结,看看当前结论是否可以支持最初的问题,指导下一步的行动、得出有效结论即可。
回归到开发视角,做数据分析的前提是要有数据,开发过程中,除了基础的业务模型设计,还要考虑多记录一些日志,比如接口耗时、必要的报错信息、可辅助数据分析的一部分业务数据、一些关键节点的行为日志等等。
最后,多思考为什么?为什么我的主管会定某个指标为目标?我所负责的部分对这个目标有哪方面的帮助?团队中其他人的部分怎么配合起来共赢,他们的子目标是什么?站在更高的角度思考这些问题,对业务、数据、技术的理解都会更通透。
阿里 拍卖是全球超 大活跃的在线拍卖平台,GMV 规模超过 6 千亿,年服务消费者 2 亿,一年成交 10 万套二手房。 年平均 营收增长 100% 以上,万亿蓝海市场赛道独角兽,中国5亿新中产的网购顶级俱乐部。 阿里 拍卖技术部是一支拥有前端、后端 、测试、算法等全建制技术团队,人数70+,我们既有背 靠淘系技术设施 的优 势,又有结合独特 拍卖行业特性的行业技术解决方案。
招聘岗位:JAVA开发、算法、前端、测试、客户端
内推邮箱:jianping.xwh@alibaba-inc.com