每日一博 | 滴滴数据分析实践
hi,我是 Rilke Yang
这是一篇我关于滴滴的数据实战,之前首发在和鲸,这次投稿到凹凸数据,希望能够帮助到大家~
原文链接:https://www.kesci.com/home/project/5f06b0193af6a6002d0fa357
随着企业日常经营活动的进行,企业内部必然产生了各式各样的数据,如何利用这些数据得出有益的见解,并支持我们下一步的产品迭代以及领导决策就显得尤为重要。
A/B测试是互联网企业常用的一种基于数据的产品迭代方法,它的主要思想是在控制其他条件不变的前提下对不同(或同一、同质)样本设计不同实验水平(方案),并根据最终的数据变现来判断自变量对因变量的影响;A/B测试的理论基础主要源于数理统计中的假设检验部分,此部分统计学知识读者可自行探索。
长话短说,本次实战用到的数据集分为两个Excel文件,其中test.xlsx为滴滴出行某次A/B测试结果数据,city.xlsx为某城市运营数据。
数据说明
test.xlsx | city.xlsx |
---|---|
date:日期 | date:日期 |
group:组别(控制组/实验组) | hour:时点 |
requests:订单请求数 | requests:请求数 |
gmv:成交总额 | trips:订单数 |
coupon per trip:每单优惠券金额 | supply hours:可服务时长 |
trips:订单数 | average minutes of trips:平均订单时长(分钟) |
canceled requests:取消请求数 | pETA:顾客预计等待时长 |
aETA:顾客实际等待时长 | |
utiliz:司机在忙率 |
test.xlsx 数据可以用来判断实验条件对此次A/B测试的结果影响是否显著;city.xlsx 数据可以用来探索该城市运营中出现的问题,根据关键结论辅助决策。
在本文中,我们将使用该数据来做A/B测试效果分析与城市运营分析。
一、A/B测试效果分析
1、数据导入
#A/B测试结果数据导入
import pandas as pd
test = pd.read_excel('/home/kesci/input/didi4010/test.xlsx')
test.head()
2、计算ROI
#计算优惠券投入相对gmv的ROI
test['ROI']=test['gmv']/(test['coupon per trip']*test['trips'])
test.head()
3、requests检验
数据共58条,对照组与实验组各29条,样本量<30。
3.1 requests方差检验
-
记两组requests方差分别为从c1,c2 -
零假设H0:c1=c2;备选假设:H1:c1≠c2 -
显著性水平取0.05
#levene检验requests是否齐方差
requests_A=test[test.group=='control'].requests
requests_B=test[test.group=='experiment'].requests
import scipy.stats as st
st.levene(requests_A,requests_B)
p值大于0.05,不拒绝原假设,因此可认为两组实验requests齐方差。
3.2 requests均值检验
-
该数据为同一样本实验前后的不同水平,因此选用配对样本t检验。 -
记两组requests均值分别为从u1,u2 -
零假设H0:u1=u2;备选假设:H1:u1≠u2 -
显著性水平取0.05
#配对样本t检验(两独立样本t检验之前需检验是否齐方差,此处不需要)
st.ttest_rel(requests_A,requests_B)
p值大于0.05,不拒绝原假设,因此可认为实验条件对requests影响不显著。
4、gmv检验
4.1 gmv方差检验
#levene检验gmv是否齐方差
gmv_A=test[test.group=='control'].gmv
gmv_B=test[test.group=='experiment'].gmv
st.levene(gmv_A,gmv_B)
p值大于0.05,不拒绝原假设,因此可认为两组实验gmv齐方差。
4.2 gmv均值检验
#配对样本t检验(两独立样本t检验之前需检验是否齐方差,此处不需要)
st.ttest_rel(gmv_A,gmv_B)
p值小于0.05,拒绝原假设,因此可认为实验条件对gmv有显著影响。
5、ROI检验
5.1 ROI方差检验
#levene检验ROI是否齐方差
ROI_A=test[test.group=='control'].ROI
ROI_B=test[test.group=='experiment'].ROI
st.levene(ROI_A,ROI_B)
p值大于0.05,不拒绝原假设,因此可认为两组实验ROI齐方差。
5.2 ROI均值检验
#配对样本t检验(两独立样本t检验之前需检验是否齐方差,此处不需要)
st.ttest_rel(ROI_A,ROI_B)
p值小于0.05,拒绝原假设,因此可认为实验条件对ROI有显著影响。
二、城市运营分析
1、数据导入
#导入该城市运营相关数据
city = pd.read_excel('/home/kesci/input/didi4010/city.xlsx')
city.head()
#查看数据有无缺失值
city.info()
2、数据探索
2.1 单量最多的时间点
req_hour = city.groupby(['hour'],as_index=True).agg({'requests':sum},inplace=True)
req_hour
#绘制各时点订单请求柱状图
import matplotlib.pyplot as plt
req_hour.plot(kind='bar')
plt.xticks(rotation=0)
plt.show()
可见,在11、12、13这三个时间点内,12点用户发起订单的需求是最大的,其次是13点,11点。
司机运营平台应考虑加大该时点车辆供应。
2.2 单量最多的日期
req_date = city.groupby(['date'],as_index=True).agg({'requests':sum},inplace=True)
req_date.sort_values('date').head()
#绘制订单请求数随日期变化的折线图
req_date.plot(kind='line')
plt.show()
单月订单请求数随日期的变化呈周期性变化,我们猜测4个峰值分别对应4个周末,周末用户出行需求较大。
经验证发现猜想与数据吻合,因此司机运营平台应考虑加大周末、节假日的车辆供给。
2.3 各时段订单完成率
com_hour = city.groupby(['hour'],as_index=False).agg({'requests':sum,'trips':sum},inplace=True)
com_hour['rate']=com_hour['trips']/com_hour['requests']
com_hour
13点订单需求较多,但订单完成率仅47%,说明较多订单没有得到及时相应。
客运部应重点关注13点订单相应时长,排查具体原因。
2.4 单月每日订单完成率
com_date = city.groupby(['date'],as_index=True).agg({'requests':sum,'trips':sum},inplace=True)
com_date['rate']=com_date['trips']/com_date['requests']
com_date.sort_values('date').head()
#绘制订单完成率随日期变化的折线图
com_date.rate.plot(kind='line')
plt.show()
单月每日订单完成率规律不太明显,但几个谷值基本都出现在周末附近,说明客户出行需求的提升可能导致响应率的降低。
2.5 顾客等待时间
import numpy as np
eta_hour = city.groupby(['hour'],as_index=True).agg({'pETA':np.mean,'aETA':np.mean},inplace=True)
eta_hour
#绘制顾客等待时长复合柱状图
eta_hour.plot(kind='bar')
以上可见,无论哪个时点,用户实际等待时长均明显大于用户预计等待时长。
各时点用户等待时长差异不明显,但13点最高。
客运部一方面应提升用户预计等待时长的准确性,另一方面优化平台派单逻辑等。
2.6 司机在忙率
city['busy'] = city['supply hours']*city['utiliz']
city.head()
busy_hour = city.groupby(['hour'],as_index=False).agg({'supply hours':sum,'busy':sum})
busy_hour['utiliz'] = busy_hour['busy']/busy_hour['supply hours']
busy_hour
12点司机在忙总时长最长,在忙率也最高,用户订单请求也最多,说明车辆总数偏少。
2.7 订单时长
trip_min = city.groupby(['hour'],as_index=False).agg({'average minutes of trips':np.mean})
trip_min
12点用户订单需求较多,同时订单时长最长,说明这个时间点是一个非常重要的时间点。
supply_hour = city.groupby(['hour'],as_index=False).agg({'supply hours':np.mean})
supply_hour
13点订单量也较大,此时点司机服务时长较短。
为优化用户出行体验,司机运营平台可联合客运部可考虑此时段尽量分配总服务时长较长的司机来接单(经验较为丰富)。
3、后续思考方向:
-
提升顾客预计等待时长预测准确度(需要历史数据进行预测) -
加大车辆投入(分车辆不同等级来看,因此可能需要车辆相关信息表) -
优化用户体验(需要客诉相关数据) -
优化平台派单逻辑(需要订单的位置相关数据) -
个性化需求(需要用户属性、及其他行为数据)
本文相关代码下载:
https://alltodata.cowtransfer.com/s/9bb9acdc15ae40
推荐一本书,本周末统一上架
感谢北京大学出版社的大力支持
PS 当当新用户优惠码:DPC3CX
满60-20,亲测可以换手机号使用
本文分享自微信公众号 - 凹凸数据(alltodata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Gitee 上线多项 PR 功能优化,进一步提升审查与提交效率
无论在开源项目贡献中还是研发团队的协作中,Pull Request 都是非常关键的一环,Gitee 也一直在努力优化 Pull Request 的使用体验。 此前 Gitee 已经陆续上线了「轻量级 Pull Request」以及「Pull Request 代码已阅」功能,近期我们再次对 Gitee 的 Pull Request 模块进行了如下的升级: Pull Request 代码多行评论 当审查者对一条 PR 进行审查时,可以使用评论功能对代码提出修改意见或发表看法,但想要进行多行代码的评论的话就变得很麻烦。 Gitee 现在已经支持审查者可以通过拖拽的方式选中多行代码进行评论,信息更全面,沟通更清晰。 评论支持显示代码上下文 以前在 PR 中遇到对代码的评论时,需要点击评论下方的「链接地址」才能看到对应的代码,体验并不是很好。 现在 Gitee 已经支持了对代码的评论支持显示当时评论的代码内容及上下文,当对应评论的代码行被更新或对历史代码进行评论,评论都将自动标记为过期状态。 提交 PR 时自动指定审查者 以前在 Gitee 提交 Pull Request 时,需要创建 PR 的...
-
下一篇
Grafana Labs 获 5000 万美元 B 轮融资
本周,Grafana 的开发商Grafana Labs 宣布已完成5,000 万美元的B 轮融资。这笔资金将用于加快产品的研发速度,以及加大对 Grafana 社区的培养力度。 本轮融资由Lightspeed Venture Partners 牵头,Lead Edge Capital 也进行了追加投资。这两家风投公司都曾在 2019 年 10 月参与Grafana Labs 的首轮融资,当时该公司筹得2,400 万美元。根据CrunchBase提供的数据,Grafana Labs 自 2015 年以来获得投资总计 7,520 万美元。 Grafana 是一款开源的可视化系统指标监控与分析平台,支持与包括Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB 等在内的众多数据源集成。之后,Grafana Labs 陆续推出了可扩展日志聚合系统Loki,和多租户时序平台Metrictank等开源项目。除此之外,该公司还拥有两项商业产品:Grafana Cloud 和Grafana 企业版。 目前Grafana Labs拥有 1,000 多...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- MySQL数据库在高并发下的优化方案
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果