每日一博 | 滴滴数据分析实践-低调大师

每日一博 | 滴滴数据分析实践

2020-08-20 693

↑ 点击上方 “凹凸数据” 关注 + 星标 ~

每天更新，干货&福利不断

hi，我是 Rilke Yang

这是一篇我关于滴滴的数据实战，之前首发在和鲸，这次投稿到凹凸数据，希望能够帮助到大家~

原文链接：https://www.kesci.com/home/project/5f06b0193af6a6002d0fa357

随着企业日常经营活动的进行，企业内部必然产生了各式各样的数据，如何利用这些数据得出有益的见解，并支持我们下一步的产品迭代以及领导决策就显得尤为重要。

A/B测试是互联网企业常用的一种基于数据的产品迭代方法，它的主要思想是在控制其他条件不变的前提下对不同（或同一、同质）样本设计不同实验水平（方案），并根据最终的数据变现来判断自变量对因变量的影响；A/B测试的理论基础主要源于数理统计中的假设检验部分，此部分统计学知识读者可自行探索。

长话短说，本次实战用到的数据集分为两个Excel文件，其中test.xlsx为滴滴出行某次A/B测试结果数据，city.xlsx为某城市运营数据。

数据说明

test.xlsx	city.xlsx
date：日期	date：日期
group：组别（控制组/实验组）	hour：时点
requests：订单请求数	requests：请求数
gmv：成交总额	trips：订单数
coupon per trip：每单优惠券金额	supply hours：可服务时长
trips：订单数	average minutes of trips：平均订单时长（分钟）
canceled requests：取消请求数	pETA：顾客预计等待时长
	aETA：顾客实际等待时长
	utiliz：司机在忙率

test.xlsx 数据可以用来判断实验条件对此次A/B测试的结果影响是否显著；city.xlsx 数据可以用来探索该城市运营中出现的问题，根据关键结论辅助决策。

在本文中，我们将使用该数据来做A/B测试效果分析与城市运营分析。

一、A/B测试效果分析

1、数据导入

#A/B测试结果数据导入

import pandas as pd

test = pd.read_excel('/home/kesci/input/didi4010/test.xlsx')
test.head()

2、计算ROI

#计算优惠券投入相对gmv的ROI

test['ROI']=test['gmv']/(test['coupon per trip']*test['trips'])
test.head()

3、requests检验

数据共58条，对照组与实验组各29条，样本量<30。

3.1 requests方差检验

记两组requests方差分别为从c1,c2
零假设H0：c1=c2；备选假设：H1：c1≠c2
显著性水平取0.05

#levene检验requests是否齐方差

requests_A=test[test.group=='control'].requests
requests_B=test[test.group=='experiment'].requests

import scipy.stats as st
st.levene(requests_A,requests_B)

p值大于0.05，不拒绝原假设，因此可认为两组实验requests齐方差。

3.2 requests均值检验

该数据为同一样本实验前后的不同水平，因此选用配对样本t检验。
记两组requests均值分别为从u1,u2
零假设H0：u1=u2；备选假设：H1：u1≠u2
显著性水平取0.05

#配对样本t检验（两独立样本t检验之前需检验是否齐方差，此处不需要）

st.ttest_rel(requests_A,requests_B)

p值大于0.05，不拒绝原假设，因此可认为实验条件对requests影响不显著。

4、gmv检验

4.1 gmv方差检验

#levene检验gmv是否齐方差

gmv_A=test[test.group=='control'].gmv
gmv_B=test[test.group=='experiment'].gmv

st.levene(gmv_A,gmv_B)

p值大于0.05，不拒绝原假设，因此可认为两组实验gmv齐方差。

4.2 gmv均值检验

#配对样本t检验（两独立样本t检验之前需检验是否齐方差，此处不需要）

st.ttest_rel(gmv_A,gmv_B)

p值小于0.05，拒绝原假设，因此可认为实验条件对gmv有显著影响。

5、ROI检验

5.1 ROI方差检验

#levene检验ROI是否齐方差

ROI_A=test[test.group=='control'].ROI
ROI_B=test[test.group=='experiment'].ROI

st.levene(ROI_A,ROI_B)

p值大于0.05，不拒绝原假设，因此可认为两组实验ROI齐方差。

5.2 ROI均值检验

#配对样本t检验（两独立样本t检验之前需检验是否齐方差，此处不需要）

st.ttest_rel(ROI_A,ROI_B)

p值小于0.05，拒绝原假设，因此可认为实验条件对ROI有显著影响。

二、城市运营分析

1、数据导入

#导入该城市运营相关数据

city = pd.read_excel('/home/kesci/input/didi4010/city.xlsx')
city.head()

#查看数据有无缺失值

city.info()

2、数据探索

2.1 单量最多的时间点

req_hour = city.groupby(['hour'],as_index=True).agg({'requests':sum},inplace=True)
req_hour

#绘制各时点订单请求柱状图

import matplotlib.pyplot as plt

req_hour.plot(kind='bar')
plt.xticks(rotation=0)

plt.show()

可见，在11、12、13这三个时间点内，12点用户发起订单的需求是最大的，其次是13点，11点。

司机运营平台应考虑加大该时点车辆供应。

2.2 单量最多的日期

req_date = city.groupby(['date'],as_index=True).agg({'requests':sum},inplace=True)
req_date.sort_values('date').head()

#绘制订单请求数随日期变化的折线图

req_date.plot(kind='line')

plt.show()

单月订单请求数随日期的变化呈周期性变化，我们猜测4个峰值分别对应4个周末，周末用户出行需求较大。

经验证发现猜想与数据吻合，因此司机运营平台应考虑加大周末、节假日的车辆供给。

2.3 各时段订单完成率

com_hour = city.groupby(['hour'],as_index=False).agg({'requests':sum,'trips':sum},inplace=True)
com_hour['rate']=com_hour['trips']/com_hour['requests']
com_hour

13点订单需求较多，但订单完成率仅47%，说明较多订单没有得到及时相应。

客运部应重点关注13点订单相应时长，排查具体原因。

2.4 单月每日订单完成率

com_date = city.groupby(['date'],as_index=True).agg({'requests':sum,'trips':sum},inplace=True)
com_date['rate']=com_date['trips']/com_date['requests']
com_date.sort_values('date').head()

#绘制订单完成率随日期变化的折线图

com_date.rate.plot(kind='line')

plt.show()

单月每日订单完成率规律不太明显，但几个谷值基本都出现在周末附近，说明客户出行需求的提升可能导致响应率的降低。

2.5 顾客等待时间

import numpy as np

eta_hour = city.groupby(['hour'],as_index=True).agg({'pETA':np.mean,'aETA':np.mean},inplace=True)
eta_hour

#绘制顾客等待时长复合柱状图

eta_hour.plot(kind='bar')

以上可见，无论哪个时点，用户实际等待时长均明显大于用户预计等待时长。

各时点用户等待时长差异不明显，但13点最高。

客运部一方面应提升用户预计等待时长的准确性，另一方面优化平台派单逻辑等。

2.6 司机在忙率

city['busy'] = city['supply hours']*city['utiliz']
city.head()

busy_hour = city.groupby(['hour'],as_index=False).agg({'supply hours':sum,'busy':sum})
busy_hour['utiliz'] = busy_hour['busy']/busy_hour['supply hours']
busy_hour

12点司机在忙总时长最长，在忙率也最高，用户订单请求也最多，说明车辆总数偏少。

2.7 订单时长

trip_min = city.groupby(['hour'],as_index=False).agg({'average minutes of trips':np.mean})
trip_min

12点用户订单需求较多，同时订单时长最长，说明这个时间点是一个非常重要的时间点。

supply_hour = city.groupby(['hour'],as_index=False).agg({'supply hours':np.mean})
supply_hour

13点订单量也较大，此时点司机服务时长较短。

为优化用户出行体验，司机运营平台可联合客运部可考虑此时段尽量分配总服务时长较长的司机来接单（经验较为丰富）。

3、后续思考方向：

提升顾客预计等待时长预测准确度（需要历史数据进行预测）
加大车辆投入（分车辆不同等级来看，因此可能需要车辆相关信息表）
优化用户体验（需要客诉相关数据）
优化平台派单逻辑（需要订单的位置相关数据）
个性化需求（需要用户属性、及其他行为数据）

本文相关代码下载：

https://alltodata.cowtransfer.com/s/9bb9acdc15ae40

推荐一本书，本周末统一上架

感谢北京大学出版社的大力支持

PS 当当新用户优惠码：DPC3CX

满60-20，亲测可以换手机号使用

本文分享自微信公众号 - 凹凸数据（alltodata）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4246997/blog/4477274

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Gitee 上线多项 PR 功能优化，进一步提升审查与提交效率

无论在开源项目贡献中还是研发团队的协作中，Pull Request 都是非常关键的一环，Gitee 也一直在努力优化 Pull Request 的使用体验。此前 Gitee 已经陆续上线了「轻量级 Pull Request」以及「Pull Request 代码已阅」功能，近期我们再次对 Gitee 的 Pull Request 模块进行了如下的升级： Pull Request 代码多行评论当审查者对一条 PR 进行审查时，可以使用评论功能对代码提出修改意见或发表看法，但想要进行多行代码的评论的话就变得很麻烦。 Gitee 现在已经支持审查者可以通过拖拽的方式选中多行代码进行评论，信息更全面，沟通更清晰。评论支持显示代码上下文以前在 PR 中遇到对代码的评论时，需要点击评论下方的「链接地址」才能看到对应的代码，体验并不是很好。现在 Gitee 已经支持了对代码的评论支持显示当时评论的代码内容及上下文，当对应评论的代码行被更新或对历史代码进行评论，评论都将自动标记为过期状态。提交 PR 时自动指定审查者以前在 Gitee 提交 Pull Request 时，需要创建 PR 的...

2020-08-19

683

本周，Grafana 的开发商Grafana Labs 宣布已完成5,000 万美元的B 轮融资。这笔资金将用于加快产品的研发速度，以及加大对 Grafana 社区的培养力度。本轮融资由Lightspeed Venture Partners 牵头，Lead Edge Capital 也进行了追加投资。这两家风投公司都曾在 2019 年 10 月参与Grafana Labs 的首轮融资，当时该公司筹得2,400 万美元。根据CrunchBase提供的数据，Grafana Labs 自 2015 年以来获得投资总计 7,520 万美元。 Grafana 是一款开源的可视化系统指标监控与分析平台，支持与包括Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB 等在内的众多数据源集成。之后，Grafana Labs 陆续推出了可扩展日志聚合系统Loki，和多租户时序平台Metrictank等开源项目。除此之外，该公司还拥有两项商业产品：Grafana Cloud 和Grafana 企业版。目前Grafana Labs拥有 1,000 多...

2020-08-20

972

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。