基于Spark的机器学习实践 (六) - 基础统计模块
0 相关源码
1 基础统计模块及常用统计学知识介绍
◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分
◆ Basic Statistics主要包括Correlation 与Hypothesis testing等
◆ 其大多被封装在orq.apache spark.mllib.stat._ 中
1.1 基础统计学知识
1.1.1 常用的统计学知识
◆ 描述性统计
平均数,方差,众数,中位数...
◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度
◆ 假设检验
根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测
2 实战统计汇总
◆ 实战的数据来源是北京市历年降水量数据
◆ 学习使用spark对数据进描述性统计
◆ 在进行机器学习模型的训练前,可以了解数据集的