Spark机器学习5·回归模型(pyspark)
- 分类模型的预测目标是:类别编号
- 回归模型的预测目标是:实数变量
回归模型种类
线性模型
- 最小二乘回归模型
- 应用L2正则化时--岭回归(ridge regression)
- 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator)
决策树
- 不纯度度量方法:方差
0 准备数据
archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip
sed 1d hour.csv > hour_noheader.csv
0 运行环境
export SPARK_HOME=/Users/erichan/garden/spark-1.5.1-bin-hadoop2.6
export PY
