Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
前天偶然在一个网站上看到一个数据分析的比赛(sofasofa),自己虽然学习一些关于机器学习的内容,但是并没有在比赛中实践过,于是我带着一种好奇心参加了这次比赛。 赛题:足球运动员身价估计比赛概述 本比赛为个人练习赛,主要针对于于数据新人进行自我练习、自我提高,与大家切磋。 练习赛时限:2018-03-05 至 2020-03-05 任务类型:回归 背景介绍: 每个足球运动员在转会市场都有各自的价码。本次数据练习的目的是根据球员的各项信息和能力值来预测该球员的市场价值。 根据以上描述,我们很容易可以判断出这是一个回归预测类的问题。当然,要想进行预测,我们首先要做的就是先看看数据的格式以及内容(由于参数太多,我就不一一列举了,大家可以直接去网上看,下面我简单贴个图): 简单了解了数据的格式以及大小以后,由于没有实践经验,我就凭自己的感觉,单纯的认为一下几个字段可能是最重要的: 字段 含义 club 该球员所属的俱乐部。该信息已经被编码。 league 该球员所在的联赛。已被编码。 potential 球员的潜力。数值变量。 international_reputation 国际知名度。数...