机器学习中的特征选择及其Python举例
1.关于特征选择
简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有用或最相关的那些特征。它是特征工程的一部分,在机器学习中,我们通常会面临非常多的特征变量,几十个甚至上百个。对于这些特征,一方面全部纳入机器学习算法中会导致计算机开销很大,影响训练效率,另一方面,部分特征并不与预测变量有太大相关,纳入算法中反而会降低模型的准确性,特别是在线性回归、逻辑回归等算法中。
特征选择的好处有:
减少过度拟合:减少冗余数据意味着根据噪声做出决策的机会减少。
提高准确度:减少误导性数据意味着提高建模精度。
缩短训练时间:减少数据意味着算法训练更快。
2.机器学习中的特征选择方案以及Python举例
下面以python的sklearn中自带iris鸢尾花数据集为例,来简单演示一些特征选择的案例以及Python