DC学院学习笔记（二十一）：用特征选择方法优化模型（二）

2018-02-18 760

随机森林特征选择法 —— Gini Importance

原理：
使用Gini指数表示节点的纯度，Gini指数越大纯度越低。然后计算每个节点的Gini 指数 - 子节点的Gini 指数之和，记为Gini decrease。最后将所有树上相同特征节点的Gini decrease加权的和记为Gini importance，该数值会在0-1之间，该数值越大即代表该节点（特征）重要性越大。

涉及参数计算：
Gini index：衡量决策树每一棵树上的节点上面所存在的数据的纯净度的一个指标。这个值越小，纯净度越高。
公式：

$p_{i}$是节点内各个特征所占的概率。

OK,原理不再多说了。

随机森林特征选择法 —— Mean Decrease Accuracy

原理：主要思路是打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。很明显，对于不重要的变量来说，打乱顺序对模型的精确率影响不会太大，但是对于重要的变量来说，打乱顺序就会降低模型的精确率。

实现步骤：
1.训练出一个随机森林模型，在测试集检验得到accuracy0;
2.随机重排(permutation)测试集某特征xi，检验得到accuracyi;
3.(accuracy0 - accuracyi)/accuracy0,即为特征xi的重要性。

Python实现：

from sklearn.metrics import accuracy_score
from sklearn.model_selection import ShuffleSplit

rs = ShuffleSplit(n_splits=10,test_size=0.1)
scores = np.zeros((10,4))
count = 0
for train_idx, test_idx in rs.split(X):
    X_train , X_test = X[train_idx] , X[test_idx]
    y_train , y_test = y[train_idx] , y[test_idx]
    r = rf.fit(X_train,y_train)
    acc = accuracy_score(y_test,rf.predict(X_test))
    for i in range(len(features)):
        X_t = X_test.copy()
        np.random.shuffle(X_t[:, i])
        shuff_acc = accuracy_score(y_test,rf.predict(X_t))
        scores[count,i] = ((acc-shuff_acc)/acc)
    count += 1
print(np.mean(scores,axis=0))

[ 0.24150183  0.35630037  0.00666667  0.        ]

可以看出来，前两个特征是比后两个特征重要得多的。

线性回归特征选择：L1正则化Lasso

什么是正则化？：监督机器学习问题无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。

正则化的作用：
1、约束参数，降低模型复杂度。
2、规则项的使用还可以约束我们的模型的特性。这样就可以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。

L1范数：向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。

L1范数的作用：由于L1范数的天然性质，对L1优化的解是一个稀疏解，因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏，去掉一些没有信息的特征，例如在对用户的电影爱好做分类的时候，用户有100个特征，可能只有十几个特征是对分类有用的，大部分特征如身高体重等可能都是无用的，利用L1范数就可以过滤掉。

L1正则化Lasso

普通线性回归：
普通线性回归目标函数：
Lasso目标函数：

其中

是L1正则化项。θ越大，对于系数α的惩罚就会越严重，所以会有更多的系数倾向于0（因为要使目标函数尽可能小，所以系数α会尽量变小）；θ越小，对于系数α的惩罚就越轻，回归得到的系数会越接近于普通线性回归。

L1正则化python实现：

import pandas
import numpy as np
from sklearn import linear_model
from sklearn.preprocessing import LabelEncoder

iris = pandas.read_csv("iris.csv")
le = LabelEncoder()
le.fit(iris['Species'])
lm = linear_model.Lasso(0.02)
features = ['PetalLengthCm','PetalWidthCm','SepalLengthCm','SepalWidthCm']
y = np.array(le.transform(iris['Species']))
X = np.array(iris[features])

lm.fit(X,y)
print(lm.coef_)

[ 0.28777819  0.35160589 -0.         -0.        ]

同样的，通过L1正则化Lasso，我们也得到了前两个特征比后两个重要。

微信关注我们

原文链接：https://yq.aliyun.com/articles/479094

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DC学院学习笔记（二十）：用特征选择方法优化模型

特征选择的定义：特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。特征选择的方法：数据驱动：分析手上已有的训练数据，得出哪些x里面的特征对预测y最重要的。主要的三大种类方法如下：相关性：考察在我们已有的数据里面的特征x与预测值y的相关度迭代删除（增加）：确定要使用哪个算法后，选择最合适的训练子集，从而使得模型的效果最好基于模型：通过随机森林等可以直接得出每个训练特征的重要性的模型；或者是在进行预测时加入的一些正则化调整，引起的对特征的筛选，从而挑选出最重要的特征领域专家：通过相关领域的专家知识、经验来挑选特征相关性系数：皮尔逊系数定义：在统计学中，皮尔逊积矩相关系数（英语...

2018-02-18

807

图像与原始字节之间的转换：从概念上，一个字节能表示0到255的整数，通常一个像素每个通道由一个字节表示。一个OpenCV图像是.array类型的二维或者三维数组。8位的灰度图像是一个含有字节值得二维数组。一个24位的BGR图像是一个三维数组，也包含了字节值，可以使用表达式访问这些值，如image[0,0]或者image[0,0,0]。第一个值表示y坐标，第二个值表示x坐标，第三个值为颜色通道。还可以使用image.item((0,0))或image.setitem((0,0),128)来访问像素和对像素进行操作。若一幅图像的每个通道为8位，则可以将其显式转换为标准的移位Python bytearray格式： byteArray=bytearray(image) bytearray含有恰当顺序的字节，可以通过显式转换和重构，得到numpy.array形式的图像： grayImage=numpy.array(grayByteArray).reshape(height,width) bgrImage=numpy.array(bgrByteArray).reshape(height,width...

2018-02-18

713

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

DC学院学习笔记（二十一）：用特征选择方法优化模型（二）

随机森林特征选择法 —— Gini Importance

更多请看我之前写的博客：

随机森林特征选择法 —— Mean Decrease Accuracy

线性回归特征选择：L1正则化Lasso

DC学院学习笔记（二十）：用特征选择方法优化模型

python-opencv学习笔记（二）

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Rocky Linux

WebStorm

欢迎您来访！