DC学院学习笔记（十八）：其它常用回归和分类算法

2018-02-17 630

主要内容是三个算法：kNN、DecisionTree、RandomForest，以及集成学习的思想

k近邻（kNN）

原理：看新样本和训练集中的样本最接近的是哪一类，往往需要引入距离的计算
距离：根据特征向量X计算不同样本之间的距离，d(X’,X”)，最常用的是欧式距离
k近邻回归 :找到距离最近的K个样本，计算平均值
k近邻分类 :找到距离最近的K个样本，少数服从多数

也可在算法中将距离作为权重加权（如weight=1/d），使得离待判样本越近距离的训练集样本的权重越大

1.在Python中调用KNN算法

依旧使用到scikit-learn库

#用neighbors包来实现k近邻
from sklearn import neighbors
#k近邻分类
knn=neighbors.KNeighborsClassifier(n_neighbors,weights='uniform')
#k近邻回归
knn=neighbors.KNeighborsRegressor(n_neighbors,weights='uniform')

#训练模型
knn.fit(X,y)
score=cross_val_score(knn,X,y,scoring='设定参数')
#n_neighbors参数为近邻的数量k
#weights参数可以设定为uniform（即k个近邻点的权重都相同） 或者 distance（即k个近邻点的权重为距离的倒数）

2.iris数据集上使用KNN进行分类

#导入iris的数据集
import pandas 
iris =pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)
iris.columns=['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm','Species']
#iris.sample(10)

#数值化species字段

from sklearn.preprocessing import LabelEncoder
#初始化label
le=LabelEncoder()
le.fit(iris['Species'])
#用离散值转化标签值
y=le.transform(iris['Species'])
#print(y)

features=['PetalLengthCm']
X=iris[features]
from sklearn import neighbors
#k近邻分类，这里选择5个近邻
knn=neighbors.KNeighborsClassifier(5,weights='uniform')
#可以使用fit 或者cross_val_score 函数来得到结果
from sklearn.model_selection import cross_val_score
score=cross_val_score(knn,X,y,cv=5,scoring='accuracy')

import numpy as np
print(np.mean(score))

0.946666666667

3.iris数据集上使用KNN进行回归

features=['PetalLengthCm']
X=iris[features]
from sklearn import neighbors
#k近邻回归
knn=neighbors.KNeighborsRegressor(5,weights='uniform')

#可以使用fit 或者cross_val_score函数来得到结果,修改成回归的评分标准
from sklearn.model_selection import cross_val_score
score=-cross_val_score(knn,X,y,cv=5,scoring='neg_mean_squared_error')

print(np.mean(score))

0.0722666666667

决策树(Decision Tree)

每个节点上对某个特征进行判断，根据结果转向某个分支，如图是一个决策树示意图，每个节点根据某个条件分裂节点

1.在Python中调用决策树算法

from sklearn import tree 
#决策树分类
dt=tree.DecisionTreeClassifier()
#决策树回归
dt=tree.DecisionTreeRegressor()

2.iris数据集上应用决策树分类

from sklearn import tree
#设定X，y值
features=['SepalLengthCm','SepalWidthCm','PetalLengthCm']
X=iris[features]

from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
le.fit(iris['Species'])
y=le.transform(iris['Species'])
#设定模型
dt=tree.DecisionTreeClassifier()
#训练模型，并得到准确率
from sklearn.model_selection import cross_val_score

score=cross_val_score(dt,X,y,cv=5,scoring='accuracy')
print(np.mean(score))

0.913333333333

3.iris数据集上应用决策树回归

from sklearn import tree
#重新设定X，y值,回归对象是iris花的PetalWidthCm
features=['SepalLengthCm','SepalWidthCm','PetalLengthCm']
X=iris[features]
y=iris['PetalWidthCm']
#设定决策树回归的模型
dt=tree.DecisionTreeRegressor()
from sklearn.model_selection import cross_val_score
scores=-cross_val_score(dt,X,y,scoring='neg_mean_squared_error')
print(np.mean(scores))

0.604266666667

随机森林

随机森林算法可以用于解决分类和回归问题，在决策树的基础上，引入了多棵决策树，并综合所有决策树，根据少数服从多数（majority voting）或者求平均值等原则，得出结果，下图是随机森林的示意图:

一般而言，随机森林的分类和回归的效果会比KNN、Decision Tree更好

集成学习：构建多个模型，使用某种策略将多个结果集成起来，作为最终结果，随机森林也属于集成学习，随机森林回归可以通过对各个模型结果加权平均得到结果，随机森林分类可以通过majority voting原则来决定结果

1.Python调用随机森林算法

from sklearn import ensemble
#随机森林分类
rf=ensemble.RandomForestClassifier(决策树数)
#随机森林回归
rf=ensemble.RandomForestRegressor(决策树数)
rf.fit(X,y)

2.iris数据集上应用随机森林分类

from sklearn import ensemble
#设定随机森林分类模型
rf=ensemble.RandomForestClassifier(10)
from sklearn.model_selection import cross_val_score
#随机森林分类,X,y可以根据你想探究的字段之间的关系进行设置
features=['SepalLengthCm','SepalWidthCm','PetalLengthCm']
X=iris[features]
from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
le.fit(iris['Species'])
y=le.transform(iris['Species'])
#评估分类模型性能
score=cross_val_score(rf,X,y,cv=5,scoring='accuracy')
print(np.mean(score))

0.933333333333

3.iris数据集上随机森林回归

from sklearn import ensemble
#设定随机森林回归模型
rf=ensemble.RandomForestRegressor(10)
#随机森林分类,X,y可以根据你想探究的字段之间的关系进行设置
features=['SepalLengthCm','SepalWidthCm','PetalLengthCm']
X=iris[features]
y=iris['PetalWidthCm']
#评估模型性能
score=-cross_val_score(rf,X,y,cv=5,scoring='neg_mean_squared_error')
print(np.mean(score))

0.0414655696296

微信关注我们

原文链接：https://yq.aliyun.com/articles/478103

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

IDEA下从零开始搭建SpringBoot工程

IDEA下从零开始搭建SpringBoot工程 SpringBoot的具体介绍可以参看其他网上介绍，这里就不多说了，就这几天的学习，个人理解，简而言之：（1）它是Spring的升级版，Spring容器能做到的事情，它都能做到，而且更简便，从配置形式上来说，SpringBoot完全抛弃了繁琐的XML文件配置方式，而是替代性地用注解方式来实现，虽然本质来说，是差不多的（类似包扫描，注解扫描，类加载之类）。（2）SpringBoot集成的插件更多，从而使用很多服务，都只是引入一个依赖，几个注解和Java类就可以用了，具体的参考相关手册。（3）在Web应用开发这一块，之前的应用一般来说是打包成war包，再发布到相关服务器容器下（例如Tomcat），虽然SpringBoot也可以这么做，但在SpringBoot下更常见的形式是将SpringBoot应用打包成可执行jar包文件。之所以这么做，源于你可以直接将SpringBoot应用看成是一个Java Application，其Web应用可以没有webapp目录（更不用说web.xml了），它推荐使用html页面，并将其作为静态资源使用。下...

2018-02-17

684

java虚拟机中指定一个栈内存的引用指向了堆内存中的对象。这样说只是笼统的说法。而指向堆内存中的对象就一定是栈引用所需要的那个对象吗？其实并不定。这就需要知道对象的访问定位方式有两种： 1.使用句柄。所谓的句柄其实就是堆内存中分配一块内存记录对象实例的指针和对象类型数据的指针，而对象类型数据区域是在方法区中的。这样栈引用第一步先指向堆中的句柄。第二步根据句柄中的对象实例的指针和对象类型数据的指针找到对应的对象实例和其类型数据。虽然这里用了两步，必然对于使用直接指针来说，效率必然会慢。因为这里经过两步才找到对应的对象实例和其类型数据。但是这样的好处就是如果对象实例和其类型数据的指针变动很频繁，变动的只是堆中的句柄，而栈的引用却不用变动。 2.使用直接指针：直接指针就是，在栈引用中直接根据对象实例的指针和对象类型数据的指针找到对应的对象实例和其类型数据。只需要用一步就可以找到对应的对象实例和其类型数据。对于很多对象的访问定位来说，减少了一次寻址，这必然效率很高，性能很好。 HotSpot虚拟机则是使用直接指针的方式对对象的访问定位。

2018-02-17

657

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。