DC学院学习笔记(十八):其它常用回归和分类算法
主要内容是三个算法:kNN、DecisionTree、RandomForest,以及集成学习的思想 k近邻(kNN) 原理:看新样本和训练集中的样本最接近的是哪一类,往往需要引入距离的计算 距离:根据特征向量X计算不同样本之间的距离,d(X’,X”),最常用的是欧式距离 k近邻回归 :找到距离最近的K个样本,计算平均值 k近邻分类 :找到距离最近的K个样本,少数服从多数 也可在算法中将距离作为权重加权(如weight=1/d),使得离待判样本越近距离的训练集样本的权重越大 1.在Python中调用KNN算法 依旧使用到scikit-learn库 #用neighbors包来实现k近邻 from sklearn import neighbors #k近邻分类 knn=neighbors.KNeighborsClassifier(n_neighbors,weights='uniform') #k近邻回归 knn=neighbors.KNeighborsRegressor(n_neighbors,weights='uniform') #训练模型 knn.fit(X,y) score=cross...