Python机器学习(sklearn)——分类模型评估与调参总结(下)
21.集成方法有随机森林(random forest)和梯度提升树(gradient boosted decision tree)GBDT 随机森林中树的随机化方法有两种: (1)通过选择用于构造树的数据点构造随机森林需要确定用于构造的树的个数为了确保树与树之间的区别,对每棵树的数据进行自助采样从样本数据中有放回的多次抽取(一个样本可能被抽取多次),抽取创建的新数据集要和原数据集大小相等(数据数量相同) (2)通过选择每次划分测试集的特征在每个节点处,算法随机选择特征的一个子集,并对其中一个特征寻找最佳测试,而不是对每个节点都寻找最佳测试。使用参数max_features, 如果max_features= n_features,则每次考虑所有特征,即第二种随机性没用上当max_features较大,随机森林中每棵树都会很相似(因为采用的