XGBoost和LightGBM
这两个模型都属于集成学习中的树模型,每个机器学习模型都有它特定的应用场景,不同的数据集适合用到的模型是不一样的。 结构化数据、非结构化数据 结构化数据:规整,维度固定;一般我们的表格数据都属于结构化数据。 非结构化数据:非规整,维度不固定;比如说一些文本、图像、音频、视频等 结构化数据的特点: 类别字段较多 聚合特征较多 对于结构化数据集,如果我们遇到的数据集有很多类别类型的特征,而且特征与特征之间是相互独立的,非常适合使用树模型。 XGBoost 提出时间较早的高阶树模型,精度较好。比随机森林较晚,比LightGBM、Catboost较早。 缺点:训练时间较长,对类别特征支持不友好。 接口:scikit-learn接口和原声接口。 XGBoost是基于GBDT(Gradient Boosting Decision Tree)的一种算法模型,有关Gradient Boosting的介绍可以参考机器学习算法整理(四) XGBoost首先是树模型,Xgboost就是由很多CART树集成。一般有分类树和回归树,分类树是使用数据集的特征(维度)以及信息熵或者基尼系数来进行节点分裂。对于回归树则...