理解随机森林:基于Python的实现和解释
引言 感谢 Scikit-Learn 这样的库,让我们现在可以非常轻松地使用 Python 实现任何机器学习算法。事实上操作起来很简单,我们往往无需了解任何有关模型内部工作方式的任何知识就能使用它。尽管我们并不需要理解所有细节,但了解一些有关模型训练和预测方式的思路仍然会有很大的帮助。这使得我们可以在模型表现不如预期时对模型进行诊断,或解释我们的模型做决策的方式——这能帮助我们说服他人使用我们的模型。 本文将介绍如何使用 Python 构建和使用随机森林。我们不只是简单地展示代码,而会尽力解释模型的工作方式。我们将从一个解决简单问题的单个决策树开始,然后逐渐深入,最终完成一个针对某个真实世界数据科学问题的随机森林。本文所涉及的完整代码可参阅这个 GitHub 上的 Jupyter Notebook:https://github.com/TryEnlight/Machine-Learning-Projects/blob/master/Random%20Forest%20Tutorial.ipynb 理解决策树 决策树是随机森林的构建模块,本身是一种相当直观的模型。我们可以将决策树看作是询...