一个完整的机器学习项目在Python中的演练（二）-低调大师

一个完整的机器学习项目在Python中的演练（二）

2018-05-27 710

磐石

大家往往会选择一本数据科学相关书籍或者完成一门在线课程来学习和掌握机器学习。但是，实际情况往往是，学完之后反而并不清楚这些技术怎样才能被用在实际的项目流程中。就像你的脑海中已经有了一块块”拼图“（机器学习技术），你却不知道如何讲他们拼起来应用在实际的项目中。如果你也遇见过同样的问题，那么这篇文章应该是你想要的。本系列文章将介绍一个针对真实世界实际数据集的完整机器学习解决方案，让您了解所有部分如何结合在一起。

本系列文章按照一般机器学习工作流程逐步进行：

数据清洗与格式处理
探索性数据分析
特征工程和特征选取
机器学习模型性能指标评估
微调最佳模型（超参数）
在测试集上评估最佳模型
解释模型结果
总结分析

通过完成所有流程，我们将看到每个步骤之间是怎么联系起来的，以及如何在Python中专门实现每个部分。该项目可在GitHub上可以找到，附实现过程。第二篇文章将详细介绍第三个步骤，其余的内容将在后面的文章中介绍。

特征工程和特征选择

特征工程和特征选择虽然是完成机器学习项目中很小的一个环节，但它模型最终的表现至关重要。在特征工程与特征选择阶段做的工作都会准时在模型的表现上得以体现。首先，让我们来了解一下这两项任务是什么：

特征工程：特征工程是一项获取原始数据并提取或创建新特征的过程。也就是说可能需要对变量进行转换。例如通过取自然对数、取平方根或者对分类变量进行独热（one-hot）编码的方式以便它们可以在模型中更好的得以利用。通常来说，特征工程就是通过对原始数据的一些操作构建额外有效特征的过程。（可参考：https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/）
特征选择：特征选择是一项选择数据中与任务最相关的特征的过程。在特征选择的过程中，我们通过删除无效或重复的数据特征以帮助模型更好地学习和总结数据特征并创建更具可解释性的模型。通常来说，特征选择更多的是对特征做减法，只留下那些相对重要的特征。（可参考：https://machinelearningmastery.com/an-introduction-to-feature-selection/）

因为机器学习模型只能从我们提供的数据中学习特征，所以确保数据包含我们任务的所有相关信息至关重要。如果我们没有给模型提供正确的数据，那么机器学习模型将不会达到我们所期望的表现。

在本项目中，我们将按照以下步骤完成特征工程：

独热（one-hot）编码分类变量（borough(自治区)和 property use type(财产使用类型)）
对数值变量做自然对数转换并作为新特征添加到原始数据中

独热（one-hot）编码对于在模型训练中包含分类变量是必要的。例如：机器学习算法无法理解“办公室”这种建筑类型，因此如果建筑物是办公室，则必须对其进行将其记录为1，否则将其记录为0。

添加转换的特征可以使我们的模型学习到数据中的非线性关系。取平方根、取自然对数或各种各样的数值转换是数据科学中特征转换的常见做法，并通过领域知识或在多次实践中发现最有效的方法。这里我们将对所有数值特征取自然对数并添加到原始数据中。

下面的代码实现了数值特征选择并对这些特征进行了取对数操作，选择两个分类变量并对这些特征进行独热(one-hot)编码、然后将两列特征连接在一起。这一系列操作可以通过pandas库很快捷的实现。

完成上述操作之后，我们有110列（features）、总共超过11,000个对象（buildings）。但是，这些特征并非所有都能够对预测能源之星得分（ENERGY STAR Score)有用，所以接下来我们将通过特征选择去除一些变量。

特征选择

在上面做特征工程的过程之后得到的数据中的110列特征，许多都是多余或重复的，因为它们彼此高度相关。

例如，下图是Site EUI与Weather Norm EUI相关系数为0.997的情况。

那些相互之间有很强关联性的特征被称为共线（collinear)https://en.wikipedia.org/wiki/Multicollinearity，而且消除这些“特征对”中的一个变量通常可以使机器学习模型更鲁棒并且具有更强的可解释性。（需要注意的一点是，现在是在讨论特征与其他特征的相关性，而不是与目标的相关性。）

有许多方法可以计算特征之间的共线性（collinearity），其中最常见的是方差膨胀因子(VIF)。在本项目中，我们将使用相关系数来识别和删除共线特征。如果它们之间的相关系数大于0.6，我们将放弃一对特征中的一个。

也许你会认为这个值（0.6）是随便定义的，其实并不是，而是通过多次尝试不同的阈值比较后得到的。使用0.6这个值可以产生了最好的模型。机器学习是一个经验性领域，通常是通过试验发现性能最好参数组合。选择特征后，我们剩下64列特征和1列目标特征（能源之星得分）。

建立基线

我们现在已经完成了数据清洗，探索性数据分析和特征工程，开始建立模型之前还需要做最后一步：建立一个初步的基线（baseline）。这实际上是设置一项可以用来核对我们最终模型的实际表现的预估表现。我们可以通过拿最终模型表现与预估模型表现做比较反过来评测此次项目的整体思路。如果机器学习模型的最终表现没有超越我们的预估表现，那么我们可能不得不得出如下结论：

使用机器学习的方法无法解决此问题。
或者我们可能需要尝试其它不同的方法。

对于回归问题，一个合理的基线是通过预估测试集中所有示例的运行结果为训练集中目标结果的中值。这种方式建立的基线为对比模型表现结果设定了一个相对较低的门槛。

我们将使用的度量标准是平均绝对误差（mae）–计算出预测的平均绝对误差。其实存在很多种回归问题的度量指标，但我喜欢Andrew Ng的建议去选择一个指标然后一直在以后模型评估中使用它。平均绝对误差（mae）是一个不错的选择，它不仅容易计算并且可解释性强。

在计算基线之前，我们需要将我们的数据分成一个训练集和一个测试集：

训练集的作用就是通过给模型提供有标签的数据来训练模型能力，换句话说就是训练集既能“提供问题”又能“提供答案”。旨在让模型学习特征与目标之间的映射。
测试集的作用是用来评估训练好模型。评估过程中不允许模型查看测试集的标签，只能使用特征进行预测。我们可以通过对比测试集的预测值与标签真实值来评估模型的表现。换句话说就是测试集只“提供问题”给模型不“提供答案”。

我们将使用70％的数据进行训练，30％用于测试：

计算基线并得出预估表现值（mae）：

通过计算得出预估模型表现为66，在测试集中的误差约为25左右（分值：1-100）。这是一个很容易达到的性能。

结论

在前两篇的分析中，我们走过了一个完整机器学习项目的前三个步骤。在明确定义问题之后，我们：

清洗并格式化了原始数据
执行探索性数据分析以了解数据集
转换出了一系列我们将用于模型的特征
建立了可以判断整个机器学习算法的基线。

接下来将展示如何使用Scikit-Learn评估机器学习模型，选择最佳模型和微调超参数来优化模型。

微信关注我们

原文链接：https://yq.aliyun.com/articles/623599

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何用 pipenv 克隆 Python 教程代码运行环境？（含视频讲解）

咱们的 Python 教程代码已经可以免安装在线运行了。但如果你希望在本地克隆运行环境，请参考本文的步骤说明。疑惑这些日子，我用课余时间，忙着把自己知识星球的分享文章转移到语雀平台，以便于订阅用户阅读和获得即时推送。目前该分享空间已经初具规模。回过头来一看，专栏和微信公众号后台，积攒了不少用户的提问。例如这位用户问：为什么我在binder上新建的文件再次打开后就丢失了？问题来自于我的《如何用iPad运行Python代码？》一文。咱们用 mybinder ，是为了给读者们提供一个一致性的代码运行环境。你可以免安装，运行样例代码。可以修改代码重新运行，甚至可以上传数据文件，做自己的分析。我需要补充说明一个重要事项—— mybinder 为咱们提供的 Python 运行环境资源，是共享的，并非永久独占空间。每个同学，打开相同的一个链接后，mybinder 都开启一个独立的环境，大家互不干扰。但是，Python 环境的运行，是需要后台的资源支持的。你每打开一个 mybinder 的链接，后台都要给你提供对应的 CPU、内存、硬盘等一系列资源。如果这些资源被大量用户长期...

2018-05-27

697

C#读取文件夹下所有文件本文提供全流程，中文翻译。 Chinar 坚持将简单的生活方式，带给世人！（拥有更好的阅读体验 —— 高分辨率用户请根据需求调整网页缩放比例） Chinar —— 心分享、心创新！助力快速完成xml、Json、txt等数据文件的读取为新手节省宝贵的时间，避免采坑！ Chinar 教程效果： 1 GetFiles —— 获取所有文件名支持 May Be —— 搞开发，总有一天要做的事！全文高清图片，点击即可放大观看 (很多人竟然不知道) 1 GetFiles —— 获取所有文件名 Wait —— 未完待续，敬请期待 public static List<GameData> GetFiles(string path, string fileSuffix, SearchOption state) { List<GameData> gameDatas = new List<GameData>(); string[] files = Directory.GetFiles(UnityEngine.Application.dataPa...

2018-05-27

644

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。