吴恩达《Machine Learning Yearning》总结（1-10章）-低调大师

吴恩达《Machine Learning Yearning》总结（1-10章）

2018-06-10 678

1.为什么选择机器学习策略

案例：建立猫咪图像识别app

系统的优化可以有很多的方向：

（1）获取更多的数据集，即更多的图片；

（2）收集更多多样数据，如处于不常见的位置的猫的图，颜色奇异的猫的照片等；

（3）增加算法迭代次数，使算法训练的更久；

（4）尝试添加正则化；

（5）改变神经网络的架构（层数，单元的个数等）；

……

2.如何使用本书帮助你的团队

本书其实就是帮助做决策，决定改进的策略。

3.先修知识和符号标记

监督学习（supervised learning）主要会介绍：线性回归（linear regression）、逻辑回归（logistic regression）、神经网络（neural network）。

4.规模驱动机器学习非发展

（1）数据可用性（data availability）:各种数字设备、智能终端带来了海量的数据。

（2）计算机计算能力的增强（computational scale）。

图说明：小数据集时，可能一些传统的机器学习算法通过人工的设计特征等，其效果会优于深度神经网络，但随着数据量的增强，深度神经网路的优势愈发明显。

5.开发集合测试集的概念

（1）训练集（training set）:用于运行你的算法。

（2）开发集（development set）:用于调整参数，选择特征，以及对学习算法做出其他决定，也被称为留出交叉验证集（hold-out cross validation set）。

（3）测试集（test data）:用于评估算法的性能，但不会据此决定使用什么学习算法或参数。

开发集和测试集的使命就是引导你的团队对机器学习系统做出最重要的改变。

在传统机器学习中，训练集和测试集可能按照7/3来划分，但随着数据的增加，测试集所占的比例会不断减少。

6.开发集和测试集应该服从同一分布

开发时所使用的数据集分布和上线后面对的真实数据之间尽量保持同分布，如果分布不同可能效果会很差，例如：开发时都是使用网上爬取的高清照片毛，而上线后上传的可能都是一些手机拍摄的模糊的猫照片，二者分布不同，故造成效果不好。

训练集效果好，测试集效果不好，首先得确定是否同分布，在这个前提下再去考虑过拟合等其他原因。

7.开发集和测试集应该多大

训练集测试集比例7/3较适用于数据规模在100至10000个样本时，随着数据的增加，测试集所占的比例会不断减少。

8.使用单值评估指标进行优化

准确率是单值评估指标，精确度（presicion）和召回率（recall）不是单值指标。

将precision和recall转换为单值指标公式F1 score:2(PR)/(P+R),值越大越好。

	1(label)	0(label)
1(predict)	True Positive	False Positive	precision=TP/(TP+FP)
0(predict)	False Negative	Ture Negetive
	recall=TP/(TP+FN)		accuracy=(TP+TN)/(TP+TN+FP+FN)

说明：precision是从预测结果的视角来看的，预测为正样本中到底有多少是正样本；recall是从样本的视角来看的，真正的正样本有多少被预测到了。

9.优化指标和满意度指标

例子：既要追求速度，又要追求准确度，这里有两个指标，如果都融入一个公式中如accuracy-0.5*time,这样不是很合理，这时可以设定不超过100ms作为一个前提，即满意度指标，在这个指标的前提下去考虑剩余的那个指标。

当有N个指标时，使其中N-1个变为满意度指标，然后去优化剩余的那个指标。

10.通过开发集和度量指标加速迭代

（1）尝试一些关于系统构建的想法（idea）；

（2）使用代码（code）实现想法；

（3）根据实验（experiment）结果判断想法是否行得通，在此基础上学习总结，从而产生新的想法，并保持这一迭代过程；

图说明：迭代越快进展越快，此时拥有开发集、测试集和度量指标的重要性便体现出来了，每当有一个新想法，在开发集上评估其性能可以帮助你判断当前方向是否确定。

微信关注我们

原文链接：https://yq.aliyun.com/articles/607146

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2018年6月11日笔记

主讲老师：胡浩人工智能应用领域：医疗，搜素，无人驾驶，人脸识别，语音识别，智能仓库，金融人工智能主要应用：智能搜索与推荐，无人驾驶，人脸识别，语音识别，智能仓库，个人助理（智能手机上的语音助理、语音输入、家庭管家和陪护机器人），金融，教育课程简介：https://tpcst.erongda.com/ 安装google,用360软件中心安装。以前可以百度软件中心安装，但是百度软件中心因为内部问题被百度禁止了。安装python2.7.15,安装包只有20M，不大。想象力训练爬虫程序运行基于python2.7版本的爬虫程序爬取51job 投影仪复制的关键点是两个显示屏分辨率相同

2018-06-10

671

清华大学统计学研究中心助理教授俞声，主要的研究方向是基于电子病历的数据分析，他与数据科学研究院的合作始于数据院和清华大学临床医学院合作搭建清华临床医学科研数据平台（以下简称：医学数据平台）。“我们自己去跟医院谈合作，不一定能引起人家的兴趣，医学数据平台的搭建促使我们能够更好的使用医疗数据做研究。”和长庚医院深度合作，俞声认为医学数据平台功不可没。俞声有着丰富的国外医疗数据统计分析经验，即使是回国后，在与数据院合作之前，他的研究对象依然以美国电子病例为主。相较于国外成熟的医疗数据体系，国内医疗数据的收集、开放、处理都面临着诸多困难。“早期我主要研究美国的电子病历，诸如退伍军人系统这类最优质的数据我们都能拿到，数据根据一套严格的管理规范允许我们使用。但是国内相关的环境和规定还不完善，医院大都不敢提供数据，”他为我们分析道。“另外，中文

2018-06-11

777

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。