吴恩达《Machine Learning Yearning》总结(1-10章)
1.为什么选择机器学习策略
案例:建立猫咪图像识别app
系统的优化可以有很多的方向:
(1)获取更多的数据集,即更多的图片;
(2)收集更多多样数据,如处于不常见的位置的猫的图,颜色奇异的猫的照片等;
(3)增加算法迭代次数,使算法训练的更久;
(4)尝试添加正则化;
(5)改变神经网络的架构(层数,单元的个数等);
……
2.如何使用本书帮助你的团队
本书其实就是帮助做决策,决定改进的策略。
3.先修知识和符号标记
监督学习(supervised learning)主要会介绍:线性回归(linear regression)、逻辑回归(logistic regression)、神经网络(neural network)。
4.规模驱动机器学习非发展
(1)数据可用性(data availability):各种数字设备、智能终端带来了海量的数据。
(2)计算机计算能力的增强(computational scale)。
图说明:小数据集时,可能一些传统的机器学习算法通过人工的设计特征等,其效果会优于深度神经网络,但随着数据量的增强,深度神经网路的优势愈发明显。
5.开发集合测试集的概念
(1)训练集(training set):用于运行你的算法。
(2)开发集(development set):用于调整参数,选择特征,以及对学习算法做出其他决定,也被称为留出交叉验证集(hold-out cross validation set)。
(3)测试集(test data):用于评估算法的性能,但不会据此决定使用什么学习算法或参数。
开发集和测试集的使命就是引导你的团队对机器学习系统做出最重要的改变。
在传统机器学习中,训练集和测试集可能按照7/3来划分,但随着数据的增加,测试集所占的比例会不断减少。
6.开发集和测试集应该服从同一分布
开发时所使用的数据集分布和上线后面对的真实数据之间尽量保持同分布,如果分布不同可能效果会很差,例如:开发时都是使用网上爬取的高清照片毛,而上线后上传的可能都是一些手机拍摄的模糊的猫照片,二者分布不同,故造成效果不好。
训练集效果好,测试集效果不好,首先得确定是否同分布,在这个前提下再去考虑过拟合等其他原因。
7.开发集和测试集应该多大
训练集测试集比例7/3较适用于数据规模在100至10000个样本时,随着数据的增加,测试集所占的比例会不断减少。
8.使用单值评估指标进行优化
准确率是单值评估指标,精确度(presicion)和召回率(recall)不是单值指标。
将precision和recall转换为单值指标公式F1 score:2(PR)/(P+R),值越大越好。
1(label) | 0(label) | ||
1(predict) | True Positive | False Positive | precision=TP/(TP+FP) |
0(predict) | False Negative | Ture Negetive | |
recall=TP/(TP+FN) | accuracy=(TP+TN)/(TP+TN+FP+FN) |
说明:precision是从预测结果的视角来看的,预测为正样本中到底有多少是正样本;recall是从样本的视角来看的,真正的正样本有多少被预测到了。
9.优化指标和满意度指标
例子:既要追求速度,又要追求准确度,这里有两个指标,如果都融入一个公式中如accuracy-0.5*time,这样不是很合理,这时可以设定不超过100ms作为一个前提,即满意度指标,在这个指标的前提下去考虑剩余的那个指标。
当有N个指标时,使其中N-1个变为满意度指标,然后去优化剩余的那个指标。
10.通过开发集和度量指标加速迭代
(1)尝试一些关于系统构建的想法(idea);
(2)使用代码(code)实现想法;
(3)根据实验(experiment)结果判断想法是否行得通,在此基础上学习总结,从而产生新的想法,并保持这一迭代过程;
图说明:迭代越快进展越快,此时拥有开发集、测试集和度量指标的重要性便体现出来了,每当有一个新想法, 在开发集上评估其性能可以帮助你判断当前方向是否确定。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2018年6月11日笔记
主讲老师: 胡浩 人工智能应用领域:医疗,搜素,无人驾驶,人脸识别,语音识别,智能仓库,金融 人工智能主要应用:智能搜索与推荐,无人驾驶,人脸识别,语音识别,智能仓库,个人助理(智能手机上的语音助理、语音输入、家庭管家和陪护机器人),金融,教育 课程简介:https://tpcst.erongda.com/ 安装google,用360软件中心安装。以前可以百度软件中心安装,但是百度软件中心因为内部问题被百度禁止了。 安装python2.7.15,安装包只有20M,不大。 想象力训练 爬虫程序运行基于python2.7版本的爬虫程序爬取51job 投影仪复制的关键点是两个显示屏分辨率相同
- 下一篇
医工结合之路:草木蔓发,春山可望 | 专访清华统计中心俞声
清华大学统计学研究中心助理教授俞声,主要的研究方向是基于电子病历的数据分析,他与数据科学研究院的合作始于数据院和清华大学临床医学院合作搭建清华临床医学科研数据平台(以下简称:医学数据平台)。“我们自己去跟医院谈合作,不一定能引起人家的兴趣,医学数据平台的搭建促使我们能够更好的使用医疗数据做研究。”和长庚医院深度合作,俞声认为医学数据平台功不可没。 俞声有着丰富的国外医疗数据统计分析经验,即使是回国后,在与数据院合作之前,他的研究对象依然以美国电子病例为主。相较于国外成熟的医疗数据体系,国内医疗数据的收集、开放、处理都面临着诸多困难。“早期我主要研究美国的电子病历,诸如退伍军人系统这类最优质的数据我们都能拿到,数据根据一套严格的管理规范允许我们使用。但是国内相关的环境和规定还不完善,医院大都不敢提供数据,”他为我们分析道。“另外,中文
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作