吴恩达《深度学习》第三门课(2)机器学习策略二
2.1进行误差分析 (1)一识别猫为案例,错误率为10%,这时系统还可以有较大提升空间,这时该往哪方面努力呢?可以通过误差分析,具体可以拿出100个分类错误的样本,然后利用表格统计每个样本分类错误的原因(如下图所示),比如很模糊,狗和猫很像,有滤镜等,一个样本出错可以同时有多个原因,统计看因为什么原因导致分类错误的比例最高,那么就应该着重花功夫在那上面。 (2)根据上面的统计也可以预估出如果完美解决该问题可以带来多大性能的提升,比如100张样本中有5张图把狗误认为了猫,所以即使解决了狗识别成猫的问题,最终能带来的性能提升是从90%到90.5%。 2.2清楚标记错误的数据 (1)深度学习对于训练集样本(注意此处只讲了是训练集)样本随机标注错误其实表现出很强的健壮性,一般没有必要去修正训练集样本的错误标注(一来没必要,而来训练集可能非常之大耗时耗力)。 (2)对于验证集而言,务必将验证集的操作运用到测试集上,保证二者的同分布。 (3)同样在误差分析的表格中添加一列作为样本标记错误导致的,看看他的占比,比如说修正能提升0.6%,那么如果现在误差是10%的话,显然其他原因可提升性能空间更大,应...