（转）机器学习：偏差处理（2）-低调大师

（转）机器学习：偏差处理（2）

2018-05-28 608

下面是处理偏差和方差问题最简单的形式：

如果具有较高的可避免偏差，那么加大模型的规模（例如通过添加层/神经元数量来增加神经网络的大小）。

如果具有较高的方差，那么向训练集增加数据。

如果你可以加大神经网络的规模且无限制地增加训练集数据，那么在很多学习问题上都可以做的很好。

实际上，加大网络的模型规模终将导致你遇到计算力问题，因为训练大的模型很慢。另外你也有可能会耗尽获取更多训练数据的能力。（即使在网上，也只有有限数量的猫图片）

不同的模型架构（例如不同的神经网络架构）对于你的问题将有不同的偏差/方差值。近期不少深度学习研究已经开发出很多新的模型架构。所以，如果你在使用神经网络，学术文献可能会是一个很好的灵感来源，在 Github 上也有很多较好的开源实现。但尝试新架构的结果要比简单地加大模型规模和添加数据的形式更难以预测。

加大模型的规模通常可以减少偏差，但也可能会增加方差和过拟合的风险。然而这种过拟合问题通常只在你不使用正则化技术的时候出现。如果你的算法含有了一个精心设计的正则化方法，通常可以安全地加大模型的规模，而不会增加过拟合风险。

假设你正在应用深度学习，使用了 L2 正则化和 dropout 技术，并且设置了在开发集上表现最好的正则化参数。如果你加大模型规模，算法的表现往往会保持不变或提升；它不太可能明显地变差。避免使用更大模型的唯一原因就是这将使得计算代价变大。

如果你的学习算法存在着很高的可避免偏差，你可能会尝试下面的技术：

加大模型规模（例如神经元/层的数量）：这项技术能够使算法更好地拟合训练集，从而减少偏差。当你发现这样做会增大方差时，加入正则化，这可以抵消方差的增加。

根据误差分析结果修改输入特征：假设误差分析的结果鼓励你创建额外的特征，从而帮助算法消除某个特定类别的误差。（我们会在接下来的章节深入讨论这个话题。）这些新的特征对处理偏差和方差都有所帮助。理论上，添加更多的特征将增大方差；然而当你发现这种情况时，加入正则化，这可以抵消方差的增加。

减少或者去除正则化（L2 正则化，L1 正则化，dropout）：这将减少可避免偏差，但会增大方差。

修改模型架构（比如神经网络架构）使之更适用于你的问题：这项技术将同时影响偏差和方差。

有一种方法并不能奏效：

添加更多的训练数据：这项技术可以帮助解决方差问题，但它对于偏差通常没有明显的影响。

微信关注我们

原文链接：https://yq.aliyun.com/articles/612626

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

零售地产的新技术实践

2018云栖大会武汉峰会新零售专场，阿里云新零售事业部架构师专家叶建锋带来以“零售地产的新技术实践”为题的演讲。首先本文通过行业背景的介绍引入主题，其次介绍了数字化商场的三“新“包括新营销、新利益以及新技术三个方面，再次对阿里云新商场整体解决方案进行了讲解，最后对广州某著名商场的案例进行了分析。数十款阿里云产品限时折扣中，赶快点击这里，领券开始云上实践吧！直播视频回顾请点击以下是精彩视频内容整理：行业背景目前，部分商场面临着一些严峻的问题，可以大概总结为以下四点：一是由于大家每天上班都忙工作没有时间去逛商场，从而电商的便捷导致了商场的客流量的缺失。二是由于每个商场都有差不多同样品牌的产品，从而减弱了消费者的吸引力。三是对消费者的信息掌握不足，可能只知道顾客的姓名、联系方式等，并不知道顾客的喜好。四是整体体验有待提高，例如逛完商场找

2018-05-28

616

在2018年云栖大会·武汉峰会的新零售专场中，阿里巴巴高级数据产品专家甄日新向我们介绍了中台部门如何由从前的内部数据中台业务中台转型为帮助阿里做互联网架构，处理集团业务，向新零售转型。其中最重要的是和新零售部门的合作，用双中台的模式帮助品牌商和零售商还有商场打造一个新的系统架构。数十款阿里云产品限时折扣中，赶快点击这里，领券开始云上实践吧！直播视频回顾请点击以下为精彩视频内容整理：举个简单例子来说明一下双中台，当你只有一两家便利店的时候，关注点是便利店如何以低成本高速发展。但是当店面规模扩大以后，会发现从前的管理模式中的逻辑和数据业务会存在数据割裂和系统割裂的问题。这个时候就需要数据和业务双平台来进行管理。阿里巴巴双平台实践阿里的双中台架构双中台如今支撑起了阿里内部的大部分业务，从传统的淘宝、天猫到现在的菜鸟、蚂蚁金服新零售等业务，真正实现了“大中台，小前台”的架构。什么是“大中台，小前台” 在阿里的不断发展和扩大过程中，前面提到的数据割裂现象不可避免的会出现，如左面图所示，即使在同一个系统里面，数据也会出现大量重复的现象。新数据和原始数据都需要拷贝几份，就会会导致大量“烟囱式...

2018-05-28

595

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。