《中国人工智能学会通讯》——8.11 监督学习-低调大师

《中国人工智能学会通讯》——8.11 监督学习

2017-09-03 732

8.11 监督学习

监督学习从有标记的示例数据学习模型，示例数据包含了样本对应的标记，标记指定了该样本上模型应有的输出，监督学习方法通过在一定的模型空间进行搜索，找到符合示例数据的模型。其中模型的寻找过程就是一类优化问题，而且寻找最优模型通常都是 NP 难的问题。演化算法的优化能力能够帮助监督学习寻找到更好的模型。

人工神经网络[8]是一类常用的学习模型，近年来深度学习的发展使得神经网络已成为人工智能领域的研究热点，其在诸多领域（如图像识别、语音识别等）取得成功应用。针对神经网络的训练很多情况下可以视为一个单目标优化问题，在人工设定好网络结构的前提下，优化网络权值，其目标函数涉及实际输出和期望输出之间的误差、网络的复杂度等因素。神经网络往往包含多层神经元，并且使用非线性激活函数，因而神经网络的优化面临包含大量局部极值的优化问题，基于梯度下降的优化方法往往只能收敛到局部最优或是某不动点，如果将神经网络结构也作为优化的参数，则优化问题更为困难。

演化算法由于具备更强的搜索能力且对优化问题性质要求极少，在上世纪 90 年代神经网络的上一波热潮时期已被用于神经网络模型的学习[9] ，回顾以往的研究，演化算法在神经网络学习的应用主要可以分成连接权重的优化、网络结构的优化以及学习规则（learning rule）的优化三个层面。对于连接权重，编码方式可采用二进制或者实值；在评估目标函数值时，网络结构一般预先给定。文献 [10]在图像分类数据上的实验结果显示：相比使用反向传播算法优化前向神经网络的连接权重，使用演化算法能够快速地找到更好的连接权重。文献 [11-12]通过工程设计、图像识别、手写数字识别上的实验得出：将演化算法和基于梯度的优化方法相结合（即演化算法找到的连接权重作为梯度优化方法的初始权重）能够进一步改进连接权重的质量。演化算法执行全局搜索，能够避免梯度优化方法易于陷入局部最优的缺点而找到接近全局最优的连接权重；在此基础上执行基于梯度的优化方法，能够利用其局部搜索能力，进一步快速地改进连接权重的质量。对于网络结构，则可以采用一个 0、1 矩阵来表示，取值为 1 表示相应两个节点之间有连接；取值为 0则相反。在评估适应度值时，学习规则一般预先给定，然后在不同的初始权重和学习规则参数下分别训练，以平均结果来衡量适应度值。为了减少网络结构适应度评估的噪声，网络结构和连接权重往往被同时优化。文献 [13] 在医疗诊断、信用卡评估等问题上的实验结果显示：使用演化算法同时优化网络结构和连接权重能够得到复杂度更低、泛化能力更好的神经网络。演化算法还可用于优化学习规则参数，甚至学习得到有效的新规则。有趣的是，随着神经网络再次成为热潮，近来也开始出现演化神经网络的工作[14-16] 。

神经网络也已被用于多标记学习。不同于传统监督学习，在多标记学习框架下，每一个训练样本被赋予一组类别标记组成的标记集合而非单个标记，而学习的任务也变成为未见到的样本预测所有相关的类别标记[17] 。目前，不少多标记学习的评价指标已经被提出，比如 Ranking Loss、HammingLoss、Micro F1 等。以往的多标记学习方法都是去优化单个指标，但是在很多实际应用中，一个最优的多标记学习器需要同时考虑多个可能冲突的指标，比如最小化 Hamming Loss 的同时最大化Micro F1。文献 [18] 以 RBF 神经网络作为多标记学习器，提出了一种多目标演化算法 MOML 用于同时优化多标记学习任务的多个指标，实验结果显示出 MOML 不仅能够得到一组可以满足不同用户需求的多标记学习器，同时还能提高在大多数指标上的性能。

集成学习通过集成多个学习器获得比单个学习器更好的学习效果[19] 。一般认为，基学习器的精度越好，差异越大，集成后的性能就越好。文献 [20]采用 RBF 神经网络作为基学习器，将集成学习形式化成一个三目标优化问题：
其中，第 1 项代表第 i 个学习器的误差；第 2 项代表第 i 个学习器和其他学习器之间的差异；第 3 项则表示对第 i 个学习器的正则化。基于 NSGA 框架[21]的一种多目标演化算法被提出用于求解该三目标优化问题，最终种群中包含的所有基学习器被集成作为输出。大量的实验结果表明了该方法的优越性。

演化算法还被用于集成剪枝[19] 。在集成学习的基础上，集成剪枝从所有训练好的学习器中选择一部分集成，力图使所选学习器子集进一步提升泛化性能，且包含学习器数目尽可能少，从而减少存储计算开销。一方面，如果赋予每个学习器一个权重系数，所有学习器的集成被表示成一个权重向量。演化算法通过最小化在验证集上的错误率，试图找到最优权重向量；然后将权重小于某个阈值的学习器删除，获得最终的学习器子集。另一方面，如果将学习器子集表示成一个 0/1 向量，表示模型的选择，演化算法可直接搜索最优子集，避免了采用实值权重向量带来的阈值设定问题。已有实验结果显示演化算法可以大大减少学习器数目，并提升泛化性能。

自步学习（self-paced learning）通过模拟人的认知机理，将学习对象 ( 数据、特征、概念等 )按其对学习目标的难易程度，从易到难开展学习，以这种方式让机器完成复杂的学习与推理任务[22] 。文献 [23] 将自步学习形式化成一个二目标优化问题：
其中，第 1 项是错误率；第 2 项是自步学习的正则化项。基于 MOEA/D [6] 提出了一种多目标演化算法MOSPL，并通过依次增加训练样本数来迭代求解该问题。在矩阵分解和动作识别上的实验结果显示了 MOSPL 的优越性能。

微信关注我们

原文链接：https://yq.aliyun.com/articles/217129

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《中国人工智能学会通讯》——1.9 总结

1.9 总结综上所述，近年来，一方面，得益于 Wikipedia 等众多高质量的开放资源，知识工程取得了突飞猛进的进展；另一方面，基于统计机器学习的自然语言理解技术和工具日益发展成熟。这两方面分别为智能问答技术奠定了资源基础和技术基础，使得智能问答技术更加快速地走入人们的生活。然而，基于知识的智能问答系统仍面临以下关键性问题。一方面，知识难以描述和统一，人们在不同领域为了不同的任务定义和管理了各自的知识库，造成了大量异构数据的存在，这些数据在局部范围内是组织良好的信息资源，但是若不能把这些异构分散的知识资源整合在一起，也只能是形成了一些独立的信息孤岛，不能满足用户的统一查询需求。目前类似BabelNet 12 等项目也只是简单地融合不同知识库中的相同概念，实现异构知识资源的融合和联合查询是当前知识管理和知识服务技术发展中亟待解决的问题。另一方面，虽然词性标注、主题抽取、文本分类等自然语言处理任务日趋成熟，但是在需要深层语义理解的任务中，例如语义角色标注、语义解析、篇章结构分析等，还停留在抽取简单的普通关系和结构层面上，对于深层的小众的情况还远未涉及，例如当前很少有问答系统能处理到...

2017-09-04

622

第3章 3.1基于深度学习的网络表示研究进展网络结构在现实世界中无处不在（如航线网络、通信网络、论文引用网络、世界万维网和社交网络等），在此基础之上的应用和研究问题受到了学术界和工业界的广泛关注，这些研究问题包括链接预测[1] 、网络节点分类 [2-3] 、推荐 [4]和异常检测[5]等。随着计算机信息技术的高速发展和迅速普及，现实世界中的网络结构，尤其是以 Twitter、Facebook和 Weibo 为代表的大规模社交网络进入了亿级节点时代。除网络结构之外，网络节点自身也会产生大量的相关信息。如今，大规模的网络结构数据和丰富的网络节点信息对相关的研究方法提出了新的挑战。表示学习 (representation learning) 旨在通过无监督的方法 , 将符号化的数据 (symbolic data)编码到低维、连续、稠密的向量空间中[6] 。相比传统的独热表示 (one-hot representation), 表示学习能够抓住数据之间的相似性 , 同时缓解数据稀疏性问题 (data sparsity)。在网络表示学习中，传统的基于特征向量的降维方法[7-8]...

2017-09-04

634

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。