机器学习:有监督和无监督之间有什么区别
云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!
机器学习是人工智能的一个子集,它通过示例和经验教会计算机执行任务,是研究和开发的热门领域。我们每天使用的许多应用程序都使用机器学习算法,包括AI助手,Web搜索和机器翻译。
您的社交媒体新闻提要由机器学习算法提供支持。您、看到的推荐视频是机器学习模型的结果。Spotify的“发现周刊”利用机器学习算法的强大功能来创建符合您喜好的歌曲列表。
但是机器学习有许多不同的风格。在这篇文章中,我们将探讨有监督和无监督学习,这是机器学习算法的两个主要类别。每个子集由许多适合各种任务的不同算法组成。
关于机器学习的快速笔记
在深入研究有监督和无监督学习之前,我们先来了解一下什么是机器学习。当今的AI系统以最简单的形式将输入转换为输出。例如,图像分类器将图像或视频帧作为输入,并输出图像中包含的对象的种类。欺诈检测算法将支付数据作为输入,并输出交易欺诈的可能性。下棋的AI将棋盘的当前状态作为输入并输出下一个动作。
开发智能系统的经典方法称为符号人工智能,要求程序员明确指定将输入映射到输出的规则。尽管符号AI有很多好处,但在输入可以以多种形式出现的领域中使用有限,例如计算机视觉,语音识别和自然语言处理。
相反,机器学习使用不同的方法来发展行为。在创建ML系统时,开发人员会创建一个通用结构,并在许多示例中进行培训。这些示例可以是带有相应图像的图片,国际象棋游戏数据,客户购买的物品,用户听过的歌曲或与AI模型要解决的问题有关的任何其他数据。在分析了训练数据之后,机器学习算法对其内部参数进行了调整,以能够处理新的输入数据。
监督学习
Logistic回归是一种有监督的机器学习算法,可以将输入分类为不同的类
如果您关注人工智能新闻,您可能已经听说过AI算法需要很多人工标记的示例。这些故事指的是监督学习,这是机器学习算法中比较流行的类别。监督式机器学习适用于您知道输入数据结果的情况。假设您要创建一个图像分类机器学习算法,该算法可以检测猫,狗和马的图像。
要训练AI模型,您必须收集猫,狗和马照片的大型数据集。但是在将它们输入机器学习算法之前,您必须使用它们各自类的名称对其进行注释。批注可能包括使用文件命名约定将每个类的图像放在单独的文件夹中,或将元数据附加到图像文件中。这是费力的手动任务,在提到AI血汗工厂的故事中经常提到。
标记数据后,机器学习算法(例如卷积神经网络或支持向量机)将处理这些示例并开发可将每个图像映射到其正确类别的数学模型。如果对AI模型进行足够的带标签的示例训练,它将能够准确地检测出包含猫,狗,马的新图像类别。
监督机器学习解决了两种类型的问题:分类和回归。上面说明的示例是一个分类问题,其中机器学习模型必须将输入放入特定的存储桶或类别中。分类问题的另一个示例是语音识别。
回归机器学习模型不限于特定类别。它们可以具有连续的无限值,例如客户将为产品支付多少费用或明天下雨的可能性。
一些常见的监督学习算法包括:
线性和逻辑回归
朴素贝叶斯
支持向量机
决策树和随机森林
人工神经网络
无监督学习
无监督机器学习算法可以基于共享特征将数据划分为集群
假设您是一个电子商务零售企业所有者,他拥有成千上万的客户销售记录。您想找出哪些客户有共同的购买习惯,以便您可以使用该信息向他们提出相关建议并改善您的追加销售政策。问题是您没有预定义的类别将客户划分为多个类别。因此,您不能训练监督式机器学习模型来对客户进行分类。
这是一个聚类问题,主要用于无监督机器学习。与监督学习不同,无监督机器学习不需要标记数据。它仔细研究了训练示例,并根据它们的共同特征将它们分为几类。训练有素的无监督机器学习算法会将您的客户划分为相关的集群。这将帮助您根据客户与集群中其他人的共同偏好来预测客户将购买的产品。
K-means是众所周知的无监督聚类机器学习算法。使用k均值的挑战之一是知道将数据划分为多少个群集。太少的包会打包不太相似的数据,而太多的簇只会使您的模型复杂且不准确。除了聚类之外,无监督学习还可以执行降维。当数据集具有太多特征时,可以使用降维。假设您有一个有关客户的信息表,该表有100列。拥有有关您的客户的大量数据可能听起来很有趣。但实际上并非如此。
随着数据中功能数量的增加,您还将需要更大的样本集来训练准确的机器学习模型。您可能没有足够的样本来训练100列模型。太多的功能也增加了过度拟合的机会,这实际上意味着您的AI模型在训练数据上表现良好,而在其他数据上表现不佳。
无监督的机器学习算法可以分析数据并找到不相关的特征,可以将其删除以简化模型而不会失去宝贵的见解。例如,对于我们的客户表,通过降维算法运行它之后,我们可能会发现与客户的年龄和家庭住址相关的功能几乎没有关联,因此可以将其删除。
主成分分析(PCA)是一种流行的降维机器学习算法。一些安全分析师还使用无监督的机器学习进行异常检测,以识别组织网络中的恶意活动。
无监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试数据的实际标签进行比较,可以很容易地衡量监督学习算法的准确性。
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
三箭齐发!Spring Cloud 多个生产版本更新发布
Spring Cloud Hoxton.SR5 Spring Cloud 2020.0.0.M2(Ilford) Spring Cloud Greenwich.SR6, 重点说明 Hoxton.SR5 生产可用版本的变化 Hoxton.SR5 同时支持 Spring Boot 2.2.x 和 Spring Boot 2.3.x 之前 Hoxton 版本,不确定兼容 Spring Boot 2.2 (笔者测试 Hoxton.S4 可以兼容 ) Spring Cloud Netflix Eureka 客户端在启动过程中 使用 http api,避免未注册而不服务端注销的情况。 Spring Cloud Config 支持 Azure 存储的的身份认证 Spring Cloud Gateway 支持自定义 host 头信息 Spring Cloud Openfeign 支持 spring data 分页 支持禁用某个 外部 feignclient 的功能 增加了一个错误解码器 Spring Cloud Consul 支持自定义 Consul 元数据信息 Spring Cloud Bus 提供...
- 下一篇
阿里高可用架构建设实践经验
1 背景 随着业务在线化互联网化的高速发展,企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x24的不间断服务,已经成为众多企业保障业务稳定、持续运转的主要选择。但如何从海量实践中提炼出值得借鉴复制的高可用架构之道,实现适合自身的高可用系统架构,是需要企业深思熟虑的问题。阿里巴巴在多年双11高并发、高可用和高客户体验要求背景下积累了相应的技术体系,本文将依据高并发用户、突发高流量场景下的真实案例,分享阿里在高可用架构建设过程中的经验总结,以期待帮助更多企业做好业务高可用建设。 2 存在的问题 2.1 非常复杂的服务端 通常从客户端到达服务端会涉及到的关键节点有CDN、动态加速、高防、应用防火墙、4/7层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性。后端服务的服务规模化问题更是复杂和难以评估检验,这其中任何一个节点出现问题都会导致服务不可用。如何能有效地全面检验服务端吞吐能力、发现所有问题甚至是做好容量规划,具备对峰值的流控调度能力是所有企业都需要思考和应对的。 2.2 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS6,CentOS7官方镜像安装Oracle11G
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS6,7,8上安装Nginx,支持https2.0的开启