如何为你的回归问题选择最合适的机器学习算法?
当我们要解决任意一种机器学习问题时,都需要选择合适的算法。在机器学习中存在一种“没有免费的午餐”定律,即没有一款机器学习模型可以解决所有问题。不同的机器学习算法表现取决于数据的大小和结构。所以,除非用传统的试错法实验,否则我们没有明确的方法证明某种选择是对的。
但是,每种机器学习算法都有各自的有缺点,这也能让我们在选择时有所参考。虽然一种算法不能通用,但每个算法都有一些特征,能让人快速选择并调整参数。接下来,我们大致浏览几种常见的用于回归问题的机器学习算法,并根据它们的优点和缺点总结出在什么情况下可以使用。
线性和多项式回归
首先是简单的情况,单一变量的线性回归是用于表示单一输入自变量和因变量之间的关系的模型。多变量线性回归更常见,其中模型是表示多个输入自变量和输出因变量之间的关系。模型保持线性是因为输出是输入变量的线性结合。
第三种行间情况称为多项式回归,这里的模型是特征向量的非线性结合,即向量是指数变量,sin、cos等等。这种情况需要考虑数据和输出之间的关系,回归模型可以用随机梯度下降训练。
优点:
● 建模速度快,在模型结构不复杂并且数据较少的情况下很有用。● 线性回归易于理解,在商业决策时很有价值。
缺点:
● 对非线性数据来说,多项式回归在设计时有难度,因为在这种情况下必须了解数据结构和特征变量之间的关系。● 综上,遇到复杂数据时,这些模型的表现就不理想了。
神经网络
神经网络包含了许多互相连接的节点,称为神经元。输入的特征变量经过这些神经元后变成多变量的线性组合,与各个特征变量相乘的值称为权重。之后在这一线性结合上应用非线性,使得神经网络可以对复杂的非线性关系建模。神经网络可以有多个图层,一层的输出会传递到下一层。在输出时,通常不会应用非线性。神经网络用随机梯度下降和反向传播算法训练。
优点:
● 由于神经网络有很多层(所以就有很多参数),同时是非线性的,它们能高效地对复杂的非线性关系进行建模。● 通常我们不用担心神经网络中的数据,它们在学习任何特征向量关系时都很灵活。
● 研究表明,单单增加神经网络的训练数据,不论是新数据还是对原始数据进行增强,都会提高网络性能。
缺点:
● 由于模型的复杂性,它们不容易被理解。● 训练时可能有难度,同时需要大量计算力、仔细地调参并且设置好学习速率。
● 它们需要大量数据才能达到较高的性能,与其他机器学习相比,在小数据集上通常表现更优。
回归树和随机森林
首先从基本情况开始,决策树是一种直观的模型,决策者需要在每个节点进行选择,从而穿过整个“树”。树形归纳是将一组训练样本作为输入,决定哪些从哪些属性分割数据,不断重复这一过程,知道所有训练样本都被归类。在构建树时,我们的目标是用数据分割创建最纯粹的子节点。纯粹性是通过信息增益的概念来衡量的。在实际中,这是通过比较熵或区分当前数据集中的单一样本和所需信息量与当前数据需要进一步区分所需要的信息量。
随机森林是决策树的简单集成,即是输入向量经过多个决策树的过程。对于回归,所有树的输出值是平均的;对于分类,最终要用投票策略决定。
优点:
● 对复杂、高度非线性的关系非常实用。它们通常能达到非常高的表现性能,比多项式回归更好。● 易于使用理解。虽然最后的训练模型会学会很多复杂的关系,但是训练过程中的决策边界易于理解。
缺点:
● 由于训练决策树的本质,它们更易于过度拟合。一个完整的决策树模型会非常复杂,并包含很多不必要的结构。虽然有时通过“修剪”和与更大的随机森林结合可以减轻这一状况。● 利用更大的随机森林,可以达到更好地效果,但同时会拖慢速度,需要更多内存。
这就是三种算法的优缺点总结。希望你觉得有用!
原文发布时间为:2018-09-9
本文作者:George Seif
本文来自云栖社区合作伙伴“深度学习自然语言处理”,了解相关信息可以关注“深度学习自然语言处理”。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
重磅!首届人工智能本科专业研讨会举办,这个学校已招收第一批本科生
国务院印发了《新一代人工智能发展规划》,要求“完善人工智能领域学科布局,设立人工智能专业”。 教育部印发了《高等学校人工智能创新行动计划》,要求“对照国家和区域产业需求布点人工智能相关专业,加大人工智能领域人才培养力度”。 今年7月,由北京航空航天大学主办了首届“人工智能本科专业研讨会”,来自清华大学、南京大学、西安交通大学、中国科学技术大学、复旦大学、浙江大学等全国26所一流大学的人工智能专业负责人参加会议。 南京大学黎铭教授介绍了南京大学人工智能学院的人才培养方案。南京大学长期从事机器学习与数据挖掘研究,形成了一支在人工智能领域具有国际影响力的团队。2018年5月成立了人工智能学院,学院基于“夯实基础、深化专业、复合知识、加强实践”的培养思路,已于2018年开始以“计算机科学与技术(人工智能方向)”招收第一批本科生。 关于如何进行人工智能专业设置和建设?人工智能是典型的交叉学科,其研究有三大学派。 第一是符号主义,认为人工智能源于数理逻辑,其专家系统等研究方向在八十年代把人工智能推向高潮; 第二是连接主义,认为人工智能源于仿生学,特别是对人脑模型的研究,当前很热的深度学习属于这一学...
- 下一篇
9月10日云栖精选夜读 | 马云宣布传承计划
9月10日教师节当天,阿里巴巴集团创始人马云发出题为“教师节快乐”的公开信宣布:一年后的阿里巴巴20周年之际,即2019年9月10日,他将不再担任集团董事局主席,届时由现任集团CEO张勇接任。 这是马云深思熟虑、认真准备了10年的计划。 热点热议 马云宣布传承计划 作者:技术小能手 发表在:天下网商 如果伦敦地铁图是数据科学家画的…… 作者:技术小能手 发表在:大数据文摘 阿里技术人的第一节课,都上些什么? 作者:技术小能手 发表在:阿里技术 知识整理 一文搞定 Spring Data Redis 详解及实战 作者:技术小能手 发表在:Java技术栈 ECCV 2018 | Pixel2Mesh:从单帧RGB图像生成三维网格模型 作者:技术小能手 发表在:paperweekly WebSocket 通信过程与实现 作者:技术小能手 发表在:前端大学 React 性能优化大挑战:一次理解 Immutable data 跟 shouldComponentUpdate 作者:技术小能手 发表在:前端大学 [雪峰磁针石博客]python爬虫cookbook1爬虫入门 作者:书籍寻找 美文回顾 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用