Kaggle精选:6门精品数据科学课程
本文转载自公众号“读芯术”(ID:AI_Discovery)。
很多网站都提供数据科学在线课程,而笔者最钟爱的就是Kaggle平台,使用它的次数最多,比如查看代码、下载数据和查看其他Jupyter笔记本等。领英也提供课程,但笔者更愿意在已有学习经历的网站上参加课程。
根据Kaggle上的示例和数据,笔者已经在这个网站上练习了大量的机器学习算法及对应的代码。老司机带路,为你筛选一些 Kaggle上可学习的精品数据科学课程。
Kaggle
Kaggle是可以了解数据科学的网站,你可以在上面查看其他数据科学家们开发的机器学习模型,也可以查看数百行代码,参加机器学习竞赛,从大量有用的数据集中下载资源,最终修炼成更优秀的数据科学家。
其上有许多直击重点的好课,不同于其他常见的数据科学课程,你不必花上数周或数月,可以在几小时或几天内就完成整套课程。
课程
这些课程中有些非常简单,而有些则在学习数据科学和实践技能方面具有独特性和优势,能让你成为与众不同的数据科学家。这些课程由数据科学、机器学习和人工智能的领军者教授或创建。向下拉动课程列表就可以在开始新课程之前看到所需要的必备技能。
其他平台上的许多课程可能会注重特定的函数、列表、数组、查询技术,但是Kaggle的这些课程始终注重它们与数据科学项目的联系,以帮助学习者了解和改进整个数据科学过程。下面列出这14门课程:
- Python
- 机器学习基础
- 中级机器学习
- 数据可视化
- Pandas
- 特征工程
- 深度学习
- SQL基础
- 高级SQL
- 地理空间分析
- 微挑战
- 机器学习的可解释性
- 自然语言处理
- 游戏人工智能和强化学习基础
图源:unsplash
其中有6门我力荐的精品课程:
1. 特征工程
这门课程之所以重要,是因为大多数数据科学家们在职业生涯中都不会收到一个完美的精选数据集,能够直接纳入他们的模型。它在实际应用中是不可或缺的,你总是需要完善特征工程的艺术。本课程重点介绍基线模型、分类编码、特征生成和特征选择的过程。
- 基线模型:在基线模型部分,学习者会练习加载数据、准备目标列、转换时间戳、准备分类变量、创建训练、验证和测试拆分、训练模型,以及对该模型进行预测和评估。
- 分类编码:特征工程这部分的优势是假定学习者熟悉独热编码(one-hot encoding)和级别编码(level encoding)。它提出了一些笔者以前不知道的新方法,包括计数编码、目标编码和CatBoost编码。
- 特征生成:现在将介绍本课程真正精妙的部分,即生成特征。该主题涵盖交互(结合分类变量)以及时间和数字特征(与课程的特定示例相关)。
- 特征选择:特征太多会导致模型不佳并难以使用。本部分介绍单变量特征选择和L1正则化。虽然笔者知道并曾使用过这些方法,但完全不了解sklearn中的feature_selection库,包括SelectKBest、f_classif和SelectFromModel。
2. 高级SQL
虽然SQL课程没什么特别之处,但笔者非常喜欢看其中一些部分,这些部分使用了我所见过最有用的SQL的视觉效果以及BigQuery的示例。课程涵盖的主要主题是:
- 连接和联合——合并来自多个表的信息
- 分析函数——OVER、PARTITION BY、ORDER BY、窗框子句、分析聚合函数、分析导航函数和分析编号函数
- 嵌套和重复数据——嵌套数据的STRUCT和RECORD、重复数据的ARRAY和UNNEST()
- 编写高效查询—查询优化器、show_amount_of_data_scanned()和show_time_to_run()、仅选择所需列、读取较少数据、避免N:N连接
3. 地理空间分析
图源:pexels
这门课是我目前见过的最好的视觉化示例之一。在本课程中,您可以执行许多自定义地图,这在其他程序中通常是无法执行的。本课程包括几个部分:
- 你的第一张地图——GeoPandas
- 坐标参考系统——地图投影
- 交互式地图——热图、分级统计图
- 处理地理空间数据——空间关系
- 同质分析——测量距离和相邻点
4. 机器学习的可解释性
该课程概述了SHAP值,这是一个非常有用的库,帮助数据科学家们向自己和其他非技术相关人员解释机器学习的结果。在这个特别的课程中你将学习到:模型洞察的用例、排列重要性、Patrial Plot图、SHAP值、SHAP值的高级用法。
5. 自然语言处理
在笔者的职业生涯中,数据科学中的这一部分用得最多。总是会有重要的、典型的数字数据,但是文本数据几乎一样普遍。可以将文本作为特征添加到多个机器学习模型中。
本课程涵盖NLP入门、文本分类和词向量。尽管这个话题在数据科学领域似乎有些陌生,但数据科学的这一方面多年以来已司空见惯了。例如,谷歌搜索引擎很可能一直在使用自然语言处理来生成搜索建议。
6. 游戏人工智能和强化学习入门
在数据科学的学习经历以及紧跟当前数据科学趋势过程中,笔者从未见过这样的课程。这些课程中最有趣的部分或许是可以学习如何制作电子游戏。本课程重点关注的其他主题是:
- 玩游戏:游戏代理
- One-Step前瞻:启发式和博弈树
- N-Step前瞻:极小极大算法
- 深度强化学习:神经网络
图源:unsplash
数据科学课程在网上几乎随处可见,但选项太多有时也会造成困扰,因此笔者非常贴心地为你挑选好啦。课程的选择最终取决于你在寻找什么,如果你想要直接的、非常有益的、真实的数据科学课程应用,Kaggle就是最佳选择。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
当前云计算的业务思路有哪些
首先,云计算的业务思路一定要与云计算的服务模式相结合,不同的服务模式会孵化出不同的业务思路,同时团队自身的资源整合能力和技术研发能力,也在很大程度上会影响云计算的业务思路。 传统的云计算服务模式可以分为三种,分别是IaaS、PaaS和SaaS,随着大数据、人工智能和区块链等技术的发展,在传统的服务模式上,又衍生出了很多新的服务模式,包括数据服务、决策服务、价值体系服务等等,从大的发展趋势来看,云计算未来的业务思路会更多偏向于行业资源的整合和利用,这一点在工业互联网时代会有更加明显的体现。 当前不同规模的企业往往会致力于不同领域的云计算服务,比如大型企业比较热衷于IaaS和PaaS,随着IaaS的附加值逐渐降低,当前大型企业更注重PaaS的研发,同时基于PaaS也可以向不同领域进行垂直发展,价值挖掘空间还是非常大的。从当前的发展趋势来看,基于PaaS可以做全栈云和智能云,也可以嫁接大数据来提升服务的附加值,当然这个过程需要具有较强的行业背景。 对于大量的中小企业和行业创业者来说,以SaaS为切入点是比较现实的选择,SaaS本身的机会非常多,而且SaaS服务本身就具有多样性,可以进行行业定...
- 下一篇
Reddit遭黑客攻击,发布支持特朗普连任,是黑客行为还是政治行为
在过去的24小时内,多个Reddit子目录已被攻击,此事件背后的攻击者发布了亲特朗普的消息并更改了社区主题以显示支持特朗普2020年竞选的内容。 一位Reddit管理员说:“正在发生一个事件,帐户被盗用并被用来破坏subreddit。”“我们正在努力制止不良行为者并恢复变更。” Reddit Mods敦促启用双重身份验证 Reddit管理员敦促subreddit版主对其帐户启用双重身份验证(2FA)并更改其密码。 据一位Reddit管理员说,此事件背后的不良行为者在“过去24小时内”一直活跃。 建议Reddit用户寻找以下迹象,以了解其帐户是否遭到入侵: 您收到电子邮件通知,告知您帐户的密码和/或电子邮件地址已更改,但您未请求更改 您发现个人资料中的授权应用无法识别 您在帐户活动页面上注意到异常的IP历史记录 您会看到自己不记得做的投票,帖子,评论或审核操作,或者自己不记得发送的私人消息 其中一个帐户遭到入侵的mod共享了黑客使用其帐户采取的所有操作的屏幕截图。 从下图可以看到,在控制了帐户之后,攻击者更改了他的subrreddit的CSS样式表,删除了权限比他少的所有mod,并更改了...
相关文章
文章评论
共有0条评论来说两句吧...