2019数据科学家最需要的技能盘点,Python大火,Pytorch职位需求翻番
大数据文摘出品
来源:medium
编译:赵吉克
2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。
2018年文章链接:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db
一年多过去了,2019的作者也发布了最新的分析,让我们看看有什么变化。
2018年的文章考察了对统计和沟通交流等一般技能的需求以及对Python和R等技术的需求。软件技术的变化一定快于一般技能需求上的变化,所以在本更新中只包括技术部分。
我们搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些关键词和“数据科学家”共同出现。这一次,我们决定用Request和Beautiful Soup包来获取工作列表,而不是手工搜索。
事实证明,LinkedIn的爬取要困难得多,因为查看工作的列表的准确数字需要身份验证。我决定使用Selenium进行无头浏览。2019年9月,美国最高法院对LinkedIn做出了判决,允许其数据被爬取。尽管如此,在几次抓取尝试后,还是无法访问账户,这个问题可能源于刷新率限制。
不管怎么说,微软拥有LinkedIn,Randstad Holding拥有Monster, Recruit Holdings拥有Indeed和SimplyHired。
无论如何,LinkedIn的数据可能无法提供从去年到今年的苹果公司职位对比。今年夏天,LinkedIn的一些技术职位搜索词每周都会出现大幅波动。这可能是由于他们试图通过使用自然语言处理来衡量搜索目的,因而对他们的搜索结果算法进行了实验。相比之下,另外三个搜索网站在过去两年中出现的“数据科学家”相关职位列表数量则相对接近。
基于这些原因,LinkedIn被排除在本文2019年和2018年的分析之外。
对于每个工作搜索网站,我们计算了该网站中出现的每个关键词在所有数据科学家工作列表中所占的百分比。然后,在三个站点上为每个关键字取这些百分比的平均值。
同时手动调查了新的搜索词以及那些看起来很有前途的词。在2019年,没有新的搜索词达到占全体5%的占有水平,这是下述结果中使用的截断指标。
PyTorch职位需求翻番
我们采用四种方法来查看每个关键字的结果:
- 方法1:对于每个求职网站,在每个年度用包含关键词的列表数量除以包含data scientist的搜索词总数。然后取三个网站的平均值。
- 方法2:看看2018年至2019年这些列表的平均比例变化的绝对值。
- 方法3:看看2018年至2019年这些列表的平均比例变化的相对百分比。
在完成上面的第一个步骤之后,计算每个关键字相对于该年度其他关键字的排名,然后计算每一年的排名变化。
观察前三个带有柱状图的选项,然后我们将展示一个包含数据的表并讨论结果。
这是上文中方法1对应的2019年图表,显示Python出现在近75%的列表中。
这是上文中方法2的图表,显示了2018年至2019年职位列表中某项技能需求的变化。AWS显示上升了5%。在2019年和2018年上市的公司中,这一比例分别为19.4%和14.6%。
这是上文方法3对应的图表,显示了每年的百分比变化。2018年,PyTorch上榜职位需求数平均增长了108.1%。
以下是上述图表中的信息用表格形式展示的结果,按2018年至2019年上榜职位比例在三家网站平均后的变化百分比排序。
稳居榜首的python,落寞的R
在不到14个月的时间内技术需求发生了相当大的变化!
1. 优胜者
Python仍然排名第一。到目前为止,它是最常用的语言。几乎霸占了四分之三的榜单,与2018年相比,Python使用量有了可观的增长。
SQL使用量快速提升。它几乎快要超过获得第二高平均分数的R语言。如果继续保持该趋势,SQL很快将成为真正的第二。
杰出的深度学习框架得到了广泛使用。PyTorch在所有关键字中的增幅最大,Keras和TensorFlow也表现出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。请注意,由于PyTorch的起始平均值较低,TensorFlow的当前平均值仍是PyTorch平均值的两倍。
数据科学家对云平台技能的需求越来越大。AWS的出现频率高达20%,Azure约10%。Azure在排名中跃升了四位。
2. 落败者
R语言的总体平均下降幅度最大。基于其他调研,这一趋势不足为奇。Python显然已经取代R成为数据科学的首选语言。 尽管如此,R仍然非常受欢迎,出现在55%的榜单中。如果您熟悉R语言,请不要沮丧,但如果您想要掌握需求量更大的技能,请考虑学习Python。
许多Apache产品受到欢迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技术都下降得多。Spark和Hadoop仍然是人们普遍希望掌握的技能,但是我认为,转向其他大数据技术已经成为一种趋势。
专有的统计软件包MATLAB和SAS使用量急剧下降。 MATLAB在排名中下降了四位,而SAS从第六位下降到第八位。与2018年的平均水平相比,两种语言均出现了大幅下降。
推荐一个学习路径
如果你刚开始从事数据科学,我建议你专注于需求增长和有发展潜力的技术,并且每次只专心学习一种技能。
以下是我推荐的学习路径:
- 学习Python以掌握常规编程;
- 学习pandas来进行数据操作;
- 通过Scikit-learn库学习机器学习;
- 学习用于高效查询相关数据库的SQL;
- 学习Tableau以进行数据可视化;
- 关于云计算平台,基于AWS的市场份额,它是一个不错的选择;
- 学习一个机器学习框架,Keras现在与TensorFlow紧密结合,因此它是一个很好的起点,PyTorch也在迅速发展。
这是我的总体学习路径建议。按照你的需要各取所需吧。
相关报道:
https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d
https://bdtechtalks.com/2019/11/25/ai-research-neural-networks-compute-costs/
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
携带数十个恶意软件的《星战9》种子资源,你还敢下载吗?
12月19日,《星战9》上映。当很多人期待电影时,往往也是盗版资源和恶意软件的“最佳”机会。 根据卡巴斯基的报告,2019年,发生了285103次以“星球大战”为主题的恶意软件攻击,殃及用户37772人。这次,《星战9》同样没有逃过一劫,据了解,至少有83个用户被近65个恶意软件所影响。 借助流行的娱乐影像来伪装病毒,黑客们的策略往往是相似的。过去,《权力的游戏》大火之际,其盗版资源中也包含各种形式的的隐藏恶意软件,放在The Pirate Bay等种子网站上开放下载。 电影是大众普遍的娱乐方式,而“免费的”资源为这种娱乐无限地降低了成本提升了传播速度,但同时也为网络攻击创造了土壤。 此次,30多个伪装成官方电影账户的欺诈性网站和社交媒体(这些网站的实际数量可能还要高得多),以免费电影资源为诱饵,引导用户在平台上进行“必要的”注册,借此获取手机用户的信用卡数据。甚至,这些网站为了取信用户,往往会复制电影的名称并提供详细的描述和支持内容,这种作为被称为“黑色SEO”,也就是让恶意分子能在搜索引擎中提升网络钓鱼网站的排名。 钓鱼网站 为了进一步推动欺诈性网站,恶意分子还建立Twitter和...
- 下一篇
2019年11月Github上热门的开源项目
11 月份 GitHub 上最热门的开源项目排行已经出炉啦,在本月的名单中,有15亿参数量的通用语言模型、还有NLP工具包、面试指南等,下面就是本月上榜的10个开源项目,一起来看看上榜详情: 1. Real-Time-Voice-Cloning https://github.com/CorentinJ/Real-Time-Voice-Cloning Sara 13118 Real-Time-Voice-Cloning这是一个基于深度学习的语音合成项目,它通过采集分析一段具体的声音样本,可在 5 秒内生成与之类似的克隆语音。 2. gpt-2 https://github.com/openai/gpt-2 Star 10094 GPT-2是由OpenAI发布的15亿参数量通用语言模型,训练GPT-2是为了预测 40GB 互联网文本中的下一个单词。GPT-2是基于transformer的大型语言模型,包含15亿参数、在一个800万网页数据集上训练而成。 3. vscode https://github.com/microsoft/vscode Star 87712 Vscode是微软推出的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果