2019数据科学家最需要的技能盘点,Python大火,Pytorch职位需求翻番

简介: 2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。

image.png

大数据文摘出品
来源:medium

编译:赵吉克

2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。

2018年文章链接:

https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

一年多过去了,2019的作者也发布了最新的分析,让我们看看有什么变化。

image.png

2018年的文章考察了对统计和沟通交流等一般技能的需求以及对Python和R等技术的需求。软件技术的变化一定快于一般技能需求上的变化,所以在本更新中只包括技术部分。

我们搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些关键词和“数据科学家”共同出现。这一次,我们决定用Request和Beautiful Soup包来获取工作列表,而不是手工搜索。

事实证明,LinkedIn的爬取要困难得多,因为查看工作的列表的准确数字需要身份验证。我决定使用Selenium进行无头浏览。2019年9月,美国最高法院对LinkedIn做出了判决,允许其数据被爬取。尽管如此,在几次抓取尝试后,还是无法访问账户,这个问题可能源于刷新率限制。

不管怎么说,微软拥有LinkedIn,Randstad Holding拥有Monster, Recruit Holdings拥有Indeed和SimplyHired。

无论如何,LinkedIn的数据可能无法提供从去年到今年的苹果公司职位对比。今年夏天,LinkedIn的一些技术职位搜索词每周都会出现大幅波动。这可能是由于他们试图通过使用自然语言处理来衡量搜索目的,因而对他们的搜索结果算法进行了实验。相比之下,另外三个搜索网站在过去两年中出现的“数据科学家”相关职位列表数量则相对接近。

基于这些原因,LinkedIn被排除在本文2019年和2018年的分析之外。

对于每个工作搜索网站,我们计算了该网站中出现的每个关键词在所有数据科学家工作列表中所占的百分比。然后,在三个站点上为每个关键字取这些百分比的平均值。

同时手动调查了新的搜索词以及那些看起来很有前途的词。在2019年,没有新的搜索词达到占全体5%的占有水平,这是下述结果中使用的截断指标。

PyTorch职位需求翻番

我们采用四种方法来查看每个关键字的结果:

  • 方法1:对于每个求职网站,在每个年度用包含关键词的列表数量除以包含data scientist的搜索词总数。然后取三个网站的平均值。
  • 方法2:看看2018年至2019年这些列表的平均比例变化的绝对值。
  • 方法3:看看2018年至2019年这些列表的平均比例变化的相对百分比。

在完成上面的第一个步骤之后,计算每个关键字相对于该年度其他关键字的排名,然后计算每一年的排名变化。

观察前三个带有柱状图的选项,然后我们将展示一个包含数据的表并讨论结果。

这是上文中方法1对应的2019年图表,显示Python出现在近75%的列表中。

image.png

这是上文中方法2的图表,显示了2018年至2019年职位列表中某项技能需求的变化。AWS显示上升了5%。在2019年和2018年上市的公司中,这一比例分别为19.4%和14.6%。

image.png

这是上文方法3对应的图表,显示了每年的百分比变化。2018年,PyTorch上榜职位需求数平均增长了108.1%

image.png

以下是上述图表中的信息用表格形式展示的结果,按2018年至2019年上榜职位比例在三家网站平均后的变化百分比排序。

image.png

稳居榜首的python,落寞的R

在不到14个月的时间内技术需求发生了相当大的变化!

优胜者

Python仍然排名第一。到目前为止,它是最常用的语言。几乎霸占了四分之三的榜单,与2018年相比,Python使用量有了可观的增长。

image.png

SQL使用量快速提升。它几乎快要超过获得第二高平均分数的R语言。如果继续保持该趋势,SQL很快将成为真正的第二。

image.png

杰出的深度学习框架得到了广泛使用。PyTorch在所有关键字中的增幅最大,Keras和TensorFlow也表现出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。请注意,由于PyTorch的起始平均值较低,TensorFlow的当前平均值仍是PyTorch平均值的两倍。

image.png

image.png

image.png

数据科学家对云平台技能的需求越来越大。AWS的出现频率高达20%,Azure约10%。Azure在排名中跃升了四位。

image.png
image.png

落败者

R语言的总体平均下降幅度最大。基于其他调研,这一趋势不足为奇。Python显然已经取代R成为数据科学的首选语言。 尽管如此,R仍然非常受欢迎,出现在55%的榜单中。如果您熟悉R语言,请不要沮丧,但如果您想要掌握需求量更大的技能,请考虑学习Python。

许多Apache产品受到欢迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技术都下降得多。Spark和Hadoop仍然是人们普遍希望掌握的技能,但是我认为,转向其他大数据技术已经成为一种趋势。

专有的统计软件包MATLAB和SAS使用量急剧下降。 MATLAB在排名中下降了四位,而SAS从第六位下降到第八位。与2018年的平均水平相比,两种语言均出现了大幅下降。

推荐一个学习路径

如果你刚开始从事数据科学,我建议你专注于需求增长和有发展潜力的技术,并且每次只专心学习一种技能

以下是我推荐的学习路径:

  • 学习Python以掌握常规编程;
  • 学习pandas来进行数据操作;
  • 通过Scikit-learn库学习机器学习;
  • 学习用于高效查询相关数据库的SQL;
  • 学习Tableau以进行数据可视化;
  • 关于云计算平台,基于AWS的市场份额,它是一个不错的选择;
  • 学习一个机器学习框架,Keras现在与TensorFlow紧密结合,因此它是一个很好的起点,PyTorch也在迅速发展。

这是我的总体学习路径建议。按照你的需要各取所需吧。

相关报道:

https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d

目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
132 10
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
404 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
1月前
|
SQL 存储 数据挖掘
使用Python和PDFPlumber进行简历筛选:以SQL技能为例
本文介绍了一种使用Python和`pdfplumber`库自动筛选简历的方法,特别是针对包含“SQL”技能的简历。通过环境准备、代码解析等步骤,实现从指定文件夹中筛选出含有“SQL”关键词的简历,并将其移动到新的文件夹中,提高招聘效率。
46 8
使用Python和PDFPlumber进行简历筛选:以SQL技能为例
|
16天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
67 3
|
3月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
2月前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
40 1
|
3月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
188 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
3月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
59 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图