R、SQL、Python,看数据科学家最喜欢的编程语言

简介:

迄今为止世界范围内已经有超过200位数据科学家参与了调查,然而结果显示并没有一种在数据科学领域占绝对优势的编程语言,但是也似乎主要集中在有限几个选项里:几乎96%的参与者断言至少要用R,SQL或者Phython中的一种。

数据的爆炸增长以及公司将数据转化为商业价值的巨大可能性,不断增加着市场对数据科学家的需求。

但是,一个合格的数据科学家必须具备哪些技能,拥有什么样的教育背景呢?数据科学家在团队中的角色是什么?数据科学家大多使用什么工具和编程语言呢?这些就是米兰理工大学的大数据分析观测台通过一项针对数据科学家的国际调查正在研究的部分问题。如果你的工作与数据有关,也可以支持一下这个完全匿名的调查( survey)。

除了基础的数据科学相关的技能,编程是数据科学家务必要具备的五种主要能力之一,即使就专业知识而言这不是最相关的。

迄今为止世界范围内已经有超过200位数据科学家参与了调查,然而结果显示并没有一种在数据科学领域占绝对优势的编程语言,但是也似乎主要集中在有限几个选项里:几乎96%的参与者断言至少要用R,SQL或者Phython中的一种。


image

值得一提的是,当前的调查中排名第一的是53%的数据科学家选择的的由R Foundation for Statistical Computing提供支持的R语言。一开始R主要是在统计学家或学术圈内流行,但近几年被相当多的应用于数据科学。如今R是最受欢迎的开源语言之一很多大型的网络社区都支持它。

即使早在20世纪70年代初就得以发展,SQL在当今仍然发挥着重要作用(约49%的数据科学家选择SQL,排名第二)。尽管SQL不太适合处理非结构化的数据组(典型的比如大数据),但是分析组织中结构化的数据仍然很有必要,而SQL就非常适合用来处理这类数据。

排名第三的Python(43%)因为灵活而且相当容易上手,近几年大受欢迎。和R语言一样,也有很多大型社区致力于促进Python的提高并且建立一些特定的packages。

前五名中最后两个分别是Unix Shell/AWK/Gawk(15%)和Java(8%)。
本文转自d1net(转载)

相关文章
|
3天前
|
JSON 数据格式 开发者
pip和requests在Python编程中各自扮演着不同的角色
`pip`是Python的包管理器,用于安装、升级和管理PyPI上的包;`requests`是一个HTTP库,简化了HTTP通信,支持各种HTTP请求类型及数据交互。两者在Python环境中分别负责包管理和网络请求。
15 5
|
3天前
|
SQL 测试技术 网络安全
Python之SQLMap:自动SQL注入和渗透测试工具示例详解
Python之SQLMap:自动SQL注入和渗透测试工具示例详解
13 0
|
5天前
|
SQL API 数据库
在Python中获取筛选后的SQL数据行数
在Python中获取筛选后的SQL数据行数
16 1
|
5天前
|
SQL 数据库 数据库管理
python自动生成SQL语句自动化
python自动生成SQL语句自动化
23 1
|
6天前
|
存储 Python 容器
Python高级编程
Python集合包括可变的set和不可变的frozenset,用于存储无序、不重复的哈希元素。创建集合可使用{}或set(),如`my_set = {1, 2, 3, 4, 5}`。通过add()添加元素,remove()或discard()删除元素,如`my_set.remove(3)`。
|
6天前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
|
6天前
|
测试技术 Python
Python模块化方式编程实践
Python模块化编程提升代码质量,包括:定义专注单一任务的模块;使用`import`导入模块;封装函数和类,明确命名便于重用;避免全局变量降低耦合;使用文档字符串增强可读性;为每个模块写单元测试确保正确性;重用模块作为库;定期维护更新以适应Python新版本。遵循这些实践,可提高代码可读性、重用性和可维护性。
27 2
|
12天前
|
测试技术 调度 索引
python编程中常见的问题
【4月更文挑战第23天】
32 2
|
12天前
|
监控 关系型数据库 测试技术
Python 是一种非常流行的后端编程语言
使用Python进行后端开发涉及环境配置(安装Python,推荐使用虚拟环境)、安装相关库(如Flask、Django、NumPy等)、构建API或模型、选择数据库(如MySQL、PostgreSQL)进行数据存储、编写测试用例保证代码质量、部署到云服务(如AWS、Heroku)并进行生产环境的监控与维护。实际操作中,步骤会依据项目需求和团队偏好调整。
12 1
|
13天前
|
网络协议 算法 网络架构
Python网络编程之udp编程、黏包以及解决方案、tcpserver
Python网络编程之udp编程、黏包以及解决方案、tcpserver