数据科学家和开发人员在处理数据时往往会有以下几个选择:
·基于GUI的开发平台。
·C-based语言(如C,C ++和Java)。
·R语言。
R语言论坛博主Oliver Bracht曾经写过一篇关于R语言优点的主题帖子,并指出R比其他语言更适合处理更大的数据查询。
Jan Wijffels在talkR会议上列举了不同规模的数据集,根据经验,百万条记录的数据集可以轻松地用标准R进行处理;百万到十亿条记录的数据集也可以使用R来处理,但是需要额外的努力;十亿条以上的数据集就需要MapReduce算法,而这些算法可以在R中设计,并用Hadoop等连接器进行处理。
下面我们来看一下数据科学家都使用哪些工具和编程语言:
GUI开发平台
GUI开发平台非常友好,但是它们不足以处理大型的大数据项目,随着大数据渐渐成为企业的优先事务,更多的大数据项目将会涌现,这些GUI开发平台会更受欢迎。
C以及C-based语言
C以及C-based语言早在1978年就被制定了编程语言标准,C是C ++,Java,Python以及其他面向对象编程语言的基础。虽然新的C-based语言具有强大的面向对象能力,但它们在大数据查询方面也具有一定的局限性。
C语言有一些很好的数据处理方法,程序员会选择C是基于以下的原因:
·C是用于周界预估和处理传感器数据的伟大语言。
·Java生态系统类似于Hadoop。
·C ++可用于处理雷达数据。
这些语言在处理GB级的数据时非常有用,但是在处理大数据时并不健壮。例如,C++可用于大数据项目,但是要求程序员要十分熟练准确的使用指针。C-based语言的局限性使得开发人员不得不去寻找替代方案,而R语言是更新的编程语言,更适合处理大数据。
R是查询和处理大数据的更好选择
R语言的大数据编程是在几年前开发的,它用于数据分析和分布式计算。R语言的库被广泛应用于大型分布式平台,而且在较小的系统上也能很好地运行,甚至还可以在个人笔记本电脑上使用。
InfoWorld的编辑Martin Heller指出,R是更适合大数据开发人员有以下几个原因:
R语言的包和函数能够加载各种来源的数据,除了使用read.table()函数处理的逗号之外的分隔符,您可以复制和粘贴数据表,读取Excel文件,将Excel连接到R,导入SAS和SPSS数据以及访问数据库, Salesforce和RESTful接口。
您不需要学习标准数据导入的语法,因为RStudio Tools | Import Dataset菜单项将帮助您通过查看文本文件或URL中的数据,设置正确的转换选项来交互地生成正确的命令
我们来更详细地看一下这些要点:
多个来源加载数据
在大数据爆红之前,大多数应用程序都是从单一来源汇总数据。而大数据催生了物联网的发展,现在许多项目都要依赖众多来源的数据。营销应用程序是一个典型的例子,他们需要从内部数据库,社交媒体和客户设备等多个来源来收集客户数据。所以你需要一种可以从所有来源查询和处理数据的编程语言。
程序员的适应程度
程序员学习新的语言需要一定的时间,不过,一般来说多功能的编程语言都有更陡峭的学习曲线,尤其是处理大数据之类的复杂东西。
而R是一个例外。只要程序员了解其基本编码原则,就可以使用内建的库来处理大数据。
与其他语言的兼容性
R语言的优点之一就是和其他主流的编程语言兼容。
从云平台中提取的能力
如果程序员学习了R语言扩展包dplyr,就可以使用它来运行不同云平台的大数据查询,如Google BigQuery和Amazon Redshift。
托管公司与R兼容
由于R可能成为大数据应用程序的标准编程语言,所以更多的托管公司开始重视R语言,以下托管公司都在近期为R语言程序员提供了新的解决方案:
Host.AG是来自Antigua 和Barbuda,的一家托管公司,它使用大数据来分析网络安全威胁并部署最佳解决方案,例如DDoS攻击。
VPS.AG认为许多客户依赖大数据,但是预算有限,所以他们向GB数据级的公司提供经济托管服务。
TrueHoster深耕各行业的客户服务,使用大数据为所有行业定制服务计划。
随着大数据的继续深入发展,其他托管服务供应商对于R语言兼容性的需求会上升。
R将成为大数据的未来?
大数据正在以各种方式改变我们的生活,但是却很少有人谈论大数据时如何改变程序员的生活。程序员正在寻找更强大的解决方案,他们发现,R具有许多其他语言缺乏的大数据特征,并相信在不久的将来R语言可能会成为更流行的语言。
作者:朱立娜
来源:IT168
原文链接: R语言会成为大数据时代的现象级语言吗?