本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,第1.6节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.6 统计计算的R工程
在过去的几年里,R统计环境在机器语言社区里面逐渐获得了相当突出的重要性。虽然有很多其他选择来执行与数据分析、数据建模和机器学习有关的任务,R成为了今天数据科学家最喜欢的工具。这归功于R在学术界的广泛应用,而不是像SAS和SPSS等商业化产品。最近,R用户社区和SAS及Python社区展开了激烈的辩论,焦点是对数据科学家来说,哪个是最好的工具。R有令人信服的理由,包括:免费、开源、可用性强;广泛使用的可扩展语言;在CRAN中大约有7000个R包用以拓展R功能;一流的可视化功能;一个繁荣的用户社区以及博客集合(例如r-bloggers.com)。
这里有一些关于R的简短事实,来证明它的普及和成长:
R是薪酬最高的IT技能(Dice.com调查,2014年1月);
R是在SQL之后最广泛使用的数据科学语言(O’Reilly调查,2014年1月);
70%的数据挖掘师(data miner)使用R(Rexer调查,2013年10月);
R在所有的编程语言中排名15(RedMonk编程语言排名,2014年1月);
R比其他任何数据科学语言都发展得快(KDNuggets调查,2013年8月);
R在谷歌搜索先进的分析软件中排名第一(Google Trends,2014年3月);
R在全世界有超过两百万用户(Oracle预测,2012年2月)。