R语言CRAN软件包Meta分析

简介: R语言CRAN软件包Meta分析

我一直在寻找各种方法来查找有关R包的信息,但我最近才了解CRAN_package_db()了基本tools包中的函数。

当被调用时,这个函数发送到由环境变量指定的CRAN镜像,R_CRAN_WEB并返回一个数据帧,其中包含有关CRAN上当前每个包的大量信息。它是元数据的宝库。

作为处理角色数据的一个例子。我选择进行协作的代理是每个软件包列出的作者数量。我对其他软件包开发人员有用的代理是反向依赖和反向导入的联合。

首先选择数据框的一个子集来处理



## Observations: 12,123
## Variables: 6
## $ Package"A3", "abbyyR", "abc", "abc.data", "ABC.RAP", "ABCanal...
## $ Dep"R (>= 2.15.0), xtable, pbapply", "R (>= 3.2.0)", "R (...
## $ ImpNA, "httr, XML, curl, readr, plyr, progress", NA, NA, ...
## $ Aut"Scott Fortmann-Roe", "Gaurav Sood [aut, cre]", "Csill...
## $ RDNA, NA, "abctools, EasyABC", "abc", NA, NA, NA, NA, NA...
## $ RI NA, NA, "ecolottery", NA, NA, NA, NA, NA, NA, NA, NA, ...

请注意,在这篇文章中,我正在使用我刚刚讲话之前从CRAN提取的一个文件中的数据,但您应该没有任何问题CRAN_package_db()来获取更新的数据集。

接下来我做的是向数据集中添加两个新变量:DepImp依赖包和导入包RDRI的联合,以及反向联合依赖并反向导入包。

另外,事实证明,作者字段需要一些工作,以便从作者字符串中删除像“[aut,cre]”和“[ctb,cph]”这样的限定性文本。

一旦我有了一些干净的文本,我使用了以下代码的非常混乱的初步版本来获取我正在查找的计数数据。请注意,派生的特性DepImp以及RDRI需要的某些预处理与从我选择的其他特性中提取计数所需的预处理不同。在这里,我做了一件非常不整洁的事情,并创建了两个初步的数据框架 - 效率不高。


##      Package Aut Dep Imp RD RI DepImp RDRI
## 1          A3  1  3  0  0  0      3    0
## 2      abbyyR  1  1  6  0  0      7    0
## 3        abc  4  6  0  2  1      6    3
## 4    abc.data  4  1  0  1  0      1    1
## 5    ABC.RAP  4  1  3  0  0      4    0
## 6 ABCanalysis  3  1  1  0  0      2    0

一旦我有了清晰的数据,计算一些简单的统计数据就变得微不足道了。

在这里,我们看到手段和中位数的数字很小,但是反向依赖和反向进口以及它们的联合的标准偏差反映了相当


##  Features mean    sd median
## 1      Aut 2.25  2.73      1
## 2      Dep 1.53  1.57      1
## 3      Imp 2.85  3.89      1
## 4      RD 0.81  9.09      0
## 5      RI 2.30 23.23      0
## 6  DepImp 4.37  4.06      3
## 7    RDRI 3.11 30.79      0

在一目了然RDRI位数表明,这种变化是由于比较少的包。直方图表示很长的尾巴。



## 0% 25% 50% 75% 100%
## 0 0 0 0 1239


## Warning: Removed 4 rows containing non-finite values (stat_bin).


## Warning: Removed 1 rows containing missing values (geom_bar).

对RDRI字段进行排序可找到前15个最集成的软件包。由此,我的意思是最依赖或由其他软件包导入的软件包。


##    Package Aut DepImp RDRI
## 1      Rcpp  7      3 1239
## 2      MASS  6      6 1157
## 3      MASS  6      6 1157
## 4  ggplot2  3    11 1149
## 5    dplyr  5    12  716
## 6    Matrix  13      7  680
## 7    Matrix  13      7  680
## 8      plyr  1      2  555
## 9  stringr  2      3  500
## 10  mvtnorm  9      3  483
## 11 magrittr  1      0  454
## 12 survival  2      7  434
## 13 survival  2      7  434
## 14 jsonlite  3      1  426
## 15    httr  2      6  420

最后,查看作者领域的分位数和直方图给出了一些合作的想法。大多数软件包的作者少于三位,表明只有非常适度的协作。


## 0% 25% 50% 75% 100%## 1 1 1 3 97




## Warning: Removed 9 rows containing non-finite values (stat_bin).


相关文章
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
数据采集 机器学习/深度学习 数据可视化
探索大数据分析的无限可能:R语言的应用与实践
探索大数据分析的无限可能:R语言的应用与实践
562 9
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
490 3
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
1072 1
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
415 3