如何用 R 快速了解科研领域?

简介: 用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。场景作为一个初学者,你可能很希望快速了解一个新的科研领域。

用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。

场景

作为一个初学者,你可能很希望快速了解一个新的科研领域。

诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。

我自己的好奇心,往往会指向某个研究领域的3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。

我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。

工具

这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。

其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。

我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。

Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动

最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。

你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。

例如点一下菜单里面的“Collaboration Network”按钮,BiblioShiny 就立刻为你绘制作者合作网络图。

统计文章年均被引趋势?也是点一下按钮的事儿:

软件安装方法很简单。

首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python和R对故事情节做情绪分析?》一文介绍。

安装好后,在 Rstudio 中执行以下3行命令:

install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()

当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。

有了工具,下面我们就需要数据了。

数据

我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。

注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。

MIS Quarterly 的文献数据,我是从 Web of Science 下载的。

我对结果进行了精炼,只选择了其中的 Articles 类型。

一共 743 篇文章,导出选择的格式,为 BibTex 。

因为 Web of Science 每次导出记录数量,不能超过500,因此前后下载了2个 BibTex 格式文件。

我把它们打包成了一个 zip 文件(Archive.zip)。这个文件,我为你放在了这个位置http://t.cn/EPIs99X)。你可以直接下载使用。

如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程http://t.cn/EPIsjtk)。教程是关于 VosViewer 的。但其中4分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。

在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即Archive.zip,开始上传。

导入完毕后,展示结果列表如下:

软件有了,数据也有了。

下面我给你展示一下,如何解答前面提到的那3个问题,以快速熟悉科研领域。

作者

第一个问题是:

哪些作者比较厉害?

我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。

点击进入 Descriptive Analysis 标签页面。

选择 Tables 。

左侧 Result 类型,可以在下拉列表选择。我们选择“Most Productive Authors”(最高产作者)。

分析结果如下:

(插一句,我发现自己的 Facebook 好友也出现在榜单里,立刻有了一种没来由的自豪感。)

排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly !我没看错吧?好像全部文献记录条数也只有700多篇。

怀着好奇心,我在 Google 搜索了一下。

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!

他哪里是在投稿?分明是灌水的节奏!

作为季刊,2013年,全部4期上面各有一篇他的文章!

但是,科研论文的数量固然重要,质量也是要保证的嘛。

这种频率发文,质量能保证吗?

带着这个疑问,我们来考察一下第二个问题。

文献

还记得吗?我们的第二个问题就是:

哪些文献比较重要?

这个问题,其实不是那么容易解答。

下载次数多的论文,是不是很重要?

在社交媒体上流传最广的论文,是不是很重要?

目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况

Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。

方法是选择“Intellectual Structure”菜单之下的“Historiograph”。

用默认的参数,我们可以看到数据集中这20篇文献,重要性较高。

点击 Table 标签页,我们看看列表展示的具体信息。

注意这里展示了2项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。

假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。

我们注意到,其中有一篇文献,两项指标都是惊人的。

这篇大作, LCS 为44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然达到了6634。

这篇文献,简直就是一览众山小啊!

想必你也很关心——谁写的?

往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。

没错,还是 Venkatesh 教授!

看来,这种频率发文,质量也依然是有保障的。

这……是不是叫做天才?

主题

锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:

哪些主题更值得研究?

首先我们得搞清楚主题都有哪些。

我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。

默认绘图结果如下:

注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。

我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):

确实,分析结果有了差别。

我们还可以继续尝试,只从标题文字做词云:

对比上面几张图,你有什么发现?

我反正是看得眼花缭乱。

不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。

点击 Conceptual Structure 菜单,选择其中的“Correspondence Analysis”。

我们关注其中的词汇地图(word map):

看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。

但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。

因为,这只代表了历史和现状。你不能看着后视镜开车

这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。

主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
  • 第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
  • 第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。

有了这些背景知识,再回看这张图,就很有意思了。

请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?

小结

本文我们利用了 R 环境下的 BiblioShiny 软件包,点击几下鼠标,探索了以下3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。

而且你还会注意到,我们所展示的,只是 Biblioshiny 众多实用分析功能里的一小部分。

希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘 BiblioShiny 与 Bibliometrix 的功能,帮助自己更高效便捷地熟悉某一新科研领域。

延伸阅读

有了兴趣,该如何继续学习呢?

首先,推荐给你这份 Bibliometrix 的官方图文教程(http://t.cn/EPM7jKF)。

如果你喜欢看教学视频,可以点击这个链接查看。


我这里还有一本免费在线书,讲解了科研新手入门的一些默会知识,其中也包括了不少文献分析的内容。如果你感兴趣,不妨点击链接(http://t.cn/EPMzLjW)阅读。

目录
相关文章
|
4月前
|
Web App开发 数据可视化 搜索推荐
博士科研最好用的科研绘图工具有哪些?
该博客介绍了几种博士科研中最好用的科研绘图工具,包括ChiPlot、Veusz、Echarts、MeedPeer和Python可视化库,并提供了它们的优缺点分析。
178 2
博士科研最好用的科研绘图工具有哪些?
|
5月前
|
数据采集 并行计算 算法
LabVIEW与Matlab联合编程的途径及比较
LabVIEW与Matlab联合编程的途径及比较
118 0
LabVIEW与Matlab联合编程的途径及比较
MATLAB实战 | APP设计
生成一个用于观察视点仰角和坐标轴着色方式对三维图形显示效果影响的App,界面如图1所示。界面右上部的列表框用于选择绘图数据、切换按钮组用于选择绘图方法,中间的旋钮用于设置视点方位角和仰角,右下部的分档旋钮用于设置坐标轴着色方式、跷板开关用于显示网格线。
426 7
MATLAB实战 | APP设计
|
7月前
|
人工智能 数据可视化 数据挖掘
适合研究生的科研步骤和技巧
适合研究生的科研步骤和技巧
110 0
|
数据库
科研常识小汇总
科研常识小汇总
54 1
|
C语言
MATLAB学习第一天(基础认知)
MATLAB学习第一天(基础认知)
94 0
MATLAB学习第一天(基础认知)
谈一谈|Matlab仿真项目简介
谈一谈|Matlab仿真项目简介
94 0
|
机器学习/深度学习 自然语言处理 安全
科研小白如何做好科研(内附一些科研实用工具)
科研小白如何做好科研(内附一些科研实用工具)
196 0
【仿真建模】第四课:AnyLogic入门基础课程 - 轨道交通仿真入门讲解
拖拽出一个trainSource,设置其车厢数量为4(默认为11,车厢太多会超出轨道,导致报错),设置轨道上的位置为起点。运行查看效果(我这里运行前设置trainSource的间隔时间为1分钟了)其中,中间的trainMoveTo的方向要设置为反向,因为列车需要倒车。其中每个trainMoveTo的路线都设置为从当前到目标轨道自动计算。加入延迟,不让列出顺利到达和销毁,而是在到达后等一段时间再销毁。改造轨道,弧形是按住Alt键得到的。定义轨道上的起点和终点。创建车型类型:列车头。创建车厢类型:列车身。
271 0
【仿真建模】第四课:AnyLogic入门基础课程 - 轨道交通仿真入门讲解