如何用 R 快速了解科研领域?

简介: 用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。场景作为一个初学者,你可能很希望快速了解一个新的科研领域。

用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。

场景

作为一个初学者,你可能很希望快速了解一个新的科研领域。

诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。

我自己的好奇心,往往会指向某个研究领域的3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。

我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。

工具

这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。

其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。

我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。

Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动

最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。

你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。

例如点一下菜单里面的“Collaboration Network”按钮,BiblioShiny 就立刻为你绘制作者合作网络图。

统计文章年均被引趋势?也是点一下按钮的事儿:

软件安装方法很简单。

首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python和R对故事情节做情绪分析?》一文介绍。

安装好后,在 Rstudio 中执行以下3行命令:

install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()

当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。

有了工具,下面我们就需要数据了。

数据

我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。

注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。

MIS Quarterly 的文献数据,我是从 Web of Science 下载的。

我对结果进行了精炼,只选择了其中的 Articles 类型。

一共 743 篇文章,导出选择的格式,为 BibTex 。

因为 Web of Science 每次导出记录数量,不能超过500,因此前后下载了2个 BibTex 格式文件。

我把它们打包成了一个 zip 文件(Archive.zip)。这个文件,我为你放在了这个位置http://t.cn/EPIs99X)。你可以直接下载使用。

如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程http://t.cn/EPIsjtk)。教程是关于 VosViewer 的。但其中4分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。

在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即Archive.zip,开始上传。

导入完毕后,展示结果列表如下:

软件有了,数据也有了。

下面我给你展示一下,如何解答前面提到的那3个问题,以快速熟悉科研领域。

作者

第一个问题是:

哪些作者比较厉害?

我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。

点击进入 Descriptive Analysis 标签页面。

选择 Tables 。

左侧 Result 类型,可以在下拉列表选择。我们选择“Most Productive Authors”(最高产作者)。

分析结果如下:

(插一句,我发现自己的 Facebook 好友也出现在榜单里,立刻有了一种没来由的自豪感。)

排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly !我没看错吧?好像全部文献记录条数也只有700多篇。

怀着好奇心,我在 Google 搜索了一下。

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!

他哪里是在投稿?分明是灌水的节奏!

作为季刊,2013年,全部4期上面各有一篇他的文章!

但是,科研论文的数量固然重要,质量也是要保证的嘛。

这种频率发文,质量能保证吗?

带着这个疑问,我们来考察一下第二个问题。

文献

还记得吗?我们的第二个问题就是:

哪些文献比较重要?

这个问题,其实不是那么容易解答。

下载次数多的论文,是不是很重要?

在社交媒体上流传最广的论文,是不是很重要?

目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况

Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。

方法是选择“Intellectual Structure”菜单之下的“Historiograph”。

用默认的参数,我们可以看到数据集中这20篇文献,重要性较高。

点击 Table 标签页,我们看看列表展示的具体信息。

注意这里展示了2项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。

假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。

我们注意到,其中有一篇文献,两项指标都是惊人的。

这篇大作, LCS 为44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然达到了6634。

这篇文献,简直就是一览众山小啊!

想必你也很关心——谁写的?

往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。

没错,还是 Venkatesh 教授!

看来,这种频率发文,质量也依然是有保障的。

这……是不是叫做天才?

主题

锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:

哪些主题更值得研究?

首先我们得搞清楚主题都有哪些。

我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。

默认绘图结果如下:

注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。

我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):

确实,分析结果有了差别。

我们还可以继续尝试,只从标题文字做词云:

对比上面几张图,你有什么发现?

我反正是看得眼花缭乱。

不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。

点击 Conceptual Structure 菜单,选择其中的“Correspondence Analysis”。

我们关注其中的词汇地图(word map):

看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。

但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。

因为,这只代表了历史和现状。你不能看着后视镜开车

这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。

主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
  • 第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
  • 第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。

有了这些背景知识,再回看这张图,就很有意思了。

请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?

小结

本文我们利用了 R 环境下的 BiblioShiny 软件包,点击几下鼠标,探索了以下3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。

而且你还会注意到,我们所展示的,只是 Biblioshiny 众多实用分析功能里的一小部分。

希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘 BiblioShiny 与 Bibliometrix 的功能,帮助自己更高效便捷地熟悉某一新科研领域。

延伸阅读

有了兴趣,该如何继续学习呢?

首先,推荐给你这份 Bibliometrix 的官方图文教程(http://t.cn/EPM7jKF)。

如果你喜欢看教学视频,可以点击这个链接查看。


我这里还有一本免费在线书,讲解了科研新手入门的一些默会知识,其中也包括了不少文献分析的内容。如果你感兴趣,不妨点击链接(http://t.cn/EPMzLjW)阅读。

目录
相关文章
|
10月前
|
存储 人工智能 算法
解锁分布式文件分享的 Java 一致性哈希算法密码
在数字化时代,文件分享成为信息传播与协同办公的关键环节。本文深入探讨基于Java的一致性哈希算法,该算法通过引入虚拟节点和环形哈希空间,解决了传统哈希算法在分布式存储中的“哈希雪崩”问题,确保文件分配稳定高效。文章还展示了Java实现代码,并展望了其在未来文件分享技术中的应用前景,如结合AI优化节点布局和区块链增强数据安全。
|
存储 Ubuntu 网络安全
FlatPress是一款轻量级且易于设置的博客引擎
FlatPress是一款轻量级且易于设置的博客引擎,基于PHP,无需数据库支持。其特点包括独立性、标准兼容性、文件系统存储、简单备份、丰富的插件系统、Smarty模板引擎支持的主题定制、内置评论及防垃圾邮件保护。本次实践在Ubuntu 22.04.1 LTS环境下部署FlatPress,详细介绍了环境准备、Apache2安装与配置、PHP安装、FlatPress部署及访问流程。通过简单的步骤即可搭建一个功能完备的博客系统。
193 0
|
安全 数据安全/隐私保护
深入解析 https
在使用HTTP协议时,数据传输是明文形式,容易遭受运营商劫持等安全问题,如篡改返回网页内容、修改Referer字段等。为解决这些问题,引入了HTTPS协议,它通过加密、认证和完整性保护,确保通信内容不被第三方窃听或篡改。HTTPS结合了对称加密和非对称加密,使用公钥加密对称密钥,私钥解密,确保数据安全性和传输效率。然而,中间人攻击仍可能破解这一机制,因此引入证书机制,客户端通过验证证书中的数字签名来确认公钥的有效性,从而保障数据传输的安全性。
353 0
|
监控 API 数据安全/隐私保护
屏幕监控软件开发指南:C++实现原理解析
在当今数字化时代,屏幕监控软件成为了企业管理和个人隐私保护的重要工具。本文将深入探讨如何使用C++语言实现屏幕监控软件,并解析其实现原理。我们将通过多个代码示例来说明其工作方式,最后将介绍如何将监控到的数据自动提交到网站。
456 3
|
中间件 程序员 Go
你用Go写过中间件吗?带你用Gin实现【用户角色权限管理中间件】
管理后台有超管权限,超管拥有所有权限;普通管理员可以设置角色,角色单选;角色可以赋予多个权限,权限多选;这样我们就实现了对普通管理员的角色和权限的灵活管理
624 88
你用Go写过中间件吗?带你用Gin实现【用户角色权限管理中间件】
|
监控 NoSQL 算法
探秘Redis分布式锁:实战与注意事项
本文介绍了Redis分区容错中的分布式锁概念,包括利用Watch实现乐观锁和使用setnx防止库存超卖。乐观锁通过Watch命令监控键值变化,在事务中执行修改,若键值被改变则事务失败。Java代码示例展示了具体实现。setnx命令用于库存操作,确保无超卖,通过设置锁并检查库存来更新。文章还讨论了分布式锁存在的问题,如客户端阻塞、时钟漂移和单点故障,并提出了RedLock算法来提高可靠性。Redisson作为生产环境的分布式锁实现,提供了可重入锁、读写锁等高级功能。最后,文章对比了Redis、Zookeeper和etcd的分布式锁特性。
952 16
探秘Redis分布式锁:实战与注意事项
|
Java API 微服务
Java微服务架构:原理与实践
【4月更文挑战第15天】本文介绍了Java微服务架构的原理和实践,包括服务拆分、注册与发现、API网关、配置中心和分布式链路追踪。重点提及Spring Boot和Spring Cloud作为开发工具,以及Docker和Kubernetes用于容器化和集群管理。Java微服务架构旨在应对大规模、复杂业务系统的挑战,提升系统可用性和可扩展性。
411 2
|
数据采集 JSON API
12个RAG常见痛点及解决方案
这里使用“痛点”而不是“失败点”,主要是因为我们总结的问题都有相应的建议解决方案。
1010 3
|
存储 传感器 运维
AloT 企业物联网平台入门01|学习笔记(一)
快速学习 AloT 企业物联网平台入门01
925 17
AloT 企业物联网平台入门01|学习笔记(一)
|
安全 关系型数据库 MySQL
PowerDesigner逆向工程导入MYSQL数据库总结
PowerDesigner逆向工程导入MYSQL数据库总结
370 1
PowerDesigner逆向工程导入MYSQL数据库总结