【Science】算法揭秘深度学习大牛,谁影响了谁?

简介:

2015年秋天,由微软联合创始人保罗·艾伦创立的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)发布了一款名为Semantic Scholar的搜索服务,其瞄准的竞争对手是Google Scholar、PubMed和其他在线学术搜索引擎。这项计划最初的目标是让这款由人工智能驱动的搜索引擎能在一定程度上真正理解搜索出来的论文。而如今,Semantic Scholar有了一个新目标:衡量一位科学家或一所研究机构对之后研究的影响。

 

根据Science报道,Semantic Scholar目前专注于计算机科学领域,但预计今年秋天会拓展到神经科学领域,而后再更加广泛地拓展开去。同时,Semantic Scholar将不仅仅为论文排名,也会根据某一影响因素为作者、机构排名。例如,Semantic Scholar发现,MIT是当今计算机科学领域影响力最大的机构——这并不奇怪。不过,谁是计算机科学领域影响力最大的科学家呢?

 

如果你要看原始引用次数最高的人,那么计算机科学领域当前顶尖科学家是加州大学伯克利分校的Scott Shenker。但使用Semantic Scholar得出的结果是,影响力最大的是Shenker的同事——同样在加州大学伯克利分校工作的Michael I. Jordan。Jordan是人工智能领域的先驱,但他的名字极少为外人所知。艾伦人工智能研究所所长、Semantic Scholar的研发负责人Oren Etzioni戏称其为“机器学习领域的迈克尔·乔丹”。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

使用Semantic Scholar搜索Michael I. Jordan的结果。来源:semanticscholar.org


不发表就死亡


影响力这个因素历来很难衡量。传统的做法是计算论文被引用的次数,而这个数据也成了学术界评价论文的核心标准,汤森路透、Elsevier等数据库都有自己的排名。

 

但是,并不是所有的引用都是一样的——作为整篇论文的的灵感源泉被引用和仅仅在实验方法部分简要提到一句,这两种引用是截然不用的。因此,单纯计算论文引用次数难免会描绘出一幅有误差的画像。研究人员也抱怨,传统的以引用次数为基础的评判标准助长了一股“不发表就死亡”的风气,迫使他们有论文就尽快发表,生怕被人抢了先机,也不管论文发现重不重要,只希望被引用次数多就好。

 

如今,在很大程度上Google Scholar决定了组织和排列学术研究的标准,而这个标准跟Google搜索引擎的PageRank算法有关。当然也有其他的方法,比如h-index,这个指数能衡量指定研究者或期刊的论文产量及其影响因子。

 

有人指出,学界真正需要的是更直接衡量一篇论文对其后研究所产生的影响。因此,Etzioni团队为Semantic Scholar增加了一个新功能,描绘“影响力图谱”(influence graph)。数据库里的论文大多都是以PDF形式存储的,对人来说很好阅读,但对计算机而言很难理解。因此,Etzioni研究团队用机器学习算法训练计算机,让计算机能够像人一样不仅能分辨出论文的各个部分——摘要、研究方法、结果讨论,还要鉴别论文是如何被引用的。

 

通过比较其生成结果和人类专家的评分,Semantic Scholar计算机模型得到稳步提升。Etzioni告诉Science记者,目前Semantic Scholar系统还只能衡量相互引用的两篇论文彼此间的“直接影响”,但将来的版本会把多篇论文间的间接影响也包括进来。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
使用Semantic Scholar搜索吴恩达(Andrew Ng)的结果。吴恩达在 Semantic Scholar 的影响力排名第二。来源:semanticscholar.org


如果你是论文作者,使用Semantic Scholar查询后,你会得到一张图表分析结果,告诉你你受谁的研究影响最大,而谁又受你的影响最大。在各项评估参数中,“速度”衡量的是过去3年以来某篇论文被引用的次数,而“加速度”则是这些引用在以多快的速度发生。Etzioni告诉Geekwire记者,这篇论文可能是很早以前发表的,但看加速度你能看出最近它变得很热,很多人都在引用它。


你对谁影响最大?谁对你影响最大?


 Science记者让怀俄明大学的计算机科学家Jeff Clune做了测试,Clune表示体验非常有趣。他对Science记者说,他可以看见对他学术生涯影响最大的科学家都有谁,还有哪个科学家受他影响最大。Clune在Semantic Scholar上测试出的结果大多与他的预期相符——他的导师对他影响最大,他对他带的研究生影响最大——但也有例外。Clune发现了一个他不熟悉的名字,这个人对Clune发表的论文做了深度跟踪研究。

 

除了娱乐价值,Clune认为Semantic Scholar对学界的招聘和提升也有用。Clune对Science记者说,在招聘新人和评审终身教授时,评审委员会必须要考虑这个人既有的工作成果(论文引用数),也需要预测每位候选人对将来研究的影响。Semantic Scholar致力于通过衡量研究主体的“速度”和“加速度”揭示该领域的热门在哪里,其他人以多快的速度在引用某项研究成果,以及判断这一研究是否符合主流趋势,而这些都是评审委员会已经在考虑的问题,因此Clune认为Semantic Scholar得出的数据会在将来得到采用。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
使用Semantic Scholar搜索 Yann LeCun 的结果。来源:semanticscholar.org

 

但同时Clune也表示了担忧,他认为Semantic Scholar就像“黑箱子”:世人要是不理解这些数字都是怎么得出的该怎么办呢?Etzioni也在接受Geekwire记者采访时也承认,Semantic Scholar所用的算法并不完美,但这也是机器学习两面性所在,不过好在你都知道程序所用的数据都是从哪里来的。

 

另一方面,虽然被Semantic Scholar评为计算机科学领域的明星,Michael I. Jordan谦虚地表示,尽管科学史上有各种大家传说,但他个人认为最能预测科学家是否成功的还是其所处的研究圈子。Jordan在接受Science记者采访时表示,他自己就认识很多拥有绝妙点子的研究人员。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

使用Semantic Scholar搜索 Geoffrey E. Hinton 的结果。来源:semanticscholar.org

 

现在这款工具的测试版已经在 www.semanticscholar.org 发布,你可以登录自行查询。


编译来源:

  1. John Bohannon,Who’s the Michael Jordan of computer science? New tool ranks researchers' influence,sciencemag.org

  2. Alan Boyle,Who’s hot in academia? Semantic Scholar dives more deeply into the data,geekwire.com

文章转载自新智元公众号 原文链接
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习算法:探索人工智能的前沿
深度学习算法:探索人工智能的前沿
|
2月前
|
机器学习/深度学习 算法
m基于深度学习的QPSK调制解调系统相位检测和补偿算法matlab仿真
m基于深度学习的QPSK调制解调系统相位检测和补偿算法matlab仿真
39 2
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
8天前
|
机器学习/深度学习 自然语言处理 算法
|
27天前
|
机器学习/深度学习 算法
m基于深度学习的64QAM调制解调系统相位检测和补偿算法matlab仿真
MATLAB 2022a仿真实现了基于深度学习的64QAM相位检测和补偿算法,有效应对通信中相位失真问题。通过DNN进行相位检测和补偿,降低解调错误。核心程序生成随机信号,模拟AWGN信道,比较了有无相位补偿的误码率,结果显示补偿能显著提升性能。
25 8
|
29天前
|
机器学习/深度学习 算法 生物认证
基于深度学习的人员指纹身份识别算法matlab仿真
这是一个关于使用深度学习进行指纹识别的算法概述。在matlab2022a环境下,通过预处理指纹图像(灰度化、二值化等)并利用卷积神经网络(CNN)提取特征。CNN架构包含卷积、池化、归一化和全连接层。特征向量通过余弦相似度计算匹配,训练时采用triplet loss优化。部分核心代码展示了加载预训练模型进行测试集分类预测并计算准确率的过程。
|
1月前
|
机器学习/深度学习 算法
m基于深度学习的32QAM调制解调系统相位检测和补偿算法matlab仿真
m基于深度学习的32QAM调制解调系统相位检测和补偿算法matlab仿真
26 1
|
1月前
|
机器学习/深度学习 算法
机器学习与深度学习的算法分类
机器学习与深度学习的算法分类
|
1月前
|
机器学习/深度学习 算法 计算机视觉
利用深度学习算法实现图像风格转换技术探究
本文将通过深入分析深度学习算法在图像处理领域的应用,探讨如何利用神经网络实现图像风格转换技术。通过研究不同风格迁移算法的原理和实现方式,揭示其在艺术创作、图像编辑等领域的潜在应用和挑战。
|
2月前
|
机器学习/深度学习 算法
m基于深度学习的16QAM调制解调系统相位检测和补偿算法matlab仿真
m基于深度学习的16QAM调制解调系统相位检测和补偿算法matlab仿真
19 0