【Science】算法揭秘深度学习大牛,谁影响了谁?

简介:

2015年秋天,由微软联合创始人保罗·艾伦创立的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)发布了一款名为Semantic Scholar的搜索服务,其瞄准的竞争对手是Google Scholar、PubMed和其他在线学术搜索引擎。这项计划最初的目标是让这款由人工智能驱动的搜索引擎能在一定程度上真正理解搜索出来的论文。而如今,Semantic Scholar有了一个新目标:衡量一位科学家或一所研究机构对之后研究的影响。

 

根据Science报道,Semantic Scholar目前专注于计算机科学领域,但预计今年秋天会拓展到神经科学领域,而后再更加广泛地拓展开去。同时,Semantic Scholar将不仅仅为论文排名,也会根据某一影响因素为作者、机构排名。例如,Semantic Scholar发现,MIT是当今计算机科学领域影响力最大的机构——这并不奇怪。不过,谁是计算机科学领域影响力最大的科学家呢?

 

如果你要看原始引用次数最高的人,那么计算机科学领域当前顶尖科学家是加州大学伯克利分校的Scott Shenker。但使用Semantic Scholar得出的结果是,影响力最大的是Shenker的同事——同样在加州大学伯克利分校工作的Michael I. Jordan。Jordan是人工智能领域的先驱,但他的名字极少为外人所知。艾伦人工智能研究所所长、Semantic Scholar的研发负责人Oren Etzioni戏称其为“机器学习领域的迈克尔·乔丹”。


使用Semantic Scholar搜索Michael I. Jordan的结果。来源:semanticscholar.org


不发表就死亡


影响力这个因素历来很难衡量。传统的做法是计算论文被引用的次数,而这个数据也成了学术界评价论文的核心标准,汤森路透、Elsevier等数据库都有自己的排名。

 

但是,并不是所有的引用都是一样的——作为整篇论文的的灵感源泉被引用和仅仅在实验方法部分简要提到一句,这两种引用是截然不用的。因此,单纯计算论文引用次数难免会描绘出一幅有误差的画像。研究人员也抱怨,传统的以引用次数为基础的评判标准助长了一股“不发表就死亡”的风气,迫使他们有论文就尽快发表,生怕被人抢了先机,也不管论文发现重不重要,只希望被引用次数多就好。

 

如今,在很大程度上Google Scholar决定了组织和排列学术研究的标准,而这个标准跟Google搜索引擎的PageRank算法有关。当然也有其他的方法,比如h-index,这个指数能衡量指定研究者或期刊的论文产量及其影响因子。

 

有人指出,学界真正需要的是更直接衡量一篇论文对其后研究所产生的影响。因此,Etzioni团队为Semantic Scholar增加了一个新功能,描绘“影响力图谱”(influence graph)。数据库里的论文大多都是以PDF形式存储的,对人来说很好阅读,但对计算机而言很难理解。因此,Etzioni研究团队用机器学习算法训练计算机,让计算机能够像人一样不仅能分辨出论文的各个部分——摘要、研究方法、结果讨论,还要鉴别论文是如何被引用的。

 

通过比较其生成结果和人类专家的评分,Semantic Scholar计算机模型得到稳步提升。Etzioni告诉Science记者,目前Semantic Scholar系统还只能衡量相互引用的两篇论文彼此间的“直接影响”,但将来的版本会把多篇论文间的间接影响也包括进来。

 


使用Semantic Scholar搜索吴恩达(Andrew Ng)的结果。吴恩达在 Semantic Scholar 的影响力排名第二。来源:semanticscholar.org


如果你是论文作者,使用Semantic Scholar查询后,你会得到一张图表分析结果,告诉你你受谁的研究影响最大,而谁又受你的影响最大。在各项评估参数中,“速度”衡量的是过去3年以来某篇论文被引用的次数,而“加速度”则是这些引用在以多快的速度发生。Etzioni告诉Geekwire记者,这篇论文可能是很早以前发表的,但看加速度你能看出最近它变得很热,很多人都在引用它。


你对谁影响最大?谁对你影响最大?


 Science记者让怀俄明大学的计算机科学家Jeff Clune做了测试,Clune表示体验非常有趣。他对Science记者说,他可以看见对他学术生涯影响最大的科学家都有谁,还有哪个科学家受他影响最大。Clune在Semantic Scholar上测试出的结果大多与他的预期相符——他的导师对他影响最大,他对他带的研究生影响最大——但也有例外。Clune发现了一个他不熟悉的名字,这个人对Clune发表的论文做了深度跟踪研究。

 

除了娱乐价值,Clune认为Semantic Scholar对学界的招聘和提升也有用。Clune对Science记者说,在招聘新人和评审终身教授时,评审委员会必须要考虑这个人既有的工作成果(论文引用数),也需要预测每位候选人对将来研究的影响。Semantic Scholar致力于通过衡量研究主体的“速度”和“加速度”揭示该领域的热门在哪里,其他人以多快的速度在引用某项研究成果,以及判断这一研究是否符合主流趋势,而这些都是评审委员会已经在考虑的问题,因此Clune认为Semantic Scholar得出的数据会在将来得到采用。



使用Semantic Scholar搜索 Yann LeCun 的结果。来源:semanticscholar.org

 

但同时Clune也表示了担忧,他认为Semantic Scholar就像“黑箱子”:世人要是不理解这些数字都是怎么得出的该怎么办呢?Etzioni也在接受Geekwire记者采访时也承认,Semantic Scholar所用的算法并不完美,但这也是机器学习两面性所在,不过好在你都知道程序所用的数据都是从哪里来的。

 

另一方面,虽然被Semantic Scholar评为计算机科学领域的明星,Michael I. Jordan谦虚地表示,尽管科学史上有各种大家传说,但他个人认为最能预测科学家是否成功的还是其所处的研究圈子。Jordan在接受Science记者采访时表示,他自己就认识很多拥有绝妙点子的研究人员。


使用Semantic Scholar搜索 Geoffrey E. Hinton 的结果。来源:semanticscholar.org

 

现在这款工具的测试版已经在 www.semanticscholar.org 发布,你可以登录自行查询。


编译来源:

  1. John Bohannon,Who’s the Michael Jordan of computer science? New tool ranks researchers' influence,sciencemag.org

  2. Alan Boyle,Who’s hot in academia? Semantic Scholar dives more deeply into the data,geekwire.com

文章转载自新智元公众号 原文链接
目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
944 55
|
10月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
546 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
8月前
|
机器学习/深度学习 存储 算法
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
|
9月前
|
机器学习/深度学习 算法 安全
基于深度学习的路面裂缝检测算法matlab仿真
本项目基于YOLOv2算法实现高效的路面裂缝检测,使用Matlab 2022a开发。完整程序运行效果无水印,核心代码配有详细中文注释及操作视频。通过深度学习技术,将目标检测转化为回归问题,直接预测裂缝位置和类别,大幅提升检测效率与准确性。适用于实时检测任务,确保道路安全维护。 简介涵盖了算法理论、数据集准备、网络训练及检测过程,采用Darknet-19卷积神经网络结构,结合随机梯度下降算法进行训练。
|
11月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
562 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
11月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
11月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
493 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
440 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
619 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型

热门文章

最新文章