【统览整个学术圈】上交大发布知识图谱AceKG,超1亿实体,近100G数据量

简介: 由上海交通大学王新兵教授和张伟楠教授指导的Acemap团队知识图谱小组,近日发布了学术知识图谱AceKG,提供了近100G大小的数据集,为每个实体提供了丰富的属性信息,涵盖权威学术知识,旨在为众多学术大数据挖掘项目提供支持。

知识图谱是知识工程的一个分支,由语义网络发展而来,由于其在搜索与推荐系统中的极大应用前景,近几年在机器学习、自然语言处理等最新技术的推动下迅速发展,受到了业界和学术界的广泛关注。

最新发布的Acemap知识图谱(AceKG)描述了超过1亿个学术实体、22亿条三元组信息,涵盖了全面的学术信息。具体而言,AceKG包含了61,704,089篇paper、52,498,428位学者、50,233个研究领域、19,843个学术研究机构、22,744个学术期刊、1,278个学术会议以及3个学术联盟(如C9联盟)。

同时,AceKG也为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,旨在为众多学术大数据挖掘项目提供全面支持。

8ea56eb8c32bc6a7fb0769900037a708599178bf

AceKG的结构框架

与现有学术知识图谱相比,AceKG在以下方面具有优势:

8481c8f592b7f349aa84a1de5c171db681516edf AceKG提供了学术异构图谱,包含了多样的学术实体与相应的属性,可以支持多样的学术大数据挖掘课题,例如现阶段异构网络向量化的诸多课题。
8481c8f592b7f349aa84a1de5c171db681516edf AceKG从更高的角度统览整个学术圈,提供了近100G大小的数据集,包括论文、作者、领域、机构、期刊、会议、联盟,支持权威和实用的学术研究。
8481c8f592b7f349aa84a1de5c171db681516edf AceKG以结构化的Turtle文件格式给出(具体格式见下表),致力于减少数据预处理的不便,同时更易于机器处理,支持全部Apache Jena API。
dcd882f9d20b422dbbc7dee166857a6e1260d95c

在工程架构上,AceKG使用Apache Jena框架进行驱动。Apache Jena(http://jena.apache.org)使用TDB数据库存储三元组数据,并且提供SPARQL引擎支持对三元组数据进行查询。

65aeacb2792a5cc4e339e84d14a558bddd79d6ac

AceKG具体工程架构


上海交通大学电子信息与电气工程学院副院长、John Hopcroft计算中心执行主任、Acemap学术搜索项目总负责人王新兵教授在接受新智元访谈时表示:“本次发布的AceKG学术知识图谱,其最大的优势就是背后所依靠的整个Acemap学术搜索系统巨大的数据库,我们拥有的约1.15亿名学者信息和1.27亿篇论文信息,为AceKG的构建提供了海量的结构化数据。”

“在保证海量数据的同时,我们也深知紧跟学术领域最前沿的重要性,所以最新发表的ACM、IEEE论文也会及时收录,确保我们系统的前沿性与实用性。

在谈及本次发布的近100G数据量的AceKG学术知识图谱将如何应用的问题上,王新兵教授风趣地谈到:“本次发布的AceKG是从一个更高的角度对整个学术界进行统览,所以这次发布的数据集很大,不仅有计算机领域,也有医学,通信等领域。”

“打一个比方,本次发布的AceKG好比一整扇的猪肉,对于一个正常人,这一整扇的猪肉不可能全部吃下,医学领域的人可能喜欢吃‘火腿’,计算机领域的人可能喜欢吃‘猪蹄’,就算是对于同一部分肉,你也可以做成鱼香肉丝或者是糖醋排骨等不同的菜。”

在AceKG如何应用这个问题上,团队制定了“三步走”的战略:

第一步是把“整扇的猪肉”切成不同量级的肉。现在的AceKG拥有22亿的三元组,未来可能会推出几万和几十万量级三元组的数据集,并且在这些较小的数据集上评测一些算法,比如“异构网络向量化”的这个话题。现在常用的数据集是FB15k和WN18,但我们在进行学术领域的相关研究时,没有发现较好的学术领域异构网络数据集,我们可能在未来推出的较小的数据集上测试一些如TransE的经典向量化算法。

第二步则是把肉做成具体的如“糖醋排骨”这样具体的菜,类似于QQ或者Facebook这样利用社交网络给你推荐你可能感兴趣的人,比如你刚加了一位好友,你想知道他的婚姻状况,可能这两个社交应用给你推荐的“感兴趣的人”里面,就有这位朋友的妻子。在学术领域,同学们申请出国也好,学者们想进入某一领域也好,都需要类似的学术圈社交网络的新型推荐,这种推荐不仅仅是局限于合作者或者在同一个机构工作,我们的Acemap学术搜索系统在未来将致力于基于AceKG的特色推荐系统研发。

第三步则有点像《红楼梦》刘姥姥进大观园吃的那道茄子菜——这道茄子在烹饪的过程中使用了大量的鸡油、鸡肉等材料,我们最后就想在Acemap学术搜索系统中做成一道这样的“茄子”,最后的交互式可视化应用可以为用户提供更加流畅、舒适的使用体验,而在这道“茄子”背后的鸡油,鸡肉就是我们的AceKG在提供支撑。

新智元了解到,除AceKG之外,Acemap团队近期也发布了学术会议期刊核心(core)学者地图、CS热词近五年热度变化趋势统计及未来热度预测等研究成果,从不同角度对学术信息进行挖掘。详情参考Acemap学术地图式搜索系统:http://acemap.sjtu.edu.cn/


原文发布时间为:2018-03-14

本文作者:Acemap团队

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【统览整个学术圈】上交大发布知识图谱AceKG,超1亿实体,近100G数据量

相关文章
|
7月前
|
数据采集 数据挖掘 数据处理
探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛
数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?
|
9月前
|
机器学习/深度学习 存储 缓存
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
549 0
|
人工智能
7-118 估值一亿的AI核心代码 (20 分)
7-118 估值一亿的AI核心代码 (20 分)
121 0
7-118 估值一亿的AI核心代码 (20 分)
|
12月前
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
147 0
|
12月前
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
173 0
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
477 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
人工智能
L1-064 估值一亿的AI核心代码 (20 分)
L1-064 估值一亿的AI核心代码 (20 分)
343 0
L1-064 估值一亿的AI核心代码 (20 分)
|
人工智能 搜索推荐 数据库管理
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo
|
人工智能 自然语言处理 文字识别
一份报告讲清 RPA+AI 这个 278 亿市场规模的赛道
RPA+AI,正在成为 AI 领域看得见的一股潮流,各类厂商都不约而同的朝着这个方向前进。
788 0
一份报告讲清 RPA+AI 这个 278 亿市场规模的赛道
《自然》杂志发布2018年度影响世界的十大科学人物,中国神童入榜
因世界首例基因编辑婴儿引发巨大争议的贺建奎也名列其中,成为了今年榜单的“反面案例”。
470 0