阿里副总裁玄难:藏经阁计划首次在阿里应用落地

简介:

2018年4月,阿里联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划,同时还宣布打算用一年时间初步建成首个开放的知识引擎服务平台,服务社会。

全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

d40114bf636b32ca3e788eaecd6971be139f1cc4

阿里巴巴集团副总裁墙辉(玄难)

AI应用背后的海量知识

伴随着过去近19年的发展,阿里生态下消费者、卖家、品牌商、运营等各种角色参与其中,每天都产生着海量的数据。

以商品相关的数据为例,阿里有近百亿级别的实体,例如品牌、产品、条码等,实体之间又有百亿级别的关系边。以百科数据为例,阿里有近千万级别的实体,例如人物、地点、公司等,实体之间有十亿级别的关系边。

这些数据来源非常广泛,有来自国家的数据,例如GS1编码中心的条码数据,有阿里电商生态的数据,例如线上如淘宝、天猫、盒马,有不同业务形态的数据,例如高德、UC等。

但对于阿里来说,这些宝贵的资产要求数据具备很高的完整度和确定性,多源数据要把冗余度降低,数据无冲突,并彼此链接。最终目的是把数据变成知识,能够支撑着上层的AI应用,主要是三个方向:业务中台商业能力的智能化升级、搜索推荐、智能交互。

除了这些事实类的知识之外,阿里还有大量的形式化知识。

形式化知识对于垂直知识图谱很重要,构建知识图谱和知识图谱服务都要用到这些知识。例如商品知识图谱生成标签的画像知识,商品分类的场景知识,生成关系边的链接知识:判断商品-产品的关系,生成属性值的知识。还有大量的业务知识,例如管控业务和跨市场商品体系的联通,帮卖家把国内商品自动发布到国外。

海量的数据和知识,使我们在众多领域可以建立完善的知识引擎,但同时也面临很多挑战:

•  阿里业务涉及很多垂直领域,如何快速搭建各个领域的知识图谱?
•  如何把各个领域的知识图谱快速联通?
•  如何管理海量的知识(事实类知识和形式化知识),如何更新这些庞大的知识图谱?
•  如何面向搜索推荐、智能交互、商业能力智能化等多种应用做统一的知识表示?
•  最终如何实现认知与感知的结合,实现类脑的推理能力?

首次披露大规模知识构建技术细节

面对这些挑战,我们在今年4月,联合清华大学、浙江大学、中科院自动化所、软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。

整个计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台),把知识引擎分为五个模块:包括知识建模、知识获取、知识融合、知识推理计算和知识赋能。

这五个模块可以提供从数据、信息、知识到知识服务一整套技术平台化服务,同时,特定领域知识图谱可插拔,特定领域知识图谱加载后,可以提供特定领域的知识服务。

如今,知识引擎这五大技术模块技术研究有重要进展。

知识融合&知识获取算法大规模扩展

知识引擎提供通用的服务就会面临很多领域的知识图谱的构建和不同的业务。知识融合&知识获取算法要具备良好的扩展性。良好的扩展性需要快速获取训练数据,所以需要引入众包。

但是,众包数据质量参差不齐。不同的标注者把iPhoneX和苹果iPhone X标成产品词,这种不一致样本会成为训练的噪音。

我们通过对抗学习,对抗学习的优化目标是分类器分不标注者。从而隐层网络能学习出标注者之间的共性特征,然后把这个共性特征拼接到识别模型中。从而提高识别的精度。

提高知识获取模块实体关系抽取的精度

文本的句法信息对实体关系的识别非常重要。例如A和B创建了公司C。我们挖掘出公司C的创始人是A。通过A和B的并列关系的句法信息我们就可以知道公司C的创始人还有B。 所以我们设计了基于树结构来表示一个实体,从而能够把句法的层次信息表示进深度学习网络。

逻辑推理与深度学习结合的推理框架

这个推理引擎,通过一阶逻辑霍恩子句能够表示我们知识图谱中的百万级的形式化知识,使得这些知识可沉淀、可复用、可执行。形式化知识实时执行可以补全知识图谱的属性值,补全实体关系,生成画像标签,知识放大支持查询。

我们的创新点在于:整个推理引擎支持确定性推理,例如基于形式化知识的推理和基于深度学习推理,例如基于深度学习的关系补全。同时推理引擎支持算法、词库、垂直知识图谱的可插拔,例如查找产地为中国的食品:用到词林的信息,产地和原产地是同义词;用到地理知识图谱,天津属于中国;用到算法模块-同款商品算法,这样找到的商品量会增加百倍。

藏经阁计划首次应用落地

藏经阁计划涉及商品知识图谱、旅游知识图谱、客服体验知识图谱、安全知识图谱,如今,该计划首次在安全知识图谱和旅游知识图谱应用落地。

我们用知识引擎为城市大脑提供服务,安全知识图谱全要素搜索上线,能够让你的城市更安全,让每个人在一个城市里面过的更开心。

旅游业务是一个知识密集型的业务,消费者要对一个旅游目的地的知识做到快速获取和使用。知识引擎提高旅游景点信息质量、自动把游记攻略等内容结构化,和旅游知识的联通,极大提高用户的旅游体验。

我们希望一年内基于这些知识图谱沉淀通用的知识引擎服务包括:1)本体半自动化构建算法及管理工具;文本自动结构化算法;多源知识库融合算法与工具;基于形式化知识的推理及工具; 2)自然语言、逻辑语言、数据库语言查询服务。

各类垂直领域知识图谱,提炼和发现领域知识,为上层业务提供知识服务,实现商业创新,最终使各个垂直知识图谱关联互通,建成全领域知识图谱,为社会服务。


原文发布时间为:2018-08-23

本文作者:阿里妹

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
6月前
|
人工智能 运维 Cloud Native
云原生技术实践营 · 深圳站——Serverless + AI 专场邀您参会!
云原生技术实践营深圳站聚焦Serverless+AI,6月21日探索技术结合新思路,助力降低GPU成本,简化开发运维。限额80人,报名审核制,活动涵盖Serverless趋势、AIGC应用、AI算力优化等议题,还有实操体验与现场抽奖。
云原生技术实践营 · 深圳站——Serverless + AI 专场邀您参会!
|
7月前
|
人工智能 Kubernetes Cloud Native
《德勤专场-阿里云智能核心系统上云联合解决方案》电子版地址
德勤专场-阿里云智能核心系统上云联合解决方案
133 0
《德勤专场-阿里云智能核心系统上云联合解决方案》电子版地址
|
云安全 人工智能 运维
2022云栖大会 | 袋鼠云斩获阿里云生态伙伴双奖
11月3日至5日,2022云栖大会在杭州云栖小镇成功举办
423 0
2022云栖大会 | 袋鼠云斩获阿里云生态伙伴双奖
|
存储 人工智能 安全
2021 七牛云战略发布会圆满落幕,开启下一个十年
2021 七牛云战略发布会圆满落幕,开启下一个十年
543 0
2021 七牛云战略发布会圆满落幕,开启下一个十年
|
Cloud Native 云计算
即将开幕!阿里云飞天技术峰会邀您一同探秘云原生最佳实践
我们将于 2022 年 8 月 11 日,正式举办阿里云飞天技术峰会!此次峰会,我们将与行业内众多高新技术领域的领军企业,共同探讨企业如何在新一代的云计算体系架构之上,激活在业务、技术、产品三个层面的内生动力,找到新的增长点和竞争力。
即将开幕!阿里云飞天技术峰会邀您一同探秘云原生最佳实践
|
物联网 开发者
阿里云开发者 DevUP 沙龙 -上海站 -阿里云企业AIOT技术与解决方案沙龙邀你参加啦
11月13日,阿里云计算有限公司诚邀您参加在上海浦东国际人才发展中心举办的阿里云企业AIOT技术与解决方案沙龙,共同探讨如何快速打造企业级物联网技术平台和应用,实现数字化转型。
1884 0
阿里云开发者 DevUP 沙龙 -上海站 -阿里云企业AIOT技术与解决方案沙龙邀你参加啦
|
消息中间件 分布式计算 Dubbo
ApacheCon 亚洲峰会首次召开,阿里顶级开源项目演讲重磅来袭
阿里自 2011 年宣布第一波开源项目至今始终积极拥抱开源,回馈社区。目前,阿里开源项目突破2700个,GitHub Star 超过 100万,社区贡献者超3万。在今年 ApacheCon Asia的消息系统、API / 微服务、Web Server/Tomcat、流处理等多个论坛都有重磅演讲。三大顶级项目Apache Flink、Apache RocketMQ、Apache Dubbo committer 和用户也将同台给大家介绍社区演讲和最佳实践。
ApacheCon 亚洲峰会首次召开,阿里顶级开源项目演讲重磅来袭
|
人工智能 大数据
云上创新 2021阿里云峰会邀您参加
云上创新 2021阿里云峰会邀您参加
934 0
云上创新 2021阿里云峰会邀您参加
|
人工智能 大数据 物联网
阿里云创峰会•遂昌专场圆满结束,阿里云携手遂昌共话“数字绿谷”发展未来
聚焦遂昌数字生态经济发展,从“科创、文创、农创”三个方向,共同探讨遂昌“数字绿谷”建设。
阿里云创峰会•遂昌专场圆满结束,阿里云携手遂昌共话“数字绿谷”发展未来