阿里副总裁玄难:藏经阁计划首次在阿里应用落地

简介:

2018年4月,阿里联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划,同时还宣布打算用一年时间初步建成首个开放的知识引擎服务平台,服务社会。

全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

d40114bf636b32ca3e788eaecd6971be139f1cc4

阿里巴巴集团副总裁墙辉(玄难)

AI应用背后的海量知识

伴随着过去近19年的发展,阿里生态下消费者、卖家、品牌商、运营等各种角色参与其中,每天都产生着海量的数据。

以商品相关的数据为例,阿里有近百亿级别的实体,例如品牌、产品、条码等,实体之间又有百亿级别的关系边。以百科数据为例,阿里有近千万级别的实体,例如人物、地点、公司等,实体之间有十亿级别的关系边。

这些数据来源非常广泛,有来自国家的数据,例如GS1编码中心的条码数据,有阿里电商生态的数据,例如线上如淘宝、天猫、盒马,有不同业务形态的数据,例如高德、UC等。

但对于阿里来说,这些宝贵的资产要求数据具备很高的完整度和确定性,多源数据要把冗余度降低,数据无冲突,并彼此链接。最终目的是把数据变成知识,能够支撑着上层的AI应用,主要是三个方向:业务中台商业能力的智能化升级、搜索推荐、智能交互。

除了这些事实类的知识之外,阿里还有大量的形式化知识。

形式化知识对于垂直知识图谱很重要,构建知识图谱和知识图谱服务都要用到这些知识。例如商品知识图谱生成标签的画像知识,商品分类的场景知识,生成关系边的链接知识:判断商品-产品的关系,生成属性值的知识。还有大量的业务知识,例如管控业务和跨市场商品体系的联通,帮卖家把国内商品自动发布到国外。

海量的数据和知识,使我们在众多领域可以建立完善的知识引擎,但同时也面临很多挑战:

•  阿里业务涉及很多垂直领域,如何快速搭建各个领域的知识图谱?
•  如何把各个领域的知识图谱快速联通?
•  如何管理海量的知识(事实类知识和形式化知识),如何更新这些庞大的知识图谱?
•  如何面向搜索推荐、智能交互、商业能力智能化等多种应用做统一的知识表示?
•  最终如何实现认知与感知的结合,实现类脑的推理能力?

首次披露大规模知识构建技术细节

面对这些挑战,我们在今年4月,联合清华大学、浙江大学、中科院自动化所、软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。

整个计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台),把知识引擎分为五个模块:包括知识建模、知识获取、知识融合、知识推理计算和知识赋能。

这五个模块可以提供从数据、信息、知识到知识服务一整套技术平台化服务,同时,特定领域知识图谱可插拔,特定领域知识图谱加载后,可以提供特定领域的知识服务。

如今,知识引擎这五大技术模块技术研究有重要进展。

知识融合&知识获取算法大规模扩展

知识引擎提供通用的服务就会面临很多领域的知识图谱的构建和不同的业务。知识融合&知识获取算法要具备良好的扩展性。良好的扩展性需要快速获取训练数据,所以需要引入众包。

但是,众包数据质量参差不齐。不同的标注者把iPhoneX和苹果iPhone X标成产品词,这种不一致样本会成为训练的噪音。

我们通过对抗学习,对抗学习的优化目标是分类器分不标注者。从而隐层网络能学习出标注者之间的共性特征,然后把这个共性特征拼接到识别模型中。从而提高识别的精度。

提高知识获取模块实体关系抽取的精度

文本的句法信息对实体关系的识别非常重要。例如A和B创建了公司C。我们挖掘出公司C的创始人是A。通过A和B的并列关系的句法信息我们就可以知道公司C的创始人还有B。 所以我们设计了基于树结构来表示一个实体,从而能够把句法的层次信息表示进深度学习网络。

逻辑推理与深度学习结合的推理框架

这个推理引擎,通过一阶逻辑霍恩子句能够表示我们知识图谱中的百万级的形式化知识,使得这些知识可沉淀、可复用、可执行。形式化知识实时执行可以补全知识图谱的属性值,补全实体关系,生成画像标签,知识放大支持查询。

我们的创新点在于:整个推理引擎支持确定性推理,例如基于形式化知识的推理和基于深度学习推理,例如基于深度学习的关系补全。同时推理引擎支持算法、词库、垂直知识图谱的可插拔,例如查找产地为中国的食品:用到词林的信息,产地和原产地是同义词;用到地理知识图谱,天津属于中国;用到算法模块-同款商品算法,这样找到的商品量会增加百倍。

藏经阁计划首次应用落地

藏经阁计划涉及商品知识图谱、旅游知识图谱、客服体验知识图谱、安全知识图谱,如今,该计划首次在安全知识图谱和旅游知识图谱应用落地。

我们用知识引擎为城市大脑提供服务,安全知识图谱全要素搜索上线,能够让你的城市更安全,让每个人在一个城市里面过的更开心。

旅游业务是一个知识密集型的业务,消费者要对一个旅游目的地的知识做到快速获取和使用。知识引擎提高旅游景点信息质量、自动把游记攻略等内容结构化,和旅游知识的联通,极大提高用户的旅游体验。

我们希望一年内基于这些知识图谱沉淀通用的知识引擎服务包括:1)本体半自动化构建算法及管理工具;文本自动结构化算法;多源知识库融合算法与工具;基于形式化知识的推理及工具; 2)自然语言、逻辑语言、数据库语言查询服务。

各类垂直领域知识图谱,提炼和发现领域知识,为上层业务提供知识服务,实现商业创新,最终使各个垂直知识图谱关联互通,建成全领域知识图谱,为社会服务。


原文发布时间为:2018-08-23

本文作者:阿里妹

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
8月前
|
存储 人工智能 API
阿里 Qoder 新升级,Repo Wiki 支持共享、编辑和导出
Qoder 是阿里巴巴推出的 Agentic 编程平台,集成顶尖编程模型,具备强大上下文工程能力,可一次检索10万代码文件,大幅提升软件开发效率。其 Repo Wiki 功能自动生成结构化文档,支持共享、编辑与导出,助力知识沉淀与团队协作。
|
人工智能 自然语言处理 机器人
招商银行X通义大模型 ,2024年度AI最佳实践案例!
招商银行X通义大模型 ,2024年度AI最佳实践案例!
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop HDFS与NAS有何不同?
【4月更文挑战第9天】【Hadoop】Hadoop HDFS与NAS有何不同?
|
机器学习/深度学习 存储 分布式计算
阿里开源首个DL框架,新型XDL帮你搞定大规模稀疏数据
12 月 21 日,阿里巴巴旗下的大数据营销平台阿里妈妈开源了其应用于自身广告业务的算法框架 X-Deep Learning(XDL)。该框架非常擅长处理高维稀疏数据,对构建推荐、搜索和广告系统非常有优势。此外,阿里还配套发布了一系列官方模型,它们都是阿里在实际业务或产品中采用的高效模型。
1933 0
阿里开源首个DL框架,新型XDL帮你搞定大规模稀疏数据
|
Shell Linux Apache
docker的常用命令 基础命令 拉取、创建、启动、进入、删除镜像和docker命令
doker的常用命令,基础命令,如何搜索镜像,拉取镜像,如何创建容器,启动容器,进入容器,删除容器,已经强制删除容器,停止全部容器,删除全部容器
docker的常用命令 基础命令 拉取、创建、启动、进入、删除镜像和docker命令
|
JavaScript 程序员
Vue3 如何实现一个全局搜索框(二)
Vue3 如何实现一个全局搜索框
Vue3 如何实现一个全局搜索框(二)
|
Docker 容器
docker将镜像文件保存到本地
docker将镜像文件保存到本地
1078 0
docker将镜像文件保存到本地
|
安全 虚拟化
阿里云网站服务器镜像取证方法
阿里云服务器因其性能卓越、安全稳定、高性价比等特性被广泛使用。而在众多网络犯罪中,我们也发现不少犯罪嫌疑人将涉案网站搭建在阿里云服务器上。当办案人员从阿里云公司获取涉案网站服务器的镜像后,将面对如何对服务器的镜像进行取证的难题。 本文将给大家分享一个关于阿里云网站服务器镜像文件的取证思路,希望能给大家一些灵感和参考。
4859 2
阿里云网站服务器镜像取证方法
|
SQL 分布式计算 大数据
数据仓库实战教程
数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。 本专栏主要专注于数仓工具学习、数仓建模以及业务建模、SQL 实战和平台建设,最后以3家公司的数仓建建设和实时数仓作为结尾项目,这份教程有以下特点 1. 知识体系完善,从数仓的
1085 2
|
数据可视化 数据挖掘 BI
推荐5款轻量级的小软件,界面简洁无广告
今天的主题是简洁,轻便,都是轻量级的小软件,界面都是非常简洁,而且无广告的。
463 0
推荐5款轻量级的小软件,界面简洁无广告

热门文章

最新文章