阿里巴巴资深算法专家张伟:百科类知识图谱构建和应用已到深水区,行业和多模态知识图谱引关注

简介: 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

image
采访嘉宾 | 张伟
作者 | 孟夕

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

在即将于 8 月 16 日 -17 日举办的 AICon 全球人工智能与机器学习技术大会(上海站)上,阿里巴巴商品知识图谱负责人张伟(览图)老师将带来“知识图谱技术与工业实践深度讲解”的深度培训,InfoQ 提前对他进行了专访,请他来谈一谈深耕知识图谱十余年总结的经验和思考,以及阿里巴巴商品知识图谱构建过程中的技术挑战和相关应用实践。

InfoQ:张老师好,很荣幸采访到你,首先请介绍一下自己的从业经历,以及目前在阿里巴巴主要负责的工作。

张伟: 大家好,我目前在阿里巴巴业务平台事业部,负责业务中台数据智能团队。我在阿里的花名叫览图,起这个花名也是因为做知识图谱相关的技术。

我跟知识图谱结缘是从 2007 年本科毕业设计开始的,当时在哈工大机器翻译实验室做文本分类相关的工作,第一次接触到了 Stopping Word、tfidf、SVM 等一些有趣的概念,那时候虽然自然语言处理这个方向的毕业生不好找工作,但我还是喜欢上了这个领域。

我 2008 年开始在新加坡国立大学信息抽取和知识发现实验室读博士,当时导师 Tan Chew Lim 和 Su Jian 教授收到文本分析会议(TAC)邀请,组织一个关于知识库构建(KBP)任务的评测。于是在导师的建议下,我选择了 KBP 的研究工作,也有幸参与了 KBP 早期的工作。现在 KBP 在知识图谱和 NLP 领域已经是很有影响力的国际评测了。我的博士研究工作也全部围绕着 KBP 展开。

2013 年我加入了新加坡资讯通信研究院(I2R),刚好百度的王海峰老师牵头成立了百度 -I2R 联合研究中心(BIRC)。我在 BIRC 也第一次接触到大数据和工业界知识图谱构建的工作。

2016 年我加入了阿里巴巴,一直在业务平台事业部,围绕着商品数据,构建阿里的电商知识图谱。在这里我学习到了知识图谱全链路的技术和工业实践,也亲身经历了领域知识图谱产品化落地的全过程。

InfoQ:根据多年丰富的学术和工业界从业经历,请问你是如何理解知识图谱的?

张伟: 我从百科图谱和领域图谱分别要解决的主要问题,和涉及到的关键技术来阐述一下自己的理解。

第一,通用百科图谱主要解决全网信息结构化的问题。 知识图谱团队把全网信息中头部几千万的实体及其相应浅层的知识,以属性值、属性项三元组结构化的方式表示出来。虽然大部分知识来自于现存实体库的融合,但大部分时效性很强的知识存在于例如新闻等的文本中,所以在这个过程中信息抽取技术就非常关键。最终知识图谱在搜索、问答、推荐的场景中可以基于结构化信息直接给出答案。相较于用关键词匹配召回,返回半结构化网页,可以极大地缩短网络用户获取资讯的路径。在这些应用场景中,往往是把知识图谱里的百科知识直接透传给用户,推理或是逻辑语言描述的规则类知识涉及的比较少。

第二,领域知识图谱主要解决领域信息标准化的问题。 拿电商领域来讲,商品信息天生就是以知识卡片的形式在组织,所以电商领域的商品信息从知识生产的源头就已经达到了百科知识图谱的水平了。也正是因为这个原因,领域知识图谱往往要求三元组事实类的知识表达要标准化,从而可以约束众多的知识生产源头。此外,由于领域图谱往往涉及到领域里深度的知识,单单三元组的表示形式也是不够的,许多领域规则需要用逻辑语言来描述,因而在领域知识图谱构建和应用的过程中,推理就非常关键。推理可以基于规则,去离线生产新的知识,也可以在线推理支持复杂查询。

InfoQ:从 2017 年正式亮相到现在,阿里巴巴商品知识图谱一直受到很多人的关注。在构建阿里商品知识图谱过程中遇到的最大挑战是什么?你们是如何克服的?

张伟: 回头来看我们过去 4 年的工作,遇到的挑战主要是由两方面原因造成的。

第一,知识图谱相较于图像、语音、NLP 等 以算法为主的 AI 领域来比,它不是单单靠算法模型持续优化就能解决的,它更多 的还需要知识运营的参与以及工程系统的搭建。 最终的交付物并非是单纯的算法服务,而是一个很大的知识网络。

第二,百科知识图谱对知识有清晰的定义,大家谁去构建目标都差不多,交付物最终也不会偏差太多。但是商品知识图谱到底构建哪些知识 是没有太清晰的定义的。

总而言之,面临技术上不知从何下手,知识上不知交付终态是什么的两个问题。

回顾过去,我们能有机会持续在这个方向投入,关键点有两个:第一,我们对商品知识最初就确定了清晰的定义,我们允许进入知识图谱的知识遵循客观的(非一些业务逻辑和特定约束下的规则,而是具备普适性),公开的(非隐私数据),标准化的(可以协作生产)原则,同时又与商品组织、表达、发现相关,从而沉淀的知识能够在业务应用上复用,生产的过程能够在不同角色间公开协作,同时也可以在业务场景和业务目标的驱动下,相关人员有动力参与到知识的构建中来。第二,记着漆桂林老师前些年分享讲知识图谱技术就像盲人摸象,谁看到的都不一样。在那个初期阶段,我们跟藏经阁计划的五位老师一起对知识图谱技术按推理、获取、融合、建模做了清晰的定义,从而才使得我们的工程、算法能够协作起来。

InfoQ:目前阿里巴巴商品知识图谱主要应用在哪些业务?请举个例子,谈谈具体应用过程和实践经验。

张伟: 上面提到电商的商品信息从知识生产的源头就是结构化的知识卡片,相较于知识图谱传统的应用形式,例如搜索的知识卡片、基于知识图谱关系的推荐、基于 KBQA 的问答等,在电商的场景下,知识图谱的应用是有本质区别的。

总体来看,我们的商品知识图谱正在为天猫、淘宝、Lazada、AliExpress、1688、飞猪、盒马、天猫精灵等 20 多个业务线提供商品相关的知识服务和推理决策支持。典型的应用形式例如:

(1)通过图片、条码等极少信息的 AI 识别,识别出商品 ID,利用知识服务,快速帮助商家把线下商品基础信息数字化,同时还能通过 AI 帮助商品更好地描述其商品卖点与亮点。知识图谱帮助企业智能运营。

(2)通过知识图谱本体间的映射,帮助商品在不同的市场间做自动的信息转化,例如国内商家在天猫的商品,一键自动在东南亚市场多个国家通过多个语言即时上线。知识图谱助力商家把商品卖全球。

(3)通过推理帮助平台自动拦截有问题的商品,知识图谱为消费者保驾护航。

(4)通过商品知识图谱帮助 C2M,发现新需求,指导生产端生产商品。例如这次疫情,我们很早就发现了印有“今天已经消毒”字样的指示牌需求,给到有生产能力的工厂,为突发的需求量提前预警。

这里我再讲一个构建电商深度知识及其应用的完整实例。我们注意到业务上一直有个痛点就是如何让消费者产生跨类目的购买,同时消费者也有一个痛点就是在一些场景下不知道买哪些商品,例如生小孩待产包里应该买哪些东西?然而电商领域一直是基于生产端的视角来组织商品,例如鞋类商品包括网球鞋、足球鞋、皮鞋等品类。基于现状,我们创造性地提出了建立一套基于消费者需求场景的知识图谱本体体系来组织商品。这样能解决业务痛点,也能把知识沉淀到我们的图谱里。 经过挖掘和推理,我们构建了几十万事件与传统商品类目属性之间的关系,例如去游泳需要购买哪些品类的商品,具体到手表类目,需要商品属性有防水功能。我们利用逻辑语言来描述这些深度知识。事件又和人群、时间、地点、方式等组合,就产生了几百万条消费者购物场景知识,例如城市白领春运坐火车回家过年买什么?这样我们就可以基于知识图谱,实现跨类目推荐商品,可以极大地缩短消费者消费的决策路径,给大家购物带来便利。

InfoQ:阿里巴巴商品知识图谱主要运用了哪些关键技术来实现阿里海量商品的标准化?

张伟: 对于商品知识图谱来讲,常规的知识图谱技术模块例如在推理技术、信息抽取技术和知识融合及知识建模等领域我们都有前沿的探索,具体到我们标准化工作的一些特性,例如商品知识需要行业专家实时在线参与到整个知识产生的链路里来,这就需要行业专家、数据、算法三位一体,互相协作,这里面如何与算法协作最为挑战,所以如何利用推理技术解决深度学习的可解释性成了我们的关键技术, 有了可解释性,知识生产的过程就可以白盒化出来,行业专家才可以通过知识图谱工具参与到整个的构建工作中来。此外,对于工业级大规模知识图谱构建和应用来讲,样本不均衡和新领域样本少永远是最需要成本的地方,除了大量的标注工作的投入外,我们也做了很多领域迁移、众包去噪的关键技术工作。

InfoQ:据你了解,目前知识图谱的应用还有哪些局限?未来需要从哪些方向重点克服?

张伟: 我从两方面谈一下我的认识。第一,当下,对于通用图谱来讲,结构化的知识已经相对来说比较稳定了,一般几千万或是一亿多实体基本可以涵盖现有应用形式下对知识的多数需求。 但正如我上面讲的这些应用往往还是偏浅层的查询。推理技术在这方面的应用较少。对比人类,人类做出一个判断或给出一个回应时往往除了三元组知识外,还结合着常识或是更复杂的知识在做推理。当下业界知识图谱的应用局限,主要还是大规模 ** 推理 部署的缺失造成的,背后是 多元的知识来源和表示形式 的缺失,例如 百科图谱里 常识 和规则类知识的缺失。目前 由于推理在通用图谱使用的局限性,也成为智能交互产品的技术瓶颈,制约着用户体验产生跨时代的升级。

第二,对于领域知识图谱来讲,社会和行业的数字化正在爆发式增长,越来越多的行业知识图谱会涌现。如何 快速 从 0 到 1 构建一个 具备深度知识的 行业知识图谱 从技术角度 依然不能快速复制,也没有一个从生产到应用的完整工具产品可以使用。这里面有技术问题包括算法的迁移、工具的复杂度,也有人员投入成本不可控等问题。具体来讲,对于部分已经很好地数字化的领域,相较于互联网里大量的文本信息,行业文本信息较为稀疏,对图片、语音等多种形式的知识依赖变得更重,这里面就需要解决多模态的技术问题,也需求解决知识图谱技术通用性的问题。当然对于还没有数字化的领域,如何利用知识图谱技术帮助行业数字化未来应该空间也非常大。

InfoQ:达摩院发布的 2020 十大技术趋势中提到,未来人工智能热潮能否进一步打开天花板,形成更大的产业规模,认知智能的突破是关键,其中知识图谱等技术的发展至关重要,你如何看待知识图谱的未来发展趋势?未来你和你的团队将会重点投入到知识图谱哪块的研究和规划?

张伟:百科类知识图谱构建和应用已经到了深水区,三元组类的知识本身相对来说已经收敛,如何基于这些知识构建商业决策类和预测类应用是一个趋势。 从而从单纯的知识服务,过渡到决策和预测服务。此外,随着行业数字化的推进,行业知识图谱的构建和应用也越来越得到人们的关注。脱离了互联网,我们就面临知识稀疏、知识分散的挑战,构建变得成本越来越高,从而专家交互变得越来越重要。如何利用多模态技术多元地收集知识也变得越来越重要。

我们未来规划的重点集中在三个方面:

(1)多模态知识图谱技术和深度学习的可解释性;

(2)探索多语言知识图谱的构建工作;

(3)在知识图谱技术通用性上继续投入。

InfoQ:对于未来有志于从事知识图谱研究和应用的广大同仁,有什么学习建议和方向给到?

张伟:对于想进入知识图谱领域的同学,我个人认为从自然语言领域里的信息抽取相关的任务学习和职业切入比较好些, 主要原因是大量的知识还是以文本的形式存在,大部分场景下知识图谱的工作,这块依然是必不可少的核心工作之一。而且从技术角度来看,这块也方便串联起知识图谱的全栈技术。同时从需求的角度来看需求量也更大些。

以上,我概括地介绍了一些我对知识图谱的认识,培训的时候我再详细讲解对知识图谱的理解,技术细节和产品化应用的过程。谢谢大家。

采访嘉宾介绍

张伟(览图),博士毕业于新加坡国立大学。现为阿里巴巴业务平台资深算法专家,阿里巴巴商品知识图谱负责人,负责业务中台数据智能部门,是中文信息学会语言与知识计算委员会委员,曾任职新加坡资讯通信研究院研究员。研究领域:知识图谱、自然语言处理,机器学习等。论文发表在 AAAI、EMNLP、IJCAI、WWW 等顶级学术会议,同时担任 TACL 杂志常驻审稿人。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-04-15
本文作者:孟夕
本文来自:“AI前线”,了解相关信息可以关注“AI前线

相关文章
|
11天前
|
机器学习/深度学习 数据采集 自然语言处理
理解并应用机器学习算法:神经网络深度解析
【5月更文挑战第15天】本文深入解析了神经网络的基本原理和关键组成,包括神经元、层、权重、偏置及损失函数。介绍了神经网络在图像识别、NLP等领域的应用,并涵盖了从数据预处理、选择网络结构到训练与评估的实践流程。理解并掌握这些知识,有助于更好地运用神经网络解决实际问题。随着技术发展,神经网络未来潜力无限。
|
6天前
|
算法 Java
并发垃圾回收算法对于大规模服务器应用的优势
并发垃圾回收算法对于大规模服务器应用的优势
|
5天前
|
存储 算法
数据结构与算法⑪(第四章_中)堆的分步构建
数据结构与算法⑪(第四章_中)堆的分步构建
10 0
|
8天前
|
算法 搜索推荐 Java
滚雪球学Java(33):数组算法大揭秘:应用案例实战分享
【5月更文挑战第8天】🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
35 8
滚雪球学Java(33):数组算法大揭秘:应用案例实战分享
|
11天前
|
算法 Go 分布式数据库
构建高可用的分布式数据库集群:使用Go语言与Raft共识算法
随着数据量的爆炸式增长,单一数据库服务器已难以满足高可用性和可扩展性的需求。在本文中,我们将探讨如何使用Go语言结合Raft共识算法来构建一个高可用的分布式数据库集群。我们不仅会介绍Raft算法的基本原理,还会详细阐述如何利用Go语言的并发特性和网络编程能力来实现这一目标。此外,我们还将分析构建过程中可能遇到的挑战和解决方案,为读者提供一个完整的实践指南。
|
11天前
|
算法 Python
利用贝叶斯算法对简单应用实现预测分类
利用贝叶斯算法对简单应用实现预测分类
|
11天前
|
机器学习/深度学习 算法 API
【Paddle】PCA线性代数基础 + 领域应用:人脸识别算法(1.1w字超详细:附公式、代码)
【Paddle】PCA线性代数基础 + 领域应用:人脸识别算法(1.1w字超详细:附公式、代码)
15 0
|
11天前
|
机器学习/深度学习 数据采集 算法
深入理解并应用机器学习算法:支持向量机(SVM)
【5月更文挑战第13天】支持向量机(SVM)是监督学习中的强分类算法,用于文本分类、图像识别等领域。它寻找超平面最大化间隔,支持向量是离超平面最近的样本点。SVM通过核函数处理非线性数据,软间隔和正则化避免过拟合。应用步骤包括数据预处理、选择核函数、训练模型、评估性能及应用预测。优点是高效、鲁棒和泛化能力强,但对参数敏感、不适合大规模数据集且对缺失数据敏感。理解SVM原理有助于优化实际问题的解决方案。
|
11天前
|
算法 数据安全/隐私保护 计算机视觉
基于二维CS-SCHT变换和LABS方法的水印嵌入和提取算法matlab仿真
该内容包括一个算法的运行展示和详细步骤,使用了MATLAB2022a。算法涉及水印嵌入和提取,利用LAB色彩空间可能用于隐藏水印。水印通过二维CS-SCHT变换、低频系数处理和特定解码策略来提取。代码段展示了水印置乱、图像处理(如噪声、旋转、剪切等攻击)以及水印的逆置乱和提取过程。最后,计算并保存了比特率,用于评估水印的稳健性。
|
1天前
|
机器学习/深度学习 算法
m基于GA-GRU遗传优化门控循环单元网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,一个基于遗传算法优化的GRU网络展示显著优化效果。优化前后的电力负荷预测图表显示了改进的预测准确性和效率。GRU,作为RNN的一种形式,解决了长期依赖问题,而遗传算法用于优化其超参数,如学习率和隐藏层单元数。核心MATLAB程序执行超过30分钟,通过迭代和适应度评估寻找最佳超参数,最终构建优化的GRU模型进行负荷预测,结果显示预测误差和模型性能的提升。
13 4