阿里巴巴资深算法专家张伟:百科类知识图谱构建和应用已到深水区,行业和多模态知识图谱引关注

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

image
采访嘉宾 | 张伟
作者 | 孟夕

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

在即将于 8 月 16 日 -17 日举办的 AICon 全球人工智能与机器学习技术大会(上海站)上,阿里巴巴商品知识图谱负责人张伟(览图)老师将带来“知识图谱技术与工业实践深度讲解”的深度培训,InfoQ 提前对他进行了专访,请他来谈一谈深耕知识图谱十余年总结的经验和思考,以及阿里巴巴商品知识图谱构建过程中的技术挑战和相关应用实践。

InfoQ:张老师好,很荣幸采访到你,首先请介绍一下自己的从业经历,以及目前在阿里巴巴主要负责的工作。

张伟: 大家好,我目前在阿里巴巴业务平台事业部,负责业务中台数据智能团队。我在阿里的花名叫览图,起这个花名也是因为做知识图谱相关的技术。

我跟知识图谱结缘是从 2007 年本科毕业设计开始的,当时在哈工大机器翻译实验室做文本分类相关的工作,第一次接触到了 Stopping Word、tfidf、SVM 等一些有趣的概念,那时候虽然自然语言处理这个方向的毕业生不好找工作,但我还是喜欢上了这个领域。

我 2008 年开始在新加坡国立大学信息抽取和知识发现实验室读博士,当时导师 Tan Chew Lim 和 Su Jian 教授收到文本分析会议(TAC)邀请,组织一个关于知识库构建(KBP)任务的评测。于是在导师的建议下,我选择了 KBP 的研究工作,也有幸参与了 KBP 早期的工作。现在 KBP 在知识图谱和 NLP 领域已经是很有影响力的国际评测了。我的博士研究工作也全部围绕着 KBP 展开。

2013 年我加入了新加坡资讯通信研究院(I2R),刚好百度的王海峰老师牵头成立了百度 -I2R 联合研究中心(BIRC)。我在 BIRC 也第一次接触到大数据和工业界知识图谱构建的工作。

2016 年我加入了阿里巴巴,一直在业务平台事业部,围绕着商品数据,构建阿里的电商知识图谱。在这里我学习到了知识图谱全链路的技术和工业实践,也亲身经历了领域知识图谱产品化落地的全过程。

InfoQ:根据多年丰富的学术和工业界从业经历,请问你是如何理解知识图谱的?

张伟: 我从百科图谱和领域图谱分别要解决的主要问题,和涉及到的关键技术来阐述一下自己的理解。

第一,通用百科图谱主要解决全网信息结构化的问题。 知识图谱团队把全网信息中头部几千万的实体及其相应浅层的知识,以属性值、属性项三元组结构化的方式表示出来。虽然大部分知识来自于现存实体库的融合,但大部分时效性很强的知识存在于例如新闻等的文本中,所以在这个过程中信息抽取技术就非常关键。最终知识图谱在搜索、问答、推荐的场景中可以基于结构化信息直接给出答案。相较于用关键词匹配召回,返回半结构化网页,可以极大地缩短网络用户获取资讯的路径。在这些应用场景中,往往是把知识图谱里的百科知识直接透传给用户,推理或是逻辑语言描述的规则类知识涉及的比较少。

第二,领域知识图谱主要解决领域信息标准化的问题。 拿电商领域来讲,商品信息天生就是以知识卡片的形式在组织,所以电商领域的商品信息从知识生产的源头就已经达到了百科知识图谱的水平了。也正是因为这个原因,领域知识图谱往往要求三元组事实类的知识表达要标准化,从而可以约束众多的知识生产源头。此外,由于领域图谱往往涉及到领域里深度的知识,单单三元组的表示形式也是不够的,许多领域规则需要用逻辑语言来描述,因而在领域知识图谱构建和应用的过程中,推理就非常关键。推理可以基于规则,去离线生产新的知识,也可以在线推理支持复杂查询。

InfoQ:从 2017 年正式亮相到现在,阿里巴巴商品知识图谱一直受到很多人的关注。在构建阿里商品知识图谱过程中遇到的最大挑战是什么?你们是如何克服的?

张伟: 回头来看我们过去 4 年的工作,遇到的挑战主要是由两方面原因造成的。

第一,知识图谱相较于图像、语音、NLP 等 以算法为主的 AI 领域来比,它不是单单靠算法模型持续优化就能解决的,它更多 的还需要知识运营的参与以及工程系统的搭建。 最终的交付物并非是单纯的算法服务,而是一个很大的知识网络。

第二,百科知识图谱对知识有清晰的定义,大家谁去构建目标都差不多,交付物最终也不会偏差太多。但是商品知识图谱到底构建哪些知识 是没有太清晰的定义的。

总而言之,面临技术上不知从何下手,知识上不知交付终态是什么的两个问题。

回顾过去,我们能有机会持续在这个方向投入,关键点有两个:第一,我们对商品知识最初就确定了清晰的定义,我们允许进入知识图谱的知识遵循客观的(非一些业务逻辑和特定约束下的规则,而是具备普适性),公开的(非隐私数据),标准化的(可以协作生产)原则,同时又与商品组织、表达、发现相关,从而沉淀的知识能够在业务应用上复用,生产的过程能够在不同角色间公开协作,同时也可以在业务场景和业务目标的驱动下,相关人员有动力参与到知识的构建中来。第二,记着漆桂林老师前些年分享讲知识图谱技术就像盲人摸象,谁看到的都不一样。在那个初期阶段,我们跟藏经阁计划的五位老师一起对知识图谱技术按推理、获取、融合、建模做了清晰的定义,从而才使得我们的工程、算法能够协作起来。

InfoQ:目前阿里巴巴商品知识图谱主要应用在哪些业务?请举个例子,谈谈具体应用过程和实践经验。

张伟: 上面提到电商的商品信息从知识生产的源头就是结构化的知识卡片,相较于知识图谱传统的应用形式,例如搜索的知识卡片、基于知识图谱关系的推荐、基于 KBQA 的问答等,在电商的场景下,知识图谱的应用是有本质区别的。

总体来看,我们的商品知识图谱正在为天猫、淘宝、Lazada、AliExpress、1688、飞猪、盒马、天猫精灵等 20 多个业务线提供商品相关的知识服务和推理决策支持。典型的应用形式例如:

(1)通过图片、条码等极少信息的 AI 识别,识别出商品 ID,利用知识服务,快速帮助商家把线下商品基础信息数字化,同时还能通过 AI 帮助商品更好地描述其商品卖点与亮点。知识图谱帮助企业智能运营。

(2)通过知识图谱本体间的映射,帮助商品在不同的市场间做自动的信息转化,例如国内商家在天猫的商品,一键自动在东南亚市场多个国家通过多个语言即时上线。知识图谱助力商家把商品卖全球。

(3)通过推理帮助平台自动拦截有问题的商品,知识图谱为消费者保驾护航。

(4)通过商品知识图谱帮助 C2M,发现新需求,指导生产端生产商品。例如这次疫情,我们很早就发现了印有“今天已经消毒”字样的指示牌需求,给到有生产能力的工厂,为突发的需求量提前预警。

这里我再讲一个构建电商深度知识及其应用的完整实例。我们注意到业务上一直有个痛点就是如何让消费者产生跨类目的购买,同时消费者也有一个痛点就是在一些场景下不知道买哪些商品,例如生小孩待产包里应该买哪些东西?然而电商领域一直是基于生产端的视角来组织商品,例如鞋类商品包括网球鞋、足球鞋、皮鞋等品类。基于现状,我们创造性地提出了建立一套基于消费者需求场景的知识图谱本体体系来组织商品。这样能解决业务痛点,也能把知识沉淀到我们的图谱里。 经过挖掘和推理,我们构建了几十万事件与传统商品类目属性之间的关系,例如去游泳需要购买哪些品类的商品,具体到手表类目,需要商品属性有防水功能。我们利用逻辑语言来描述这些深度知识。事件又和人群、时间、地点、方式等组合,就产生了几百万条消费者购物场景知识,例如城市白领春运坐火车回家过年买什么?这样我们就可以基于知识图谱,实现跨类目推荐商品,可以极大地缩短消费者消费的决策路径,给大家购物带来便利。

InfoQ:阿里巴巴商品知识图谱主要运用了哪些关键技术来实现阿里海量商品的标准化?

张伟: 对于商品知识图谱来讲,常规的知识图谱技术模块例如在推理技术、信息抽取技术和知识融合及知识建模等领域我们都有前沿的探索,具体到我们标准化工作的一些特性,例如商品知识需要行业专家实时在线参与到整个知识产生的链路里来,这就需要行业专家、数据、算法三位一体,互相协作,这里面如何与算法协作最为挑战,所以如何利用推理技术解决深度学习的可解释性成了我们的关键技术, 有了可解释性,知识生产的过程就可以白盒化出来,行业专家才可以通过知识图谱工具参与到整个的构建工作中来。此外,对于工业级大规模知识图谱构建和应用来讲,样本不均衡和新领域样本少永远是最需要成本的地方,除了大量的标注工作的投入外,我们也做了很多领域迁移、众包去噪的关键技术工作。

InfoQ:据你了解,目前知识图谱的应用还有哪些局限?未来需要从哪些方向重点克服?

张伟: 我从两方面谈一下我的认识。第一,当下,对于通用图谱来讲,结构化的知识已经相对来说比较稳定了,一般几千万或是一亿多实体基本可以涵盖现有应用形式下对知识的多数需求。 但正如我上面讲的这些应用往往还是偏浅层的查询。推理技术在这方面的应用较少。对比人类,人类做出一个判断或给出一个回应时往往除了三元组知识外,还结合着常识或是更复杂的知识在做推理。当下业界知识图谱的应用局限,主要还是大规模 ** 推理 部署的缺失造成的,背后是 多元的知识来源和表示形式 的缺失,例如 百科图谱里 常识 和规则类知识的缺失。目前 由于推理在通用图谱使用的局限性,也成为智能交互产品的技术瓶颈,制约着用户体验产生跨时代的升级。

第二,对于领域知识图谱来讲,社会和行业的数字化正在爆发式增长,越来越多的行业知识图谱会涌现。如何 快速 从 0 到 1 构建一个 具备深度知识的 行业知识图谱 从技术角度 依然不能快速复制,也没有一个从生产到应用的完整工具产品可以使用。这里面有技术问题包括算法的迁移、工具的复杂度,也有人员投入成本不可控等问题。具体来讲,对于部分已经很好地数字化的领域,相较于互联网里大量的文本信息,行业文本信息较为稀疏,对图片、语音等多种形式的知识依赖变得更重,这里面就需要解决多模态的技术问题,也需求解决知识图谱技术通用性的问题。当然对于还没有数字化的领域,如何利用知识图谱技术帮助行业数字化未来应该空间也非常大。

InfoQ:达摩院发布的 2020 十大技术趋势中提到,未来人工智能热潮能否进一步打开天花板,形成更大的产业规模,认知智能的突破是关键,其中知识图谱等技术的发展至关重要,你如何看待知识图谱的未来发展趋势?未来你和你的团队将会重点投入到知识图谱哪块的研究和规划?

张伟:百科类知识图谱构建和应用已经到了深水区,三元组类的知识本身相对来说已经收敛,如何基于这些知识构建商业决策类和预测类应用是一个趋势。 从而从单纯的知识服务,过渡到决策和预测服务。此外,随着行业数字化的推进,行业知识图谱的构建和应用也越来越得到人们的关注。脱离了互联网,我们就面临知识稀疏、知识分散的挑战,构建变得成本越来越高,从而专家交互变得越来越重要。如何利用多模态技术多元地收集知识也变得越来越重要。

我们未来规划的重点集中在三个方面:

(1)多模态知识图谱技术和深度学习的可解释性;

(2)探索多语言知识图谱的构建工作;

(3)在知识图谱技术通用性上继续投入。

InfoQ:对于未来有志于从事知识图谱研究和应用的广大同仁,有什么学习建议和方向给到?

张伟:对于想进入知识图谱领域的同学,我个人认为从自然语言领域里的信息抽取相关的任务学习和职业切入比较好些, 主要原因是大量的知识还是以文本的形式存在,大部分场景下知识图谱的工作,这块依然是必不可少的核心工作之一。而且从技术角度来看,这块也方便串联起知识图谱的全栈技术。同时从需求的角度来看需求量也更大些。

以上,我概括地介绍了一些我对知识图谱的认识,培训的时候我再详细讲解对知识图谱的理解,技术细节和产品化应用的过程。谢谢大家。

采访嘉宾介绍

张伟(览图),博士毕业于新加坡国立大学。现为阿里巴巴业务平台资深算法专家,阿里巴巴商品知识图谱负责人,负责业务中台数据智能部门,是中文信息学会语言与知识计算委员会委员,曾任职新加坡资讯通信研究院研究员。研究领域:知识图谱、自然语言处理,机器学习等。论文发表在 AAAI、EMNLP、IJCAI、WWW 等顶级学术会议,同时担任 TACL 杂志常驻审稿人。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-04-15
本文作者:孟夕
本文来自:“AI前线”,了解相关信息可以关注“AI前线

相关文章
|
23天前
|
机器学习/深度学习 算法 Python
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。本文详细介绍了随机森林的工作原理、性能优势、影响因素及调优方法,并提供了Python实现示例。适用于分类、回归及特征选择等多种应用场景。
46 7
|
21天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
20天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
39 1
|
20天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
49 1
|
29天前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
42 4
|
27天前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
29天前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
75 3
|
1月前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
40 0
|
21天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
25天前
|
JSON 算法 数据挖掘
基于图论算法有向图PageRank与无向图Louvain算法构建指令的方式方法 用于支撑qwen agent中的统计相关组件
利用图序列进行数据解读,主要包括节点序列分析、边序列分析以及结合节点和边序列的综合分析。节点序列分析涉及节点度分析(如入度、出度、度中心性)、节点属性分析(如品牌、价格等属性的分布与聚类)、节点标签分析(如不同标签的分布及标签间的关联)。边序列分析则关注边的权重分析(如关联强度)、边的类型分析(如管理、协作等关系)及路径分析(如最短路径计算)。结合节点和边序列的分析,如子图挖掘和图的动态分析,可以帮助深入理解图的结构和功能。例如,通过子图挖掘可以发现具有特定结构的子图,而图的动态分析则能揭示图随时间的变化趋势。这些分析方法结合使用,能够从多个角度全面解读图谱数据,为决策提供有力支持。