阿里巴巴资深算法专家张伟:百科类知识图谱构建和应用已到深水区,行业和多模态知识图谱引关注

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

image
采访嘉宾 | 张伟
作者 | 孟夕

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将面临哪些新的挑战?又有哪些发展趋势呢?

在即将于 8 月 16 日 -17 日举办的 AICon 全球人工智能与机器学习技术大会(上海站)上,阿里巴巴商品知识图谱负责人张伟(览图)老师将带来“知识图谱技术与工业实践深度讲解”的深度培训,InfoQ 提前对他进行了专访,请他来谈一谈深耕知识图谱十余年总结的经验和思考,以及阿里巴巴商品知识图谱构建过程中的技术挑战和相关应用实践。

InfoQ:张老师好,很荣幸采访到你,首先请介绍一下自己的从业经历,以及目前在阿里巴巴主要负责的工作。

张伟: 大家好,我目前在阿里巴巴业务平台事业部,负责业务中台数据智能团队。我在阿里的花名叫览图,起这个花名也是因为做知识图谱相关的技术。

我跟知识图谱结缘是从 2007 年本科毕业设计开始的,当时在哈工大机器翻译实验室做文本分类相关的工作,第一次接触到了 Stopping Word、tfidf、SVM 等一些有趣的概念,那时候虽然自然语言处理这个方向的毕业生不好找工作,但我还是喜欢上了这个领域。

我 2008 年开始在新加坡国立大学信息抽取和知识发现实验室读博士,当时导师 Tan Chew Lim 和 Su Jian 教授收到文本分析会议(TAC)邀请,组织一个关于知识库构建(KBP)任务的评测。于是在导师的建议下,我选择了 KBP 的研究工作,也有幸参与了 KBP 早期的工作。现在 KBP 在知识图谱和 NLP 领域已经是很有影响力的国际评测了。我的博士研究工作也全部围绕着 KBP 展开。

2013 年我加入了新加坡资讯通信研究院(I2R),刚好百度的王海峰老师牵头成立了百度 -I2R 联合研究中心(BIRC)。我在 BIRC 也第一次接触到大数据和工业界知识图谱构建的工作。

2016 年我加入了阿里巴巴,一直在业务平台事业部,围绕着商品数据,构建阿里的电商知识图谱。在这里我学习到了知识图谱全链路的技术和工业实践,也亲身经历了领域知识图谱产品化落地的全过程。

InfoQ:根据多年丰富的学术和工业界从业经历,请问你是如何理解知识图谱的?

张伟: 我从百科图谱和领域图谱分别要解决的主要问题,和涉及到的关键技术来阐述一下自己的理解。

第一,通用百科图谱主要解决全网信息结构化的问题。 知识图谱团队把全网信息中头部几千万的实体及其相应浅层的知识,以属性值、属性项三元组结构化的方式表示出来。虽然大部分知识来自于现存实体库的融合,但大部分时效性很强的知识存在于例如新闻等的文本中,所以在这个过程中信息抽取技术就非常关键。最终知识图谱在搜索、问答、推荐的场景中可以基于结构化信息直接给出答案。相较于用关键词匹配召回,返回半结构化网页,可以极大地缩短网络用户获取资讯的路径。在这些应用场景中,往往是把知识图谱里的百科知识直接透传给用户,推理或是逻辑语言描述的规则类知识涉及的比较少。

第二,领域知识图谱主要解决领域信息标准化的问题。 拿电商领域来讲,商品信息天生就是以知识卡片的形式在组织,所以电商领域的商品信息从知识生产的源头就已经达到了百科知识图谱的水平了。也正是因为这个原因,领域知识图谱往往要求三元组事实类的知识表达要标准化,从而可以约束众多的知识生产源头。此外,由于领域图谱往往涉及到领域里深度的知识,单单三元组的表示形式也是不够的,许多领域规则需要用逻辑语言来描述,因而在领域知识图谱构建和应用的过程中,推理就非常关键。推理可以基于规则,去离线生产新的知识,也可以在线推理支持复杂查询。

InfoQ:从 2017 年正式亮相到现在,阿里巴巴商品知识图谱一直受到很多人的关注。在构建阿里商品知识图谱过程中遇到的最大挑战是什么?你们是如何克服的?

张伟: 回头来看我们过去 4 年的工作,遇到的挑战主要是由两方面原因造成的。

第一,知识图谱相较于图像、语音、NLP 等 以算法为主的 AI 领域来比,它不是单单靠算法模型持续优化就能解决的,它更多 的还需要知识运营的参与以及工程系统的搭建。 最终的交付物并非是单纯的算法服务,而是一个很大的知识网络。

第二,百科知识图谱对知识有清晰的定义,大家谁去构建目标都差不多,交付物最终也不会偏差太多。但是商品知识图谱到底构建哪些知识 是没有太清晰的定义的。

总而言之,面临技术上不知从何下手,知识上不知交付终态是什么的两个问题。

回顾过去,我们能有机会持续在这个方向投入,关键点有两个:第一,我们对商品知识最初就确定了清晰的定义,我们允许进入知识图谱的知识遵循客观的(非一些业务逻辑和特定约束下的规则,而是具备普适性),公开的(非隐私数据),标准化的(可以协作生产)原则,同时又与商品组织、表达、发现相关,从而沉淀的知识能够在业务应用上复用,生产的过程能够在不同角色间公开协作,同时也可以在业务场景和业务目标的驱动下,相关人员有动力参与到知识的构建中来。第二,记着漆桂林老师前些年分享讲知识图谱技术就像盲人摸象,谁看到的都不一样。在那个初期阶段,我们跟藏经阁计划的五位老师一起对知识图谱技术按推理、获取、融合、建模做了清晰的定义,从而才使得我们的工程、算法能够协作起来。

InfoQ:目前阿里巴巴商品知识图谱主要应用在哪些业务?请举个例子,谈谈具体应用过程和实践经验。

张伟: 上面提到电商的商品信息从知识生产的源头就是结构化的知识卡片,相较于知识图谱传统的应用形式,例如搜索的知识卡片、基于知识图谱关系的推荐、基于 KBQA 的问答等,在电商的场景下,知识图谱的应用是有本质区别的。

总体来看,我们的商品知识图谱正在为天猫、淘宝、Lazada、AliExpress、1688、飞猪、盒马、天猫精灵等 20 多个业务线提供商品相关的知识服务和推理决策支持。典型的应用形式例如:

(1)通过图片、条码等极少信息的 AI 识别,识别出商品 ID,利用知识服务,快速帮助商家把线下商品基础信息数字化,同时还能通过 AI 帮助商品更好地描述其商品卖点与亮点。知识图谱帮助企业智能运营。

(2)通过知识图谱本体间的映射,帮助商品在不同的市场间做自动的信息转化,例如国内商家在天猫的商品,一键自动在东南亚市场多个国家通过多个语言即时上线。知识图谱助力商家把商品卖全球。

(3)通过推理帮助平台自动拦截有问题的商品,知识图谱为消费者保驾护航。

(4)通过商品知识图谱帮助 C2M,发现新需求,指导生产端生产商品。例如这次疫情,我们很早就发现了印有“今天已经消毒”字样的指示牌需求,给到有生产能力的工厂,为突发的需求量提前预警。

这里我再讲一个构建电商深度知识及其应用的完整实例。我们注意到业务上一直有个痛点就是如何让消费者产生跨类目的购买,同时消费者也有一个痛点就是在一些场景下不知道买哪些商品,例如生小孩待产包里应该买哪些东西?然而电商领域一直是基于生产端的视角来组织商品,例如鞋类商品包括网球鞋、足球鞋、皮鞋等品类。基于现状,我们创造性地提出了建立一套基于消费者需求场景的知识图谱本体体系来组织商品。这样能解决业务痛点,也能把知识沉淀到我们的图谱里。 经过挖掘和推理,我们构建了几十万事件与传统商品类目属性之间的关系,例如去游泳需要购买哪些品类的商品,具体到手表类目,需要商品属性有防水功能。我们利用逻辑语言来描述这些深度知识。事件又和人群、时间、地点、方式等组合,就产生了几百万条消费者购物场景知识,例如城市白领春运坐火车回家过年买什么?这样我们就可以基于知识图谱,实现跨类目推荐商品,可以极大地缩短消费者消费的决策路径,给大家购物带来便利。

InfoQ:阿里巴巴商品知识图谱主要运用了哪些关键技术来实现阿里海量商品的标准化?

张伟: 对于商品知识图谱来讲,常规的知识图谱技术模块例如在推理技术、信息抽取技术和知识融合及知识建模等领域我们都有前沿的探索,具体到我们标准化工作的一些特性,例如商品知识需要行业专家实时在线参与到整个知识产生的链路里来,这就需要行业专家、数据、算法三位一体,互相协作,这里面如何与算法协作最为挑战,所以如何利用推理技术解决深度学习的可解释性成了我们的关键技术, 有了可解释性,知识生产的过程就可以白盒化出来,行业专家才可以通过知识图谱工具参与到整个的构建工作中来。此外,对于工业级大规模知识图谱构建和应用来讲,样本不均衡和新领域样本少永远是最需要成本的地方,除了大量的标注工作的投入外,我们也做了很多领域迁移、众包去噪的关键技术工作。

InfoQ:据你了解,目前知识图谱的应用还有哪些局限?未来需要从哪些方向重点克服?

张伟: 我从两方面谈一下我的认识。第一,当下,对于通用图谱来讲,结构化的知识已经相对来说比较稳定了,一般几千万或是一亿多实体基本可以涵盖现有应用形式下对知识的多数需求。 但正如我上面讲的这些应用往往还是偏浅层的查询。推理技术在这方面的应用较少。对比人类,人类做出一个判断或给出一个回应时往往除了三元组知识外,还结合着常识或是更复杂的知识在做推理。当下业界知识图谱的应用局限,主要还是大规模 ** 推理 部署的缺失造成的,背后是 多元的知识来源和表示形式 的缺失,例如 百科图谱里 常识 和规则类知识的缺失。目前 由于推理在通用图谱使用的局限性,也成为智能交互产品的技术瓶颈,制约着用户体验产生跨时代的升级。

第二,对于领域知识图谱来讲,社会和行业的数字化正在爆发式增长,越来越多的行业知识图谱会涌现。如何 快速 从 0 到 1 构建一个 具备深度知识的 行业知识图谱 从技术角度 依然不能快速复制,也没有一个从生产到应用的完整工具产品可以使用。这里面有技术问题包括算法的迁移、工具的复杂度,也有人员投入成本不可控等问题。具体来讲,对于部分已经很好地数字化的领域,相较于互联网里大量的文本信息,行业文本信息较为稀疏,对图片、语音等多种形式的知识依赖变得更重,这里面就需要解决多模态的技术问题,也需求解决知识图谱技术通用性的问题。当然对于还没有数字化的领域,如何利用知识图谱技术帮助行业数字化未来应该空间也非常大。

InfoQ:达摩院发布的 2020 十大技术趋势中提到,未来人工智能热潮能否进一步打开天花板,形成更大的产业规模,认知智能的突破是关键,其中知识图谱等技术的发展至关重要,你如何看待知识图谱的未来发展趋势?未来你和你的团队将会重点投入到知识图谱哪块的研究和规划?

张伟:百科类知识图谱构建和应用已经到了深水区,三元组类的知识本身相对来说已经收敛,如何基于这些知识构建商业决策类和预测类应用是一个趋势。 从而从单纯的知识服务,过渡到决策和预测服务。此外,随着行业数字化的推进,行业知识图谱的构建和应用也越来越得到人们的关注。脱离了互联网,我们就面临知识稀疏、知识分散的挑战,构建变得成本越来越高,从而专家交互变得越来越重要。如何利用多模态技术多元地收集知识也变得越来越重要。

我们未来规划的重点集中在三个方面:

(1)多模态知识图谱技术和深度学习的可解释性;

(2)探索多语言知识图谱的构建工作;

(3)在知识图谱技术通用性上继续投入。

InfoQ:对于未来有志于从事知识图谱研究和应用的广大同仁,有什么学习建议和方向给到?

张伟:对于想进入知识图谱领域的同学,我个人认为从自然语言领域里的信息抽取相关的任务学习和职业切入比较好些, 主要原因是大量的知识还是以文本的形式存在,大部分场景下知识图谱的工作,这块依然是必不可少的核心工作之一。而且从技术角度来看,这块也方便串联起知识图谱的全栈技术。同时从需求的角度来看需求量也更大些。

以上,我概括地介绍了一些我对知识图谱的认识,培训的时候我再详细讲解对知识图谱的理解,技术细节和产品化应用的过程。谢谢大家。

采访嘉宾介绍

张伟(览图),博士毕业于新加坡国立大学。现为阿里巴巴业务平台资深算法专家,阿里巴巴商品知识图谱负责人,负责业务中台数据智能部门,是中文信息学会语言与知识计算委员会委员,曾任职新加坡资讯通信研究院研究员。研究领域:知识图谱、自然语言处理,机器学习等。论文发表在 AAAI、EMNLP、IJCAI、WWW 等顶级学术会议,同时担任 TACL 杂志常驻审稿人。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-04-15
本文作者:孟夕
本文来自:“AI前线”,了解相关信息可以关注“AI前线

相关文章
|
23天前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
38 3
|
6天前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
14 0
|
18天前
|
存储 算法 搜索推荐
这些算法在实际应用中有哪些具体案例呢
【10月更文挑战第19天】这些算法在实际应用中有哪些具体案例呢
25 1
|
24天前
|
机器学习/深度学习 人工智能 算法
[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解
[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解
60 0
[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解
|
18天前
|
监控 算法 数据挖掘
HyperLogLog算法有哪些应用场景呢
【10月更文挑战第19天】HyperLogLog算法有哪些应用场景呢
14 0
|
18天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
3天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
4天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
5天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
4天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
下一篇
无影云桌面