知识图谱大牛组团来阿里,他们都聊了什么?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。

e88fc3678ae6ebb50a1c9f89915fb10a06517ebd

参会专家学者合影

到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。

孙乐

中国科学院软件研究所,研究员,博士生导师,中文信息处理研究室负责人,中国中文信息学会副理事长兼秘书长,国际计算语言学年会(ACL 2015)组织委员会联系主席。

896347c82b5bef169c1cf4f0c9c9d6b6581ee1c6

大规模知识图谱对自然语言理解有至关重要的作用

在大数据时代,语言的理解,除了要基于数据模型和计算之外,还需要注重神经科学认知机制,以及大规模知识图谱的利用。大规模知识图谱对自然语言理解有至关重要的作用。我们的研究主要涉及两个方面,一方面是从文本中获取知识,特别是如何构建大规模中文知识库,另外一方面是从知识到文本,如何基于已有知识来理解文本,比如实体链接和语义分析任务。

李涓子

清华大学教授,博士生导师,知识工程研究室负责人。中国中文信息学会语言与知识计算专业委员会主任。长期从事知识工程和新闻及社会网路挖掘研究。主持研制大规模跨语言知识图谱XLORE。

b9605d874da8cbd5a031b0a634fc22fb5864bf43

大数据环境下的知识工程是实现机器智能的加速器

大数据时代需要把数据转化成知识,为数据增添语义信息,获得对大数据的洞察,使数据产生智慧,以提供决策支持等智能服务。知识图谱把互联网的信息表达成更接近人类认知世界的形式,可以把互联网的内容从符号映射成计算机可理解和计算的语义信息。知识工程实际上就是从大数据中挖掘知识,建立知识图谱,弥合大数据机器学习的低值特征与人类认知的鸿沟,是实现机器智能的加速器。构建大数据环境下的知识引擎是实现从互联网信息服务向知识服务新业态跃迁的新技术。

赵军

中国科学院自动化研究所研究员,博士生导师。长期从事信息抽取、问答系统等方向的研究,在ACL、SIGIR、IJCAI、COLING、TKDE等顶级国际会议和期刊上发表论文60余篇,曾获COLING-2014最佳论文奖。

1a2b97a3ef7b4da45eb408b5a76e1b36969dd5f4

问答和对话系统需要知识图谱作为支撑

知识服务方式多种多样,知识图谱是重要的基础设施。作为一种重要的知识服务方式,问答和对话系统一方面需要从知识图谱中获取知识,满足用户信息需求;另一方面还需要从大规模问答和对话数据中学习问答和对话模式,以自然友好的方式与用户交互。其中,知识图谱基础设施与深度学习等高效计算手段的结合是富有潜力的关键技术。

陈华钧

浙江大学教授、博导,OpenKG发起人,中国中文信息学会语言与知识计算专家委员会副主任,浙江省大数据智能计算重点实验室副主任。

82661223f5703b8d7d5ed28d7c2dbe6af2265bdf

阿里KG很有挑战,需要综合运用好知识表示与推理、自然语言处理和深度学习等多方面的技术具有获取、学习、表示和处理知识的能力是人类心智区别于其它物种心智的最重要特征。知识图谱帮助构建有“学识”的AI。阿里KG的构建和应用都很有挑战,不限于辅助搜索和问答应用,还包括支撑基于场景的智能导购、辅助平台治理与管控、利用知识洞察消费趋势等多个应用场景,最具挑战的技术难点是推理能力的深度植入。对于计算机学科,产业力量非常重要,阿里已经有了这样的体量,应该具备像谷歌类似的科技领导力,也希望像阿里这样的行业翘楚能多多支持OpenKG的发展。

漆桂林

东南大学教授、博士生导师,获得“六大人才高峰”资助。中国中文信息学会语言与知识计算专业委员会副主任和中国科学技术情报学会知识组织专业委员会副主任。是开放知识图谱联盟openKG的联合创始人之一。语义Web国际权威期刊Journal of Web Semantics和Semantic Web Journal编委,是国际期刊DataIntelligence Journal的执行主编。

87f57499b9d615303394432aaa9a6e2b55342992

知识的内涵需要配合知识推理才能全面的展现出来

知识表示和推理对于知识工程来说是一个非常重要的研究方向。知识表示的形式很多,可以是图或者逻辑公式集合,也可以是向量或张量等分布式表示。但这些都是知识的表现形式,并不是知识的内涵。知识的内涵需要配合知识推理才能全面的展现出来。逻辑推理对于知识库的构建和应用都有不可忽略的价值,在知识库构建阶段可以去对知识库做不一致性检测,从而保证知识库不出现逻辑冲突,在应用阶段可以对一个面向知识库的查询做查询的重写,从而得到更多的精确答案。

逻辑推理需要有专家构建的高质量的规则库或者本体库才能很好的发挥作用。当然,随着技术的发展和海量数据的积累,也可以实现半自动构建规则和本体,这就需要去通过统计推理的方法来构建不确定性的规则或者本体,然后由专家来修正。另外,也可以通过统计关系学习直接在知识图谱是进行推理,现有的统计关系学习方法虽然很多,但是缺少在海量数据下可以应用的开源系统,这方面还有不少研究和工程工作要做。

陈文亮

苏州大学计算机科学与技术学院教授、博士生导师,苏州大学人类语言技术研究所副所长。曾担任IALP-2015、IJCNLP-2017、CCKS-2017程序委员会主席或领域主席。

ed4bf99e19cc05d1e59d5bd1f304a30e444b7afa

用知识图谱直接生成训练数据实现“多、快、好、省”

高质量的标注训练数据是很难获得的。传统的聘请领域专家的数据标注方式获得的标注数据往往是“少、慢、好、贵”,而全部使用众包的标注方式获得的数据是“多、快、糙、省”。所以,可以采取一种折中的方式,利用少量的专家加上大量的众包人员完成标注任务,达到“多、快、好、省”的目的。这种方式比较适合分词、词性标注、NER等任务,我们可以多快好省的把这个事情干好。

或者说用远程监督的方法,干脆不用人力,用知识图谱直接生成训练数据就行了,获得有噪音大量训练数据。我们的结果显示,带噪音的训练数据可以构造效果还算可以的关系抽取系统,但离效果很好的目标,还有很长的路要走。

刘知远

清华大学计算机系助理教授、博士生导师。在AAAI、IJCAI、ACL等人工智能领域的著名国际期刊和会议发表相关论文20余篇,GoogleScholar统计引用超过1900次。

ada1932c456b9c24a92ea723bfa6a54e04ac90e6

以TransE为代表的知识表示学习将在知识获取与应用中大有作为

知识表示的挑战在于基于符号表示的三元组(RDF)无法有效计算实体间的语义关系。利用分布式表示学习旨在实现知识的高效表示与计算。知识表示学习旨在将知识图谱中的实体和关系映射到低维向量空间。该向量空间可以有效缓解大数据处理面临的数据稀疏问题,并能够灵活实现多源信息融合与知识迁移。近年来,以TransE为代表的知识表示学习已在知识图谱补全、关系抽取、知识图谱融合、实体分类等多个重要任务中获得广泛应用。

冯岩松

博士,北京大学计算机科学与技术研究所副教授。其研究小组构建了大规模结构化中文百科知识库PKUBase,并连续三年在面向结构化知识库的知识问答评测QALD-4,5, 6中获得第一名。

286f406d61796e18983cee69e9f359ee54b63901


利用先验知识,充分利用“人”来构建知识图谱

目前知识图谱的构建主要有三种方案:一是利用专家手工构建,二是基于已有结构化资源自动构建,三是利用志愿者众包标注。关键点在于知识库体系的确定方法和知识条目的收集。在神经网络时代下,与传统方法相比,深度学习框架具有先天的优势,但仍需要与专家经验做进一步结合。利用先验知识,充分利用“人”来完善知识图谱的构建,将人给出经验性规则与现代机器学习方法有机结合起来必将是未来知识图谱研究的发展方向之一。


原文发布时间为:2017-12-23

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
510特辑 | 读懂阿里日,也就读懂了阿里
510特辑 | 读懂阿里日,也就读懂了阿里
721 0
|
信息无障碍
阿里公益孙利军和盲人按摩师聊了聊
前几天,阿里巴巴公益基金会理事长孙利军和北京盲人按摩师何亚君,一起在线上聊了聊天。他们都聊了些什么呢?以下是聊天实录,小益来分享给大家。
129 0
阿里公益孙利军和盲人按摩师聊了聊
|
设计模式 算法 网络协议
2020年是意义非凡的一年,大专的我面试阿里P6居然过了
导语 学历永远是横在我们进人大厂的一道门槛,好像无论怎么努力,总能被那些985,211 按在地上摩擦! 不仅要被“他们”看不起,在HR挑选简历,学历这块就直接被刷下去了,连证明自己的机会也没有,学历真的这么重要吗?
2020年是意义非凡的一年,大专的我面试阿里P6居然过了
|
机器学习/深度学习 设计模式 JavaScript
2021阿里淘系工程师推荐书单
读书有点像机器学习从初始参数开始的局部最小化。 无论是数学、科学、技术、管理,还是历史、文学,读书的过程,就是根据一维的文字流,在立体的思维空间中重新建构。 这种建构的意义,将我们自身和世界连接了起来。 (阿里巴巴淘系技术部资深算法专家 乐田)
2021阿里淘系工程师推荐书单
|
云计算
聚能聊每周精选 第十期
我滴天! 各位小伙伴我们终于又见面了,真的是让大家久等了,这一期来的比以往更更晚一些,大家不要见怪啊!话不多说接下来我们来看看最近聚能聊里各位聊主和各位粉丝们又有哪些精彩互动赶紧来瞧一瞧吧!!向代码致敬,寻找你的第83行.........
1911 0
聚能聊每周精选 第十期
|
云安全 机器学习/深度学习 城市大脑
嘘!偷偷看下阿里技术大牛的私人书单
阿里妹拿到了贾扬清、吴翰清等大神的私人书单,到底大神们如何跨界学习,将知识收为己用?一起来感受!不要错过文末的送书福利哦!
10912 0
嘘!偷偷看下阿里技术大牛的私人书单
嘘!阿里技术大牛竟然在看这些书……
也许我们无法走遍地球的每一个角落,却可以用阅读丈量整个世界。停止阅读就等于停止给大脑供给养分。信息爆炸时代,“养分”的质量决定了个人的成长速度。今天,我们“偷出”了贾扬清、吴翰清等大神的私人书单。到底大神们如何跨界学习,将知识收为己用?一起来感受!
3332 0
|
新零售 Java 应用服务中间件
毕玄:我在阿里的十年技术感悟
在阿里,我们习惯尊称毕玄老师为“毕大师”。他2007年加入阿里,一手打造了HSF,十多年来更见证、参与了阿里在基础技术上的演进与发展:如淘宝在2007-2009年的分布式应用架构升级、2013-2016年的阿里电商异地多活架构升级等。但很少有人知道,他大学读的是生物专业。
13392 0
|
人工智能 运维 开发者
【云栖精选】帮你把握“金三银四”,阿里开发者招聘节面经总结帖来袭
云栖精选,一文为你网罗本周云栖社区本周精华帖,精彩不容错过。换工作、找实习,那你一定不能错过“金三银四”,想要来阿里巴巴,一些笔试和面试技巧一定不能少。本期中,为大家选取了几篇关于阿里招聘节的相关内容。
7443 0
|
大数据 关系型数据库 分布式数据库
聚能聊每周精选 第九期
各位社区小伙伴大家!让大家久等了,这一期来的比以往更晚一些,大家不要见怪啊!话不多说接下来我们来看看最近聚能聊里各位聊主和各位粉丝们又有哪些精彩互动,碰撞出怎样的火花,一起来回顾一下吧!!
4278 0
聚能聊每周精选 第九期