1.4 为什么要重视非结构化数据
接下来我想简单地介绍一下大家可能听过的一些内容,如果大家不熟悉我想再说明一下为什么非结构化的数据能够扮演如此重要的角色。在商业分析的领域中,人们希望能够借助时间序列、回归等听起来很酷炫的机器学习办法来分析问题,这可能是一些销售噱头,但是这个不重要。
我想说的是,为什么图中会有这么多的上升和下降?企业使用诸如真实气象数据这样的数字数据,希望能找到更多的商业营销卖点,可以卖冰激凌也可以卖雨伞。但是获取再多这样的数据也无法解释一切事件。如果我们获取更多的数据,如新闻和推特数据,那么就能搞清为什么会出现某些高峰或低谷,并将它们与真实生活中发生的事件联系在一起,比如说是关于纽约新港港口和船只博览会的新闻和推特数据。
我们再来看一下医疗数据,医疗数据现在大多是数字数据和图像数据。但是如果没有医生的报告将相关的事件、发现和假设提取出来,这些数据就没多大用处。因此只有将非结构化数据和结构化数据结合起来,才能解决问题。这就是我们以及Wikidata、DBpedia现在希望完成的工作,我们尝试将信息提取出来并尽可能将其转换成结构化数据,将它们放在知识图谱中。
如果我们看一下文献信息提取,就会发现人们试图涵盖所有东西,比如说从某些对话(如客户关系管理)中提取主题和答案,再重复利用提取出的答案;我们还可以提取名称、事实、事件、意见和情绪等。现在我们有这样一个项目,在该项目和它的几个子项目中与很多先锋公司和大公司进行了合作,如西门子、莱比锡大学等;还有一些外部的合作伙伴,像WIKIMEDIA、Wikidata基金等;我们也和提供商业数据的公司进行了合作,如BBD柏林数据中心、WVC德国和奥地利分公司。
下面介绍一下我们在这个项目中所使用的方法。
●将企业内部数据与开放数据、开放知识和新媒体(比如新闻媒体、电视、社交媒体)内容进行整合。
●将知识图谱与开源办法和工具连接起来。
●将数据分析整合到强大的大数据技术中。因为不久以后数据就会变得非常庞大,无法用常规的技术进行处理。
●结合使用结构化方法、统计方法和深度学习分析异构数据。
●为新型数据价值链构建可行商业模型和法律框架。在欧洲几乎一切成果都受严格的知识产权保护,同时也受数据隐私和数据安全方面的权利保护。因此我们与律师们进行合作,如果没有他们就无法在欧洲完成如此庞大的工作。
我们从互联网上获得数据包括非结构化数据、半结构化数据,以及企业内部数据。这张图是很典型的知识图谱,我们所做的就是要把不同来源的数据输入到这个知识图谱中,然后得出整合后的知识图谱,将其扩展为公共知识图谱,这基本就是这个项目的原理。
这张图就不赘述了。这是一个企业内部语义网,定义了企业之间、企业与产品之间,以及产品和科技、科技和科技、企业内部人与人之间关系。最后就会得到一张这样的知识图谱,现在应用在供应链关系和市场调研中。
我们还在其他领域应用了相同的方法,但是从这个项目来看,更多是和应用有关的,这个是另外一个项目了,我们在其他项目中也有相关应用。我们使用的数据包括交通数据、开源数据、媒体数据、采购数据等,可以利用的其他数据还有很多,这已经足够多了。
我之前也跟大家谈到,这样的发展是非常迅速,外部的数据越来越多,你要把所有的数据嵌入到大数据,我所在的DFKI柏林中心的大数据部门的主任也成立了这样的一个小组,专门做了一个大数据的平台。我们可以使用其他的大数据平台,为什么要使用Apache Flink这个平台?不仅是因为他本身就是Apache Flink的开发者,而且还因为这个平台非常擅长于数据流处理。相比之下,Spark在流处理时只是将数据分成一个小批次进行处理,并不是真正的流处理。如果我们要进行实时数据的流处理,它就不如Flink,这就是为什么我们最后选择了Apache Flink。
我们将工具挖掘(mean crawling)外包给了一家公司,我们对语义工具进行过滤,然后再进行预处理、实体发掘和联系,以及事件提取,最后得出可以用在多个项目中的KPI。接下来我们再谈谈实体联系,这项工作极具挑战性,这个系统是我们几年前构建的,并在2015年时获得一个奖,我们这几年一直在改善该系统,效果也不错。比如说阿姆斯特朗这个名字,它可能是指摇滚乐手、宇航员等,我们将内部知识和外部知识联系起来,识别出来谁是你想查的那个人。维基百科也要使用,有的企业数据结构化,对于这样的信息我们也会整合在实体联系的结果中。
方法论这部分待会儿再来谈,这是一种混合优化和深度学习的方法,多目标优化在处理联系和歧义方面做的比深度学习好。在处理动词时,我们则使用深度学习。在消除动词时态歧义时,我们就使用的是深度学习,因为并没有太多上下文可以依据。对于数值优化,传统的一些办法效果更好,但是在这个情况下可能做不到那么好。
现在在动词时态消除歧义和实体联系上,几乎所有人都声称自己做的更好,但是从个人角度来说,我们从来不说自己做的最好,我们在所专攻的领域上做的非常好,其中一个领域是进行关系提取以获得事实。我们希望学习关于公司的事实,比如哪一个供应商有问题、哪一个供应商濒临破产、哪一个供应商出现了罢工问题,以及哪家公司在发布新产品。在这方面,我们使用的是语言学最小限度远程监督机器学习(Minimally and Distant Supervised ML for Linguistic)。
和其他人一样,我们从语言处理监督学习研究人员先前提出的事实开始着手,最早的是斯坦福大学研究人员发表的论文。我们怎么做的?其实跟他们不太一样,我等会在向你们说明。我们获取了数千个事实,然后在谷歌搜索引擎上进行搜索,在得出的搜索结果网页中,把句子断句之后确定句子的相依性,然后通过复杂的模式提取机制进行提取。刚开始时这种机制并不理想,许多机构在这里败下来,因为这种机制通常只能适用于短句、断句的语意分析。我们使用了语义知识图谱,例如Wordnet,用其中的资源进行过滤,以确保提取出的内容具有语义上的模式。
举一个例子,一个人跟另外一个人结婚,会有很多不同的模式,实际上有数千种不同的模式。为什么模式研究很重要?因为这些模式将我们与知识联系在一起的,我们现在已经把模式和语句进行了匹配,最后会得到一个模式图,其中橙色框中的内容是给出了我们希望找出的关系,然后再基于这么多的关系来进行统计分析,例如频率分析。
从上图可以看出,我们整个处理流程是一个闭环。从实例开始,进行最小限度监督学习,然后再输入搜索出来的更多实例。当你的实例达不到1万个时,你可以进行最小限度的监督学习;当你有了很多的实例之后,我们可以把实例不断地加进来。现在我们的系统可以把监督学习、无监督学习、最小限度的监督学习、远程监督学习整合起来。
很简单,你只需将带标签的陈述(tagged mentions)加到解析器(Parser)中,当你把这样的样本加进来之后,整个系统就会自动跑起来。如果是有标签样本,你可以跑3次这样的循环,因为我们有一个监督式、非监督、远程监督的机器学习方法,可以做3次数据的分析。我们之所以整合那么多的机器学习的方法,是因为一开始的数据是有限的。现在我们的系统在日以继夜地运转,过去6个月中我们也得到了很多不同的数据,现在已经涵盖120万个企业的实体知识库,可以跟踪他们的信号。我们采集的只有收到语义信号的企业的数据。
当然从某些角度来看,这些数据并不是干净、有序的,因为这是结构和模式的混合式。但是在应用中,我们需要对比各种方法。方法有很多,例如有限状态的方法(finite-state methods)、混合优化、多对象优化、卷积神经网络等。
但是很遗憾的是,现在我们的目标是将成果应用到实际生活中,必须从每种方法中找到最适合我们数据的部分。有这么多方法,我们可以为深度学习领域或其他基于知识的领域中的从业人员提出很多不同的解决方案,从而实现早期应用。
我们在一些领域已有一些应用,比如AI辅助产品经理,我们可以从全球的信息化企业搜索他们客户在想些什么;我们还可以通过人工智能进行供应链的管理,进行市场调研,辅助投资经理进行投资的管理。
最后来看一下前景,我们用几分钟时间讲讲我们未来的前景,这就是我们的现实。我讲的这些都是我们能够做到最好的,我不知道你们做的怎么样,我们正尽全力试图将成果应用到企业中。我们必须整合这些方法,因为每一种方法都不够完美,比如说机器学习、深度学习等。因此,我们通过衡量每种方法挑选出当前最好的方案,但是未来会怎样?
上图是DFKI的CEO做的图,我前面讲过工业4.0就是他的想法,他同时也是一名人工智能研究人员。到1975年时,我们主要应用的是一些搜索、启发式的搜索和认知的一种方法;到1995年是基于知识的系统,人们试图研究知识工程学并构建海量的知识,这非常困难,而且当时没有足够多的知识可以建立。
为什么太困难?有两个原因,一个是因为他们野心太大了,想添加太多逻辑。当时只有一个人想要建立这样的知识,现在我们的知识系统是由数百万人共同构建,所以说是非常不一样的。到2015年时我们有了学习系统,非常大,现在也很大。我写的是到2015年不代表到这里就停止了,我认为这个系统在中国发展的就非常迅速。
它的意思就是说,如果回溯50年或100年,当时我们认为下一个浪潮是系统整合,就是把各系统的功能整合在一起。我一开始时忘了讲,其实新系统有核心上不一样的东西。很多系统通过数据来进行学习,同时还需要一些时间运行额外的数据,它们或许不够稳定,或许是我们不知道怎么样进行选择,它们也有可能太大、太活跃,可能还需要时间运行额外数据。例如,对于导航,需要获得一些天气、路况的信息,这是动态的,没有太多学习时间。如果说我们要获得最新新闻,了解股市的最新变化。上图是新的系统,重叠的部分就是我们所预测的真正变革,我认为我们看到的只是真正变革的一个重要信号,但是现在这个变革还没有到来。
现在的系统只能做一些夺眼球的任务,对我们而言围棋似乎很重要,但对这个社会来说还没有那么重要。我们可以研究对象识别,开发许多好的应用并利用这样的能力帮助我们赚钱。但是在这个中心,会产生下一次革命,处理知识和数据的能力将实现飞跃。IBM的系统由Wason和有两个机器人组成,这三者都无法连接至网络,相当公平。这两个机器人就像我们的人一样长有脑袋,Wason利用大量机器和存储从维基百科、字典、圣经、历史书上下载大量的信息,这就是未来。如果我们利用这种技术把行为学习和深度学习的力量结合起来,机器不会和人类一样蠢,在某些方面必定是超级智能的;而且我们的大脑、知识和语言是通过变革不断进化的,知识变革是后来兴起的,如果能将知识变革和行为变革结合起来,就可以构建任何类型的革命性系统并快速复制这种行为,这种系统必定会非常强大。事实上,人们已经在进行这项工作,并且不断地在完善各种系统。