1.3 结构化的知识
我想说明一下图中的“小泡”,也就是开放数据连接“小泡”。我不知道你们有多少人从事这个领域,我之后可能会介绍。外部有很多东西,公司内部也有一些其他的东西,我们都知道公共知识有很大的增长,我们利用它可以做很多事情。如果说我们把整个维基百科中的东西都印刷出来,就像印刷出版《百科全书》那样,那会是多么庞大的工作。
公共知识为什么对我们来说会如此重要?这些非结构化的数据以文本形式储存在图书馆,因为收集整理这些数据是迈向数据结构化的重要一步。另外,我们还有知识图谱,比如谷歌将最早的免费知识图谱进行完善后免费将其回馈给社会,还有像Bing、百度等也在做这项工作,这跟建造工厂不是一回事。
如果说现在随机选择一个美国的搜索引擎进行搜索,我们会在搜索结果页面的右侧看到一些小框,它们并不来自于文件,左边是来自于文件,是典型搜索引擎的搜索结果。在右边,我们看到的东西其实都是来自于知识图谱的非结构化知识。
现在有越来越多的团体和企业想要做这样的一些知识图谱,我这边列出了一些。第一个Yago是在赛尔布鲁肯,非常有名。第二个是DBpedia,他们在欧洲做开放数据库,他们努力将很多领域的知识集中在一起。我们也跟他们有合作。Freebase还在,但是大不如前,它已成为Wikidata的一部分。大家可能都知道Wikidata,当然也有些中国人并不知道,Wikidata积极倡导将非结构化知识转化为结构化知识,它在此类项目中是最大的。Wikidata基金位于柏林,我们和他们在相关项目上有非常密切的合作。我在这里就不说Google Knowledge Vault了,因为它已不再那么干净了,其中部分或大部分都是自动收集的数据。
上面这张图其实有好几年的历史了,为什么没新的?这张照片的每一个小泡泡,都是一些基于数据的语意知识或者结构式知识库,一些像是Web 3.0,一些更像是语意网络,还有一些更像是数据库。但是其实它们在语意上面都是相互联系的,形成相互联系的开放数据。每个小泡上都至少有一种联系,将其与其他小泡连接在一起,在这么多泡泡当中,你会看电影数据库、名人信息数据库、化学元素数据库等。为什么已经过了好几年我们还在用这张图?因为现在这样的一张图没有办法再把其他这几年新的内容加进去,这张图已经容纳不下。
我们把DBpedia的数据库放在中心,因为他们正在努力将其他的数据库连接起来。在我们的项目当中,我们做了一个尝试,希望能够在工业应用中将不同数据类型连接在一起,一些我们使用的方法是和DBpedia的方法相同,用以解决一些行业问题。
从这边可以看到,有一些比较特殊的数据,这些数据你只能和大公司合作才能获得,比如你在阿里、京东工作,或者是大型的物流企业、电信企业。但是右边的数据就便宜的多,比如气象学数据、媒体新闻数据、地理数据和卫星数据等,这些都非常容易获得。但是图最上方的是科学知识、知识社区(包括维基百科)、其他开放数据等,蓝色方框中的是企业内部的数据。如果将不同来源的数据整合在一起,就会带来巨大的价值。
如果我们要为某一地区开发一个运输分析APP,可能会用到交通数据和开源知识社区数据,后者会为你提供开放式街景图、场所、产品类型、包装等一些信息。还有就是气象学数据,因为对运输而言,气象非常的重要。你还可以从物流公司获取地理数据和卫星数据。如果能够垂直整合这些数据,你就能够做出非常棒的产品。