本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第1章,第1.11节使用SPARQL读取RDF数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看
1.11 使用SPARQL读取RDF数据
在前面的方法中,查询中使用的嵌入式领域专用语言转换成SPARQL(许多种链接数据的查询语言)。如果你仔细观察查询,可以发现它好像SPARQL的where子句。它是简单的查询,但其功能并不简单。
如果可以访问自己的三元组存储中的原始数据,这种方法很有效。然而,如果需要直接访问远程的SPARQL终端,这个过程会更复杂一些。
本例中,在DBPedia(http://dbpedia.org)中查询阿拉伯联合酋长国的货币—迪拉姆。(driham)DBPedia将维基百科(摘要框)中的结构化信息抽取并以RDF的形式重新发布。就如维基百科成为人类获取信息的重要开端,DBPedia也为计算机程序获取某一领域数据开了个好头。
1.11.1 准备工作
首先,需要确保依赖列于project.clj文件中,然后加载将要使用的Clojure和Java库。
1.11.2 具体实现
在完成这个任务的过程中,会定义一系列函数。最后,将创建load-data函数用来连接所有函数,然后以调用load-data函数结束。
- 需要创建Sesame三元组存储并以将使用的命名空间对其初始化。在这两步中,将用到在上一方法中讨论过的kb-memstore和init-kb函数。定义一个使用URI从三元组存储中取出主语的函数并构建一个至多返回200条与其相关的声明的SPARQL查询。它将过滤掉带有非英文字符串宾语的声明,但其允许其他一切内容通过
- 既然得到了查询,需要将其编码为URL来获取结果
- 得到结果后,解析XML文件,将其包装于zipper中,并定位到第一个结果。这些工作将由一个很容易编写的函数来实现。下个函数的输入是第一个结果节点,返回值是包含所有结果的列表
- 下面这组函数的输入是每个结果节点,返回值是一个“键-值对”(result-to-kv函数)。binding-str函数用于从XML文件中取出结果。然后accum-hash函数将那些“键-值对”存入映射中。出现次数大于1的键的值在向量中累加。
- 下面定义最后一个工具函数rekey。它将基于另一个映射转换映射中的键。
- 接下来这个函数的参数为SPARQL终端和主语,返回值是结果节点序列。它将用到多个刚刚定义的函数。
- 将所有的函数组装在一起,以下是load-data函数:
- 下面执行一下。可以定义一个变量集合从而使得引用将用到的命名空间会变得容易些。用它们创建与列名对应的映射
- 调用load-data函数,参数为DBPedia SPARQL的终端、所需信息相关的资源(作为symbol)和列映射。
1.11.3 实现原理
本方法中唯一真正与SPARQL相关的部分是make-query函数。它使用sparql-select-query函数从查询模式中生成SPARQL查询。这个查询模式在定义命名空间的三元组存储的上下文中被解析。使用binding命令设置上下文。可以通过在REPL中调用它来了解该函数如何工作