《Clojure数据分析秘笈》——1.10节读取RDF数据

简介:

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第1章,第1.10节读取RDF数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

1.10 读取RDF数据
使用不同格式的链接数据越来越多地出现在互联网上:微格式(microformat)、RDFa和RDF/XML是其中的一些常见形式。链接数据提供了更大的灵活性且功能强大,但是其处理过程比较复杂。通常,为了高效处理链接数据,需要使用某种类型的三元组存储。在本方法和接下来的三种方法中,将用到Sesame(http://www.openrdf.org/)和kr Clojure库(https://github.com/drlivingston/kr)。

1.10.1 准备工作
首先,需要确保相关依赖列于project.clj文件中:


7d41a6e7304ccce5dd82b2b170f7f939886affcf

在本例中,从Telegraphis的链接数据库获取数据。将从http://telegraphis.net/data/currencies/ currencies.ttl得到货币数据库。为了安全起见,文件下载并另存为data/currencies.ttl,可以从这个目录访问它。

1.10.2 具体实现
本过程最费时的部分将是定义数据。使用的库完成这项工作。

  1. 建立三元组存储并注册数据使用的命名空间。将三元组存储名字绑定到名称tstore。


7305b61c74b3b65a75652b94464a04c531cd719c


171cbbcca9940b534f2a1cb3be662b567b1cb866

1.10.3 实现原理
首先介绍一下背景知识:资源描述格式(Resource Description Format,RDF)不是XML格式的数据,尽管RDF通常是用XML编写的(还有其他的数据格式,如N3和Turtle)。RDF将世界看成一个声明集合。每条声明至少包含三部分(三元组):主语(Subject)、谓词(predicate)和宾语(object)。主语和谓词需要是URI(URI和URL近似,但比其更通用。例如uri:7890就是一个有效的URI)。宾语可以是文本或者URI。所有的URI构成一幅图。它们相互连接并通过声明相互描述。这就是linked-in的链接数据的来源。
如果你需要链接数据的更多信息,http://linkeddata.org/guides-and-tutorials上有一些好的推荐。
回到之前介绍的方法中:从总体上来看,在这里使用的处理过程非常简单。

  1. 创建三元组存储(kb-memstore和init-kb)。
  2. 读取数据(load-data)。
  3. 查询并仅取出需要的数据(q和load-data)。
  4. 将之转换为Incanter可以使用的数据(rekey和col-map)。
  5. 创建Incanter数据集(load-data)。
    本例中使用的查询格式是个新事物。kb使用类SPARQL的领域专用语言描述查询。事实上,由于kb简单易用,因此使用它而不是直接处理未经加工的RDF数据。以“?/”开始的条目是变量;这将作为查询结果映射中的键值。其他条目格式如rdf-namespace/value。命名空间取自在init-kb中定义的已注册命名空间。这些命名空间与Clojure的不同,尽管它们的作用相同:划分和提供上下文。
相关文章
|
3天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
92 71
|
2天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
95 73
|
2月前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
124 56
|
4天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
31 5
|
16天前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
72 0
某A保险公司的 数据图表和数据分析
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
70 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
95 4
数据分析的 10 个最佳 Python 库
|
5月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
95 2
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
248 4

热门文章

最新文章