《Clojure数据分析秘笈》——1.3节将CSV数据读入Incanter数据集

简介:

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第1章,第1.3节将CSV数据读入Incanter数据集,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

1.3 将CSV数据读入Incanter数据集
以逗号分隔值(CSV)是最简单的数据格式之一,并且这种数据格式应用非常普遍。Excel可以直接读写CSV文件,而且多数数据库也可以。由于CSV文件就是无格式的文本,因此使用任何编程语言都很容易生成或者访问它。
1.3.1 准备工作
首先,确保加载了正确的库。Leiningen(https://github.com/technomancy/leiningen)的项目文件project.clj file应该包含以下依赖(也可以使用更新的版本):


d2c4138f7682db0e44d844709de3a618ecf6ddf4

这个文件可以从http://www.ericrochester.com/clj-data-analysis/data/small-sample.csv下载,还有一个带有标题行的版本,可以从http://www.ericrochester.com/clj-data-analysis/data/small-sample-header.csv下载。
1.3.2 具体实现

  1. 使用incanter.io/read-dataset函数。

    658219f65a8a092780b5fb94bd9774208de603cf

    1.3.3 实现原理
    通过Clojure和Incanter可以使许多普通工作变得简单,下面是一个很好的例证。
    读入外部数据(在本例中来自CSV文件),并将其加载到Incanter数据集中。在Incanter中,一个数据集就是一张表,类似于电子表格中的一个表单或者数据库中的表。每一列包含一个数据域,每一行包含一条数据。有些列包含字符串数据(本例中所有列都是字符串数据),有些列包含日期或者数值数据。如果一列包含数值数据,Incanter会自动将其检测出来并将其转换为Java中的int或者double数据格式。Incanter解决了导入数据过程中遇到的许多令人头疼的问题。
    1.3.4 更多信息
    如果你不想涉及Incanter,比如当你不想添加依赖时,使用data.csv也是比较简单的(https://github.com/clojure/data.csv)。后续的章节中会使用这个库,例如2.8节。

相关文章
|
3月前
|
数据挖掘 PyTorch TensorFlow
|
1月前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
113 56
|
9天前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
67 0
某A保险公司的 数据图表和数据分析
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
554 54
|
2月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
66 0
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
51 5
|
4月前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
50 2
|
4月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
114 2