《数据科学:R语言实现》——2.6 从数据库中读取数据

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:

本节书摘来自华章计算机《数据科学:R语言实现》一书中的第2章,第2.6节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 从数据库中读取数据

由于R会把数据读入内存中,因此这对于处理和分析小型数据集很合适。然而,由于企业每天积累的数据量要比个人的多得多,数据库文档在存储和分析大型数据时就变得更加常用。为了使用R访问数据库,我们可以使用RJDBC、RODBC或者RMySQL作为通信桥梁。在这一部分中,我们会介绍如何使用RJDBC连接存在数据库中的数据。

image

实现步骤

执行下列步骤,使用RJDBC连接R和MySQL。

1.首先,我们需要安装加载RJDBC程序包:
image

2.然后我们可以从链接 https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.0.8.zip 下载MySQL的JDBC驱动。

3.解压下载的mysql-connector-java-5.0.8.zip,并把解压文件mysql-connector-java-5.0.8-bin.jar放在对应的位置。例如,在作者的计算机上,解压的.jar文件放在C:Program FilesMySQL路径下。

4.接着,我们可以下载MySQL驱动,以便连接MySQL:
image

5.我们可以使用注册的MySQL驱动,建立MySQL连接:
image

6.使用基本操作,从连接中获取表列:
image

7.使用SELECT操作获取数据:
image

8.最后,我们从MySQL断开连接:
image

运行原理

R可以使用两大标准访问数据库,即ODBC和JDBC。JDBC(又称Java数据库连接)由一系列Java实现的类和接口组成,它们允许Java和数据库间直接通信。另外,ODBC(又称公开数据库连接)是由微软开发的标准接口。
要比较两个标准,ODBC在输入和输出数据方面性能更优;但是它也是平台依赖的。换句话说,在你的程序运行之前,你必须为不同的操作系统配置连接。相反,JDBC是平台独立的,意味着写好的程序可以在任何操作系统上运行。

要使用RJDBC连接R和MySQL,我们首先需要从CRAN安装加载RJDBC程序包。RJDBC提供了接口来连接数据库。 因为JDBC是使用Java实现的,在使用RJDBC之前,你需要安装rJava。

接着,我们从MySQL的官方下载网站下载MySQL Connector/J,它是MySQL的官方JDBC驱动。解压.zip文件(或.tar文件后),我们把文件放在合适的路径下(你可以把.jar文件添加到类路径下)。现在我们可以编写R程序来访问数据库了。

在我们的R脚本中,我们在提交任何查询请求之前,首先需要注册和初始化MySQL驱动。这里,我们需要指定驱动的类名,com.mysql.jdbc.Driver(不同的数据库有不同的类名),以及.jar文件mysqlconnector-java-5.0.8-bin.jar。我们可以在.jar文件中找到类 。接着,我们使用注册的驱动建立数据库连接。这里,我们需要提供连接字符串(jdbc:mysql://localhost:3306/finance)、用户名(root)和密码(test)来访问数据库。因为我们的MySQL服务器安装和运行在本地主机上,我们可以设计一个连接字符串"jdbc:mysql://localhost:3306/finance" 。3306是默认的MySQL端口,finance是我们的目标数据库。

连接建立以后,我们可以给数据库提交SQL请求。我们首先使用dbListTables命令列出finance数据库上的表。然后,我们创建名为majortrade的表,并使用insert语句把snp500.csv中的数据记录插入majortrade表中。然后我们使用select语句获取数据库中的数据。最后,要释放连接,我们需要使用dbDisconnect命令。

更多技能

在R中,你也可以使用RODBC和RMySQL来连接数据库。在这一部分中,我们会介绍如何通过RMySQL访问数据库。执行下面的步骤,安装加载RMySQL程序包,然后给MySQL数据库提交查询。

1.我们需要安装加载RMySQL程序包:
image

2.我们可以使用合法的用户名和密码访问MySQL:
image

3.现在,我们可以给数据库提交查询,并从finance数据库中选取交易数据:
image

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
存储 机器学习/深度学习 人工智能
新一代数据库技术:融合AI的智能数据管理系统
传统数据库管理系统在数据存储和查询方面已经取得了巨大的成就,但随着数据量的不断增长和应用场景的多样化,传统数据库已经难以满足日益增长的需求。本文将介绍一种新一代数据库技术,即融合了人工智能技术的智能数据管理系统。通过结合AI的强大能力,这种系统能够实现更高效的数据管理、更智能的数据分析和更精准的数据预测,为用户带来全新的数据管理体验。
|
3天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
3天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
3天前
|
分布式计算 Java 关系型数据库
|
7天前
|
NoSQL 关系型数据库 数据库
数据库同步 Elasticsearch 后数据不一致,怎么办?
数据库同步 Elasticsearch 后数据不一致,怎么办?
13 0
|
7天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
7天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
7天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
7天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
7天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码