《数据科学:R语言实现》——2.6 从数据库中读取数据

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第2章,第2.6节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 从数据库中读取数据

由于R会把数据读入内存中,因此这对于处理和分析小型数据集很合适。然而,由于企业每天积累的数据量要比个人的多得多,数据库文档在存储和分析大型数据时就变得更加常用。为了使用R访问数据库,我们可以使用RJDBC、RODBC或者RMySQL作为通信桥梁。在这一部分中,我们会介绍如何使用RJDBC连接存在数据库中的数据。
准备工作
在这一部分中,我们需要首先准备MySQL环境。如果你的机器(Windows)上有一个环境,你可以从MySQL通知器中检查服务器状态。如果本地服务器正在运行,服务器状态应该弹出localhost (Online),如图8所示。
数据库服务器在线后,我们需要验证是否获得授权,可以通过任意数据库连接客户端使用给定的用户名和密码访问数据库。例如,你可以使用MySQL命令行客户端连接数据库。
实现步骤
执行下列步骤,使用RJDBC连接R和MySQL。
1.首先,我们需要安装加载RJDBC程序包:
screenshot
screenshot

运行原理
R可以使用两大标准访问数据库,即ODBC和JDBC。JDBC(又称Java数据库连接)由一系列Java实现的类和接口组成,它们允许Java和数据库间直接通信。另外,ODBC(又称公开数据库连接)是由微软开发的标准接口。
要比较两个标准,ODBC在输入和输出数据方面性能更优;但是它也是平台依赖的。换句话说,在你的程序运行之前,你必须为不同的操作系统配置连接。相反,JDBC是平台独立的,意味着写好的程序可以在任何操作系统上运行。
要使用RJDBC连接R和MySQL,我们首先需要从CRAN安装加载RJDBC程序包。RJDBC提供了接口来连接数据库。 因为JDBC是使用Java实现的,在使用RJDBC之前,你需要安装rJava。
接着,我们从MySQL的官方下载网站下载MySQL Connector/J,它是MySQL的官方JDBC驱动。解压.zip文件(或.tar文件后),我们把文件放在合适的路径下(你可以把.jar文件添加到类路径下)。现在我们可以编写R程序来访问数据库了。
在我们的R脚本中,我们在提交任何查询请求之前,首先需要注册和初始化MySQL驱动。这里,我们需要指定驱动的类名,com.mysql.jdbc.Driver(不同的数据库有不同的类名),以及.jar文件mysqlconnector-java-5.0.8-bin.jar。我们可以在.jar文件中找到类 。接着,我们使用注册的驱动建立数据库连接。这里,我们需要提供连接字符串(jdbc:mysql://localhost:3306/finance)、用户名(root)和密码(test)来访问数据库。因为我们的MySQL服务器安装和运行在本地主机上,我们可以设计一个连接字符串"jdbc:mysql://localhost:3306/finance" 。3306是默认的MySQL端口,finance是我们的目标数据库。
连接建立以后,我们可以给数据库提交SQL请求。我们首先使用dbListTables命令列出finance数据库上的表。然后,我们创建名为majortrade的表,并使用insert语句把snp500.csv中的数据记录插入majortrade表中。然后我们使用select语句获取数据库中的数据。最后,要释放连接,我们需要使用dbDisconnect命令。
更多技能
在R中,你也可以使用RODBC和RMySQL来连接数据库。在这一部分中,我们会介绍如何通过RMySQL访问数据库。执行下面的步骤,安装加载RMySQL程序包,然后给MySQL数据库提交查询。
1.我们需要安装加载RMySQL程序包:
screenshot

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
4天前
|
NoSQL 关系型数据库 数据库
数据库同步 Elasticsearch 后数据不一致,怎么办?
数据库同步 Elasticsearch 后数据不一致,怎么办?
10 0
|
5天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
5天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
5天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
5天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
5天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
5天前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
5天前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
5天前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
5天前
|
机器学习/深度学习 算法 数据库
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况

热门文章

最新文章