MySQL之数据预处理

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 笔记


开发工具:

  • mysql-8.0
  • DataGrip

数据源:chapter6.csv

order_id,date,value,memberid,age,sex,profession
112469,2017/4/5,9.32,90D24,35,男,森林业
112471,2017/4/5,26.396,9548A,16,女,建筑工程业
112471,2017/4/5,26.396,9548A,16,女,建筑工程业
112472,2017/4/6,100.14,4819C,44,女,公共事业
112473,2017/4/6,6.52,6915B,40,男,娱乐业
112473,2017/4/6,6.52,6915B,40,男,娱乐业
112475,2017/4/7,34.965,14EB2,45,男,
112476,2017/4/7,30.785,91DF6,22,男,新闻广告业
112477,2017/4/7,2.62,50C86,16,女,


(1)缺失值处理


我们在数据库中存储的数据一般都会由于各种原因存在缺失值,我们需要对这部分数据进行处理。一般的处理方式有两种:第一种是直接把缺失值过滤掉,第二种是对缺失值进行填充。

对第一种处理方式,在SQL中,我们可以通过where进行过滤,具体实现代码如下:

select * from demo.chapter6 where profession != '';

!=表示不等于,""表示空值,缺失值有空格、null和空值三种表现形式,前两种形式虽然也表示缺失值,但是在对应的单元格内是有值的,而后一种空值是没有值的,表示这个单元格什么都没有。


如果缺失值是用空格表示的,要过滤掉缺失值,where后面就需要改成profession != " ";如果缺失值是用null表示的,要过滤掉缺失值,where后面就需要改成profession is not null。


上面的处理方式把profession列是缺失值的行都过滤掉了,所以这种处理方式会把其他非缺失值的字段过滤掉,而造成数据的浪费。我们可以将profession列中的缺失值填充为其他,而不是直接过滤掉,这就是针对缺失值的第二种处理方式,使用的是coalesce()函数,具体实现代码如下:

select order_id,memberid,coalesce(profession,'其他') from demo.chapter6;


(2)重复值处理


对重复值的处理,我们一般采取的方式是删除重复值,即只保留重复数据中的一项,其他数据则被删除。


在SQL中,我们可以使用distinct对查询出来的全部结果进行删除重复值的操作,需要注意的是,这里不是针对全表进行删除重复值的操作,而是针对查询出来的全部结果,也就是select distinct后面的具体列进行删除重复值的操作。如果是select distinct * ,则就是针对全表进行删除重复值的操作了。

-- 重复值处理
select distinct * from demo.chapter6;
select order_id,memberid from demo.chapter6 group by order_id, memberid;

我们对chapter6表中的order_id列和memberid列进行删除重复值的操作,具体实现代码如下:

select distinct order_id,memberid from demo.chapter6;


对重复值进行处理,我们除了可以使用distinct,还可以使用group by,对想要删除重复值的列进行group by就可以得到删除重复值后的结果,具体实现代码如下:

select order_id,memberid from demo.chapter6 group by order_id, memberid;


(3)数据类型转换


在SQL中,我们想要更改某一列的数据类型,可以使用cast()和convert()函数,具体形式如下:

cast(value as type); 
convert(value, type);

上面两个函数中的type表示某列更改为目标数据后的类型。目标数据类型包括如下表所示的几种。

6.png

我们将chapter6表中的age列从整型分别转化为浮点型(decimal)和字符型(char),具体实现代码如下:

-- 数据类型转换:age列从整型分别转化为浮点型(decimal)和字符型(char)
select age,cast(age as decimal ) decimal_age , convert(age,char) char_age from demo.chapter6;

(4)重命名


我们将chapter6表中的所有英文字段名全部重命名为中文字段名,具体实现代码如下:

-- 重命名
select order_id as "订单ID" ,
       date as "下单日期" ,
       value as "订单金额(元)" ,
       memberid as "会员ID" ,
       age as "年龄" ,
       sex as "性别" ,
       profession as "行业" from demo.chapter6;


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
canal 数据采集 关系型数据库
Elastic实战:通过pipeline实现mysql同步数据到es的数据预处理
首先canal是支持自定义客户端的,需要引入如下依赖,这种方式适合数据转换规则比较复杂,具有强定制性的场景,但是考虑到我这里还要做logstash的数据同步,因此需要一个比较通用的方式来实现数据转换处理,因此我用到了es的pipeline来做预处理
276 0
Elastic实战:通过pipeline实现mysql同步数据到es的数据预处理
|
24天前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
53 3
|
24天前
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
59 3
|
24天前
|
SQL 关系型数据库 MySQL
数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog
《数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog》介绍了如何利用MySQL的二进制日志(Binlog)恢复误删除的数据。主要内容包括: 1. **启用二进制日志**:在`my.cnf`中配置`log-bin`并重启MySQL服务。 2. **查看二进制日志文件**:使用`SHOW VARIABLES LIKE 'log_%';`和`SHOW MASTER STATUS;`命令获取当前日志文件及位置。 3. **创建数据备份**:确保在恢复前已有备份,以防意外。 4. **导出二进制日志为SQL语句**:使用`mysqlbinlog`
74 2
|
1月前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
245 15
|
1月前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
1月前
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
|
1月前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
2月前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
62 1