开发工具:
- mysql-8.0
- DataGrip
数据源:chapter6.csv
order_id,date,value,memberid,age,sex,profession 112469,2017/4/5,9.32,90D24,35,男,森林业 112471,2017/4/5,26.396,9548A,16,女,建筑工程业 112471,2017/4/5,26.396,9548A,16,女,建筑工程业 112472,2017/4/6,100.14,4819C,44,女,公共事业 112473,2017/4/6,6.52,6915B,40,男,娱乐业 112473,2017/4/6,6.52,6915B,40,男,娱乐业 112475,2017/4/7,34.965,14EB2,45,男, 112476,2017/4/7,30.785,91DF6,22,男,新闻广告业 112477,2017/4/7,2.62,50C86,16,女,
(1)缺失值处理
我们在数据库中存储的数据一般都会由于各种原因存在缺失值,我们需要对这部分数据进行处理。一般的处理方式有两种:第一种是直接把缺失值过滤掉,第二种是对缺失值进行填充。
对第一种处理方式,在SQL中,我们可以通过where进行过滤,具体实现代码如下:
select * from demo.chapter6 where profession != '';
!=表示不等于,""表示空值,缺失值有空格、null和空值三种表现形式,前两种形式虽然也表示缺失值,但是在对应的单元格内是有值的,而后一种空值是没有值的,表示这个单元格什么都没有。
如果缺失值是用空格表示的,要过滤掉缺失值,where后面就需要改成profession != " ";如果缺失值是用null表示的,要过滤掉缺失值,where后面就需要改成profession is not null。
上面的处理方式把profession列是缺失值的行都过滤掉了,所以这种处理方式会把其他非缺失值的字段过滤掉,而造成数据的浪费。我们可以将profession列中的缺失值填充为其他,而不是直接过滤掉,这就是针对缺失值的第二种处理方式,使用的是coalesce()函数,具体实现代码如下:
select order_id,memberid,coalesce(profession,'其他') from demo.chapter6;
(2)重复值处理
对重复值的处理,我们一般采取的方式是删除重复值,即只保留重复数据中的一项,其他数据则被删除。
在SQL中,我们可以使用distinct对查询出来的全部结果进行删除重复值的操作,需要注意的是,这里不是针对全表进行删除重复值的操作,而是针对查询出来的全部结果,也就是select distinct后面的具体列进行删除重复值的操作。如果是select distinct * ,则就是针对全表进行删除重复值的操作了。
-- 重复值处理 select distinct * from demo.chapter6; select order_id,memberid from demo.chapter6 group by order_id, memberid;
我们对chapter6表中的order_id列和memberid列进行删除重复值的操作,具体实现代码如下:
select distinct order_id,memberid from demo.chapter6;
对重复值进行处理,我们除了可以使用distinct,还可以使用group by,对想要删除重复值的列进行group by就可以得到删除重复值后的结果,具体实现代码如下:
select order_id,memberid from demo.chapter6 group by order_id, memberid;
(3)数据类型转换
在SQL中,我们想要更改某一列的数据类型,可以使用cast()和convert()函数,具体形式如下:
cast(value as type); convert(value, type);
上面两个函数中的type表示某列更改为目标数据后的类型。目标数据类型包括如下表所示的几种。
我们将chapter6表中的age列从整型分别转化为浮点型(decimal)和字符型(char),具体实现代码如下:
-- 数据类型转换:age列从整型分别转化为浮点型(decimal)和字符型(char) select age,cast(age as decimal ) decimal_age , convert(age,char) char_age from demo.chapter6;
(4)重命名
我们将chapter6表中的所有英文字段名全部重命名为中文字段名,具体实现代码如下:
-- 重命名 select order_id as "订单ID" , date as "下单日期" , value as "订单金额(元)" , memberid as "会员ID" , age as "年龄" , sex as "性别" , profession as "行业" from demo.chapter6;