数学建模国赛:python机器学习基础之数据归一化、去除空值

简介: 数学建模国赛:python机器学习基础之数据归一化、去除空值

首先我们要明确为什么要将数据归一化或者说是标准化,因为不同数据范围相差太大,不好比较,所以要消除不同量纲单位带来的影响,归一化后各数据指标处于同一数量级,适合进行综合对比评价


想要数据集或者有什么不明白的可以点赞关注后私信答主


归一化一般是把数据调整到[0,1]范围内


每一列处理公式是 (x-min)/(max-min)max min为那一列的最大和最小值


原数据如下:

1666425358669.jpg

归一化后数据如下:

1666425373956.jpg

代码如下

from sklearn import  preprocessing
import pandas as pd
import  numpy as np
def MaxMinNormalizetion(x):
    shapeX=x.shape
    rows=shapeX[0]
    cols=shapeX[1]
    headers=list(x)
    result=pd.DataFrame(columns=headers)
    for i in range(0,rows,1):
        dict1={}
        dict1[headers[0]]=x['No'][i]
        for j in range(1,cols,1):
            maxcol=x[headers[j]].max()
            mincol=x[headers[j]].min()
            val=(x.iloc[i,j]-mincol)/(maxcol-mincol)#一般是(x-min)/(max-min)进行归一化处理
            dict1[headers[j]]=val
        result=result.append(dict1,ignore_index=True)
    return result
data1=pd.read_csv(r'CatInfo.csv')
print('original data\n',data1)
newdata=MaxMinNormalizetion(data1)
print('归一化的数据\n',newdata)


但是眼尖的同学可以发现里面是有空值的 这对我们进行后续的运算是非常不利的 我们要把他消除

1666425401485.jpg

消除空值后如下

1666425411862.jpg

代码如下

from sklearn import  preprocessing
import pandas as pd
import  numpy as np
print("去除空值并且归一化处理")
y=data1.dropna(axis=0).iloc[:,1:]#去除空值
min_max_scaler=preprocessing.MinMaxScaler()
x_minmax=min_max_scaler.fit_transform(y)
print(x_minmax)


想要数据集或者有什么不明白的可以点赞关注后私信答主


相关文章
|
2天前
|
机器学习/深度学习 数据采集 数据挖掘
深入Scikit-learn:掌握Python最强大的机器学习库
【7月更文第18天】在当今数据驱动的世界中,机器学习已成为解锁数据潜力的关键。Python凭借其简洁的语法和丰富的库生态,成为数据科学家和机器学习工程师的首选语言。而在Python的众多机器学习库中,Scikit-learn以其全面、高效、易用的特点,被誉为机器学习领域的“瑞士军刀”。本文旨在深入探讨Scikit-learn的核心概念、实用功能,并通过实战代码示例,带你领略其强大之处。
28 12
|
10天前
|
机器学习/深度学习 监控 算法
Python数据分析与机器学习在金融风控中的应用
Python数据分析与机器学习在金融风控中的应用
39 12
|
12天前
|
机器学习/深度学习 数据采集 搜索推荐
Python数据分析与机器学习在电子商务推荐系统中的应用
Python数据分析与机器学习在电子商务推荐系统中的应用
33 5
|
12天前
|
机器学习/深度学习 算法 Python
【Python】已完美解决:机器学习填补数值型缺失值时报错)TypeError: init() got an unexpected keyword argument ‘axis’,
【Python】已完美解决:机器学习填补数值型缺失值时报错)TypeError: init() got an unexpected keyword argument ‘axis’,
13 1
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
154 14
|
2月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
57 1
|
2月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
204 0
|
2月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
414 0
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的支持向量机(SVM)算法
【2月更文挑战第20天】 在数据科学与人工智能的领域中,支持向量机(SVM)是一种强大的监督学习算法,它基于统计学习理论中的VC维理论和结构风险最小化原理。本文将深入探讨SVM的核心概念、工作原理以及实际应用案例。我们将透过算法的数学原理,揭示如何利用SVM进行有效的数据分类与回归分析,并讨论其在处理非线性问题时的优势。通过本文,读者将对SVM有更深层次的理解,并能够在实践中应用这一算法解决复杂的数据问题。
47 0