数据标准预处理合集_python机器学习sklearn库

简介: 数据标准预处理合集_python机器学习sklearn库

数据获取

在这里插入图片描述
以鸢尾数据为例,首先加载数据集。

from sklearn.datasets import load_iris

dataset = load_iris()
# print(dataset)
X = dataset.data
y = dataset.target

可以下查看下数据基本特征

print(X)

在这里插入图片描述

print(y)

在这里插入图片描述


①归一化 MinMaxScaler

1.1默认调用

from sklearn.preprocessing import MinMaxScaler
X_transformed = MinMaxScaler().fit_transform(X)
print(X_transformed)

程序执行结果:
在这里插入图片描述

1.2了解相关属性/参数

实例化MinMaxScaler()时可传入相关属性

MinMaxScaler(self, feature_range=(0, 1), *, copy=True, clip=False)

  • feature_range默认为元组(0,1),表示特征值范围
  • copy默认为True,表示不改变原X,该为False后原X被改变。
  • clip不知道是啥属性,一般应该也用不上,知道的大佬可以在评论区补充。

示例

from sklearn.preprocessing import MinMaxScaler
MinMaxScaler(feature_range=(0, 0.5), copy=False).fit_transform(X)
print(X)

程序执行结果:
在这里插入图片描述


②正则化 Normalizer

2.1默认调用

from sklearn.preprocessing import Normalizer
X_transformed = Normalizer().fit_transform(X)
print(X_transformed)

程序执行结果:
在这里插入图片描述


2.2相关属性/参数

(self, norm=‘l2’, *, copy=True)

norm默认为’l2’(是字母l不是数字1)。可以取的值有"l1",“l2”,“max”。

  • 'l2’表示,变换方式为,每个特征值,转换为该特征值的平方,占该该样本所有特征值的平方之比。

    在这里插入图片描述

  • 'l1’表示,变换方式为,每个特征值,转换为 其占该样本每个特征值的绝对值之和之比。

  • 'max’表示,变换方式为,各个特征值除以样本中特征值最大的值。

copy同上,即是否复制。默认为True表示复制,复制就不更改原数据集。

from sklearn.preprocessing import Normalizer
X_transformed = Normalizer(norm='l1').fit_transform(X)
print(X_transformed)

程序执行结果:

在这里插入图片描述


③标准化

3.1默认调用

from sklearn.preprocessing import StandardScaler
X_transformed = StandardScaler().fit_transform()
print(X_transformed)

程序执行结果:
在这里插入图片描述

3.2相关属性/参数

StandardScaler(self, *, copy=True, with_mean=True, with_std=True)

  • with_mean 考虑均值
  • with_std 考虑标准差
  • copy 是否复制(同上)

④二值化

4.1默认调用

阈值默认为0,即大于0的数据转换为1,小于0的数据都转换为0。

from sklearn.preprocessing import Binarizer
X_transformed = Binarizer().fit_transform(X)
print(X_transformed)

程序执行结果:
在这里插入图片描述

4.2相关属性/参数

(self, *, threshold=0.0, copy=True)

  • threshold 阈值
  • copy 是否复制(同上)
from sklearn.preprocessing import Binarizer
X_transformed = Binarizer(threshold=3).fit_transform(X)
print(X_transformed)

程序执行结果:
在这里插入图片描述

目录
相关文章
|
6天前
|
存储 JSON 数据库
Python中列表数据的保存与读取:以txt文件为例
Python中列表数据的保存与读取:以txt文件为例
20 2
|
6天前
|
XML 前端开发 数据格式
BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据
【5月更文挑战第10天】BeautifulSoup 是 Python 的一个库,用于解析 HTML 和 XML 文件,即使在格式不规范的情况下也能有效工作。通过创建 BeautifulSoup 对象并使用方法如 find_all 和 get,可以方便地提取和查找文档中的信息。以下是一段示例代码,展示如何安装库、解析 HTML 数据以及打印段落、链接和特定类名的元素。BeautifulSoup 还支持更复杂的查询和文档修改功能。
23 1
|
1天前
|
数据采集 数据可视化 Python
Python分析香港26281套在售二手房数据
Python分析香港26281套在售二手房数据
|
2天前
|
数据采集 存储 数据挖掘
Python DataFrame初学者指南:轻松上手构建数据表格
【5月更文挑战第19天】本文是针对初学者的Pandas DataFrame指南,介绍如何安装Pandas、创建DataFrame(从字典或CSV文件)、查看数据(`head()`, `info()`, `describe()`)、选择与操作数据(列、行、缺失值处理、数据类型转换、排序、分组聚合)以及保存DataFrame到CSV文件。通过学习这些基础,你将能轻松开始数据科学之旅。
|
2天前
|
数据挖掘 数据处理 Python
【Python DataFrame 专栏】Python DataFrame 入门指南:从零开始构建数据表格
【5月更文挑战第19天】本文介绍了Python数据分析中的核心概念——DataFrame,通过导入`pandas`库创建并操作DataFrame。示例展示了如何构建数据字典并转换为DataFrame,以及进行数据选择、添加修改列、计算统计量、筛选和排序等操作。DataFrame适用于处理各种规模的表格数据,是数据分析的得力工具。掌握其基础和应用是数据分析之旅的重要起点。
【Python DataFrame 专栏】Python DataFrame 入门指南:从零开始构建数据表格
|
2天前
|
机器学习/深度学习 数据处理 Python
如何利用Python实现高效的数据清理与预处理
数据清理和预处理是数据科学家和分析师工作中不可或缺的一环,而Python作为一门强大的编程语言,可以使这个过程变得更加高效和便捷。本文将介绍一些常见的数据清理和预处理技术,并演示如何使用Python来实现这些技术。
|
5天前
|
JSON JavaScript 数据格式
利用 python 分析基金,合理分析数据让赚钱赢在起跑线!(1)
利用 python 分析基金,合理分析数据让赚钱赢在起跑线!(1)
|
6天前
|
存储 JSON 数据格式
Python知识点——高维数据的格式化
Python知识点——高维数据的格式化
8 0
|
6天前
|
Python
Python知识点——文件和数据格式化
Python知识点——文件和数据格式化
9 0
|
6天前
|
存储 机器学习/深度学习 数据可视化
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
11 1