深度之眼(二十三)——Python:Sklearn库(上)

简介: 深度之眼(二十三)——Python:Sklearn库(上)

零、导读


0a2653c851af460fa595bd959398a8f1.png

scikit-learn库是当今最流行的机器学习算法库之一

可用来解决分类与回归问题

本章以鸢尾花数据集为例,简单了解八大传统机器学习分类算法的sk-learn实现

欲深入了解传统机器算法的原理和公式推导,请继续学习《统计学习方法》或《西瓜书》


一、数据集的预处理(鸢尾花数据集为例)


(1)下载数据集


iris = sns.load_dataset("iris")
iris.head()

0eacb84100b54626af849e6b562bf92a.png


(2)查看数据集


2d65d23f6d4748949b924e4057485923.png2e9b90b2ca334476abebe75bafe6eeaa.png


sns.pairplot(data=iris,hue="species")

0a2653c851af460fa595bd959398a8f1.png

(3)标签清洗


iris_sip = iris.drop(["sepal_length","sepal_width"],axis=1)
iris_sip.head()

0eacb84100b54626af849e6b562bf92a.png


(4)标签编码


from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
iris_sip["species"] = encoder.fit_transform(iris_sip["species"])
iris_sip

0a2653c851af460fa595bd959398a8f1.png


(5)数据集的标准化

0eacb84100b54626af849e6b562bf92a.png

(6)构建训练集和测试集

80% 是训练集

20% 是测试集

将x和y分开

0a2653c851af460fa595bd959398a8f1.png


二、八大传统分类算法


2.1 K邻近


[1]基本思想

与待预测点最近的训练数据集中的k个邻居

把k个近邻中最常见的类别预测为带预测点的类别


0eacb84100b54626af849e6b562bf92a.png2d65d23f6d4748949b924e4057485923.png2e9b90b2ca334476abebe75bafe6eeaa.png


(5)可视化

0a2653c851af460fa595bd959398a8f1.png


2.2 朴素贝叶斯

[1]基本思想

当X=(x1, x2)发生的时候,哪一一个yk发生的概率最大

0eacb84100b54626af849e6b562bf92a.png

可视化

0eacb84100b54626af849e6b562bf92a.png

相关文章
|
1天前
|
JSON Shell 数据格式
第十章 Python常用标准库使用(必会)
第十章 Python常用标准库使用(必会)
|
1天前
|
开发框架 前端开发 数据库
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
|
1天前
|
数据采集 数据可视化 数据处理
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
|
1天前
|
JSON 测试技术 API
Python的Api自动化测试使用HTTP客户端库发送请求
【4月更文挑战第18天】在Python中进行HTTP请求和API自动化测试有多个库可选:1) `requests`是最流行的选择,支持多种请求方法和内置JSON解析;2) `http.client`是标准库的一部分,适合需要低级别控制的用户;3) `urllib`提供URL操作,适用于复杂请求;4) `httpx`拥有类似`requests`的API,提供现代特性和异步支持。根据具体需求选择,如多数情况`requests`已足够。
7 3
Python
17 0
|
2天前
|
JSON 数据格式 索引
python 又一个点运算符操作的字典库:Munch
python 又一个点运算符操作的字典库:Munch
13 0
|
2天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0
|
3天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
13 2
|
4天前
|
算法 Python
请解释Python中的关联规则挖掘以及如何使用Sklearn库实现它。
使用Python的mlxtend库,可以通过Apriori算法进行关联规则挖掘。首先导入TransactionEncoder和apriori等模块,然后准备数据集(如购买行为列表)。对数据集编码并转换后,应用Apriori算法找到频繁项集(设置最小支持度)。最后,生成关联规则并计算置信度(设定最小置信度阈值)。通过调整这些参数可以优化结果。
25 9
|
4天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
37 9

热门文章

最新文章