sklearn相关3

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: sklearn介绍

核心API
估计器 fit()
任何可以基于数据集对一些参数进行估计的对象都被称为估计器
两个核心点:1.需要输入数据,2.可以估计参数。估计器首先被创建,然后被拟合。
预测器 predict() | score()
预测器在估计器上延展出预测功能
两个核心点:1.基于学到的参数预测,2.预测有很多指标。最常见的就是predict()函数
model.predict(X_test):评估模型在新数据上的表现
model.predict(X_train):确定模型在老数据上的表现
装换器
装换器也是一种估计器,两者都带有拟合功能,但估计器做完拟合来预测,而装换器做完拟合来装换
核心点:估计器里fit+predict,装换器里先创建再fit+再transform
警示: fit() 函数只能作用在训练集上,千万不要作用在测试集上,要不然你就犯了数据窥探的错误了!拿标准化举例,用训练集 fit 出来的均值和标准差参数,来对测试集做标准化。

分类:
1.将分类型变量编码成数值型变量
2.规范化或标准化数值型变量
分类型变量编码
LableEncoder和OrdinalEncoder将字符装成数字,LableEncoder的输入是一维,OrdinalEncoder的输入是二维
↑ 存在的问题:机器学习算法会认为两个临近值比两个疏远值更相似,解决办法是给每个分类创建一个二元属性,即独热编码OneHotEncoder
OneHotEncoder其实是把一个整数用向量的形式表现,接受的两种类型的输入:1.用LableEncoder编码好的一维数组,2.DataFrame

规范化normalization:每个维度的特征减去该特征的最小值,除以该特征的最大值与最小值之差
标准化standardization:每个维度的特征减去该特征均值,除以该维度的标准差

用 LabelEncoder 编码好的一维数组 (元素为整数),重塑 (用 reshape(-1,1)) 成二维数组作为 OneHotEncoder 输入

高级API
高级API接口是元估计器(meta-estimator),即由很多基估计器(base estimator)组合成的估计器
带集成功能的 ensemble
多分类和多标签的 multiclass
多输出的 multioutput
选择模型的 model_selection
流水线的 pipeline
image.png

目录
相关文章
|
存储 安全 测试技术
讲解移动应用的安全问题及如何防范。
移动应用安全涉及数据、认证、代码、网络及漏洞防护。关键措施包括数据加密、安全通信协议、认证授权、代码加固、安全测试及用户教育。开发者应关注最新安全威胁,与专业人士合作进行安全评估,确保应用安全。
202 5
|
存储 Linux C语言
c++进阶篇——初窥多线程(二) 基于C语言实现的多线程编写
本文介绍了C++中使用C语言的pthread库实现多线程编程。`pthread_create`用于创建新线程,`pthread_self`返回当前线程ID。示例展示了如何创建线程并打印线程ID,强调了线程同步的重要性,如使用`sleep`防止主线程提前结束导致子线程未执行完。`pthread_exit`用于线程退出,`pthread_join`用来等待并回收子线程,`pthread_detach`则分离线程。文中还提到了线程取消功能,通过`pthread_cancel`实现。这些基本操作是理解和使用C/C++多线程的关键。
239 7
|
安全 Linux Shell
记录一次网络安全应急响应溯源过程
网络安全应急响应是一种组织在发生网络安全事件时采取的行动,旨在迅速应对和缓解潜在的威胁,最大程度地减少损失并恢复正常的网络运行状态
422 0
|
JavaScript
在Vue中使用Swiper轮播图、同时解决点击轮播图左右切换按钮不生效的问题、同时将轮播图抽离出为一个公共组件
这篇文章介绍了在Vue中如何使用Swiper插件创建轮播图,解决Swiper左右切换按钮不生效的问题,并展示了如何将Swiper轮播图抽离成一个可复用的公共组件,同时提供了详细的安装、配置和优化建议。
在Vue中使用Swiper轮播图、同时解决点击轮播图左右切换按钮不生效的问题、同时将轮播图抽离出为一个公共组件
|
机器学习/深度学习 算法 Python
Python 使用SMOTE解决数据不平衡问题(最新推荐)
SMOTE是一种强大的过采样技术,可以有效地处理不平衡数据集,提升分类器的性能。通过imbalanced-learn库中的SMOTE实现,我们可以轻松地对少数类样本进行过采样,平衡数据集。在实际应用中,我们可以根据具体数据集的特点和需求,选择合适的过采样方法。
|
Android开发 Kotlin
Android面试题 之 Kotlin DataBinding 图片加载和绑定RecyclerView
本文介绍了如何在Android中使用DataBinding和BindingAdapter。示例展示了如何创建`MyBindingAdapter`,包含一个`setImage`方法来设置ImageView的图片。布局文件使用`<data>`标签定义变量,并通过`app:image`调用BindingAdapter。在Activity中设置变量值传递给Adapter处理。此外,还展示了如何在RecyclerView的Adapter中使用DataBinding,如`MyAdapter`,在子布局`item.xml`中绑定User对象到视图。关注公众号AntDream阅读更多内容。
217 1
|
存储 关系型数据库 MySQL
MySQL8 中文参考(二十五)(1)
MySQL8 中文参考(二十五)
96 0
|
自然语言处理 算法
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
【2月更文挑战第27天】LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
173 2
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
|
缓存 JSON Go
Go 语言各个版本支持 Go Modules 的演进史
Go 语言各个版本支持 Go Modules 的演进史
170 1
|
Linux
Linux网络编程(多路IO复用select函数使用)
Linux网络编程(多路IO复用select函数使用)
183 0

热门文章

最新文章