2.3 数据变换【李沐-斯坦福21秋季:实用机器学习中文版】

简介: 通过算法使得均值变为0,方差变为1 。把一列的数据换成是-1到1之间的数据。

2.3 数据变换


1.数据流程:原始数据–标注及清理–数据变形–特征工程–模型训练


00f368b2d8ec4a8f80c7e0d305a62a35.png


2. 数据归一化


1. Max-Min Normalization算法:


 把一个列里面的数值的最小值与最大值都限定到一个固定区间内,然后把所有的元素只通过线性变化出来【将数据的单位放到合理的区间】;


2. Z-Score 算法:


 通过算法使得均值变为0,方差变为1 。把一列的数据换成是-1到1之间的数据。


3. Decimal-Scaling 算法:


 使Xi➗10的阶乘,使Xi的绝对值处于-1与1之间。


4. Log-Scaling 算法:


 对数值都是大于0,且数值变换比较大可以试一下log一下【log上面的加减等于原始数据的乘除,可以将计算基于百分比的】。


7ba827da5a6144c69096b564c86d1485.png


3. 图象变换


 将图片的尺寸变小,机器学习对低分辨率的图片不在意,图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降(ImageNet),凡是数据的大小与质量要做权衡,要么不要下采样,要么下采样的时候数据的质量(分辨率)就要高一点。通常数据质量更加的重要。


a57a17c422a24ac4ba9c9330cd07a268.png


4. 视频变换


1.当你拿到VIDEO的时候,你需要将他缩减成对你最有用的片段,因为机器学习看不了那么长的视频


2.把视频压缩,但是读取比较困难


3.处理视频的时候,我们可以提取关键帧,而并不是输入整个视频


2411d4a7c8ed4553a507f26ab64d6389.png


5. 文本变换


1.词根化(语法化):把一个词变成常见的形式


2.词元化(机器学习算法中最小的单元也就是token)


77eb3ba6ce0f46efb701969bfc5a4e10.png


总结:


70feab5047b349c093208ca6cd9bb119.png

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 存储
【机器学习】机器学习流程之收集数据
【机器学习】机器学习流程之收集数据
53 1
|
1月前
|
机器学习/深度学习 数据采集 传感器
机器学习开发流程和用到的数据介绍
机器学习开发流程和用到的数据介绍
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
4天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
28 1
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
65 0
|
2月前
|
机器学习/深度学习 消息中间件 人工智能
机器学习PAI报错问题之读取kafka数据报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
3月前
|
机器学习/深度学习 人工智能 算法
PAI:一站式机器学习平台,让你的数据智能之旅更加便捷
PAI:一站式机器学习平台,让你的数据智能之旅更加便捷 随着大数据和人工智能的飞速发展,越来越多的企业和开发者开始涉足机器学习的领域。然而,对于许多初学者来说,机器学习的复杂性和难度可能会让人望而生畏。这时,一个功能强大、易于使用的机器学习平台就显得尤为重要。今天,我就来为大家详细介绍一个来自阿里巴巴的PAI一站式机器学习平台,看看它是如何帮助开发者们轻松应对机器学习挑战的。
35 2
|
3月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
46 2
|
3月前
|
机器学习/深度学习 算法 数据挖掘
机器学习第2天:训练数据的获取与处理
机器学习第2天:训练数据的获取与处理
56 0
|
3月前
|
机器学习/深度学习 人工智能 计算机视觉

热门文章

最新文章