您好,PAI-Designer数据预处理一般主要包括三个处理流程:
1.将原始数据表中,取值为非数值类型的字段,通过SQL替换为数值类型的取值,以保障此预处理后,表中所有字段的取值都是数值类型的取值。
2.将表中字段换为double类型,以保障此预处理后,表中字段均满足后续归一化处理的字段属性要求。
3.将表中字段的取值均归一化。
楼主你好,我给出一些数据预处理步骤,希望对你有帮助! 数据预处理一般主要包括以下处理流程: 1. 数据清洗:清洗数据,去除无效数据,缺失值填充,异常值处理等;
数据转换:将数据转换为模型可以识别的格式,如将文本转换为数值;
数据缩放:将数据缩放到一定范围,以便模型更好地拟合数据;
数据分割:将数据分割为训练集和测试集,以便模型训练和评估;
特征选择:从原始数据中选择有用的特征,以便模型更好地拟合数据。
【回答】
主要分4步(比把大象放冰箱里多了一步):
一、数据清洗:就是把 "异常"数据变成正常数据,涉及到两种异常情况:
缺失值
异常值
二、数据集成:将两个数据框以关键字为依据,在R里用merge函数实现。
在进行数据集成可能会存在两种情况:
同名异义
异名同义
三、数据变换:很容易理解, 把数据变换就是转化成适当的形式。
涉及3点内容:
简单函数变化
规范化
连续属性离散化
四、数据归约:数据规归能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。
涉及2点内容:
属性归约
数值归约
以上回答, 希望能够帮助你。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。