动手学习数据分析(二)——数据处理

简介: 该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强考虑填充新的值,比如-1填充众数、平均数(需要取整),knn邻近(速度慢)

image.png


数据处理总结:


缺失值处理


该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强

考虑填充新的值,比如-1

填充众数、平均数(需要取整),knn邻近(速度慢)


异常值处理


识别:

箱型图识别

3σ识别

处理:

边界值替换

映射到新维度μ,μ(正常值)=0,μ(异常值)= function(异常值)

不处理,与原数据一起归一化|标准化

分桶法(分箱法),单正常值要一起处理

特征选择:


PCA

相关性分析,剔除相关性高的类别,仅保留其中一类或少数类

通过添加噪声体现特征重要性

使用一些基于树的模型训练,可得到参数重要性

特征构造:


构造统计量特征

计数

求和

比例

标准差

上述计量特征的组合

时间特征

绝对时间

时间差

特殊时间:春节、国庆节等等节假日,是否会对价格造成影响,因为商家可能进行促销等等

地理信息

分箱

分布编码

高频统计,取高频

简单的标准化|归一化,暂时没有想到更好的方法了

非线性变换,包括 log/ 平方/ 根号等

多项式组合


目录
打赏
0
0
0
0
521
分享
相关文章
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
317 0
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
139 0
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
103 2
ChatGPT在数据分析学习阶段的应用
ChatGPT在数据分析学习阶段的应用
76 6
使用Python进行数据处理与可视化——以气温数据分析为例
【10月更文挑战第12天】使用Python进行数据处理与可视化——以气温数据分析为例
561 0
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
70 0
Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。
【7月更文挑战第5天】**Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。 - Python因丰富库(如TensorFlow, PyTorch, Keras, Pandas, NumPy)和生态而受青睐。 - 使用OpenAI Gym构建环境,如`gym.make('CartPole-v0')`。 - 选择模型,例如神经网络,定义策略如Q-Learning。 - 训练模型,调整智能体行为,如Q-Learning更新Q表。 - 最后评估模型性能,实现数据驱动决策。
77 3
构建高效的Python数据处理流水线:使用Pandas和NumPy优化数据分析任务
在数据科学和分析领域,Python一直是最受欢迎的编程语言之一。本文将介绍如何通过使用Pandas和NumPy库构建高效的数据处理流水线,从而加速数据分析任务的执行。我们将讨论如何优化数据加载、清洗、转换和分析的过程,以及如何利用这些库中的强大功能来提高代码的性能和可维护性。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等