备案控制台

开发者社区 Python中文社区文章正文

数据挖掘实战（一）：Kaggle竞赛经典案例剖析

2018-03-14 7781

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Load Lib 在这边提一下为什么要加 import warnings warnings.filterwarnings('ignore') 主要就是为了美观，如果不加的话，warning一堆堆的，不甚整洁。

Load Lib

在这边提一下为什么要加

import warnings

warnings.filterwarnings('ignore')

主要就是为了美观，如果不加的话，warning一堆堆的，不甚整洁。

Load data

和正常的套路一样，Id的没有什么卵用但是每个数据集都喜欢加的东西，因此我们弄死它就好了。

Data Statistics

Data Statistics是不能省略的部分，这部分能够首先让你对Data Science有个很基础的认知，也就是play with your data之前的know your data的部分。

在这里说一下，我在之前很简单粗暴的一上来就

dataset=df.iloc[:,1:]

把Id给删掉了，是不对的。正常的套路要先进行Data Statistics之后，才能进行对数据集的操作，否则误删了有价值的数据。。。就不大好了。。。

先看看数据集里有什么东西？

大家发现这个数据集很有趣的地方就是，他的数据类型全部都是int64的，这样Data cleaning的时候压力会小一点。

Data Cleaning

首先，我们来搞定一些没用的项目

We will dropped column ['Soil_Type7', 'Soil_Type15']

Nice,现在再来看一下：

我们现在来看一下偏离量：

这里要提一下，我之前如果没有执行删除'Soil_Type7', 'Soil_Type15'的内容的话，他们的偏离量为0，同样的，大家也可以通过这个方法来剃掉Soil_Type这个废柴。（本来就是用std剃掉的来着。。。）

为什么选Kaggle的数据集的原因又出现了，所有的Class都已经equal presence了，这就意味着不需要有一个re-balancing的过程了。

怎么说也是文化人，之前给大家的都不算什么有技术含量的，现在来个好玩的，也是Data Science的核心：Correlationship

首先要提一下，不是随便的啥啥啥数据都可以搞Correlationship的，至少要有continous才可以。

在Data Statistics的过程中，我们对数据有一个基本的认识了，因此，Wilderness_Area和Soil_Type我们不能用，谁教他是不是0就是1呢（一般我们叫它们binary）。

先做个准备

来正戏了，Pandas为什么那么多人用的原因之一就是，它将很多的东西都给工具化了，如果要手码的话。。。简直不寒而栗。。。

但是Pandas只要一句：

看着很烦对不对？是的，很多没有什么必要的信息也一股脑子的弄了出来。

所以我们设置一个threshold，threshold可以理解为阈值，低于threshold就屏蔽掉好了。一般0.5以上才能说有相关性，0.8以上高度相关。有兴趣的同学可以看下Reference的Wikipedia中Correlation的解释。

这样，我们得到七个比较有关联的数据。但是还是有人觉得，还是不大像人话。还有人说我没图你说个啥？这里我导入一下seaborn，无他，只是因为我觉得Matplotlib的默认视图做这个。。。是真的很难看啊。。。

在这里，我们移除了Soil_Type7和Soil_Type15，因为这两项的全是没变。

这里提一下，通过调试

dataset.std()

可以很简单直接的把值压根就没变化的废物给找出来，这个方法很常用。

由于Kaggle的数据集内容本身没有什么需要清理的需求，所以Data Cleaning做到这一步就差不多了。

在这里提一下，通过list将操作保存起来这个习惯很重要——要不然说翻车就翻车了，然后死活都找不到之前做了什么。。。

严谨的数据科学家是不会放过它滴。

原文发布时间为：2017-02-21 本文作者：那只猫本文来自云栖社区合作伙伴“ Python中文社区”，了解相关信息可以关注“ Python中文社区”微信公众号

文章标签：

Python

数据挖掘

关键词：

数据挖掘案例

数据挖掘实战

数据挖掘经典案例

数据挖掘实战案例

青衫无名

目录

相关文章

爱专研的技术土狗

|

3月前

|

搜索推荐数据挖掘 UED

分享一些利用商品详情数据挖掘潜在需求的成功案例

本文介绍了四个成功利用商品详情数据挖掘潜在需求的案例：亚马逊通过个性化推荐系统提升销售额；小米通过精准挖掘用户需求优化智能硬件生态链；星巴克推出定制化饮品服务满足用户多样化口味；美妆品牌利用数据改进产品配方和设计，制定针对性营销策略。这些案例展示了数据挖掘在提升用户体验和商业价值方面的巨大潜力。

爱专研的技术土狗

214 0 0

郑小健

|

7月前

|

数据采集数据可视化数据挖掘

数据挖掘实战：使用Python进行数据分析与可视化

在大数据时代，Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例，演示如何使用Python进行数据预处理（如处理缺失值）、分析（如销售额时间趋势）和可视化（如商品类别销售条形图），揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后，可以按照提供的代码步骤，从读取CSV到数据探索，体验Python在数据分析中的威力。这只是数据科学的入门，更多高级技术等待发掘。【6月更文挑战第14天】

郑小健

731 11 12

郑小健

|

7月前

|

数据采集机器学习/深度学习数据可视化

数据挖掘实战：Python在金融数据分析中的应用案例

Python在金融数据分析中扮演关键角色，用于预测市场趋势和风险管理。本文通过案例展示了使用Python库（如pandas、numpy、matplotlib等）进行数据获取、清洗、分析和建立预测模型，例如计算苹果公司（AAPL）股票的简单移动平均线，以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】

郑小健

1689 3 3

kngines

|

7月前

|

人工智能分布式计算算法

数据挖掘实战随笔更新清单

这是一系列技术博客的摘要，涵盖了多个主题。包括Elasticsearch实战经验、Maxcompute中的Geohash转换和GPS处理、Python环境配置与管理（如Jupyter、Miniforge、Miniconda）、批量接口调用、多进程CSV图片下载、Excel到Markdown转换、Scikit-learn的异常检测（OC-SVM）和模型总结、人工智能领域的图像分类和识别、文本挖掘算法以及数仓相关的行转列处理。所有文章都在持续更新和补充中。

kngines

51 2 2

aliyun7652621635-14532

|

8月前

|

数据可视化搜索推荐数据挖掘

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一）

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一）

aliyun7652621635-14532

989 1 2

aliyun7652621635-14532

|

8月前

|

算法搜索推荐数据挖掘

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘（续）

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘（续）

aliyun7652621635-14532

354 1 1

aliyun7652621635-14532

|

8月前

|

机器学习/深度学习数据采集算法

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二）

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二）

aliyun7652621635-14532

402 1 1

艾派森_

|

8月前

|

数据采集算法搜索推荐

数据挖掘实战：基于KMeans算法对超市客户进行聚类分群

数据挖掘实战：基于KMeans算法对超市客户进行聚类分群

艾派森_

1119 0 2

极客李华

|

8月前

|

算法搜索推荐数据挖掘

通过案例理解数据挖掘

通过案例理解数据挖掘

极客李华

111 2 2

爱学习的千影

|

8月前

|

机器学习/深度学习数据挖掘定位技术

预测未来：Python 数据挖掘案例

数据挖掘是从大量数据中提取有用信息的过程。通过应用数据挖掘技术，我们可以发现数据中的模式、关系和趋势，从而做出预测和决策。在 Python 中，有许多强大的数据挖掘库和工具可供使用。本文将介绍一个使用 Python 进行数据挖掘以预测未来的案例。

爱学习的千影

354 0 0

Python中文社区

热门文章

最新文章

公司监控上网记录：Scikit-learn 实现公司上网记录数据挖掘

数据挖掘/深度学习-高校实训解决方案

【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐

工具推荐 | 分析大数据最需要的Top 10数据挖掘工具

数据挖掘实战：带你做客户价值分析(附代码)

150+面试题，十大必读书，数据挖掘offer轻松搞定 | 面试宝典系列

一小时了解数据挖掘⑤数据挖掘步骤＆常用的聚类、决策树和CRISP-DM概念

【精品问答】110+数据挖掘面试题集合 | 技术日报（17期）

ITTC微博数据挖掘--在线演示Sliverlight版本

《python 与数据挖掘》一 3.4　作用域

R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）

【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例（下）

【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例（上）

数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据

SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据

数据分享|SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林

SQL Server聚类数据挖掘信用卡客户可视化分析

MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（下）

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

数据科学/天池竞赛进阶

李宏毅2021《机器学习》

数据挖掘类比赛汇总

数据挖掘入门与实践

相关电子书

更多

微博机器学习平台架构和实践

EasyRL强化学入门与实践

弱监督机器学习研究新进展

相关实验场景

更多

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

推荐系统入门之使用ALS算法实现打分预测

自然语言入门：NLP数据读取与数据分析

下一篇

阿里云无影云电脑免费试用，最长可试用3个月