学了这么久,你知道Python机器学习全流程是怎样的么?

简介:

首先介绍一下机器学习的概念和地位,和其他的区别是?

281b11cfeaeb30b1960db9271d7c6fbf3c60f07a

机器学习的核心任务是?

9d11bd430a0a1e19b578814fca63e61b50ea4aab

机器学习的全流程是?

47ba2e48365db62888665050b3e645df4bfec6c4

我们将上述流程拆解出来看:

1.需求来源是?需求天上来?被提需求到底是接还是不接?

ab96c3402db430499e102cfef5c7e803c71d0c2a

2.老板说没有数据!还不舍得花钱买!让我自己想办法获取!还得谢谢老板点明方向,这可怎么办?

dbcdbbac9bb86676f9ae23e1e5f6f38ed43c0818

那你得会数据采集!

Python网络爬虫就是一种数据采集手段,简单来说就是个请求&解析的过程

那如何快速上手网络爬虫呢?

84dde16210ea1da906c159b098f8454fe15e8cd2

你需要掌握以下内容并灵活选择应用:

常用的请求库:urllib、requests

常用的解析库:BeautifulSoup、lxml

还有灵巧的信息提取方式:css选择器/xpath表达式

静态网页 & 动态网页爬取方法等等

3.需求方给的数据一团糟,我该如何搞?

7f59bdecd1961586535d15323505a04c69bdc0c6

这就涉及脏数据的处理,所谓的脏数据,就是数据不够整洁。

常见的问题有:

 ●  数据串行、尤其是长文本情形下。
 ●  数值变量中混有文本格式、格式混乱。
 ●  各种符号乱入。
 ●  数据记录错误。

所以你需要学会处理脏数据的数据预处理和数据清洗,不要小看它们的重要性。

这些操作的时间占到了全部机器学习项目的60%~70%的时间。

4524d9e4472637c368c416dc0122c5ef8d87159d

4.数据清洗完成,怎么入手分析呢?

通过探索性数据分析,我看可以探索出:

 ●  数据分布如何?
 ●  数据里有什么内容?
 ●  从数据中能找到什么对分析有用的线索?

探索性数据分析的具体方法可以有:

 ●  数据基本概况(统计定量分析)
 ●  缺失值展示与探索
 ●  异常值与离群点展示与探索
 ●  目标变量重点分析
 ●  自变量与目标变量相关分析

 ●  统计绘图与可视化展示

996112d2e103d618b884a49b34b1c26a98114732

5.数据预处理完成,作为机器学习,我们肯定是要用数据来训练模型,我们在训练模型时候是将数据所有字段(列)都考虑用上么?

一般来说并不是都使用,这里要聊一聊特征工程了。

那什么是特征工程呢?

特征工程是最大程度从原始数据中汲取特征和信息来使得模型达到尽可能好的效果。

特征工程包括:

 ●  数据预处理
 ●  特征选择
 ●  特征变换与提取
 ●  特征组合
 ●  数据降维

6.特征工程做完了,我已经迫不及待建模了,选什么模型合适呢?模型表现的话一般如何调优?

机器学习的常用模型你得了解:

 ●  哪些是有监督模型,哪些是无监督模型,哪些是半监督模型。
 ●  每个模型的适用情况和优缺点。
 ●  在sklearn库里如何调用相应模型。
 ●  对于不同模型调优如何调。

7.模型训练好了,预测结果也输出了,是不是得画个圆满句号写份报告呢?

这里涉及:

 ●  模型结果展示方式

 ●  数据分析报告撰写套路

faa480d37f0341f4c3c2978a53048c44e59067ca

看到这里,你可能还有一些疑问,例如:

 ●   机器学习中如何补救数学基础薄弱?
 ●   机器学习的编程能力如何提高?
 ●   Jupyter Notebook与PyCharm如何选择?
 ●   机器学习零基础有什么书籍推荐?
 ●   机器学习学完之后如何实践?
 ●   机器学习具体的需求分析如何实现?
 ●   数据清洗具体技术如何实现?
 ●   探索性数据分析具体流程是?做哪些可视化?
 ●   在做特征工程的时候除了要考虑模型,业务部分如何考虑?
 ●   机器学习比赛大杀器XGBoost模型如何实现?
 ●   机器学习模型调优如何修炼?
 ●   数据分析报告一般包含哪些部分,具体怎么做,有哪些套路?

原文发布时间为:2018-10-17
本文作者:小编
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区”。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
116 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
65 2
|
2月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
135 1
|
2月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
171 1
|
2月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
82 3
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
40 1
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
55 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
76 0
|
3月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)