学了这么久,你知道Python机器学习全流程是怎样的么?

简介:

首先介绍一下机器学习的概念和地位,和其他的区别是?

281b11cfeaeb30b1960db9271d7c6fbf3c60f07a

机器学习的核心任务是?

9d11bd430a0a1e19b578814fca63e61b50ea4aab

机器学习的全流程是?

47ba2e48365db62888665050b3e645df4bfec6c4

我们将上述流程拆解出来看:

1.需求来源是?需求天上来?被提需求到底是接还是不接?

ab96c3402db430499e102cfef5c7e803c71d0c2a

2.老板说没有数据!还不舍得花钱买!让我自己想办法获取!还得谢谢老板点明方向,这可怎么办?

dbcdbbac9bb86676f9ae23e1e5f6f38ed43c0818

那你得会数据采集!

Python网络爬虫就是一种数据采集手段,简单来说就是个请求&解析的过程

那如何快速上手网络爬虫呢?

84dde16210ea1da906c159b098f8454fe15e8cd2

你需要掌握以下内容并灵活选择应用:

常用的请求库:urllib、requests

常用的解析库:BeautifulSoup、lxml

还有灵巧的信息提取方式:css选择器/xpath表达式

静态网页 & 动态网页爬取方法等等

3.需求方给的数据一团糟,我该如何搞?

7f59bdecd1961586535d15323505a04c69bdc0c6

这就涉及脏数据的处理,所谓的脏数据,就是数据不够整洁。

常见的问题有:

 ●  数据串行、尤其是长文本情形下。
 ●  数值变量中混有文本格式、格式混乱。
 ●  各种符号乱入。
 ●  数据记录错误。

所以你需要学会处理脏数据的数据预处理和数据清洗,不要小看它们的重要性。

这些操作的时间占到了全部机器学习项目的60%~70%的时间。

4524d9e4472637c368c416dc0122c5ef8d87159d

4.数据清洗完成,怎么入手分析呢?

通过探索性数据分析,我看可以探索出:

 ●  数据分布如何?
 ●  数据里有什么内容?
 ●  从数据中能找到什么对分析有用的线索?

探索性数据分析的具体方法可以有:

 ●  数据基本概况(统计定量分析)
 ●  缺失值展示与探索
 ●  异常值与离群点展示与探索
 ●  目标变量重点分析
 ●  自变量与目标变量相关分析

 ●  统计绘图与可视化展示

996112d2e103d618b884a49b34b1c26a98114732

5.数据预处理完成,作为机器学习,我们肯定是要用数据来训练模型,我们在训练模型时候是将数据所有字段(列)都考虑用上么?

一般来说并不是都使用,这里要聊一聊特征工程了。

那什么是特征工程呢?

特征工程是最大程度从原始数据中汲取特征和信息来使得模型达到尽可能好的效果。

特征工程包括:

 ●  数据预处理
 ●  特征选择
 ●  特征变换与提取
 ●  特征组合
 ●  数据降维

6.特征工程做完了,我已经迫不及待建模了,选什么模型合适呢?模型表现的话一般如何调优?

机器学习的常用模型你得了解:

 ●  哪些是有监督模型,哪些是无监督模型,哪些是半监督模型。
 ●  每个模型的适用情况和优缺点。
 ●  在sklearn库里如何调用相应模型。
 ●  对于不同模型调优如何调。

7.模型训练好了,预测结果也输出了,是不是得画个圆满句号写份报告呢?

这里涉及:

 ●  模型结果展示方式

 ●  数据分析报告撰写套路

faa480d37f0341f4c3c2978a53048c44e59067ca

看到这里,你可能还有一些疑问,例如:

 ●   机器学习中如何补救数学基础薄弱?
 ●   机器学习的编程能力如何提高?
 ●   Jupyter Notebook与PyCharm如何选择?
 ●   机器学习零基础有什么书籍推荐?
 ●   机器学习学完之后如何实践?
 ●   机器学习具体的需求分析如何实现?
 ●   数据清洗具体技术如何实现?
 ●   探索性数据分析具体流程是?做哪些可视化?
 ●   在做特征工程的时候除了要考虑模型,业务部分如何考虑?
 ●   机器学习比赛大杀器XGBoost模型如何实现?
 ●   机器学习模型调优如何修炼?
 ●   数据分析报告一般包含哪些部分,具体怎么做,有哪些套路?

原文发布时间为:2018-10-17
本文作者:小编
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区”。
相关文章
|
9月前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
377 7
|
7月前
|
机器学习/深度学习 人工智能 算法
Scikit-learn:Python机器学习的瑞士军刀
想要快速入门机器学习但被复杂算法吓退?本文详解Scikit-learn如何让您无需深厚数学背景也能构建强大AI模型。从数据预处理到模型评估,从垃圾邮件过滤到信用风险评估,通过实用案例和直观图表,带您掌握这把Python机器学习的'瑞士军刀'。无论您是AI新手还是经验丰富的数据科学家,都能从中获取将理论转化为实际应用的关键技巧。了解Scikit-learn与大语言模型的最新集成方式,抢先掌握机器学习的未来发展方向!
1050 12
Scikit-learn:Python机器学习的瑞士军刀
|
10月前
|
机器学习/深度学习 数据可视化 算法
Python与机器学习:使用Scikit-learn进行数据建模
本文介绍如何使用Python和Scikit-learn进行机器学习数据建模。首先,通过鸢尾花数据集演示数据准备、可视化和预处理步骤。接着,构建并评估K近邻(KNN)模型,展示超参数调优方法。最后,比较KNN、随机森林和支持向量机(SVM)等模型的性能,帮助读者掌握基础的机器学习建模技巧,并展望未来结合深度学习框架的发展方向。
Python与机器学习:使用Scikit-learn进行数据建模
|
9月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
9月前
|
机器学习/深度学习 数据可视化 算法
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
318 102
|
3月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
345 104
|
3月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
275 103
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
206 82
|
2月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
211 3

推荐镜像

更多