学了这么久,你知道Python机器学习全流程是怎样的么?

简介:

首先介绍一下机器学习的概念和地位,和其他的区别是?

281b11cfeaeb30b1960db9271d7c6fbf3c60f07a

机器学习的核心任务是?

9d11bd430a0a1e19b578814fca63e61b50ea4aab

机器学习的全流程是?

47ba2e48365db62888665050b3e645df4bfec6c4

我们将上述流程拆解出来看:

1.需求来源是?需求天上来?被提需求到底是接还是不接?

ab96c3402db430499e102cfef5c7e803c71d0c2a

2.老板说没有数据!还不舍得花钱买!让我自己想办法获取!还得谢谢老板点明方向,这可怎么办?

dbcdbbac9bb86676f9ae23e1e5f6f38ed43c0818

那你得会数据采集!

Python网络爬虫就是一种数据采集手段,简单来说就是个请求&解析的过程

那如何快速上手网络爬虫呢?

84dde16210ea1da906c159b098f8454fe15e8cd2

你需要掌握以下内容并灵活选择应用:

常用的请求库:urllib、requests

常用的解析库:BeautifulSoup、lxml

还有灵巧的信息提取方式:css选择器/xpath表达式

静态网页 & 动态网页爬取方法等等

3.需求方给的数据一团糟,我该如何搞?

7f59bdecd1961586535d15323505a04c69bdc0c6

这就涉及脏数据的处理,所谓的脏数据,就是数据不够整洁。

常见的问题有:

 ●  数据串行、尤其是长文本情形下。
 ●  数值变量中混有文本格式、格式混乱。
 ●  各种符号乱入。
 ●  数据记录错误。

所以你需要学会处理脏数据的数据预处理和数据清洗,不要小看它们的重要性。

这些操作的时间占到了全部机器学习项目的60%~70%的时间。

4524d9e4472637c368c416dc0122c5ef8d87159d

4.数据清洗完成,怎么入手分析呢?

通过探索性数据分析,我看可以探索出:

 ●  数据分布如何?
 ●  数据里有什么内容?
 ●  从数据中能找到什么对分析有用的线索?

探索性数据分析的具体方法可以有:

 ●  数据基本概况(统计定量分析)
 ●  缺失值展示与探索
 ●  异常值与离群点展示与探索
 ●  目标变量重点分析
 ●  自变量与目标变量相关分析

 ●  统计绘图与可视化展示

996112d2e103d618b884a49b34b1c26a98114732

5.数据预处理完成,作为机器学习,我们肯定是要用数据来训练模型,我们在训练模型时候是将数据所有字段(列)都考虑用上么?

一般来说并不是都使用,这里要聊一聊特征工程了。

那什么是特征工程呢?

特征工程是最大程度从原始数据中汲取特征和信息来使得模型达到尽可能好的效果。

特征工程包括:

 ●  数据预处理
 ●  特征选择
 ●  特征变换与提取
 ●  特征组合
 ●  数据降维

6.特征工程做完了,我已经迫不及待建模了,选什么模型合适呢?模型表现的话一般如何调优?

机器学习的常用模型你得了解:

 ●  哪些是有监督模型,哪些是无监督模型,哪些是半监督模型。
 ●  每个模型的适用情况和优缺点。
 ●  在sklearn库里如何调用相应模型。
 ●  对于不同模型调优如何调。

7.模型训练好了,预测结果也输出了,是不是得画个圆满句号写份报告呢?

这里涉及:

 ●  模型结果展示方式

 ●  数据分析报告撰写套路

faa480d37f0341f4c3c2978a53048c44e59067ca

看到这里,你可能还有一些疑问,例如:

 ●   机器学习中如何补救数学基础薄弱?
 ●   机器学习的编程能力如何提高?
 ●   Jupyter Notebook与PyCharm如何选择?
 ●   机器学习零基础有什么书籍推荐?
 ●   机器学习学完之后如何实践?
 ●   机器学习具体的需求分析如何实现?
 ●   数据清洗具体技术如何实现?
 ●   探索性数据分析具体流程是?做哪些可视化?
 ●   在做特征工程的时候除了要考虑模型,业务部分如何考虑?
 ●   机器学习比赛大杀器XGBoost模型如何实现?
 ●   机器学习模型调优如何修炼?
 ●   数据分析报告一般包含哪些部分,具体怎么做,有哪些套路?

原文发布时间为:2018-10-17
本文作者:小编
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区”。
相关文章
|
8月前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
330 7
|
6月前
|
机器学习/深度学习 人工智能 算法
Scikit-learn:Python机器学习的瑞士军刀
想要快速入门机器学习但被复杂算法吓退?本文详解Scikit-learn如何让您无需深厚数学背景也能构建强大AI模型。从数据预处理到模型评估,从垃圾邮件过滤到信用风险评估,通过实用案例和直观图表,带您掌握这把Python机器学习的'瑞士军刀'。无论您是AI新手还是经验丰富的数据科学家,都能从中获取将理论转化为实际应用的关键技巧。了解Scikit-learn与大语言模型的最新集成方式,抢先掌握机器学习的未来发展方向!
982 12
Scikit-learn:Python机器学习的瑞士军刀
|
9月前
|
机器学习/深度学习 数据可视化 算法
Python与机器学习:使用Scikit-learn进行数据建模
本文介绍如何使用Python和Scikit-learn进行机器学习数据建模。首先,通过鸢尾花数据集演示数据准备、可视化和预处理步骤。接着,构建并评估K近邻(KNN)模型,展示超参数调优方法。最后,比较KNN、随机森林和支持向量机(SVM)等模型的性能,帮助读者掌握基础的机器学习建模技巧,并展望未来结合深度学习框架的发展方向。
Python与机器学习:使用Scikit-learn进行数据建模
|
8月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
8月前
|
机器学习/深度学习 数据可视化 算法
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
12月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1149 6
|
6月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
7月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
301 6

热门文章

最新文章

推荐镜像

更多
下一篇
oss云网关配置