首先介绍一下机器学习的概念和地位,和其他的区别是?
机器学习的核心任务是?
机器学习的全流程是?
我们将上述流程拆解出来看:
1.需求来源是?需求天上来?被提需求到底是接还是不接?
2.老板说没有数据!还不舍得花钱买!让我自己想办法获取!还得谢谢老板点明方向,这可怎么办?
那你得会数据采集!
Python网络爬虫就是一种数据采集手段,简单来说就是个请求&解析的过程
那如何快速上手网络爬虫呢?
你需要掌握以下内容并灵活选择应用:
常用的请求库:urllib、requests
常用的解析库:BeautifulSoup、lxml
还有灵巧的信息提取方式:css选择器/xpath表达式
静态网页 & 动态网页爬取方法等等
3.需求方给的数据一团糟,我该如何搞?
这就涉及脏数据的处理,所谓的脏数据,就是数据不够整洁。
常见的问题有:
● 数据串行、尤其是长文本情形下。● 数值变量中混有文本格式、格式混乱。
● 各种符号乱入。
● 数据记录错误。
所以你需要学会处理脏数据的数据预处理和数据清洗,不要小看它们的重要性。
这些操作的时间占到了全部机器学习项目的60%~70%的时间。
4.数据清洗完成,怎么入手分析呢?
通过探索性数据分析,我看可以探索出:
● 数据分布如何?● 数据里有什么内容?
● 从数据中能找到什么对分析有用的线索?
探索性数据分析的具体方法可以有:
● 数据基本概况(统计定量分析)● 缺失值展示与探索
● 异常值与离群点展示与探索
● 目标变量重点分析
● 自变量与目标变量相关分析
● 统计绘图与可视化展示
5.数据预处理完成,作为机器学习,我们肯定是要用数据来训练模型,我们在训练模型时候是将数据所有字段(列)都考虑用上么?
一般来说并不是都使用,这里要聊一聊特征工程了。
那什么是特征工程呢?
特征工程是最大程度从原始数据中汲取特征和信息来使得模型达到尽可能好的效果。
特征工程包括:
● 数据预处理● 特征选择
● 特征变换与提取
● 特征组合
● 数据降维
6.特征工程做完了,我已经迫不及待建模了,选什么模型合适呢?模型表现的话一般如何调优?
机器学习的常用模型你得了解:
● 哪些是有监督模型,哪些是无监督模型,哪些是半监督模型。● 每个模型的适用情况和优缺点。
● 在sklearn库里如何调用相应模型。
● 对于不同模型调优如何调。
7.模型训练好了,预测结果也输出了,是不是得画个圆满句号写份报告呢?
这里涉及:
● 模型结果展示方式● 数据分析报告撰写套路
看到这里,你可能还有一些疑问,例如:
● 机器学习中如何补救数学基础薄弱?● 机器学习的编程能力如何提高?
● Jupyter Notebook与PyCharm如何选择?
● 机器学习零基础有什么书籍推荐?
● 机器学习学完之后如何实践?
● 机器学习具体的需求分析如何实现?
● 数据清洗具体技术如何实现?
● 探索性数据分析具体流程是?做哪些可视化?
● 在做特征工程的时候除了要考虑模型,业务部分如何考虑?
● 机器学习比赛大杀器XGBoost模型如何实现?
● 机器学习模型调优如何修炼?
● 数据分析报告一般包含哪些部分,具体怎么做,有哪些套路?
原文发布时间为:2018-10-17
本文作者:小编
本文来自云栖社区合作伙伴“
Python爱好者社区”,了解相关信息可以关注“
Python爱好者社区”。