快速入门Python机器学习

简介: 快速入门Python机器学习

一、基本概念



1,有监督学习和无监督学习


有监督学习:预先定义好的一组标签(比如禾本科植物:小麦、玉米、水稻、高粱、高羊茅、剪股颖、早熟禾、燕麦、稗、茅、狗尾巴草),通过机器学习后获得的结果是在预先定义好的标签内(比如:燕麦)。


无监督学习:预先没有定义好的一组标签,机器学习后,通过数据中的类似性归为一类。


2,分类、聚类和回归


分类:分类属于有监督学习。比如对于结论在[小麦,玉米,水稻,高粱,高羊茅,剪股颖,早熟禾,燕麦,稗,茅,狗尾巴草]下,给出下面一些训练数据和测试数据。


属性1

属性2

属性3

属性4

属性5

属性6

属性7

属性n

结论

值1.1

值1.2

值1.3

值1.4

值1.5

值1.6

值1.7

值1.n

小麦

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.n

玉米

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.n

小麦

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.n

水稻


m.1

m.2

m.3

m.4

m.5

m.6

m.7


m.n

水稻


现在给定一组数据,判定具有这组数据属性的禾本科植物属于哪个品种,比如。


属性1

属性2

属性3

属性4

属性5

属性6

属性7

属性n

结论

值x.1

x.2

x.3

x.4

x.5

x.6

x.7

x.n

狗尾巴草


最后得出结论为:狗尾巴草(注意最后的结论肯定在[小麦,玉米,水稻,高粱,高羊茅,剪股颖,早熟禾,燕麦,稗,茅,狗尾巴草]之内)。


聚类:分类属于无监督学习,比如同样用上面一组数据,但是我们不给标签,通过训练,得到:


属性1

属性2

属性3

属性4

属性5

属性6

属性7

属性n

结论

值1.1

值1.2

值1.3

值1.4

值1.5

值1.6

值1.7

值1.n

类别1

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.n

类别2

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.n

类别1

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.n

类别3


m.1

m.2

m.3

m.4

m.5

m.6

m.7


m.n

类别5


在这里,是不是第1条结论就应该是类别1;第2条结论就应该是类别2,预先是未知的。


现在,仍旧用上面的数据:


属性1

属性2

属性3

属性4

属性5

属性6

属性7

属性n

结论

值x.1

x.2

x.3

x.4

x.5

x.6

x.7

x.n

类别4


回归:可以看见不管分类还是聚类数据是离散的,而回归的数据是连续的,回归主要用于预测(比如股票预测,天气预测)。


日期

最高温度

最低温度

最高湿度

最低温度

气压

结论

2022-1-1

1

-4

80%

47%

1.00

2022-1-2

3

-3

76%

52%

1.01

2022-1-3

4

-1

87%

51%

0.98

2022-1-15

4

-2

85%

48%

0.99

2022-2-5

2

-3

84%

50%

1.02

小雨


今天是2022-2-6,可以通过回归算法预测2022-2-7为晴。


3,训练集和测试集


一组数据用于机器学习,先用一批数据进行学习,然后用另一组数据进行验证,通过验证后的数据的准确与否来调整机器学习模型。用于训练的测试数据为训练集;用于测试的测试数据为测试集。一般而言训练集占所有数据的80%;测试集占所有数据的20%


4,训练得分和测试得分


训练得分=训练答对的数据个数/所有训练集数据个数*100%

测试得分=测试答对的数据个数/所有测试集数据个数*100%

由于无监督学习没有对与错,所以训练集和测试集仅对有监督学习有效。


5,过拟合与欠拟合


过拟合:训练得分很高;测试得分很低。

欠拟合:训练得分和测试得分都很低。

过拟合原因:训练数据不具有普适性;欠拟合原因:训练数据没有训练价值。


我在实际工作中出现过训练得分很低,而测试得分很高,属于不正常现象,可以考虑代码错误或者测试数据过于单一。

目录
相关文章
|
24天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
67 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
26天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
41 2
|
28天前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
51 1
|
28天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
73 1
|
1月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
40 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
2月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
2月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
71 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
2月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。