机器学习的魔法(一)从零开始理解吴恩达的精炼笔记

简介: 机器学习的魔法(一)从零开始理解吴恩达的精炼笔记

一、机器学习是什么?


1、机器学习的概念

机器学习是一种人工智能领域的技术和方法,旨在使计算机系统能够从经验数据中自动学习和改进,而无需显式地进行编程。它涉及开发算法和模型,使计算机能够自动分析和理解数据,并根据经验数据中的模式和规律做出预测或做出决策。


2、机器学习的核心思想

机器学习的核心思想是利用数据来训练计算机系统,使其能够从数据中学习,并根据学习到的知识进行推理和决策。机器学习算法可以自动发现数据中的模式和规律,并使用这些模式和规律来做出预测或做出决策,而无需显式地进行编程。


3、机器学习主要类型

机器学习可以分为监督学习(参数/非参数算法,支持向量机,核函数,神经网络)、无监督学习(聚类,降维,推荐系统,学习推荐)和强化学习三种主要类型。

  • 监督学习
    简单说就是我们教计算机如何完成任务 ,算法通过输入数据和相应的标签进行训练,以学习输入和输出之间的映射关系。
  • 无监督学习
    简单说就是我们打算让计算机自己进行学习, 算法只有输入数据而没有标签,它通过发现数据中的模式和结构来进行学习。
  • 在强化学习
    算法通过与环境进行交互,根据反馈信号来学习如何采取行动以最大化某种形式的奖励。

4、机器学习应用领域

机器学习在许多领域都有广泛的应用,包括图像和语音识别、自然语言处理、推荐系统、金融预测、医疗诊断等。


二、监督学习

监督学习是一种机器学习的方法,其中模型通过标记的训练数据集进行学习,这些数据集包含了输入数据及其对应的正确输出。通过此种方式,模型可以学习到输入与输出之间的关系,并可以应用于新的、未见过的数据。


下面是一些监督学习的例子:

1、房价预测

在这个案例中,模型可能会通过房屋的各种特性(如面积,房间数量,位置等)和历史销售价格数据进行训练学习。然后模型可以预测市场上新出售的房屋的价格。

当我们使用机器学习来预测房屋价格时,通常会涉及以下步骤:

  • 数据收集:首先,我们需要收集历史销售价格数据和房屋特性数据。这些特性可以包括房屋的面积、房间数量、位置(例如城市、街区)等。这些数据将成为我们模型的训练集。
  • 特征工程:在这一步中,我们会对数据进行处理,提取有用的特征。例如,我们可以计算每平方米的价格、房间数量与总面积的比例等。
  • 模型选择:选择适合房屋价格预测的机器学习模型。常见的模型包括线性回归、决策树、随机森林、神经网络等。
  • 模型训练:使用历史数据来训练模型。模型会学习数据中的模式,以便能够预测未来市场上新出售房屋的价格。
  • 模型评估:使用测试数据集来评估模型的性能。我们可以使用指标如均方误差、R² 等来衡量模型的预测能力。
  • 预测房屋价格:一旦模型训练完成,我们就可以使用它来预测市场上新出售房屋的价格。输入新房屋的特性(例如面积、房间数量、位置等),模型会给出相应的价格预测结果。



2、天气预测

通过历史天气数据(温度、湿度、风速等)和相应的天气结果(晴、雨、风暴等),模型可以预测未来的天气情况。


当我们使用机器学习来预测未来的天气情况时,通常会涉及以下步骤:

(1)、数据收集:首先,我们需要收集历史天气数据,包括温度、湿度、风速等。这些数据将成为我们模型的训练集。

(2)、特征工程:在这一步中,我们会对数据进行处理,提取有用的特征。例如,我们可以计算每日平均温度、最大风速等。

(3)、模型选择:选择适合天气预测的机器学习模型。常见的模型包括线性回归、决策树、随机森林、神经网络等。

(4)、模型训练:使用历史数据来训练模型。模型会学习数据中的模式,以便能够预测未来的天气情况。

(5)、模型评估:使用测试数据集来评估模型的性能。我们可以使用指标如均方误差、准确率等来衡量模型的预测能力。

(6)、预测未来天气:一旦模型训练完成,我们就可以使用它来预测未来的天气情况。输入新的特征(例如明天的温度、湿度等),模型会给出相应的天气预测结果。




三、无监督学习

无监督学习与监督学习相对应。在监督学习中,我们有明确的目标和标签,而在无监督学习中,我们没有明确的目标,也不需要给数据打标签。以下是无监督学习的几个特点:

  • 无明确目的:无监督学习没有预先定义的目标。我们试图从未标记的数据中发现潜在的结构。
  • 无需标签:与监督学习不同,无监督学习不需要给数据打标签。
  • 难以量化效果:由于缺乏明确目标,无监督学习的效果很难量化。


无监督学习在许多实际场景中都有广泛的应用。以下是一些例子:

  • 用户细分:广告平台可以使用无监督学习对用户进行细分。除了基本的性别、年龄、地理位置等维度外,还可以根据用户行为进行更精细的分类。以下是一些常见的用户细分维度和模型:(1)、RFM模型:这是一种常用于用户价值分析的模型,基于以下三个指标对用户进行分类:
  • 最近一次消费时间(Recently):用户最近一次购买的时间距离现在有多久。
  • 消费频次(Frequency):用户在一段时间内购买的次数。
  • 消费金额(Money):用户在一段时间内的累计消费金额。
  • (2)、行为模式:根据用户的行为和互动模式进行分类,例如:
  • 活跃度:用户在网站或应用上的活跃程度,包括登录频率、页面浏览次数等。
  • 购买行为:用户的购买频率、购买金额、购买类别等。
  • 社交互动:用户在社交媒体上的互动、分享、评论等。
  • (3)、兴趣和偏好:根据用户对不同内容、产品或服务的兴趣进行分类,例如:
  • 浏览历史:用户在网站上浏览的页面、产品或文章。
  • 点击行为:用户点击的广告、推荐内容或链接。
  • (4)、用户生命周期阶段:将用户分为不同的生命周期阶段,例如:
  • 新用户:刚刚注册或开始使用产品的用户。
  • 活跃用户:经常使用产品的用户。
  • 流失用户:曾经活跃但现在不再使用产品的用户。
  • (5)、个性化标签:根据用户的特定属性或行为添加标签,例如:
  • VIP用户:高价值、高忠诚度的用户。
  • 优惠敏感用户:对折扣和促销活动敏感的用户。


  • 推荐系统:无监督学习可以用于推荐系统。例如,根据用户的购买行为和浏览行为,推荐类似用户喜欢的商品。


以下是一些常见的无监督学习算法:

  • 聚类算法Clustering):将不带标签的数据分组成簇。这些算法可以帮助我们发现数据中的相似性。一些常见的聚类算法包括:
  • K-Means:将数据划分为k个组。
  • K-Medoids:类似于K-Means,但选择簇中的中心点而不是平均值。
  • DBSCAN:基于密度的聚类算法,可以发现不规则形状的簇。
  • OPTICS:另一种基于密度的聚类算法。
  • CLIQUE:用于发现高维数据中的簇。

  • 关联规则学习(Association Rule Learning:用于发现变量之间的有趣关系。例如,我们可以使用这些算法来发现购物篮中的商品之间的关联。一些常见的关联规则学习算法包括:
  • Apriori:用于挖掘频繁项集和关联规则。
  • FP-Growth/FPtree:另一种频繁项集挖掘算法。
  • Eclat:用于发现频繁项集。
相关文章
|
2月前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
147 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 吴恩达:机器学习的六个核心算法!
吴恩达教授在《The Batch》周报中介绍了机器学习领域的六个基础算法:线性回归、逻辑回归、梯度下降、神经网络、决策树和k均值聚类。这些算法是现代AI的基石,涵盖了从简单的统计建模到复杂的深度学习。线性回归用于连续变量预测,逻辑回归用于二分类,梯度下降用于优化模型参数,神经网络处理非线性关系,决策树提供直观的分类规则,而k均值聚类则用于无监督学习中的数据分组。这些算法各有优缺点,广泛应用于经济学、金融、医学、市场营销等多个领域。通过不断学习和实践,我们可以更好地掌握这些工具,发掘智能的乐趣。
121 1
算法金 | 吴恩达:机器学习的六个核心算法!
|
6月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
6月前
|
机器学习/深度学习 算法 数据可视化
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
63 0
|
6月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
47 0
|
7月前
|
机器学习/深度学习 自然语言处理 PyTorch
fast.ai 机器学习笔记(四)(1)
fast.ai 机器学习笔记(四)
142 1
fast.ai 机器学习笔记(四)(1)
|
7月前
|
机器学习/深度学习 数据挖掘 Python
fast.ai 机器学习笔记(一)(4)
fast.ai 机器学习笔记(一)
132 1
fast.ai 机器学习笔记(一)(4)
|
7月前
|
机器学习/深度学习 Python 文件存储
fast.ai 机器学习笔记(一)(3)
fast.ai 机器学习笔记(一)
138 1
fast.ai 机器学习笔记(一)(3)
|
7月前
|
存储 机器学习/深度学习 前端开发
fast.ai 机器学习笔记(一)(2)
fast.ai 机器学习笔记(一)
130 1
fast.ai 机器学习笔记(一)(2)
|
7月前
|
机器学习/深度学习 Python 索引
fast.ai 机器学习笔记(二)(4)
fast.ai 机器学习笔记(二)
62 0
fast.ai 机器学习笔记(二)(4)