【人工智能】机器学习基础速览 1

简介: 【人工智能】机器学习基础速览

机器学习基础速览


目录

数据(经验E)-> 学习算法(任务T)-> 理解(度量P)

机器学习的特点

  • 使用样本训练
  • 决策的规则复杂,或难以描述
  • 由机器自动学习规则

机器学习典型任务

  • 分类:计算机程序需要指定输入属于k类中的哪一类。比如计算机视觉中的图像分类算法解决的就是一个分类任务
  • 回归:计算机程序对给定输入,进行预测,输出结果。例如预测股票走向、证券未来价格等
  • 聚类:对大量未知标注数据集进行处理。按照数据内在相似性将数据划分为多个类别。是类别内的数据则相似度高,类别之间的数据相似性低。

分类和回归是预测问题的两种主要类型,分类输出的是离散的类别值;回归输出的是连续数值。

机器学习算法分类


(1)监督学习

定义:利用已知类别的样本,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,即可以对未知数据进行分类。

1.有监督学习的核心是标签,所有数据集必须有标签

2.监督学习的回归问题:反应样本数据集中样本属性值的特征,通过函数表达样本映射的关系来发现属性值之间的依赖关系。

通常情况下回归问题都在拟合一个趋势

3.监督学习的分类问题:通过分类模型,将样本数据集中的样本映射到某个给定的类别中。

(2)无监督学习

定义:对于没有标记的样本,学习算法直接对输入数据集进行建模,例如聚类,即“物以类聚,人以群分”。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。

无监督学习的聚类问题:通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性大。

(3)半监督学习

定义:试图让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习。

半监督学习可以完成回归、分类、聚类。

例如用半监督学习做一个分类,首先用户有标签的数据训练一个模型,然后将没有标签的数据放入模型中,看给出的未分类效果,选出好的数据进一步优化模型。

即:用没有标签的数据辅助有标签的数据优化模型

做其他任务的时候也会遇到 用有标签的数据辅助没有标签的数据。

(4)强化学习

定义:学习系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。

模型感知环境,做出行动,根据状态与奖惩做出调整和选择

强化学习的目的是找一个最佳行为。例如无人驾驶、AlphaGo等。

机器学习算法的整体流程

  • 数据收集与清理
  • 特征选择
  • 模型训练
  • 魔性测试与评估
  • 模型部署与整合

● 数据集:在机器学习任务中使用的一组数据,其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。

● 训练集:训练过程中使用的数据集,其中每个训练样本称为训练样本。从数据中学得模型的过程称为学习(训练)。

● 测试集:学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称为测试样本。

训练集和测试集不能有交集

数据预处理

  • 数据清理(数据过滤;填充缺失值;消除造成数据的异常点)
  • 数据降维(简化数据属性,避免维度爆炸;合并多个数据源数据;数据汇总)
  • 数据标准化(标准化数据来减少噪声,以及提高模型准确性)

脏数据

真实的数据通常存在一些数据质量问题:

  • 不完整:数据中缺少属性或者包含一些缺失的值
  • 多噪音:数据包含错误的记录或者异常点
  • 不一致:数据中存在矛盾、有差异的记录

数据的转换

  • 在分类问题中,将类别数据编码成为对应的数值表示(哑编码)
  • 数值数据转换为类别数据以减少变量的值(例如对年龄分段)
  • 其他数据
  • 从文本数据中提取有用的数据(一般使用词袋法、TF-IDF、word2vec)
  • 特征工程
  • 对特征进行归一化、标准化,以保证同一模型的不同输入变量的值域相同
  • 特征扩充:对现有变量进行组合或转换以生成新的特征,比如平均数

特征选择

通常情况下,一个数据集当中存在很多种不同的特征,其中一些可能是多于的或者与我们要预测的值无关的。

特征选择技术的必要性体现在:

  • 简化模型,使模型更容易被使用者解释
  • 减少训练时间
  • 避免维度爆炸
  • 提升模型泛化性,避免过拟合

特征选择方法:Filter

过滤法(Filter)在选择特征的时候是独立的,与模型本身无关

通过评估每个特征和目标属性之间的祖关性这些方法应用一个统计度量来为每个特征赋值。然后根据分数对这些特性进行排序,这可以用来帮助保留或消除特定特征

过滤法的局限:过滤法倾向于选择冗余的变量,因为他们没有考虑特征之间的关系

常用过滤方法:

  • 皮尔逊相关系数
  • 卡方系数
  • 互信息

特征选择方法:wapper

包装器(wapper)方法使用一个预测模型来对对特征子集进行评分。

包装器方法将特征选择问题视为一个搜索问题,在这个问题中,将评估和比较不同的组合。在这里,预测模型用于评估特征的组合的工具,根据模型的准确性进行评分

常用方法:特征递归消除法

局限性:

  • 因为包装器方法为每个子集训练- -个新模型时,
    所以它们的计算量非常大。
  • 其特征选择的方法通常为特定类型的模型提供了性能最好的特性集。

特征选择方法:Embedded

嵌入法(Embedded)的方法将特征选择作为模型构建的一 部分。

最常见的嵌入式特征选择方法是正则化方法。正则化方法也称为惩罚方法,它在优化预测算法时引入额外的约束,使模型的复杂度降低,也就是减少了特征的数量。

常见方法:

  • LASSO回归(线性回归+L1正则)
  • RIDGE回归(线性回归+L2正则)

模型的有效性

  • 泛化能力(鲁棒性):模型适用于新样本的能力称为繁华能力
  • 误差:模型在样本上的预测结果与样本真实结果之间的误差
  • 训练误差:模型在训练集上的误差
  • 泛化误差:模型在新样本上的误差
  • 欠拟合:训练误差很大的现象
  • 过拟合:学的的模型训练误差很小,但是泛化误差大的现象

模型的容量:指拟合各种函数的能力,也称为模型的复杂度。

过拟合原因-误差

最终预测的总误差 = 偏差2+方差+不可消解的误差

我们主要关注来自偏差的误差和方差的误差

  • 偏差
  • 模型的预期(或平均)预测值与我们视图预测的正确值之间的差异
  • 方差
  • 模型的预测结果在均值附近的偏移的幅度
  • 来源于模型在训练集上对小波动的敏感性的误差

模型的复杂度与误差

随着模型复杂度上升,训练误差逐渐减小

什么是好的模型?

  • 泛化能力:在实际业务中预测准确
  • 可解释性:预测结果容易被解释
  • 预测速率:每一条数据预测用时
  • 可塑性:业务量增大时,预测速率仍然能被接受

低偏差&低方差:好模型

高偏差&低方差:不良模型

相关文章
|
2月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
23天前
|
机器学习/深度学习 传感器 人工智能
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
85 27
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
51 12
|
2月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习的融合之旅
【10月更文挑战第37天】本文将探讨AI和机器学习如何相互交织,共同推动技术发展的边界。我们将深入分析这两个概念,了解它们是如何互相影响,以及这种融合如何塑造我们的未来。文章不仅会揭示AI和机器学习之间的联系,还会通过实际案例展示它们如何协同工作,以解决现实世界的问题。
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
109 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
探索人工智能与机器学习的融合之路
在本文中,我们将探讨人工智能(AI)与机器学习(ML)之间的紧密联系以及它们如何共同推动技术革新。我们将深入分析这两种技术的基本概念、发展历程和当前的应用趋势,同时讨论它们面临的挑战和未来的发展方向。通过具体案例研究,我们旨在揭示AI与ML结合的强大潜力,以及这种结合如何为各行各业带来革命性的变化。
48 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
人工智能与机器学习:解锁数据洞察力的钥匙
人工智能与机器学习:解锁数据洞察力的钥匙
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
146 4
|
5天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
68 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
21天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
43 2