机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。
几种定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
机器学习是对能通过经验自动改进的计算机算法的研究
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习与数据挖掘
数据挖掘:一般只从大量的数据中通过算法搜索隐藏于其中信息的过程。通常通过统计、检索、机器学习、模型匹配等诸多方法来实现这个过程
机器学习:是数据挖掘的一种比较常用、比较好的手段。
机器学习的应用
机器学习有重要使用价值:数据挖掘、语音识别、图像处理、机器人、车辆自动驾驶、生物信息学、信息安全、遥感信息处理、计算金融学、工业过程控制
基本概念
三大方向
分类:根据训练样本,预测的值是离散值,例如:生气、悲伤、开心等,此类任务称为“分类”。
回归:根据训练样本,预测的值是连续值,例如开心指数0.85、0.98等,此类任务称为“回归”。
聚类:将水果分成若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如:苹果、梨、橘子等。常见聚类算法包括K-Means算法、谱聚类等。
任务分类
监督学习:可以从训练数据中学到或建立一个模型,并推测一个值。训练数据由数据和标签组成。函数的输出可以是一个连续的值(回归),或是一个离散的值(分类)
无监督学习:没有标签的训练数据,自动对训练数据进行分类或分群。(聚类分析)关系规则、维度缩减、深度学习中的生成对抗网络(GAN)等
强化学习:机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略达成回报最大化或实现特定目标的问题。采用奖赏机制。
CNN
RNN
RL
方法
主成分分析(PCA): 常用的数据降维方法,通过该方法,使得转换后的空间中数据的方差最大。
svm
随机森林
lasso
cox回归
逻辑回归
评估标准
ROC 曲线
AUC: ROC曲线下的面积
混淆矩阵
precision recall
召回率(recall):
精准率(precision):
稀疏编码:是一种受动物视觉系统中简单细胞感受野的启发而建立的模型
密度估计:根据一组练样本来估计样本空间的概率密度。分为参数密度估计和非参数密度估计。
泛化能力:具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中的样本服从一个未知分布,样本从这个分布中独立获得。