Andrew Ng机器学习课程笔记--week9(上)(异常检测&推荐系统)

简介: 本周内容较多,故分为上下两篇文章。一、内容概要1. Anomaly DetectionDensity EstimationProblem MotivationGaussian DistributionAlgorithmBuilding an Anomaly Detectio...

本周内容较多,故分为上下两篇文章。

一、内容概要

1. Anomaly Detection

  • Density Estimation
    • Problem Motivation
    • Gaussian Distribution
    • Algorithm
  • Building an Anomaly Detection System(创建异常检测系统)
    • Developing and Evaluating an Anomaly Detection System
    • Anomaly Detection vs. Supervised Learning
    • Choosing What Features to Use
  • Multivariate Gaussion Distribution(多元高斯分布)
    • Multivariate Gaussion Distribution
    • Anomaly Detection using the Multivariate Gaussion Distribution

      2. Recommender System

  • Predicting Movie
    • Problem Formulation
    • Content Based Recommendations
  • Collaborative Filtering(协同过滤)
    • Collaborative Filtering
    • Collaborative Filtering Algorithm
  • Low Rank Matrix Factorization(低秩矩阵分解)
    • Vectorization(向量化): Low Rank Matrix Factorization
    • Implementational Detail:Mean Normalization

二、 重点&难点

Anomaly Detection

1. Density Estimation

1) Problem Motivation

假设我们生产了若干产品,现在通过两个特征来衡量产品是否合格,下面表示的是合格产品的分布图。


现在有两个新生产的产品,分布如下(绿色×


上面我们构建的模型(即蓝色同心圆)能根据测试数据告诉我们其属于一组数据的可能性p(x).上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。
这种方法称为密度估计,表达如下:

ifp(x)εanomaly


ifp(x)>εnormal

2) Gaussian Distribution

3) Algorithm

还是以上面产品检测为例,我们先得到如下图左边的样品特征分布,然后根据分布图分别画出x1和x2的高斯分布图


下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估计 p(x)值:


我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则则为异常。

2. Building an Anomaly Detection System(创建异常检测系统)

1) Developing and Evaluating an Anomaly Detection System

异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我
们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个
异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数
据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试
集。

例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数
据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集

具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
  2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F 1
    值或者查准率与查全率的比例来选择 ε
  3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F 1 值,或者查准率与查全
    率之比

2) Anomaly Detection vs. Supervised Learning

异常检测和监督学习的确有几分相似,但是还是有区别的,整理如下:

异常检测 监督学习
非常少量的正向类(异常数据 y=1),大量的负向类(y=0) 同时有大量的正向类和负类
许多不同种类的异常,非常难。根据非常少量的正向类数据来训练算法。 有足够多的正向类实例,足够用于训练算法,未来遇到的正向类实例可能与训练集中的非常近似。
未来遇到的异常可能与已掌握的异常、非常的不同。
例如:
1. 欺诈行为检测
2. 生产(例如飞机引擎)
3. 检测数据中心的计算机运行状况
例如:
1. 邮件过滤器
2. 天气预报
3. 肿瘤分类

3) Choosing What Features to Use

异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够
工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:x = log(x+c),其中 c 为非
负常数; 或者 x=xc ,c 为 0-1 之间的一个分数,等方法。

3. Multivariate Gaussion Distribution(多元高斯分布)

1) Multivariate Gaussion Distribution

假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的
高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去
同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分
布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其 p(x)值却
仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界

  • 一般的高斯分布模型
    我们计算 p(x)的方法是: 通过分别计算每个特征对应的几
    率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特
    征一起来计算 p(x)。

p(x)=nj=1p(xj;μj,σ2j)=nj=112πσjexp((xjμj)22σ2j)


μ=1mmi=1x(i)

  • 多元高斯分布

p(x)=1(2π)n2|Σ|12exp(12(xμ)TΣ1(xμ))


Σ=1m(Xμ)T(Xμ)

μ和Σ对模型的影响


上图是 5 个不同的模型,从左往右依次分析:

  1. 是一个一般的高斯分布模型
  2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
  3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
  4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关
  5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关

    2) Anomaly Detection using the Multivariate Gaussion Distribution


通过使用多元高斯分布异常检测,可以更好的拟合数据,不再是画同心圆了,2333~~。







MARSGGBO原创





2017-8-14



目录
打赏
0
0
0
0
11
分享
相关文章
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验。本文探讨了推荐系统的基本原理、常用算法、实现步骤及Python应用,介绍了如何克服数据稀疏性、冷启动等问题,强调了合理选择算法和持续优化的重要性。
199 4
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。
打造个性化新闻推荐系统:机器学习与自然语言处理的结合Java中的异常处理:从基础到高级
【8月更文挑战第27天】在信息过载的时代,个性化新闻推荐系统成为解决信息筛选难题的关键工具。本文将深入探讨如何利用机器学习和自然语言处理技术构建一个高效的新闻推荐系统。我们将从理论基础出发,逐步介绍数据预处理、模型选择、特征工程,以及推荐算法的实现,最终通过实际代码示例来展示如何将这些理论应用于实践,以实现精准的个性化内容推荐。
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
93 13
【绝技揭秘】Andrew Ng 机器学习课程第十周:解锁梯度下降的神秘力量,带你飞速征服数据山峰!
【8月更文挑战第16天】Andrew Ng 的机器学习课程是学习该领域的经典资源。第十周聚焦于优化梯度下降算法以提升效率。课程涵盖不同类型的梯度下降(批量、随机及小批量)及其应用场景,介绍如何选择合适的批量大小和学习率调整策略。还介绍了动量法、RMSProp 和 Adam 优化器等高级技巧,这些方法能有效加速收敛并改善模型性能。通过实践案例展示如何使用 Python 和 NumPy 实现小批量梯度下降。
74 1
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
128 9
机器学习在推荐系统中的应用
【7月更文挑战第31天】随着机器学习技术的不断发展和普及,推荐系统在电子商务、社交媒体、新闻资讯等领域的应用越来越广泛。机器学习算法的应用为推荐系统优化提供了全新的思路和方法,使得推荐系统能够更加智能化和个性化地为用户提供服务。未来,随着数据量的不断增加和算法的不断创新,推荐系统将会变得更加精准和高效,为用户带来更加优质的体验。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等