DeepLearning.ai学习笔记(四)卷积神经网络 -- week4 特殊应用:人力脸识别和神经风格转换

简介: 一、什么是人脸识别老实说这一节中的人脸识别技术的演示的确很牛bi,但是演技好尴尬,233333啥是人脸识别就不用介绍了,下面笔记会介绍如何实现人脸识别。二、One-shot(一次)学习假设我们发财了,开了一家公司。

一、什么是人脸识别

老实说这一节中的人脸识别技术的演示的确很牛bi,但是演技好尴尬,233333

啥是人脸识别就不用介绍了,下面笔记会介绍如何实现人脸识别。

二、One-shot(一次)学习

假设我们发财了,开了一家公司。然后作为老板的我们希望与时俱进,所以想使用人脸识别技术来实现打卡。

假如我们公司只有4个员工,按照之前的思路我们训练的神经网络模型应该如下:

img_519d38d9c0b66a3d51cec2296d7001a8.png

如图示,输入一张图像,经过CNN,最后再通过Softmax输出5个可能值的大小(4个员工中的一个,或者都不是,所以一一共5种可能性)。

看起来好像没什么毛病,但是我们要相信我们的公司会越来越好的啊,所以难道公司每增加一个人就要重新训练CNN以及最后一层的输出数量吗?

这显然有问题,所以有人提出了一次学习(one-shot),更具体地说是通过一个函数来求出输入图像与数据库中的图像的差异度,用\(d(img1,img2)\)表示。

img_a7b8b500ec542314d7e6085d8a7282f9.png

如上图示,如果两个图像之间的差异度不大于某一个阈值 τ,那么则认为两张图像是同一个人。反之,亦然。

下一小节介绍了如何计算差值。

三、Siamese网络

注意:下图中两个网络参数是一样的。

先看上面的网络。记输入图像为\(x^{(1)}\),经过卷积层,池化层和全连接层后得到了箭头所指位置的数据(一般后面还会接上softmax层,但在这里暂时不用管),假设有128个节点,该层用\(f(x^{(1)})\)表示,可以理解为输入\(x^{(1)}\)的编码。

那么下一个网络同理,不再赘述。

因此上一节中所说的差异度函数即为

\(d(x^{(1)},x^{(2)})=||f(x^{(1)})-f(x^{(2)})||^2\)

img_fee9458c29cdccf10af7ec01155dc7f0.png

问题看起来好像解决了,但总感觉还漏了点什么。。。

没错!!!
你没错!!!
神经网络的参数咋确定啊?也就是说\(f(x^{(i)})\)的参数怎么计算呢?

首先我们可以很明确的是如果两个图像是同一个人,那么所得到的参数应该使得\(||f(x^{(1)})-f(x^{(2)})||^2\)的值较小,反之较大。(如下图示)


img_30d2ef91e096e79ca45ba1ffa11512c6.png

沿着这个思路我们继续看下一小节内容~~~

四、Triple损失

1. Learning Objective

这里首先介绍一个三元组,即 (Anchor, Positive, Negative),简写为(A,P,N)

Anchor: 可以理解为用于识别的图像
Positive: 表示是这个人
Negative: 表示不是同一个人

由上一节中的思路,我们可以得到如下不等式:

\(d(A,P)\leqq d(A,N)\),即\(||f(A)-f(P)||^2-||f(A)-f(N)||^2\leqq0\) (如下图示)


img_38352336944c052276af98ee963dc7ba.png

但是这样存在一个问题,即如果神经网络什么都没学到,返回的值是0,也就是说如果\(f(x)=\vec{0}\)的话,那么这个不等式是始终成立的。(如下图示)


img_a75e76198a24d34a613801e0a8fb24a0.png

为了避免上述特殊情况,而且左边值必须小于0,所以在右边减去一个变量\(α\),但是按照惯例是加上一个值,所以将\(α\)加在左边。

img_381e643817ac132fbd92be161684a9d6.png img_6531877b6ab79be95a5dc0f8a6c97d43.png

综上,所得到的参数需要满足如下不等式

\(||f(A)-f(P)||^2-||f(A)-f(N)||^2+α\leqq0\)

2. Lost function

介绍完三元组后,我们可以对单个图像定义如下的损失函数(如下图示)

\(L(A,P,N)=max(||f(A)-f(P)||^2-||f(A)-f(N)||^2+α,0)\)

解释一下为什么用max函数,因为如果只要满足\(||f(A)-f(P)||^2-||f(A)-f(N)||^2+α\leqq0\),我们就认为已经正确识别出了图像中的人,所以对于该图像的损失值是0.

img_af956b240d724e8488a6da2114d2de68.png

所以总的损失函数是 : \(J=\sum{L(A^{(i)},P^{(i)},N^{(i)})}\)

要注意的是使用这种方法要保证每一个人不止有一张图像,否则无法训练。另外要注意与前面的One-shot区分开来,这里是在训练模型,所以训练集的数量要多一些,每个人要有多张照片。而One-shot是进行测试了,所以只需一张用于输入的照片即可。

3. Choosing the triplets(A,P,N)

还有一个很重要的问题就是如何选择三元组(A,P,N)。因为实际上要满足不等式\(d(A,P)+α\leqq d(A,N)\)是比较简单的,即只要将Negative选择的比较极端便可,比如anchor是一个小女孩,而Negative选择一个老大爷。

所以还应该尽量满足\(d(A,N)\approx{d(A,N)}\)

img_74a9b20804600cf5d11c0e0a8d1f4796.png

五、面部验证与二分类

通过以上内容,我们可以确定下图中的网络的参数了,那么现在开始进行面部验证了。

上面的是测试图,下面的是数据库中的一张照片

和之前一样假设\(f(x^{(i)})\)有128个节点,之后这两个数据作为输入数据输入到后面的逻辑回归模型中去,即

\(\hat{y}=σ(\sum_{k=1}^{128}w_i|f(x^{(i)})_k-f(x^{(j)})_k|+b_i)\)

\(\hat{y}=1\),为同一人。反之,不是。

如下图示,绿色下划线部分可以用其他公式替换,即有

\(\hat{y}=σ(\sum_{k=1}^{128}w_i \frac{(f(x^{(i)})_k-f(x^{(j)})_k)^2}{f(x^{(i)})_k+f(x^{(j)})_k}+b_i)\)

img_a881e6e928597f028d745ba31330fc59.png

当然数据库中的图像不用每次来一张需要验证的图像都重新计算,其实可以提前计算好,将结果保存起来,这样就可以加快运算的速度了。

img_547f902bc5ebb69284147c5da5a7eaf0.png

六、什么是神经风格转换

如下图示,不多赘述。

img_f97146e056dd28f813ae0b34cdea95df.png

七、深度卷积网络在学什么?

八、代价函数

如下图示:

左上角的包含Content的图片简称为C,右上角包含Style的简称S,二者融合后得到的图片简称为G。

我们都知道计算问题必须是有限的,所以融合的标准是什么?也就是说Content的保留程度和Style的运用程度如何取舍呢?

此时引入损失函数,并对其进行最优化,这样便可得到最优解。

\(J(G)=αJ_{Content}(C,G)+βJ_{Style}(S,G)\)

\(J_{Content}(C,G)\)表示图像C和图像G之间的差异,\(J_{Style}(S,G)\)同理。

img_a884bb289a07dbed2ce762178bd6d38a.png

计算过程示例:

  • 随机初始化图像G,假设为100*100*3 (如下图右边四个图像最上面那个所示)
  • 使用梯度下降不断优化J(G)。 (优化过程如下图右边下面3个图像所示)

    img_bc42580db61a82211429f16e5cefce00.png

下面一小节将具体介绍损失函数的计算。

九、内容代价函数

  • 首先假设我们使用第\(l\)层隐藏层来计算\(J_{Content}(C,G)\),注意这里的\(l\)一般取在中间层,而不是最前面的层,或者最后层。

原因如下:

  • 假如取第1层,那么得到的G图像将会与图像C像素级别的相似,这显然不行。
  • 假如取很深层,那么该层已经提取出了比较重要的特征,例如图像C中有一条狗,那么得到的图像G会过度的保留这个特征。
  • 然后使用预先训练好的卷积神经网络,如VGG网络。这样我们就可以得到图像C和图像G在第\(l\)层的激活函数值,分别记为\(a^{[l][C]},a^{[l][G]}\)

  • 内容损失函数 \(J_{Content}(C,G)=\frac{1}{2}||a^{[l][C]}-a^{[l][G]}||^2\)


    img_147bf871f635a16382c18e520f547452.png

十、风格损失函数

1.什么是“风格”

要计算风格损失函数,我们首先需要知道“风格(Style)”是什么。

我们使用\(l\)层的激活来度量“Style”,将“Style”定义为通道间激活值之间的相关系数。(Define style as correlation between activation across channels)

img_075316ef9ff02ef3fdc870e957fd9a0b.png

那么我们如何计算这个所谓的相关系数呢?

下图是我们从上图中所标识的第\(l\)层,为方便说明,假设只有5层通道。


img_48d6a36bb6c50569f1ef48a8f7e52440.png

如上图示,红色通道和黄色通道对应位置都有激活项,而我们要求的便是它们之间的相关系数

但是为什么这么求出来是有效的呢?为什么它们能够反映出风格呢?

继续往下看↓

2.图像风格的直观理解

如图风格图像有5层通道,且该图像的可视化特征如左下角图所示。

其中红色通道可视化特征如图中箭头所指是垂直条纹,而黄色通道的特征则是橘色背景。

那么通过计算这两层通道的相关系数有什么用呢?

其实很好理解,如果二者相关系数性强,那么如果出现橘色背景,那么就应该很大概率出现垂直条纹。反之,亦然。

img_8a5d1ce8b3ea64ca87dd672a5be5f0e3.png

3.风格相关系数矩阵

\(a_{i,j,k}^{[l]}\)表示(i,j,k)的激活项,其中i,j,k分别表示高度值(H),宽度值(W)以及所在通道层次(C)。

风格矩阵(也称为“Gram Matrix”)用\(G^{[l]}\)表示,其大小为\(n_c^{l]}*n_c^{l]}\).

因此风格图像的风格矩阵为:

\[G_{kk'}^{[l](S)}=\sum_{i=1}^{n_H^{[l]}}\sum_{j=1}^{n_W^{[l]}}a_{i,j,k}^{[l](S)}a_{i,j,k'}^{[l](S)}\]

生成图像的相关系数矩阵

\[G_{kk'}^{[l](G)}=\sum_{i=1}^{n_H^{[l]}}\sum_{j=1}^{n_W^{[l]}}a_{i,j,k}^{[l](G)}a_{i,j,k'}^{[l](G)}\]

img_cba30e6bb7830dbc51f55bbe94895c28.png

4.风格损失函数

\(l\)层的风格损失函数为:

\[J_{Style}^{[l]}=\frac{1}{(2n_H^{[l]}n_W^{[l]}n_C^{[l]})^2}\sum_{k}\sum_{k'}(G_{kk'}^{[l](S)}-G_{kk'}^{[l](G)})\]

总的风格损失函数:

\[J_{Style}(S,G)=\sum_{l}λ^{[l]}J_{Style}^{[l]}(S,G)\]

img_6b078fba244dd1b7611052256338d4f7.png








MARSGGBO原创





2018-2-13



目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
61 10
|
1天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
8天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
13天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
13天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
47 17
|
4天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
38 12
|
1天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
8天前
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
53 9

热门文章

最新文章