《神经网络与深度学习》第二章习题

简介: 机器学习概述,习题总结

第二章 机器学习概述

习题 2-1 分析为什么平方损失函数不适用于分类问题。

平方损失函数为:

$$ \mathcal{L}\left(y,f(\boldsymbol{x};\theta)\right)=\frac{1}{2}\left(y-f(\boldsymbol{x};\theta)\right)^2 \tag{2.14} $$

对于分类问题,例如如果一个分类问题有标签 $[1, 2, 3]$,分别代表了 $[red, green, yellow]$,假如真实分类是 1, 而被分类到 2 和 3 错误程度应该是一样的, 但是平方损失函数的损失却不相同。

习题 2-2 在线性回归中,如果我们给每个样本 $(\boldsymbol{x}^{(n)}, y^{(n)})$ 赋予一个权重 $r^{(n)}$,经验风险函数为

$$ \mathcal{R}(\boldsymbol{w}) = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}(y^{(n)}-\boldsymbol{w}^\mathrm{T}\boldsymbol{x}^{(n)})^2 \tag{2.91} $$

计算其最优参数 $\boldsymbol{w}^*$,并分析权重 $r^{(n)}$ 的作用。

$$ \begin{aligned} \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w}) & = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}\frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^\mathrm{T}\boldsymbol{w}\right\|^2}{\partial\boldsymbol{w}} = 0 \\ \boldsymbol{w}^{*} & = \sum_{n=1}^{N} r^{(n)}\left(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \end{aligned} $$

习题 2-3 证明在线性回归中,如果样本数量 $N$ 小于特征数量 $D+1$,则 $\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}$ 的秩最大为 $N$。

矩阵 $\boldsymbol{X}=[\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)},...,\boldsymbol{x}^{(n)}]$,样本数 $N$ 比特征数量 $D+1$ 还小,故 $\boldsymbol{X}$ 的秩肯定不会超过 $N$,而 $rank(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}})=rank(\boldsymbol{X})$ 故其秩最大也只能是 $N$。

这相当于线性方程组的未知数个数大于方程个数,是不存在唯一的非零解的。

习题 2-4 在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计,见公式(2.44)。

$$ \begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}} &=\frac{1}{2} \frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\lambda\|\boldsymbol{w}\|^{2}}{\partial \boldsymbol{w}} \\ &=-\boldsymbol{X}\left(\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right)+\lambda \boldsymbol{w} \end{aligned} $$

令 $\frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w})=0$ 可得:

$$ -\boldsymbol{X} \boldsymbol{Y}+\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}+\lambda \boldsymbol{w}=0\\ \left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right) \boldsymbol{w}=\boldsymbol{X} \boldsymbol{Y} $$

即:$\boldsymbol{w}^{*}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{X} \boldsymbol{y}$。

习题 2-5 在线性回归中,若假设标签 $y\sim\mathcal{N}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x},\beta)$,并用最大似然估计来优化参数,验证最优参数为公式(2.52)的解。

$$ \begin{aligned} \log p(\boldsymbol{y}|\boldsymbol{X} ; \boldsymbol{w}, \beta) & = \sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} ; \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}, \beta\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \beta}} \exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi \beta}}+\sum_{n=1}^{N} \log \left(\exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \end{aligned} $$

对于等式的第一部分只是一个常数,其对 $\boldsymbol{w}$ 求导为零,所以只看后面的部分。

后面部分可以化简为

$$ \sum_{n=1}^{N} \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right) $$

:在计算机或者说人工智能中,代码上的 $\log$ 通常都是以 $e$ 为底的,即代表 $\ln$。

所以,把分母的 $2\beta$ 提出去,最大似然函数对 $\boldsymbol{w}$ 的求导函数又变成了 $-\frac{1}{2\beta}\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^2$,参考最小二乘法可以知道,最优参数为

$$ \boldsymbol{w}^{ML}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \tag{2.52} $$

习题 2-6 假设有 $N$ 个样本 $x^{(1)},x^{(2)},...,x^{(N)}$ 服从正态分布 $\mathcal{N}(\mu,\sigma^2)$,其中 $\mu$ 未知。1)使用最大似然估计来求解最优参数 $\mu^{ML}$;2)若参数 $\mu$ 为随机变量,并服从正态分布 $\mathcal{N}(\mu_0,\sigma_0^2)$,使用最大后验估计来求解最优参数 $\mu^{MAP}$。

(1)问

习题 2-5 基本一样,就是变量表示变了

$$ \begin{aligned} \log p(\boldsymbol{x}|\mu ; \sigma^2) & = \sum_{n=1}^{N} \log \mathcal{N}\left(x^{(n)} ; \mu, \sigma^2\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi}\sigma} \exp \left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi}\sigma}+\sum_{n=1}^{N}\left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right) \end{aligned} $$

等式右边的第二项对 $\mu$ 求导,并令其等于零,得 $\mu^{ML}=\boldsymbol{x}$

(2)问

由贝叶斯公式得参数 $\mu$ 的后验分布为 $p(\mu|\boldsymbol{x};v,\sigma)\propto p(\boldsymbol{x}|\mu;\sigma) p(\mu;v)$,两边取对数

$$ \begin{aligned} \log p(\mu|\boldsymbol{x};v,\sigma) & \propto \log p(\boldsymbol{x}|\mu,\sigma)+\log p(\mu;v) \\ & \propto-\frac{1}{2 \sigma^{2}}\left\|\boldsymbol{x}-\mu\right\|^{2}-\frac{1}{2 v^{2}} \mu^2 \end{aligned} $$

对 $\mu$ 进行求导可以解得 $\mu^{MAP}=\frac{v^2}{v^2+\sigma^2}\boldsymbol{x}$。

习题 2-7 在习题 2-6 中,证明当 $N\rightarrow\infty$ 时,最大后验估计趋向于最大似然估计。

习题 2-9 试分析什么因素会导致模型出现图 2.6 所示的高偏差高方差情况。

一般来说,高偏差是因为模型欠拟合了,高方差是因为模型过拟合了,如果两个都偏高,那么模型可能出现了问题,或者不能够用来解决给定的问题。

习题 2-11 分别用一元、二元和三元特征的词袋模型表示文本「我打了张三」和「张三打了我」,并分析不同模型的优缺点。

首先这句话可以分为三个词:我 | 打了 | 张三,加上文本的开始 $ 和结束 \#。

一元特征:$ | 我 | 打了 | 张三 | \#

二元特征:$ | $我 | 我打了 | 打了张三 | 张三\#

三元特征:$ | $我打了 | 我打了张三 | 打了张三\#

习题 2-12 对于一个三分类问题,数据集的真实标签和模型的预测标签分别为:$[1,1,2,2,2,3,3,3,3]$ 和 $[1,2,2,2,3,3,3,1,2]$,分别计算模型的精确率、召回率、$\mathcal{F1}$ 值以及它们的宏平均和微平均。

$$ \boldsymbol{\mathcal{P}}=[\frac{1}{2},\frac{1}{2},\frac{2}{3}] , \boldsymbol{\mathcal{R}}=[\frac{1}{2},\frac{2}{3},\frac{1}{2}] , \boldsymbol{\mathcal{F1}}=[\frac{1}{2},\frac{4}{7},\frac{4}{7}] \\ \, \\ \, \mathcal{P_{macro}}= \frac{5}{9}, \mathcal{R_{macro}}= \frac{5}{9}, \mathcal{F1_{macro}}= \frac{5}{9} $$

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
深度学习的魔法:如何用神经网络解决复杂问题
在这篇文章中,我们将探讨深度学习的基本原理和它在各种领域中的应用。通过一些实际的例子,我们将看到深度学习如何帮助我们解决复杂的问题,如图像识别、自然语言处理和推荐系统等。我们还将讨论一些最新的研究成果和技术趋势,以及深度学习在未来可能面临的挑战和机遇。
|
2月前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
17天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
|
1月前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习的奥秘:探索神经网络背后的魔法
【10月更文挑战第22天】本文将带你走进深度学习的世界,揭示神经网络背后的神秘面纱。我们将一起探讨深度学习的基本原理,以及如何通过编程实现一个简单的神经网络。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和启示。让我们一起踏上这段奇妙的旅程吧!
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
74 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
2月前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
106 1
|
18天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
32 0