第二章 机器学习概述
习题 2-1 分析为什么平方损失函数不适用于分类问题。
解:
平方损失函数为:
L(y,f(x;θ))=12(y−f(x;θ))2
对于分类问题,例如如果一个分类问题有标签 [1,2,3],分别代表了 [red,green,yellow],假如真实分类是 1, 而被分类到 2 和 3 错误程度应该是一样的, 但是平方损失函数的损失却不相同。
习题 2-2 在线性回归中,如果我们给每个样本 (x(n),y(n)) 赋予一个权重 r(n),经验风险函数为
R(w)=12N∑n=1r(n)(y(n)−wTx(n))2
计算其最优参数 w∗,并分析权重 r(n) 的作用。
解:
∂∂wR(w)=12N∑n=1r(n)∂‖y−XTw‖2∂w=0w∗=N∑n=1r(n)(XXT)−1Xy
习题 2-3 证明在线性回归中,如果样本数量 N 小于特征数量 D+1,则 XXT 的秩最大为 N。
解:
矩阵 X=[x(1),x(2),...,x(n)],样本数 N 比特征数量 D+1 还小,故 X 的秩肯定不会超过 N,而 rank(XXT)=rank(X) 故其秩最大也只能是 N。
这相当于线性方程组的未知数个数大于方程个数,是不存在唯一的非零解的。
习题 2-4 在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计,见公式(2.44)。
解:
∂R(w)∂w=12∂‖y−XTw‖2+λ‖w‖2∂w=−X(y−XTw)+λw
令 ∂∂wR(w)=0 可得:
−XY+XXTw+λw=0(XXT+λI)w=XY
即:w∗=(XXT+λI)−1Xy。
习题 2-5 在线性回归中,若假设标签 y∼N(wTx,β),并用最大似然估计来优化参数,验证最优参数为公式(2.52)的解。
解:
logp(y|X;w,β)=N∑n=1logN(y(n);wTx(n),β)=N∑n=1log(1√2πβexp(−(y(n)−wTx)22β))=N∑n=1log1√2πβ+N∑n=1log(exp(−(y(n)−wTx)22β))
对于等式的第一部分只是一个常数,其对 w 求导为零,所以只看后面的部分。
后面部分可以化简为
N∑n=1(−(y(n)−wTx)22β)
注:在计算机或者说人工智能中,代码上的 log 通常都是以 e 为底的,即代表 ln。
所以,把分母的 2β 提出去,最大似然函数对 w 的求导函数又变成了 −12β‖y−XTw‖2,参考最小二乘法可以知道,最优参数为
wML=(XXT)−1Xy
习题 2-6 假设有 N 个样本 x(1),x(2),...,x(N) 服从正态分布 N(μ,σ2),其中 μ 未知。1)使用最大似然估计来求解最优参数 μML;2)若参数 μ 为随机变量,并服从正态分布 N(μ0,σ20),使用最大后验估计来求解最优参数 μMAP。
解:(1)问:
与习题 2-5 基本一样,就是变量表示变了
logp(x|μ;σ2)=N∑n=1logN(x(n);μ,σ2)=N∑n=1log(1√2πσexp(−(x(n)−μ)22σ2))=N∑n=1log1√2πσ+N∑n=1(−(x(n)−μ)22σ2)
等式右边的第二项对 μ 求导,并令其等于零,得 μML=x
(2)问:
由贝叶斯公式得参数 μ 的后验分布为 p(μ|x;v,σ)∝p(x|μ;σ)p(μ;v),两边取对数
logp(μ|x;v,σ)∝logp(x|μ,σ)+logp(μ;v)∝−12σ2‖x−μ‖2−12v2μ2
对 μ 进行求导可以解得 μMAP=v2v2+σ2x。
习题 2-7 在习题 2-6 中,证明当 N→∞ 时,最大后验估计趋向于最大似然估计。
解:
习题 2-9 试分析什么因素会导致模型出现图 2.6 所示的高偏差高方差情况。
解:
一般来说,高偏差是因为模型欠拟合了,高方差是因为模型过拟合了,如果两个都偏高,那么模型可能出现了问题,或者不能够用来解决给定的问题。
习题 2-11 分别用一元、二元和三元特征的词袋模型表示文本「我打了张三」和「张三打了我」,并分析不同模型的优缺点。
解:
首先这句话可以分为三个词:我 | 打了 | 张三,加上文本的开始 $ 和结束 \#。
一元特征:$ | 我 | 打了 | 张三 | \#
二元特征:$ | $我 | 我打了 | 打了张三 | 张三\#
三元特征:$ | $我打了 | 我打了张三 | 打了张三\#
习题 2-12 对于一个三分类问题,数据集的真实标签和模型的预测标签分别为:[1,1,2,2,2,3,3,3,3] 和 [1,2,2,2,3,3,3,1,2],分别计算模型的精确率、召回率、F1 值以及它们的宏平均和微平均。
解:
P=[12,12,23],R=[12,23,12],F1=[12,47,47]Pmacro=59,Rmacro=59,F1macro=59