2. 神经网络
problem:
前向后向
偏置权重的数量取决于后一层的神经元的数量(不包括后一层的偏置神经元“1”)
图像的通道数
正则化的意义
对于线性可分问题,第 2 章的感知机是可以利用数据自动学习的。 根据“感知机收敛定理”,通过有限次数的学习,线性可分问题是可 解的。但是,非线性可分问题则无法通过(自动)学习来解决。
对这个自动有些疑惑
(9,)的维度是1, (1,9)的维度是2,但形状却是一样的,都是一行。
之所以不能用识别精度作为指标,是因为这样一来绝大多数地方的导数都会变为 0,导致参数无法更新。1)微调参数可能识别精度根本不会变化。2)即使精度变化,变化是离散的。
如果使用了阶跃函数,那么即便将损失函数作为指标,参数的微小变化也会被阶跃函数抹杀,导致损失函数的值不会产生任何变化
曲面是怎么画的
体会:
在输入层加入一个偏置神经元的方法,和《动手学深度学习》中将bia作为参数的方法是不一样的。
为什么一层的b也要有b1,b2,b3······呢?而不是一个b?从多维的角度思考
softmax结果数值不稳定:超大值溢出和截断。(解决这个问题的办法有点秀)
摘抄:
恒等函数会将输入按原样输出
还需要把保存为 NumPy 数组的图像数据转换为 PIL 用
的数据对象,这个转换处理由 Image.fromarray() 来完成
批处理
批处理对计算机的运算大有利处,可以大幅缩短每张图像的处理时
间。那么为什么批处理可以缩短处理时间呢?这是因为大多数处理
数值计算的库都进行了能够高效处理大型数组运算的最优化。并且,
在神经网络的运算中,当数据传送成为瓶颈时,批处理可以减轻数
据总线的负荷(严格地讲,相对于数据读入,可以将更多的时间用在
计算上)。也就是说,批处理一次性计算大型数组要比分开逐步计算
各个小型数组速度更快。
矩阵的第 0 维是列方向,第 1 维是行方向
机器学习:
深 度 学 习 有 时 也 称 为 端 到 端 机 器 学 习(end-to-end machine
learning)。这里所说的端到端是指从一端到另一端的意思,也就是
从原始数据(输入)中获得目标结果(输出)的意思。
为了正确评价模型的泛化能力,就必须划分训练数据和测试数据。
将正确解标签表示为 1,其他标签表示为 0 的表示方法称为 one-hot 表示
函数内部在计算 np.log 时,加上了一个微小值 delta。这是因为,当出现 np.log(0) 时,np.log(0) 会变为负无限大的 -inf,这样一来就会导致后续计算无法进行。
所谓数值微分就是用数值方法近似求解函数的导数的过程
单词:
flatten 展平
数值微分(numerical differentiation)
参考:
深度学习入门:基于Python的理论与实现 (斋藤康毅)