神经网络在训练的过程中,学习了很多参数,通常也被称作 权重矩阵W.
在CNN等网络中, 前面的基层卷积层的参数可视化后,可以看到训练图片的一些关键组件.
通常我们可以理解为纹理.
如果,我们训练的网络不是CNN,而是TCN/DeepFM/GCN等没有明确视觉含义的数据呢?
这时候,网络学会的到底是什么呢?
我们可以从一对向量的点积来寻找线索. 我们假设向量已经做了LayerNormalization,那么很容易得到 当两个向量一摸一样的时候, 其点积是最大的.
让我们再看下下面这张图所代表的一个普通4层MLP:
对于第二层任意神经元来说, 其输入,就是第一层输出向量X点积该神经元所有输入连接的权重W,这里忽略偏置量b.
X和W的点积,在两者标准化的情况下, X和W越接近,其点积越大,越可能越过激活函数的爬升段,表现为该神经元越可能激活.
到此,我们虽然设置了一些约束条件, 但是,已经可以断定,神经网络训练的过程, 就是学习很多不同的模式,以及模式的模式的过程, 并不断根据反向传播的梯度调整模式的样式.
一句话,神经网络就是一个模式匹配器.