模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
我现在已经在 OpenAI 工作了将近一年。在这段时间里,我训练了很多生成模型。比起任何人都有权利训练的要多。当我花费这些时间观察调整各种模型配置和超参数的效果时,有一件事让我印象深刻,那就是所有训练运行之间的相似之处。
我越来越清楚地认识到,这些模型确实以令人难以置信的程度逼近它们的数据集。这意味着它们不仅学会了什么是狗或猫,还学会了不重要的分布之间的插值频率,比如人类可能拍摄的照片或人类常写下的单词。
这表现为 - 长时间训练在相同数据集上,几乎每个具有足够权重和训练时间的模型都会收敛到相同的点。足够大的扩散卷积-联合产生与 ViT 生成器相同的图像。AR 抽样产生与扩散相同的图像。
这是一个令人惊讶的观察!它意味着模型行为不是由架构、超参数或优化器选择确定的。它是由您的数据集确定的,没有别的。其他一切都是为了高效地将计算逼近该数据集而采取的手段。
那么,当您提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,您所指的不是模型权重。而是数据集。