看到jbetker发表于2023年6月10日的一篇博客,非常短,但是观点却非常让人震撼。
他的观点:对于一个数据集,不同的模型都是在学习数据集中的数据概率分布,所以只要方法正确、训练时间足够,很多方法最终都能有效的对数据集进行学习
文章翻译如下:
我在OpenAI已经快一年了。在那段时间里,我训练了很多生成模型。当我花了这些小时观察调整各种模型配置和超参数的效果时,有一件事让我印象深刻,那就是所有训练运行之间的相似之处。
我越来越清楚,这些模型确实在以令人难以置信的程度逼近他们的数据集。这意味着他们不仅学会了成为狗或猫意味着什么,还学会了无关紧要的分布之间的间隙频率,这些频率并不重要,比如人类可能会拍摄哪些照片或人类通常写下的单词。
这表现为——在同一数据集上训练足够长的时间,几乎每个具有足够权重和训练时间的模型都收敛到同一点。足够大的扩散 conv-unet 产生与ViT生成器相同的图像。AR采样产生与扩散相同的图像。
这是一个令人惊讶的观察结果!这意味着模型行为不是由体系结构、超参数或优化器选择决定的。它由您的数据集决定,仅此而已。其他一切都是有效交付计算以近似该数据集的手段。
然后,当你提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,你指的不是模型权重,而是数据集。
文章链接:https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/