这篇论文里,作者想回答的核心问题其实只有一句话:语言模型的“误差”会随着哪些规模变大而稳定下降?这里的“误差”,论文用的是交叉熵损失(cross-entropy loss);你可以先把它理解成“模型答题有多不准的分数”,越小越好。作者主要在 WebText2 数据集上训练语言模型,主要看 Transformer,并把损失作为主指标。(arXiv)1. 这篇论文真正拿来做 scaling law 实验的核心参数论文把最重要的规模因素归成 3 个:N NN