1. Performance depends strongly on scale, weakly on model shape

模型的性能表现主要和下面 3 个参数有关，而和其他的训练超参数关联不大。

2. Smooth power laws

模型的性能和 N D C 3 个要素是幂次关系，当其中 2 个要素不是限制的时候，把剩下的 1 个要素提升 1 个数量级，可以得到模型 loss 的线性下降。

如果 N 和 D 只有一个增加，那么模型性能的提升会边际递减，其中的比例关系是 (N ^ 0.74) / D，也就是说当模型大小 N 增加 8 倍时，数据量 D 需要且只需要增加 5 倍。

训练曲线（训练时间和 test loss 的关系）与模型大小无关，且符合幂次关系。

当模型面对和训练数据不同分布的测试集时，其表现下降值是一个常量——也就是说，只要模型在训练集上的性能有提升，那么在不同分布的测试集上的表现也会随之提升。

大模型比小模型更高效，其需要更少的训练次数和数据量就可以达到和小模型相同的表现。

当计算资源 C 固定，而模型大小 N 和可用数据 D 没有限制时，较优的训练方法是尽可能去训练一个大模型，这优于把计算资源投入在小模型上（使其尽可能收敛）。在这个策略下，有 D ~ C ^ 0.27 这样一个关系。

理想的训练 batch size 是损失函数的幂次关系。