1. Performance depends strongly on scale, weakly on model shape
模型的性能表现主要和下面 3 个参数有关,而和其他的训练超参数关联不大。
- The number of model parameters N (excluding embeddings
- The size of the dataset D
- The amount of compute C
2. Smooth power laws
模型的性能和 N D C 3 个要素是幂次关系,当其中 2 个要素不是限制的时候,把剩下的 1 个要素提升 1 个数量级,可以得到模型 loss 的线性下降。
3. Universality of overfitting
如果 N 和 D 只有一个增加,那么模型性能的提升会边际递减,其中的比例关系是 (N ^ 0.74) / D,也就是说当模型大小 N 增加 8 倍时,数据量 D 需要且只需要增加 5 倍。
4. Universality of training
训练曲线(训练时间和 test loss 的关系)与模型大小无关,且符合幂次关系。
5. Transfer improves with test performance
当模型面对和训练数据不同分布的测试集时,其表现下降值是一个常量——也就是说,只要模型在训练集上的性能有提升,那么在不同分布的测试集上的表现也会随之提升。
6. Sample efficiency
大模型比小模型更高效,其需要更少的训练次数和数据量就可以达到和小模型相同的表现。
7. Convergence is inefficient
当计算资源 C 固定,而模型大小 N 和可用数据 D 没有限制时,较优的训练方法是尽可能去训练一个大模型,这优于把计算资源投入在小模型上(使其尽可能收敛)。在这个策略下,有 D ~ C ^ 0.27 这样一个关系。
8. Optimal batch size
理想的训练 batch size 是损失函数的幂次关系。