Scaling Laws for Neural Language Models

Posted on 2024年11月16日周六 技术

原文: Scaling Laws for Neural Language Models

1. Performance depends strongly on scale, weakly on model shape

模型的性能表现主要和下面 3 个参数有关,而和其他的训练超参数关联不大。

  1. The number of model parameters N (excluding embeddings
  2. The size of the dataset D
  3. The amount of compute C

2. Smooth power laws

模型的性能和 N D C 3 个要素是幂次关系,当其中 2 个要素不是限制的时候,把剩下的 1 个要素提升 1 个数量级,可以得到模型 loss 的线性下降。

3. Universality of overfitting

如果 ND 只有一个增加,那么模型性能的提升会边际递减,其中的比例关系是 (N ^ 0.74) / D,也就是说当模型大小 N 增加 8 倍时,数据量 D 需要且只需要增加 5 倍。

4. Universality of training

训练曲线(训练时间和 test loss 的关系)与模型大小无关,且符合幂次关系。

5. Transfer improves with test performance

当模型面对和训练数据不同分布的测试集时,其表现下降值是一个常量——也就是说,只要模型在训练集上的性能有提升,那么在不同分布的测试集上的表现也会随之提升。

6. Sample efficiency

大模型比小模型更高效,其需要更少的训练次数和数据量就可以达到和小模型相同的表现。

7. Convergence is inefficient

当计算资源 C 固定,而模型大小 N 和可用数据 D 没有限制时,较优的训练方法是尽可能去训练一个大模型,这优于把计算资源投入在小模型上(使其尽可能收敛)。在这个策略下,有 D ~ C ^ 0.27 这样一个关系。

8. Optimal batch size

理想的训练 batch size 是损失函数的幂次关系。