#ofconnections,是指神经网络中,相互依赖的神经元数量。举
#ofconnections,是指神经网络中,相互依赖的神经元数量。举
例在一个完全链接的神经网络中,N层输入与M层输出,则
#of
connections=N*M。通常parameters可以近似于#ofconnections。
#oftrainingexamples,数据集数量;
#ofepoch,是指训练数据集上的完全通过次数。
另一端,算力的供给=trainingtime×#ofGPUs/TPUs×
peak
FLOP/s×utilizationrate。
Trainingtime计算时间;
Utilizationrate使用效率。
在这个公式中,通常使用英伟达A100FP32的数据,也即
19.5
TFLOPS。Utiliazationrate通常使用效率,对于大模型而言,是
0.3;对于其他模型为0.4。在极端理论数据下,utilizationrate=1。
我们在报导中看到的数据,GPT3若使用V100需要训练355gpu
年,就是建立在理论数据下,以V100理论算力28TFLOPS计算
的(直接将FP32的理论算力14TFLOPS乘以2,以得到FP16的
理论算力)。若使用RTX8000,假设15TFLOPS,将花费665GPU
年(资料来源:
OpenAI'sGPT-3LanguageModel:ATechnical
Overview(lambdalabs.com))。由此计算的GPT3的训练算力,整
体达到3.14E23FLOPS。
若仍然以V100就算,若要将训练一次的周期降低至1周内,则需
要2万片V100GPU。
由此公式可以看到,促进训练端算力需求增长的因素包括:
1)参数规模。也即随着GPT3向更多参数的GPT4、5等发展;
2)训练集规模。