#ofconnections，是指神经网络中，相互依赖的神经元数量。举
#ofconnections，是指神经网络中，相互依赖的神经元数量。举
例在一个完全链接的神经网络中，N层输入与M层输出，则
#of
connections=N*M。通常parameters可以近似于#ofconnections。
#oftrainingexamples，数据集数量；
#ofepoch，是指训练数据集上的完全通过次数。
另一端，算力的供给=trainingtime×#ofGPUs/TPUs×
peak
FLOP/s×utilizationrate。
Trainingtime计算时间；
Utilizationrate使用效率。
在这个公式中，通常使用英伟达A100FP32的数据，也即
19.5
TFLOPS。Utiliazationrate通常使用效率，对于大模型而言，是
0.3；对于其他模型为0.4。在极端理论数据下，utilizationrate=1。
我们在报导中看到的数据，GPT3若使用V100需要训练355gpu
年，就是建立在理论数据下，以V100理论算力28TFLOPS计算
的（直接将FP32的理论算力14TFLOPS乘以2，以得到FP16的
理论算力）。若使用RTX8000，假设15TFLOPS，将花费665GPU
年（资料来源：
OpenAI'sGPT-3LanguageModel:ATechnical
Overview(lambdalabs.com)）。由此计算的GPT3的训练算力，整
体达到3.14E23FLOPS。
若仍然以V100就算，若要将训练一次的周期降低至1周内，则需
要2万片V100GPU。
由此公式可以看到，促进训练端算力需求增长的因素包括：
1）参数规模。也即随着GPT3向更多参数的GPT4、5等发展；
2）训练集规模。

【行业研究报告】信息技术-战略科技（计算机）行业周报：详解大模型训练与推理对算力产业链的需求影响

相关图表

其他推荐