图表内容
图68:英伟达最新GPU的算力水平
20 hrs
to train
H100
a/saouanbas-nd
9X
Faster
A100
7 days
to train
#GPUs
资料来源:tomshardware
研究报告节选:
以英伟达为代表的 AI 芯片巨头,在新一代芯片中针对产业中常用的 AI 模型,特别设计了新引擎以大幅提升计算能力。英伟达的 Hopper 架构引入了 Transformer 引擎,大幅加速了 AI 训练。Transformer 引擎采用软件和自定义 NVIDIA Hopper Tensor Core 技术,该技术旨在加速训练基于常见 AI 模型构建模块(即 Transformer)构建的模型。这些 Tensor Core 能够应用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 计算。采用 FP8 的 Tensor Core 运算在吞吐量方面是 16 位运算的两倍。Transformer 引擎利用定制的、经 NVIDIA 调优的启发式算法来解决上述挑战,该算法可在 FP8 与 FP16 计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。根据英伟达提供的数据,Hopper 架构在训练 Transformer 模型时,效率可以达到安培模型的 9 倍。