图表内容
图65:使用大模型JFT-300M训练的前后精确度对比
■ILSVRC-2012+ResNet50■JFT-300M■ILSVRC-2012
90.0%
87.5%
88.0%
86.0%
84.0%
82.0%
79.0%
80.0%
77.0%
77.0%
78.0%
76.0%
74.0%
72.0%
70.0%
ResNet50
ResNet152x4
资料来源:CSDN
中信证券研究部
研究报告节选:
突破这一瓶颈。以谷歌的视觉迁移模型 Big Transfer,BiT 为例,使用 ILSVRC-2012(128 万张图片,1000 个类别)和 JFT-300M(3 亿张图片,18291 个类别)两个数据集来训练ResNet50,精度分别是 77%和 79%,大模型的使用使得处于瓶颈的精度进一步提高。另外使用 JFT-300M 训练 ResNet152x4,精度可以上升到 87.5%,相比 ILSVRC-2012 +ResNet50 结构提升了 10.5%。