图表内容
GPT-1(2018
GPT-2(2019)
GPT-3(2020
ChatGPT (2022)
量12个注意
GPT-3做了以下优化
架构,并做以下优化
GPT-3有96层,每
ChatGPT使用来自
层有96个注意头
人黄反馈的强化学
习进行训练
大小从GPT-2的
通过近满策略优化
每个子块的输入
1600增加到12888
并在最终的自注意
上下文窗口大小从
块后增加一层归
GPT-2的1024增加
法带来了成本效益
4GPT.3的2048
N是残差层的数量
768扩展到1600.