图表内容
困25:编码器实现模态间的特征匹配:解码器通过自回归的方式输出
Transformer Encoder
Two boys playing frisbee on the grass </s>
ResNet Blocks
Token Embedding
Transformer Decoder
<s>Two boys playing frisbee on the grass
What does the
image describe?
研究报告节选:
资料来源:Peng Wang et al. 《OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIESTHROUGH A SIMPLE SEQUENCE-TO-SEQUENCE LEARNING FRAMEWORK》,德邦研究所