图表内容
(a)Object Detection
(b)Visual Grounding
研究报告节选:
盘古视觉大模型:最大拥有30亿参数,兼顾判别与生成能力;在小样本学习性能领先。 融合了卷积网络和Transformer 架构,分开或按需结合达到更好效果;业界首创基于等级化语义聚集的对比度自监督学习,以减少样本选取过程中的噪声影响。 盘古多模态大模型:使用LOUPE 算法预训练所得的模型,在多项下游任务中表现出了更好的精度。 采用了双塔架构,利用不同的神经网络来完成不同模态的信息抽取,然后仅在最后一层做信息交互和融合,具有模型独立性强、训练效率高等优势。 实现方式为:分别抽取图像和文本特征,然后将一个批次的图像和文本特征送入判别器,使得配对的跨模态特征聚集在一起,而不配对跨模态特征被拉远,大数据充分迭代后,模型就能学会将图像和文本对齐到同一空间。此时,图像和文本的编码器可以独立用于各自下游任务,或协同用于跨模态理解类下游任务。