Cross-Modal Retrieval-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

Cross-Modal Retrieval

研究报告节选:

ImageBind 开源大模型可超越单一感官体验,让机器拥有“联想”能力。5 月 9 日,Meta 公司宣布开源多模态大模型 ImageBind。该模型以图像为核心,可打通 6 种模态,包括图像(图片/视频)、温度(红外图像)、文本、音频、深度信息(3D)、动作捕捉传感(IMU)。相关源代码已托管至 GitHub。该团队表示未来还将加入触觉、嗅觉、大脑磁共振信号等模态。 从技术上讲,ImageBind 利用网络数据(如图像、文本),并将其与自然存在的配对数据(如音频、深度信息等)相结合,以学习单个联合嵌入空间,使得 ImageBind 隐式地将文本嵌入与其他模态对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。 目前 ImageBind 的典型用例包括:向模型输入狗叫声,模型输出狗的图片,反之亦可;向模型输入鸟的图片和海浪声,模型输出鸟在海边的图片,反之亦可。
最后更新: 2023-05-31

相关行业研究图表


部分开源大模型微调成本
部分开源大模型微调成本-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
缸帽公司的部分产品及其定价(战至2023年5月9日)
缸帽公司的部分产品及其定价(战至2023年5月9日)-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
弊分开粥大换生指数塔装的井3与尚用清说
弊分开粥大换生指数塔装的井3与尚用清说-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
Zeno Build评结果
Zeno Build评结果-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
由GPT-4评估的回答质量
由GPT-4评估的回答质量-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
2021年,中国服务器操作系统市场,Lux装机量市占率远超Un心
2021年,中国服务器操作系统市场,Lux装机量市占率远超Un心-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

相关行业研究报告


图表内容


Cross-Modal Retrieval
Audio
Depth
Text
rackle of a Fire
Baby Cooing
Embedding-Space Arithmetic
3)Audio to Image Generation
Waves
夹源:ImageBind:One Embedding Space To Bind Them All)
国盛证券研究所