Cross-Modal Retrieval

研究报告节选:

ImageBind 开源大模型可超越单一感官体验，让机器拥有“联想”能力。5 月 9 日，Meta 公司宣布开源多模态大模型 ImageBind。该模型以图像为核心，可打通 6 种模态，包括图像（图片/视频）、温度（红外图像）、文本、音频、深度信息（3D）、动作捕捉传感（IMU）。相关源代码已托管至 GitHub。该团队表示未来还将加入触觉、嗅觉、大脑磁共振信号等模态。从技术上讲，ImageBind 利用网络数据（如图像、文本），并将其与自然存在的配对数据（如音频、深度信息等）相结合，以学习单个联合嵌入空间，使得 ImageBind 隐式地将文本嵌入与其他模态对齐，从而在没有显式语义或文本配对的情况下，能在这些模态上实现零样本识别功能。目前 ImageBind 的典型用例包括：向模型输入狗叫声，模型输出狗的图片，反之亦可；向模型输入鸟的图片和海浪声，模型输出鸟在海边的图片，反之亦可。

阅读研究报告

最后更新: 2023-05-31

图表内容

Cross-Modal Retrieval
Audio
Depth
Text
rackle of a Fire
Baby Cooing
Embedding-Space Arithmetic
3)Audio to Image Generation
Waves
夹源：ImageBind:One Embedding Space To Bind Them All)
国盛证券研究所