Meta 在开源大模型的路上一骑绝尘,继两个月前开源 LLaMA 大模型之后,再次于 5 月 9 日开源了一个新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天时间,收获了 1.6k 个 Star。
这个模型与众不同之处便是可以将多个数据流连接在一起,包括文本、图像/视频和音频、视觉、IMU、热数据和深度(Depth)数据。这也是业界第一个能够整合六种类型数据的模型。
Meta 在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能使机器更好地一起分析许多不同形式的信息,从而有助于推进人工智能。”
在官方博客中,Meta 分享 ImageBind 是通过图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,即图像与各种模式共存,可以作为连接这些模式的桥梁,例如利用网络数据将文本与图像连接起来,或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。
发表回复