嗨热线网 > 科技 >

多模态版Llama2上线,Meta发布AnyMAL

2023-10-01 17:13

一个统一的模型,可以对不同模态输入内容(文本、图像、视频、音频、IMU 运动传感器数据)实现理解,并生成文本响应,技术基于 Llama 2,来自 Meta。

昨天,多模态大模型 AnyMAL 的研究吸引了 AI 研究社区的关注。

大型语言模型(LLM)以其巨大的规模和复杂性而闻名,它极大地增强了机器理解和表达人类语言的能力。LLM 的进步使视觉语言领域有了显著进步,弥合了图像编码器和 LLM 之间的差距,将它们的推理能力结合起来。先前的多模态 LLM 研究集中在结合文本和另一种模态的模型上,如文本和图像模型,或者集中在非开源的专有语言模型上。

如果有能够实现多模态的更好方法,将各种模态能够嵌入在 LLM 中使用,会给我们带来不一样的体验吗?

图片

输出示例

为解决这个问题,来自 Meta 的研究人员近日推出了 AnyMAL(Any-Modality Augmented Language Model)。这是一个经过训练的多模态编码器集合,可将来自各种模态(包括图像、视频、音频和 IMU 运动传感器数据)的数据转换到 LLM 的文本嵌入空间。

图片

论文地址:https://huggingface.co/papers/2309.16058

据介绍,该研究的主要贡献如下:

为构建多模态 LLM 提出了一种高效、可扩展的解决方案。本文提供了在大型数据集上预先训练的投影层,这些数据集包含多种模态(例如,2 亿张图像、220 万段音频、50 万 IMU 时间序列、2800 万段视频),所有数据集都与同一个大模型(LLaMA-2- 70B-chat)对齐,从而实现了交错式多模态上下文提示。

本文利用跨三种模式(图像、视频和音频)的多模态指令集对模型进行了进一步微调,涵盖了简单 QA 领域之外的各种不受约束的任务。该数据集具有高质量的人工收集指令数据,因此本文也将其作为复杂多模态推理任务的基准。

与现有文献中的模型相比,本文最佳模型在各种任务和模式的自动和人工评估中都取得了很好的零误差性能,在 VQAv2 上提高了 7.0% 的相对准确率,在零误差 COCO 图像字幕上提高了 8.4% 的 CIDEr,在 AudioCaps 上提高了 14.5% 的 CIDEr,创造了新的 SOTA。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com