支持图文混合输入，不懂知识还能现学

2023-09-20 12:46

多模态大模型家族，又有新成员了！

不仅能将多张图像与文本结合分析，还能处理视频中的时空关系。

这款免费开源的模型，在MMbench和MME榜单同时登顶，目前浮动排名也保持在前三位。

这款多模态大模型名叫MMICL，由北京交通大学、北京大学、UCLA、足智多模公司等机构联合推出。

MMICL一共有两个基于不同LLM的版本，分别基于Vicuna和FlanT5XL两种核心模型。

这两个版本都已经开源，其中，FlanT5XL版可以商用，Vicuna版本只能用于科研用途。

在MME的多项任务测试中，FlanT5XL版MMICL的成绩已连续数周保持着领先地位。

其中认知方面取得了428.93的总成绩（满分800），位列第一，大幅超过了其他模型。

感知方面的总分1381.78（满分2000），在最新版榜单中仅次于阿里的千问-7B和昆仑万维的天工模型。

所需配置方面，官方给出的说法是在训练阶段需要6块A40，推理阶段则可以在一块A40上运行。

仅仅只需要从开源数据集中构建的0.5M的数据即可完成第二阶段的训练，耗时仅需几十小时。

那么，这个多模态大模型都有哪些特色呢？

会看视频，还能“现学现卖”

MMICL支持文本和图片穿插形式的prompt，用起来就像微信聊天一样自然。

用正常说话的方式把两张图喂给MMICL，就可以分析出它们的相似和不同之处。

新多模态大模型霸榜！支持图文混合输入，不懂知识还能现学

除了超强的图像分析能力，MMICL还知道“现学现卖”。

比如我们丢给MMICL一张“我的世界”中像素风格的马。

由于训练数据都是真实世界的场景，这种过于抽象的像素风MMICL并不认识。

新多模态大模型霸榜！支持图文混合输入，不懂知识还能现学

但我们只要让MMICL学习几个例子，它便能很快地进行类比推理。

最新推荐