嗨热线网 > 科技 > 智能 >

支持图文混合输入,不懂知识还能现学

2023-09-20 12:46

多模态大模型家族,又有新成员了!

不仅能将多张图像与文本结合分析,还能处理视频中的时空关系。

这款免费开源的模型,在MMbench和MME榜单同时登顶,目前浮动排名也保持在前三位。

这款多模态大模型名叫MMICL,由北京交通大学、北京大学、UCLA、足智多模公司等机构联合推出。

MMICL一共有两个基于不同LLM的版本,分别基于Vicuna和FlanT5XL两种核心模型。

这两个版本都已经开源,其中,FlanT5XL版可以商用,Vicuna版本只能用于科研用途。

在MME的多项任务测试中,FlanT5XL版MMICL的成绩已连续数周保持着领先地位。

其中认知方面取得了428.93的总成绩(满分800),位列第一,大幅超过了其他模型。

感知方面的总分1381.78(满分2000),在最新版榜单中仅次于阿里的千问-7B和昆仑万维的天工模型。

所需配置方面,官方给出的说法是在训练阶段需要6块A40,推理阶段则可以在一块A40上运行。

仅仅只需要从开源数据集中构建的0.5M的数据即可完成第二阶段的训练,耗时仅需几十小时。

那么,这个多模态大模型都有哪些特色呢?

01

会看视频,还能“现学现卖”

MMICL支持文本和图片穿插形式的prompt,用起来就像微信聊天一样自然。

用正常说话的方式把两张图喂给MMICL,就可以分析出它们的相似和不同之处。

新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学

除了超强的图像分析能力,MMICL还知道“现学现卖”。

比如我们丢给MMICL一张“我的世界”中像素风格的马。

由于训练数据都是真实世界的场景,这种过于抽象的像素风MMICL并不认识。

新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学

但我们只要让MMICL学习几个例子,它便能很快地进行类比推理

 

 
 

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com