新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学
创始人
2025-07-01 21:52:03
0

多模态大模型家族,又有新成员了!

不仅能将多张图像与文本结合分析,还能处理视频中的时空关系。

这款免费开源的模型,在MMbench和MME榜单同时登顶,目前浮动排名也保持在前三位。

△MMBench榜单,MMBench是上海AI lab和南洋理工大学联合推出的基于ChatGPT的全方位多模能力评测体系

图片

△MME榜单,MME为腾讯优图实验室联合厦门大学开展的多模态大语言模型测评

这款多模态大模型名叫MMICL,由北京交通大学、北京大学、UCLA、足智多模公司等机构联合推出。

MMICL一共有两个基于不同LLM的版本,分别基于Vicuna和FlanT5XL两种核心模型。

这两个版本都已经开源,其中,FlanT5XL版可以商用,Vicuna版本只能用于科研用途。

在MME的多项任务测试中,FlanT5XL版MMICL的成绩已连续数周保持着领先地位。

其中认知方面取得了428.93的总成绩(满分800),位列第一,大幅超过了其他模型。

感知方面的总分1381.78(满分2000),在最新版榜单中仅次于阿里的千问-7B和昆仑万维的天工模型。

图片

所需配置方面,官方给出的说法是在训练阶段需要6块A40,推理阶段则可以在一块A40上运行。

仅仅只需要从开源数据集中构建的0.5M的数据即可完成第二阶段的训练,耗时仅需几十小时。

那么,这个多模态大模型都有哪些特色呢?

会看视频,还能“现学现卖”

MMICL支持文本和图片穿插形式的prompt,用起来就像微信聊天一样自然。

用正常说话的方式把两张图喂给MMICL,就可以分析出它们的相似和不同之处。

除了超强的图像分析能力,MMICL还知道“现学现卖”。

比如我们丢给MMICL一张“我的世界”中像素风格的马。

由于训练数据都是真实世界的场景,这种过于抽象的像素风MMICL并不认识。

但我们只要让MMICL学习几个例子,它便能很快地进行类比推理

下图中,MMICL分别学习了有马、驴和什么都没有这三种场景,然后便正确判断出了更换背景后的像素马。

图片

除了图片,动态的视频也难不倒MMICL,不仅是理解每一帧的内容,还能准确地分析出时空关系。

不妨来看一下这场巴西和阿根廷的足球大战,MMICL准确地分析出了两支队伍的行动。

针对视频当中的细节,也可以向MMICL提问,比如巴西球员是怎么阻挡阿根廷队员的。

图片

除了准确把握视频中的时空关系,MMICL还支持实时视频流输入。

我们可以看到,监控画面中的人正在摔倒,MMICL检测到了这一异常现象并发出了提示,询问是否需要帮助。

如果把MME榜上感知和认知两项的前五名放在一张图里比较,我们可以看出,MMICL的表现在各个方面都有不俗的成绩。

图片

那么,MMICL是如何做到的,背后又有什么样的技术细节呢?

训练分两阶段完成

MMICL致力于解决视觉语言模型在理解具有多个图像的复杂多模态输入方面遇到的问题。

MMICL利用Flan-T5 XXL模型作为骨干,整个模型的结构和流程如下图所示:

图片

MMICL使用类似于BLIP2的结构,但是能够接受交错的图文的输入。

MMICL将图文平等对待,把处理后的图文特征,都按照输入的格式,拼接成图文交错的形式输入到语言模型中进行训练和推理。

类似于InstructBLIP,MMICL的开发过程是将LLM冻结,训练Q-former,并在特定数据集上对其进行微调。

MMICL的训练流程和数据构造如下图所示:

图片

具体来说,MMICL的训练一共分成了两个阶段:

  • 预训练阶段,使用了LAION-400M(参考LLaVA)数据集
  • 多模态in-context tuning,使用了自有的MIC(Multi-Model In-Context Learning)数据集

图片

MIC数据集由公开数据集构建而来,上图展示了MIC数据集当中所包含的内容,而MIC数据集还具有这几个特色:

第一是图文间建立的显式指代,MIC在图文交错的数据中,插入图片声明(image declaration),使用图片代理(image proxy)token来代理不同的图片,利用自然语言来建立图文间的指代关系。

图片

第二是空间,时间或逻辑上互相关联的多图数据集,确保了MMICL模型能对图像间的关系有更准确的理解。

图片

第三个特色是示例数据集,类似于让MMICL“现场学习”的过程,使用多模态的上下文学习来增强MMICL对图文穿插式的复杂图文输入的理解。

图片

MMICL在多个测试数据集上取得的成绩超过了同样使用FlanT5XXL的BLIP2和InstructionBLIP。

尤其是对于涉及多张图的任务,对这种复杂图文输入,MMICL表现了极大的提升。

图片

研究团队认为,MMICL解决了视觉语言模型中常常存在的语言偏见(language bais)问题是取得优异成绩的原因之一。

大多数视觉语言模型在面对大量文本的上下文内容时会忽视视觉内容,而这是回答需要视觉信息的问题时的致命缺陷。

而得益于研究团队的方法,MMICL成功缓解了在视觉语言模型中的这种语言偏见。

图片

对这个多模态大模型感兴趣的读者,可以到GitHub页面或论文中查看更多详情。

GitHub页面:https://github.com/HaozheZhao/MIC
论文地址:https://arxiv.org/abs/2309.07915在线demo:
http://www.testmmicl.work/

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...