Apple:使用语言模型的自回归方式进行图像模型预训练
创始人
2025-07-11 23:01:54
0

1、背景

在GPT等大模型出现后,语言模型这种Transformer+自回归建模的方式,也就是预测next token的预训练任务,取得了非常大的成功。那么,这种自回归建模方式能不能在视觉模型上取得比较好的效果呢?今天介绍的这篇文章,就是Apple近期发表的基于Transformer+自回归预训练的方式训练视觉模型的文章,下面给大家展开介绍一下这篇工作。

图片图片

论文标题:Scalable Pre-training of Large Autoregressive Image Models

下载地址:https://arxiv.org/pdf/2401.08541v1.pdf

开源代码:https://github.com/apple/ml-aim

2、模型结构

模型结构整体采用Transformer,优化目标采用语言模型中的next token prediction。在模型结构上,主要的修改有3个方面。首先是相比ViT这种双向attention,本文使用的是GPT这种单向attention,即每个位置的元素只能和前面的元素计算attention。

图片图片

其次是引入了prefix,在Transformer前面的输入加了多个prefix token,这部分token使用的是双向attention。这个主要作用是预训练和下游应用的一致性,下游都是类似ViT的双向attention使用方法,预训练增加prefix双向attention,可以让模型适应下游任务。

图片图片

最后是在模型最终输出MLP层的优化。原来的预训练方法,一般会丢弃掉MLP层,在下游finetune使用一个新的MLP,防止预训练的MLP过于倾向于预训练任务导致下游任务效果下降。而本文中,作者采用的方法是每个patch都使用一个独立的MLP,对于图像整体的表征,也采用各个patch保证和attention融合的方式,代替一般的pooling,提升预训练MLP head在下游任务的可用性。

在优化目标上,文中尝试了两种方法,第一种是直接拟合patch像素,用MSE进行预测。第二种是提前对图像patch进行tokenize,转换成分类任务,用交叉熵损失。不过在文中后续的消融实验中发现,第二种方法虽然也可以让模型正常训练,但是效果并不如基于像素粒度MSE的效果更好。

3、实验结果

文中的实验部分详细分析了这种基于自回归的图像模型的效果,以及各个部分对于效果的影响。

首先,随着训练的进行,下游的图像分类任务效果越来越好了,说明这种预训练方式确实能学到良好的图像表征信息。

图片图片

在训练数据上,使用小数据集的训练会导致overfitting,而使用DFN-2B虽然最开始验证集loss较大,但是没有明显的过拟合问题。

图片图片

对于模型各个模块的设计方式,文中也进行了详细的消融实验分析。

图片图片

在最终的效果对比上,AIM取得了非常不错的效果,这也验证了这种自回归的预训练方式在图像上也是可用的,可能会成为后续图像大模型预训练的一种主要方式。

图片 图片

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...